diff --git a/changelog.md b/CHANGELOG.md
similarity index 77%
rename from changelog.md
rename to CHANGELOG.md
index d9ff1d5dd5..c0606491ea 100644
--- a/changelog.md
+++ b/CHANGELOG.md
@@ -1,6 +1,22 @@
 # NVIDIA CUTLASS Changelog
 
-## [1.0.1](https://github.com/NVIDIA/cutlass/releases/tag/v1.0.1) (2018-06-11)
+
+## 1.1.0 (2018-09-19)
+  * Turing Features
+    * WMMA GEMM targeting TensorCores - INT8, INT4, 1-bit
+  * Batched Strided GEMM
+  * Threadblock rasterization strategies
+    * Improved performance for adverse problem sizes and data layouts
+  * Extended CUTLASS Core comonents
+    * Tensor views support arbitrary matrix and tensor layouts
+    * Zip iterators for structuring multiple data streams
+  * Enhanced CUTLASS utilities
+    * Reference code for tensor operations in host and device code
+    * Added HostMatrix<> for simplified matrix creation
+  * Examples
+    * Basic GEMM, tensor views, CUTLASS utilities, batched GEMM, WMMA GEMM
+
+## 1.0.1 (2018-06-11)
 
   * Intra-threadblock reduction added for small threadblock tile sizes
     * sgemm_64x128x16, sgemm_128x128x16, sgemm_128x64x16, sgemm_128x32x16, sgemm_64x64x16, sgemm_64x32x16
diff --git a/CMakeLists.txt b/CMakeLists.txt
index 5a53fae555..fdd51ae88e 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -55,11 +55,21 @@ endif()
 find_package(CUDA)
 find_package(Doxygen QUIET)
 
+###################################################################################################
+#
+# Configure CMake variables
+#
+###################################################################################################
+
+find_library(CUBLAS_LIBRARY cublas HINTS
+                                   ${CUDA_TOOLKIT_ROOT_DIR}/lib64
+                                   ${CUDA_TOOLKIT_ROOT_DIR}/lib/x64)
+
 # By default we want to build in Release mode to ensure that we're getting best performance
 if (NOT (CMAKE_BUILD_TYPE OR CONFIGURATION_TYPES))
   set(CMAKE_BUILD_TYPE Release CACHE STRING "Choose build level" FORCE)
   # We do support Debug or Release builds
-  set_property(CACHE CMAKE_BUILD_TYPE PROPERTY STRINGS "Debug" "Release")
+  set_property(CACHE CMAKE_BUILD_TYPE PROPERTY STRINGS "Debug" "RelWithDebInfo" "Release")
 endif()
 
 if(WIN32)
@@ -68,27 +78,59 @@ if(WIN32)
 endif()
 
 if (WIN32)
-  # Enable more warnings and treat as errors
-  string(APPEND NVCC_FLAGS " -Xcompiler /W3 -Xcompiler /WX")
+    # Enable more warnings and treat as errors
+    string(APPEND NVCC_FLAGS " -Xcompiler /W3 -Xcompiler /WX")
 
-  # Disable excess x86 floating point precision that can lead to results being labeled incorrectly
-  string(APPEND NVCC_FLAGS " -Xcompiler /fp:strict")
+    # Disable warning on Unicode characters
+    string(APPEND NVCC_FLAGS " -Xcompiler /wd4819")
 
-  # Verbose option
-  if (${CUTLASS_NVCC_VERBOSE})
-      string(APPEND NVCC_FLAGS " -v")
-  endif()
+    # Disable excess x86 floating point precision that can lead to results being labeled incorrectly
+    string(APPEND NVCC_FLAGS " -Xcompiler /fp:strict")
+
+    # Verbose option
+    if (${CUTLASS_NVCC_VERBOSE})
+        string(APPEND NVCC_FLAGS " -v")
+    endif()
 endif(WIN32)
 
-# Configure CUDA options
-set(CUTLASS_NVCC_ARCHS             "50;60;61;70"  CACHE STRING "The SM architectures to build code for.")
-set(CUTLASS_NVCC_KEEP              OFF            CACHE BOOL "Keep intermediate files generated by NVCC.")
+set(CUTLASS_NVCC_ARCHS "50;60;61;70;75" CACHE STRING "The SM architectures to build code for.")
+set(CUTLASS_NVCC_EMBED_CUBIN ON CACHE BOOL "Embed compiled CUDA kernel binaries into executables.")
+set(CUTLASS_NVCC_EMBED_PTX ON CACHE BOOL "Embed compiled PTX into executables.")
+set(CUTLASS_NVCC_KEEP OFF CACHE BOOL "Keep intermediate files generated by NVCC.")
+
+#
+# NOTE: running with asan and CUDA requires the following environment variable:
+#
+#  ASAN_OPTIONS=protect_shadow_gap=0:replace_intrin=0:detect_leaks=0
+#
+# without the above environment setting, an error like the following may be generated:
+#
+#  *** Error: Could not detect active GPU device ID [out of memory]
+#  ...
+#  ==9149==ERROR: LeakSanitizer: detected memory leaks
+#  ...
+#
+if(ENABLE_ASAN)  # https://github.com/google/sanitizers/wiki/AddressSanitizer
+  string(APPEND NVCC_FLAGS " --compiler-options -fsanitize=address --compiler-options -fno-omit-frame-pointer")
+  string(APPEND CMAKE_EXE_LINKER_FLAGS " -fsanitize=address")
+endif()
 
+###################################################################################################
+#
+# Configure CUDA build options
+#
+###################################################################################################
+
+# Set NVCC arguments
 foreach(ARCH ${CUTLASS_NVCC_ARCHS})
-  string(APPEND NVCC_FLAGS " -gencode arch=compute_${ARCH},code=sm_${ARCH}")
+  if(CUTLASS_NVCC_EMBED_CUBIN)
+    string(APPEND NVCC_FLAGS " -gencode arch=compute_${ARCH},code=sm_${ARCH}")
+  endif()
+  if(CUTLASS_NVCC_EMBED_PTX)
+    string(APPEND NVCC_FLAGS " -gencode arch=compute_${ARCH},code=compute_${ARCH}")
+  endif()
 endforeach()
 
-
 if (CUTLASS_NVCC_KEEP)
     string(APPEND NVCC_FLAGS " -keep")
 endif()
@@ -99,11 +141,8 @@ else()
   string(APPEND NVCC_FLAGS " -lineinfo")
 endif()
 
-if (UNIX)
-  string(APPEND NVCC_FLAGS " -Xcompiler -Wconversion")
-endif()
-
 string(APPEND NVCC_FLAGS_DEBUG " -g")
+string(APPEND NVCC_FLAGS_RELWITHDEBINFO " -O3")
 string(APPEND NVCC_FLAGS_RELEASE " -O3")
 
 # define NDEBUG for release mode to disable assertions
@@ -111,11 +150,13 @@ string(APPEND NVCC_FLAGS_RELEASE " -DNDEBUG")
 
 if (CUTLASS_NATIVE_CUDA)
   set(CMAKE_CUDA_FLAGS "${NVCC_FLAGS}")
-  set(CMAKE_CUDA_FLAGS_DEBUG "${NVCC_FLAGS_DEBUG}")
   set(CMAKE_CUDA_FLAGS_RELEASE "${NVCC_FLAGS_RELEASE}")
+  set(CMAKE_CUDA_FLAGS_RELWITHDEBINFO "${NVCC_FLAGS_RELWITHDEBINFO}")
+  set(CMAKE_CUDA_FLAGS_DEBUG "${NVCC_FLAGS_DEBUG}")
 else()
   set(CUDA_NVCC_FLAGS ${NVCC_FLAGS})
   set(CUDA_NVCC_FLAGS_DEBUG ${NVCC_FLAGS_DEBUG})
+  set(CUDA_NVCC_FLAGS_RELWITHDEBINFO ${NVCC_FLAGS_RELWITHDEBINFO})
   set(CUDA_NVCC_FLAGS_RELEASE ${NVCC_FLAGS_RELEASE})
 endif()
 
@@ -128,6 +169,11 @@ file(GLOB CUTLASS_GEMM RELATIVE ${CMAKE_CURRENT_SOURCE_DIR} cutlass/gemm/*.h)
 file(GLOB CUTLASS_UTIL RELATIVE ${CMAKE_CURRENT_SOURCE_DIR} cutlass/util/*.h)
 file(GLOB CUTLASS_DEVICE RELATIVE ${CMAKE_CURRENT_SOURCE_DIR} cutlass/device/*.h)
 file(GLOB CUTLASS_CORE RELATIVE ${CMAKE_CURRENT_SOURCE_DIR} cutlass/*.h)
+###################################################################################################
+#
+# Define build targets
+#
+###################################################################################################
 
 source_group("cutlass\\gemm" FILES ${CUTLASS_GEMM})
 source_group("cutlass\\util" FILES ${CUTLASS_UTIL})
@@ -156,9 +202,9 @@ add_custom_target(cutlass_ide SOURCES
 if (DOXYGEN_FOUND)
     # DOT is available. Enable graph generation in the documentation
     if (DOXYGEN_DOT_EXECUTABLE)
-        set(CUTLASS_ENABLE_DOXYGEN_DOT              ON            CACHE BOOL "Use dot to generate graphs in the doxygen documentation.")
+        set(CUTLASS_ENABLE_DOXYGEN_DOT ON CACHE BOOL "Use dot to generate graphs in the doxygen documentation.")
     else()
-        set(CUTLASS_ENABLE_DOXYGEN_DOT              OFF            CACHE BOOL "Use dot to generate graphs in the doxygen documentation." FORCE)
+        set(CUTLASS_ENABLE_DOXYGEN_DOT OFF CACHE BOOL "Use dot to generate graphs in the doxygen documentation." FORCE)
     endif()
 
     if (CUTLASS_ENABLE_DOXYGEN_DOT)
@@ -177,6 +223,5 @@ if (DOXYGEN_FOUND)
     )
 endif()
 
-
-#add_subdirectory(examples/gemm)
 add_subdirectory(tools)
+add_subdirectory(examples)
diff --git a/CUTLASS.md b/CUTLASS.md
new file mode 100644
index 0000000000..7dea0f3729
--- /dev/null
+++ b/CUTLASS.md
@@ -0,0 +1,311 @@
+![ALT](/media/images/gemm-hierarchy-with-epilogue-no-labels.png "Complete CUDA GEMM decomposition")
+
+# CUTLASS
+
+This document is intended to accompany the CUTLASS source code, to describe the interaction between
+CUTLASS core components, and to identify their role in implementing GEMM computations efficiently in CUDA.
+
+1. [Design Patterns](#S-design-patterns)
+2. [General Matrix Multiply](#S-general-matrix-multiply)
+3. [Core Components](#S-core-components)
+4. [Utilities](#S-utilities)
+
+# <a name="S-design-patterns"></a> 1. Design Patterns
+
+CUTLASS strives to achieve the highest performance possible on NVIDIA GPUs while also offering a
+flexible composition that an be easily applied to solve new problems related to Deep Learning and
+linear algebra. Though we intend to make CUTLASS as simple and straightforward as possible, given
+a tradeoff between simplicity and performance, CUTLASS chooses performance. Consequently, several
+design patterns are necessary to yield a composable structure while also satisfying these performance
+objectives. This section is intended to provide more detail.
+
+* [Sequencing and Nesting](#S-patterns-sequencing-nesting)
+* [Tiles and Iterators](#S-patterns-tiles-iterators)
+* [Host-side Params](#S-patterns-host-side-params)
+* [Composable Shared Memory](#S-patterns-composable-shared-memory)
+
+## <a name="S-patterns-sequencing-nesting"></a> Sequencing and Nesting of Collective Primitives
+
+CUTLASS embodies a design paradigm exemplified by the [CUB library](https://nvlabs.github.io/cub/) for expressing collective operations. Objects expose an interface for a problem that is then decomposed into concurrent subtasks executed by cooperating threadblocks, warps, and threads. For example, a grid-level object may be constructed with base pointers to the start of a GEMM operation, add a threadblock-dependent offset to partition the problem, and then compute a per-threadblock GEMM. This in turn performs some operations as a collection of cooperating threads, while it may partition other parts of the task into warp-level subtasks. 
+
+## <a name="S-patterns-tiles-iterators"></a> Tiles and Iterators
+
+Efficient dense linear algebra computations emphasize data movement to match the execution of mathemtical operators to the flow of data. Consequently, CUTLASS defines a rich set of primitives for partitioning a tile of data among participating threads, warps, and threadblocks. CUTLASS applies the familiar iterator design pattern to provide an abstraction layer to (1.) access these tile objects and (2.) traverse a sequence of objects embedded in a higher level data structure. These subpartitions are typically defined by compile-time constants
+specifying element type, size, and data layout. CUTLASS refers to subpartitions as _tiles_.
+
+_Iterators_ are familiar design patterns in C++ that provide an abstraction for accessing individual
+elements in memory as well as traversing over a collection. GEMM kernels in CUTLASS depend on accessing
+a sequence of tiles from global memory, from shared memory, and in registers. Consequently, _tile iterators_
+are prevalent throughout the CUTLASS implementation.
+
+The canonical CUTLASS tile iterator template is defined in [cutlass/tile_iterator.h](cutlass/tile_iterator.h).
+
+## <a name="S-patterns-host-side-params"></a> Host-side Params structure
+
+Several CUTLASS template classes exhibit a pattern in which problem-specific internal state is known at kernel launch time and remains invariant throughout the execution of a kernel. For example, tile iterators compute several offsets based on the strides of the input tensor that is added to an internal pointer when loading the elements of a tile. These are computed from the tensor stride and never updated; the per-thread internal state consists only of the internal global memory pointer.
+
+CUTLASS can take advantage of this CUDA grid-invariant property by constructing the object in host code and passing a composed parameters structure to the kernel. This confers two benefits: (1.) invariant state is held in constant memory, and (2.) there is no overhead to compute the initial state by each thread.
+
+The design pattern in CUTLASS is for classes with nontrivial constructors to define `struct Params` as an inner class which contains grid-invariant state. These should define a constructor and an `initialize()` method. The `Params` structure should also include a data member corresponding to each data member in the parent class, so these too can be properly constructed in host code. The parent class should define a constructor which accepts `Params const &` as its first argument.
+
+For example, `cutlass::gemm::Gemm<>` should define `struct cutlass::gemm::Gemm::Params`. The latter should define data members for each data member in `cutlass::gemm::Gemm<>`. 
+
+
+## <a name="S-patterns-composable-shared-memory"></a> Composable shared memory allocation
+
+Shared memory requires explicit effort by the programmer to allocate and de-allocate. CUTLASS follows the paradigm introduced by [CUB](https://nvlabs.github.io/cub/) to define composed structures for storing data intended to be held in shared memory. Any object requiring shared memory storage for itself or its data members should define a child structure called SharedStorage. This holds data needed by the class and also instantiates SharedStorage objects for each data member.
+
+To be consistent, this pattern defines a convention in which classes define internal shared memory storage requirements. Classes should consider all SharedStorage structures to be opaque other than their own child class. When the lifetimes of child objects are known to be non-overlapping, unions may be used to alias multiple SharedStorage objects to the same shared memory region and reduce overall SMEM capacity.
+
+## <a name="S-patterns-loop-unrolling"></a> Loop Unrolling
+
+CUTLASS requires tiles of data to be stored in registers for high-bandwidth access. Simultaneously, high-throughput math instructions
+must be issued concurrently with memory instructions to hide latency with relatively few concurrent threads. These objectives are
+achieved by unrolling loops whose iteration counts are known at compile time.
+
+Consequently, most loops within the CUTLASS GEMM implementation are specified by constant values and template arguments. The CUDA compiler
+is able to unroll the loop bodies, map array elements to registers, and construct an efficient instruction schedule.
+
+## <a name="S-patterns-loop-unrolling"></a> Templates
+
+CUDA C++ templates and modern generic programming techniques enable CUTLASS device code to span a large design space.
+
+This design space includes:
+* Mixed precision arithmetic and data storage
+* Kernels specialized for layout and problem size
+* Support for kernel fusion
+
+Moreover, templates provided a structured approach to collecting compile-time constants such as tile dimensions. These
+must be template arguments to target static array allocation and take advantage of loop unrolling, constant folding,
+and function inlining.
+
+# <a name="S-general-matrix-multiply"></a> 2. General Matrix Multiply
+
+The following figure illustrates the hierarchical GEMM computation embodied by CUTLASS. Each stage depicts a nested level of tiling which corresponds to a layer of concurrency within the CUDA execution model and to a level within the memory hierarchy, becoming increasingly finer moving left to right.
+
+![ALT](/media/images/gemm-structural-components.png "CUTLASS GEMM Structural Components")
+
+## Threadblock-level GEMM
+
+The CUTLASS GEMM kernel partitions the _C_ matrix into a 2D tiling of threadblocks.
+Each threadblock computes a matrix product whose outer dimensions _M_ and _N_ are compile-time constants. The
+GEMM's _K_ dimension is partitioned into tiles and iterated over by the GEMM _mainloop_. The shape of the matrix
+multiply operation performed by each iteration of the mainloop is referred to as _OutputTile_.
+
+The threadblock loads a sequence of tiles from global memory and stores this data to shared memory. The iterative
+access and traversal of tiles in global memory are performed by a _TileLoadIterator_, and storing to a circular
+buffer in shared memory is performed by a _GlobalLoadIterator_. 
+
+**[Global Load Stream](cutlass/gemm/gemm_global_stream.h)** manages loading of the threadblock-scope multiplicands to the GEMM kernel. It owns an iterator into global memory for loading tiles of data, a TensorAllocation in shared memory to hold the resulting tile, and an iterator for writing the tile into this allocation. A transformer exists to optionally transform the data as it is loaded which may of use to perform type conversion or, in the case of int8 GEMM, transpose 4x4 tiles held in registers.
+
+The Global Load Stream template contains members defined by the following templates:
+
+* [GemmGlobalIteratorAb](cutlass/gemm/gemm_global_tile.h)
+* [Transformer](cutlass/convert.h)
+* [GemmSharedStoreTileAb](cutlass/gemm/gemm_shared_tile.h)
+
+## Warp-level GEMM
+
+The threadblock's _OutputTile_ is partitioned among the warps, and each computes a warp-level matrix product.
+Data is loaded from shared memory into registers, and math instructions are dispatched to CUDA Cores or Tensor Cores.
+
+[**Shared Load Stream**](cutlass/gemm/gemm_shared_stream.h) manages loading of warp-level multiplicands from shared memory into registers. This owns an iterator for fetching data and the destination fragments for holding the results. 
+
+* [GemmSharedLoadTile{A,B}](cutlass/gemm/gemm_shared_tile.h)
+
+**Matrix Multiply** computes a matrix product operation on data held in registers. Specializations exist for thread-level instructions such as single-precision fused multiply-add as well as warp-level matrix operations targeting TensorCores. 
+
+* [WMMA Multiply Add](cutlass/gemm/wmma_gemm_multiply_add.h)
+
+## Thread-level GEMM
+
+SGEMM, IGEMM, HGEMM, and DGEMM are computed by SIMT math instructions issued by thread-level matrix multiply
+procedures. 
+
+* [ThreadMultiplyAdd](cutlass/gemm/thread_multiply_add.h)
+* [IGEMM specialization](cutlass/gemm/igemm_multiply_add.h)
+* [HGEMM specialization](cutlass/gemm/hgemm_multiply_add.h)
+
+## Epilogue 
+
+The [**epilogue**](cutlass/gemm/gemm_epilogue.h) iteratively selects a subset of accumulator elements held by a warp, writes them to shared memory, and loads them by different threads such that a threadblock-scoped tile store operation will make contiguous, striped accesses to global memory. Thus, the flow of data utilizes the following components:
+
+1. [Transformer](cutlass/convert.h) for converting the data types of accumulator elements
+2. [GemmSharedStoreTileD](cutlass/gemm/gemm_shared_tile.h) to store to shared memory specialized to the accumulator layout.
+3. [GemmSharedLoadTileD](cutlass/gemm/gemm_shared_tile.h) to load the data from shared memory.
+4. [GemmGlobalIteratorC](cutlass/gemm/gemm_global_tile.h) to load a tile from global memory.
+5. A [functor](cutlass/gemm/linear_scaling.h) to compute an element-wise operation on the matrix product and source data (such as alpha*AB+beta*C).
+6. [GemmGlobalIteratorD](cutlass/gemm/gemm_global_tile.h) to write the output to global memory.
+
+## GEMM Traits
+
+[**cutlass::gemm::GemmTraits**](cutlass/gemm/gemm_traits.h) collects the structural properties of a complete GEMM computation into a single template class. As a result, the Traits classes encapsulate the the iterators and transformers for all supported GEMM operands and layouts. Low-level details needed by Traits (such as scalar types for operands, thread-block tile size, number of scalar elements per memory access within each phase, number of stages in shared memory, as well as other implementation-specific properties of the GEMM computation) are specified in class [**cutlass::gemm::GemmConfig**](cutlass/gemm/gemm_config.h).
+
+
+# <a name="S-core-components"></a> 3. Core Components
+
+CUTLASS GEMM kernels are implemented by a set of Core components for interacting with mathematical tensor and matrix
+objects as well as constructing efficient CUDA kernels.
+
+* [Tensor views](#S-core-tensor-views)
+* [Shape](#S-core-shape)
+* [Tile structure](#S-core-tile-structure)
+* [Fragment](#S-core-fragment)
+* [Predicate vector](#S-core-predicate-vector)
+
+## <a name="S-core-tensor-views"></a> Tensor View
+
+Matrices and tensors are typically represented as n-D arrays held in linear memory with a single base pointer and a stride vector. Element _i_ of the stride vector indicates the offset in linear memory between consecutive elements in dimension i. Consequently, the linear offset for an arbitrary element specified as an n-tuple may be computed as the dot product of the coordinate and the stride vector.
+
+CUTLASS provides abstractions for interacting with multidimension tensors in device memory.
+Consequently, we define a hierarchy of pointer-like types for referencing tensors.
+
+`T *` - raw pointer to elements of type T
+
+`cutlass::TensorRef<T, Rank>`  - reference to a tensor of elements of type T and given rank. Includes a mapping function and associated stride vector for accessing elements in linear memory.
+
+`cutlass::TensorView<T, Rank>` - extends `TensorRef<>` by adding bounds information. This is a complete mathematical object which may be used as the argument to CUTLASS functions.
+
+The above provide an identity maping of a logical index space to linear memory. An element
+at logical coordinate X has an offset computed as follows:
+```
+offset = dot(X, stride)
+```
+where `dot()` computes the inner product of X and a vector of "strides."
+
+CUTLASS 1.1 introduces a mapping function and an additional "storage rank" to offer a flexible way to
+map the logical index space of the tensor to memory. The mapping function maps a coordinate
+of rank _R_ to an index space of rank _S_. The linear offset is computed as:
+```
+offset = dot( MapFunc(X), stride )
+```
+where stride is a vector of rank _S_.
+
+CUTLASS kernels make extensive use of vectorization of memory accesses for efficiency and
+correctness. Consequently, we enforce a constraint on the strides used by mapping functions
+such that:
+
+1. The "fastest-changing" stride is always 1 thereby mandating that consecutive elements in
+   that rank are consecutive in linear memory.
+
+2. The fastest changing rank is always last in the stride vector and not explicitly stored.
+
+Thus, the stride vector used by mapping functions has length of one fewer than the rank of the
+storage tensor. These constraints are consistent with the BLAS interface of passing matrices as
+a tuple consisting of a pointer and a "leading dimension." In fact, these are rank=2 tensors
+whose fastest changing dimension is 1, and only the strided dimension is explicitly represented.
+
+A typical mapping function might simply map the rows and columns of a matrix, a rank=2 tensor,
+to linear memory such that (1.) elements in the same column are consecutive in memory
+(column-major), or (2.) elements in the same row are consecutive (row-major). These can be
+accomplished by two different mapping functions whose stride vector is length=2. The first
+element is the "leading dimension."
+
+The requirement that the fastest-changing stride always be of unit size need not be a limitation.
+To implement "sparse" computations or matrix operations in which matrix elements have arbitrary
+stride along both row and column, define a mapping function whose storage rank is 3. This permits
+two elements of the stride vector to have a non-unit value.
+
+`cutlass::TensorView<>` extends this concept by including a size vector to specify the bounds of
+the index space. The value of each coordinate in the size vector defines the half-open range of
+indices whose smallest value is zero.
+
+## <a name="S-core-shape"></a> Shape
+
+To avoid complicated template metaprogramming, CUTLASS targets fixed compile-time tile sizes specified
+by a four-dimensional template `cutlass::Shape<>`. This defines the following dimensions, mirroring
+the NHWC tensor format used for convolution in Deep Learning frameworks.
+
+- `D`: depth of tensor
+- `H`: first strided dimension
+- `W`: contiguous sequence of tensor elements
+- `C`: number of channels, usually used for vectorized access
+
+Template specializations of `Shape` appear as arguments to numerous dependent template classes which
+must specify compile-time constant tile sizes.
+
+## <a name="S-core-tile-structure"></a> Tile Structure
+
+Tiled structures express an arrangement of data in memory as well as a logical mapping of concurrent CUDA
+threads to the problem space. For example, the CUTLASS GEMM 
+
+Tiled structures can be defined using the `cutlass::TileTraits<>` concept which defines the following
+members. Collectively, these members offer a flexible way to define a 4-D subpartition of an integer
+lattice, partition its elements among a collection of threads, and map each unique thread ID to a unique
+offset.
+
+- _Tile_ (concept `Shape<>`) - describes the dimensions of the tile in terms of scalar elements
+- _Delta_ (concept `Shape<>`) - describes the distance along each logical dimension between items
+- _Iterations_ (concept `Shape<>`) - describes the number of items along each logical dimension
+- _ThreadOffset_ (concept _functor_) - implements `Coord<4> operator()() const` to determine a thread's
+  initial offset in the logical 4-D coordinate space
+
+The following figure illustrates the CUTLASS tile structure. The overall shape, 16-by-16, is partitioned into
+vectors of length two among 32 threads. The elements stored by thread 9 are highlighted.
+
+<img src="/media/images/cutlass-tile-structure.png" alt="CUTLASS tile structure" width="30%" />
+
+The `cutlass::TileTraits<>` definition that describes this arrangement may be defined as follows:
+
+```
+struct ExampleTileTraits {
+
+  /// Overall shape of tile
+  typedef Shape<1, 16, 16, 1> Tile;
+
+  /// Distance along each dimension of accesses
+  typedef Shape<1, 4, 1, 1> Delta;
+
+  /// Number of memory accesses performed by each thread
+  typedef Shape<1, 4, 1, 1> Iterations;
+
+  /// Offset function - maps each thread to a unique starting offset within the 4D tile
+  struct ThreadOffset {
+
+    CUTLASS_DEVICE Coord<4> operator()() const {
+
+      typdef Shape<1, 16, 8, 2> Vectorized;
+
+      return make_Coord(
+        0,                              // depth "D" dimension
+        threadIdx.x / Vectorized::kW,   // horisontal "H" dimension - first strided dimension
+        threadIdx.x % Vectorized::kW,   // vertical "W" dimension - contiguous dimension
+        0
+      );
+    }
+  };
+};
+```
+
+## <a name="S-core-tile-iterator"></a> Tile Iterator
+
+The iterator design pattern provides an abstraction for accessing the items in a collection in sequence. Basic
+operators defined by iterators consist of accessing an item - either a load or store - followed by traversal to
+the next item in sequence.
+
+<img src="/media/images/cutlass-tile-iteration.png" alt="CUTLASS tile access and traversal" width="50%" />
+
+To offer a generic solution that spans numerous data types and layouts, CUTLASS defines the _TileIterator_ concept.
+This concept provides access to a sequence of _tiles_ embedded in a tensor in addressable memory. 
+
+The canonical CUTLASS tile iterator template is defined in [cutlass/tile_iterator.h](cutlass/tile_iterator.h).
+
+## <a name="S-core-fragment"></a> Fragment
+
+A fragment is analogous to `std::array<>` in that it is a constant-sized array of elements. Typically backed by storage in the SM's register file, CUTLASS `Fragment<>` objects are used to store tiles. For threadblock- and warp-scope operations, the contents of these tiles are distributed across the partipcipating threads. In such cases, a thread's `Fragment<>` contains the part of the tile held by that thread.
+
+## <a name="S-core-predicate-vector"></a> Predicate Vector
+
+SIMT architectures utilize predicated execution in place of control flow when conditional code sequences are fairly short, on the order of a few machine instructions. While CUDA C++ does not include constructs at the language level for predication, PTX makes this explicit, and compilation to SASS is assumed to aggressively utilize predication. Typical applications are to initialize a sequence of bits used to mask memory operations and use these bits as predicates guarding memory load and store instructions. 
+
+CUTLASS provides `PredicateVector` defined in [cutlass/predicate_vector.h](cutlass/predicate_vector.h) to manage a statically-sized bit vector, store them into general purpose registers, and efficiently access them in sequence. By storing four predicates per byte in hardware registers, the CUDA compiler is able to issue specialized instructions to achieve very efficient unpacking. 
+
+
+# <a name="S-utilities"></a> 4. Utilities
+
+CUTLASS implements efficient matrix multiply computations on GPUs. It is accompanied by an extensive utility
+framework offering features such as:
+
+* [cutlass::half_t](tools/util/half.h) - a host-side half-precision type
+* Components for allocating and initializing [host-side and device-side tensors](tools/util/host_tensor.h) usable by CUTLASS
+* Reference implementations of [GEMM](tools/util/reference/host/gemm.h) and [element-wise operations](tools/util/reference/host/tensor_elementwise.h)
diff --git a/Doxyfile b/Doxyfile
index 51cec529b3..1d96f37708 100644
--- a/Doxyfile
+++ b/Doxyfile
@@ -58,7 +58,7 @@ PROJECT_LOGO           =
 # entered, it will be relative to the location where doxygen was started. If
 # left blank the current directory will be used.
 
-OUTPUT_DIRECTORY       = docs
+OUTPUT_DIRECTORY       = doxygen
 
 # If the CREATE_SUBDIRS tag is set to YES, then doxygen will create 4096 sub-
 # directories (in 2 levels) under the output directory of each output format and
diff --git a/README.md b/README.md
index 56473a2861..c53a42f4bc 100644
--- a/README.md
+++ b/README.md
@@ -1,10 +1,10 @@
 ![ALT](/media/images/gemm-hierarchy-with-epilogue-no-labels.png "Complete CUDA GEMM decomposition")
 
-# CUTLASS 1.0
+# CUTLASS 1.1
 
-_CUTLASS 1.0.1 - June 2018_
+_CUTLASS 1.1.0 - September 2018_
 
-CUTLASS 1.0 is a collection of CUDA C++ template abstractions for implementing
+CUTLASS 1.1 is a collection of CUDA C++ template abstractions for implementing
 high-performance matrix-multiplication (GEMM) at all levels and scales within CUDA.
 It incorporates strategies for hierarchical decomposition and data movement similar
 to those used to implement cuBLAS.  CUTLASS decomposes these "moving parts" into
@@ -22,14 +22,27 @@ point (FP64) types.  Furthermore, CUTLASS demonstrates CUDA's WMMA API for targe
 the programmable, high-throughput _Tensor Cores_ provided by NVIDIA's Volta architecture
 and beyond.
 
-CUTLASS 1.0 has changed substantially from our preview release described in
-the [CUTLASS Parallel For All](https://devblogs.nvidia.com/parallelforall/cutlass-linear-algebra-cuda)
-post. We have decomposed the structure of the GEMM computation into deeper, structured
-primitives for loading data, computing predicate masks, streaming data at each level of
-the GEMM hierarchy, and updating the output matrix.
-
-CUTLASS 1.0 is described in the [Doxygen documentation](https://nvidia.github.io/cutlass)
-and our talk at the [GPU Technology Conference 2018](http://on-demand.gputechconf.com/gtc/2018/presentation/s8854-cutlass-software-primitives-for-dense-linear-algebra-at-all-levels-and-scales-within-cuda.pdf).
+CUTLASS 1.1 is described in the [CUTLASS Documentation](CUTLASS.md) and the accompanying
+[Doxygen documentation](https://nvidia.github.io/cutlass).
+We describe the structure of an efficient GEMM in our talk at the
+[GPU Technology Conference 2018](http://on-demand.gputechconf.com/gtc/2018/presentation/s8854-cutlass-software-primitives-for-dense-linear-algebra-at-all-levels-and-scales-within-cuda.pdf).
+
+# What's New in CUTLASS 1.1
+
+* [CUTLASS Documentation](CUTLASS.md)
+* [Examples](examples/)
+  * Basic GEMM, tensor views, CUTLASS utilities, batched GEMM, WMMA GEMM
+* Turing Features
+  * [WMMA GEMM targeting TensorCores](tools/test/unit/gemm/wmma_integer_gemm.cu) - INT8, INT4, 1-bit
+* [Batched Strided GEMM](tools/test/unit/gemm/batched_strided_sgemm_128x128x8.cu)
+* [Threadblock rasterization strategies](tools/test/unit/gemm/sgemm_threadblock_swizzle_nt.cu)
+  * Improved performance for adverse problem sizes and data layouts
+* Extended CUTLASS Core comonents
+  * Tensor views support arbitrary matrix and tensor layouts
+  * Zip iterators for structuring multiple data streams
+* Enhanced CUTLASS utilities
+  * [Reference implementations](tools/util/reference) for tensor operations in [host](tools/util/reference/host) and [device](tools/util/reference/device) code
+  * Added `HostMatrix<>` for simplified matrix creation
 
 # Performance
 
@@ -39,11 +52,11 @@ CUTLASS primitives are very efficient.  When used to construct device-wide GEMM
 they exhibit performance comparable to cuBLAS for scalar GEMM
 computations. The above figure shows CUTLASS performance relative to cuBLAS
 for large matrix dimensions (M=10240, N=K=4096) running on an NVIDIA Titan V GPU
-when compiled with CUDA 9.2.
+when compiled with CUDA 10.0.
 
 # Compatibility
 
-CUTLASS requires CUDA 9 and performs best with [CUDA 9.2 Toolkit](ttps://developer.nvidia.com/cuda-toolkit) or later.
+CUTLASS requires CUDA 9 but performs best with [CUDA 10.0 Toolkit](ttps://developer.nvidia.com/cuda-toolkit) or later.
 
 |**Operating System** | **Compiler** |
 |-----------------|----------|
@@ -63,7 +76,7 @@ any Maxwell-, Pascal-, or Volta-architecture NVIDIA GPU.
 |NVIDIA Tesla P100|
 |NVIDIA Tesla V100|
 |NVIDIA TitanV|
-
+|NVIDIA GeForce RTX 2080 TI, 2080, 2070|
 
 # Building CUTLASS
 
@@ -79,7 +92,7 @@ $ git submodule update --init --recursive
 ```
 
 CUTLASS can be build with CMake starting version 3.10. By default CUTLASS will build kernels
-for CUDA architecture versions 5.0, 6.0, 6.1 and 7.0. To reduce compile time you can specify
+for CUDA architecture versions 5.0, 6.0, 6.1, 7.0 and 7.5. To reduce compile time you can specify
 the architectures to build CUTLASS for by changing the CMake configuration setting
 `CUTLASS_NVCC_ARCHS`.
 
@@ -107,13 +120,12 @@ $ ./tools/test/unit/cutlass_unit_test
 ...
 ...
 [----------] Global test environment tear-down
-[==========] 481 tests from 24 test cases ran. (5954 ms total)
-[  PASSED  ] 481 tests.
+[==========] 946 tests from 57 test cases ran. (10812 ms total)
+[  PASSED  ] 946 tests.
 ```
 
 All tests should pass, though the exact number of tests may vary over time.
 
-
 # Project Structure
 
 CUTLASS is arranged as a header-only library with several example test programs
@@ -128,28 +140,41 @@ templates in the cutlass/gemm directory.
 
 ```
 cutlass/
-    gemm/
-    util/
-    <core API components>
+  gemm/
+  util/
+  <core API components>
 ```
 
 Several tools and test programs are also distributed with the CUTLASS library. They are
 contained in the following directories.
 
 ```
+examples/
+  00_basic_gemm/
+  01_tensor_view/
+  02_cutlass_utilities/
+  03_batched_gemm/
+  04_tile_iterator/
+  05_wmma_gemm/
 tools/
-    test/
-        unit/
-            core/
-            gemm/
-        perf/
-    util/
-        <utilities>
+  test/
+    unit/
+      core/
+      gemm/
+    perf/
+  util/
+    reference/
+      device/
+      host/
+    <utilities>
 ```
 
 The `test/unit/` directory consist of unit tests implemented with Google Test that demonstrate
 basic usage of Core API components and complete tests of the CUTLASS GEMM computations.
 
+The `tools/util` directory contains CUTLASS utilities including reference implementations of GEMM and
+several element-wise tensor operations.
+
 # Performance Profiling
 
 The `test/perf/` directory contains a command-line utility for launching each of the GEMM kernels.
diff --git a/clang-format.sh b/clang-format.sh
deleted file mode 100755
index b2570d9147..0000000000
--- a/clang-format.sh
+++ /dev/null
@@ -1,17 +0,0 @@
-#!/bin/bash
-
-set -e
-
-function formatFiles {
-    for f in `find "$1" -type f -name "*.$2"` ; do
-        COMMAND="clang-format -i $f"
-        echo $COMMAND
-        $COMMAND
-    done
-}
-
-formatFiles "cutlass" "h"
-formatFiles "tools/test" "h"
-formatFiles "tools/test" "cpp"
-formatFiles "tools/util" "h"
-
diff --git a/cutlass/convert.h b/cutlass/convert.h
index 933d68a82a..b4d0f8eddb 100644
--- a/cutlass/convert.h
+++ b/cutlass/convert.h
@@ -28,7 +28,7 @@
 */
 #pragma once
 
-#include <cutlass/fragment.h>
+#include "cutlass/fragment.h"
 
 namespace cutlass {
 
diff --git a/cutlass/coord.h b/cutlass/coord.h
index 431c9bf1a0..625a22723d 100644
--- a/cutlass/coord.h
+++ b/cutlass/coord.h
@@ -28,7 +28,8 @@
 
 #pragma once
 
-#include <cutlass/cutlass.h>
+#include "cutlass/cutlass.h"
+#include "cutlass/util/platform.h"
 
 namespace cutlass {
 
@@ -44,20 +45,27 @@ struct Identity {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 /// Statically-sized array specifying Coords within a tensor
-template <int N_>
+template <int Rank_, typename Index_ = int>
 struct Coord {
   //
   // Type and constant definitions
   //
 
-  static int const N = N_;
+  /// Number of elements in Coord
+  static int const kRank = Rank_;
+
+  /// Number of elements in Coord, aliased for compatibility
+  static int const N = Rank_;
+
+  /// Index type used to store elements
+  typedef Index_ Index;
 
   //
   // Data members
   //
 
   /// Indices
-  int idx[N];
+  Index idx[kRank];
 
   //
   // Methods
@@ -65,25 +73,72 @@ struct Coord {
 
   /// Default ctor initializes uniformly
   CUTLASS_HOST_DEVICE
-  Coord(int value = 0) {
-    for (int i = 0; i < N; ++i) {
+  Coord(Index value = 0) {
+    for (int i = 0; i < kRank; ++i) {
       idx[i] = value;
     }
   }
 
   /// Constructs from an array of integers
   CUTLASS_HOST_DEVICE
-  Coord(int _idx[]) {
-    for (int i = 0; i < N; ++i) {
+  Coord(Index _idx[]) {
+    for (int i = 0; i < kRank; ++i) {
       idx[i] = _idx[i];
     }
   }
 
+  /// Constructs from an array of integers
+  CUTLASS_HOST_DEVICE
+  Coord(Coord<kRank> const &coord) {
+    for (int i = 0; i < kRank; ++i) {
+      idx[i] = coord[i];
+    }
+  }
+
+  /// Returns a slice of the Coord which may be larger or smaller in rank
+  /// than this.
+  template <int Slice>
+  CUTLASS_HOST_DEVICE
+  Coord<Slice> slice(int start = 0, Index identity = 0) const {
+    Coord<Slice> result;
+    for (int i = 0; i < Slice; ++i) {
+      if (i + start < kRank) {
+        slice[i] = idx[i + start];
+      }
+      else {
+        slice[i] = identity;
+      }
+    }
+    return result;
+  }
+
+  /// Returns true if Coord is non-zero.
+  CUTLASS_HOST_DEVICE
+  operator bool() const {
+    for (int i = 0; i < kRank; ++i) {
+      if (idx[i]) {
+        return true;
+      }
+    }
+    return false;
+  }
+
+  /// Returns true if Coord is uniformly zero.
+  CUTLASS_HOST_DEVICE
+  bool operator!() const {
+    for (int i = 0; i < kRank; ++i) {
+      if (idx[i]) {
+        return false;
+      }
+    }
+    return true;
+  }
+
   /// Element-wise addition
   CUTLASS_HOST_DEVICE
   Coord operator+(Coord const& b) const {
     Coord c;
-    for (int i = 0; i < N; ++i) {
+    for (int i = 0; i < kRank; ++i) {
       c.idx[i] = idx[i] + b.idx[i];
     }
     return c;
@@ -93,7 +148,7 @@ struct Coord {
   CUTLASS_HOST_DEVICE
   Coord operator-(Coord const& b) const {
     Coord c;
-    for (int i = 0; i < N; ++i) {
+    for (int i = 0; i < kRank; ++i) {
       c.idx[i] = idx[i] - b.idx[i];
     }
     return c;
@@ -103,7 +158,7 @@ struct Coord {
   CUTLASS_HOST_DEVICE
   Coord operator*(Coord const& b) const {
     Coord c;
-    for (int i = 0; i < N; ++i) {
+    for (int i = 0; i < kRank; ++i) {
       c.idx[i] = idx[i] * b.idx[i];
     }
     return c;
@@ -113,7 +168,7 @@ struct Coord {
   CUTLASS_HOST_DEVICE
   Coord operator/(Coord const& b) const {
     Coord c;
-    for (int i = 0; i < N; ++i) {
+    for (int i = 0; i < kRank; ++i) {
       c.idx[i] = idx[i] / b.idx[i];
     }
     return c;
@@ -122,7 +177,7 @@ struct Coord {
   /// In-place addition
   CUTLASS_HOST_DEVICE
   Coord& operator+=(Coord const& b) {
-    for (int i = 0; i < N; ++i) {
+    for (int i = 0; i < kRank; ++i) {
       idx[i] += b.idx[i];
     }
     return *this;
@@ -131,7 +186,7 @@ struct Coord {
   /// In-place subtraction
   CUTLASS_HOST_DEVICE
   Coord& operator-=(Coord const& b) {
-    for (int i = 0; i < N; ++i) {
+    for (int i = 0; i < kRank; ++i) {
       idx[i] -= b.idx[i];
     }
     return *this;
@@ -140,7 +195,7 @@ struct Coord {
   /// In-place multiplication
   CUTLASS_HOST_DEVICE
   Coord& operator*=(Coord const& b) {
-    for (int i = 0; i < N; ++i) {
+    for (int i = 0; i < kRank; ++i) {
       idx[i] *= b.idx[i];
     }
     return *this;
@@ -149,22 +204,22 @@ struct Coord {
   /// In-place division
   CUTLASS_HOST_DEVICE
   Coord& operator/=(Coord const& b) {
-    for (int i = 0; i < N; ++i) {
+    for (int i = 0; i < kRank; ++i) {
       idx[i] /= b.idx[i];
     }
     return *this;
   }
 
   /// Member access operator
-  CUTLASS_HOST_DEVICE int& operator[](int dim) { return idx[dim]; }
+  CUTLASS_HOST_DEVICE Index& operator[](int dim) { return idx[dim]; }
 
   /// Member access operator
-  CUTLASS_HOST_DEVICE int const& operator[](int dim) const { return idx[dim]; }
+  CUTLASS_HOST_DEVICE Index const& operator[](int dim) const { return idx[dim]; }
 
   /// Computes the dot product of two Coord instances
   template <typename T>
   CUTLASS_HOST_DEVICE T dot(Coord const& b, T sum) const {
-    for (int i = 0; i < N; ++i) {
+    for (int i = 0; i < kRank; ++i) {
       sum += idx[i] * b.idx[i];
     }
     return sum;
@@ -174,7 +229,7 @@ struct Coord {
   template <typename T>
   CUTLASS_HOST_DEVICE T dot(Coord const& b) const {
     T sum = T(0);
-    for (int i = 0; i < N; ++i) {
+    for (int i = 0; i < kRank; ++i) {
       sum += idx[i] * b.idx[i];
     }
     return sum;
@@ -182,29 +237,29 @@ struct Coord {
 
   /// Gets the index of a given Coord element
   template <int Dim>
-  CUTLASS_HOST_DEVICE int& at() {
+  CUTLASS_HOST_DEVICE Index& at() {
     return idx[Dim];
   }
 
   /// Access via index; may limit unrolling potential
   CUTLASS_HOST_DEVICE
-  int& at(int dim) { return idx[dim]; }
+  Index& at(int dim) { return idx[dim]; }
 
   /// Gets the index of a given Coord element
   template <int Dim>
-  CUTLASS_HOST_DEVICE int const& at() const {
+  CUTLASS_HOST_DEVICE Index const& at() const {
     return idx[Dim];
   }
 
   /// Access via index; may limit unrolling potential
   CUTLASS_HOST_DEVICE
-  int const& at(int dim) const { return idx[dim]; }
+  Index const& at(int dim) const { return idx[dim]; }
 
   /// Determines if two Coord<> objects are equal
   CUTLASS_HOST_DEVICE
-  bool operator==(Coord<N> const& b) const {
+  bool operator==(Coord<kRank> const& b) const {
     bool equal = true;
-    for (int i = 0; equal && i < N; ++i) {
+    for (int i = 0; equal && i < kRank; ++i) {
       equal = (idx[i] == b.idx[i]);
     }
     return equal;
@@ -212,12 +267,12 @@ struct Coord {
 
   /// Not equal
   CUTLASS_HOST_DEVICE
-  bool operator!=(Coord<N> const& b) const { return !(*this == b); }
+  bool operator!=(Coord<kRank> const& b) const { return !(*this == b); }
 
   /// Clamps a coordinate to a range specified by maximum and minimum values
   CUTLASS_HOST_DEVICE
-  Coord& clamp(Coord<N> const& max, Coord<N> const& min = Coord<N>()) {
-    for (int i = 0; i < N; ++i) {
+  Coord& clamp(Coord<kRank> const& max, Coord<kRank> const& min = Coord<kRank>()) {
+    for (int i = 0; i < kRank; ++i) {
       idx[i] = __NV_STD_MAX(__NV_STD_MIN(idx[i], max.idx[i]), min.idx[i]);
     }
     return *this;
@@ -225,13 +280,35 @@ struct Coord {
 
   /// Returns the product of all elements
   CUTLASS_HOST_DEVICE
-  int count() const {
-    int product = idx[0];
-    for (int i = 1; i < N; ++i) {
+  Index count() const {
+    Index product = idx[0];
+    for (int i = 1; i < kRank; ++i) {
       product *= idx[i];
     }
     return product;
   }
+
+  /// Less than operator
+  CUTLASS_HOST_DEVICE
+  bool operator<(Coord<kRank> const &b) const {
+    for (int i = 0; i < kRank; ++i) {
+      if (!(idx[i] < b[i])) {
+        return false;
+      }
+    }
+    return true;
+  }
+
+  /// Less than or equals operator
+  CUTLASS_HOST_DEVICE
+  bool operator<=(Coord<kRank> const &b) const {
+    for (int i = 0; i < kRank; ++i) {
+      if (!(idx[i] <= b[i])) {
+        return false;
+      }
+    }
+    return true;
+  }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
@@ -266,21 +343,10 @@ Coord<4> make_Coord(int _0, int _1, int _2, int _3) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Getter
-CUTLASS_HOST_DEVICE
-Coord<2> get_Coord_hw(Coord<3> const& coord) { return make_Coord(coord[1], coord[2]); }
-
-/// Getter
-CUTLASS_HOST_DEVICE
-Coord<2> get_Coord_hw(Coord<4> const& coord) { return make_Coord(coord[1], coord[2]); }
-
-/// Getter
-CUTLASS_HOST_DEVICE
-Coord<3> get_Coord_hwc(Coord<4> const& coord) { return make_Coord(coord[1], coord[2], coord[3]); }
-
-/// Getter
-CUTLASS_HOST_DEVICE
-Coord<3> get_Coord_dhw(Coord<4> const& coord) { return make_Coord(coord[0], coord[1], coord[2]); }
+template <typename Shape_>
+CUTLASS_HOST_DEVICE Coord<3> make_Coord_from_shape() {
+  return make_Coord(Shape_::kD, Shape_::kH, Shape_::kW);
+}
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/cutlass/core_io.h b/cutlass/core_io.h
index cceea4c06d..849a7613f4 100644
--- a/cutlass/core_io.h
+++ b/cutlass/core_io.h
@@ -22,8 +22,6 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#pragma once
-
 /*! \file
     \brief Helpers for printing cutlass/core objects
 */
@@ -33,12 +31,96 @@
 #include <iosfwd>
 #include <typeinfo>
 
-#include <cutlass/coord.h>
+#include "cutlass/coord.h"
+#include "cutlass/vector.h"
+
+namespace cutlass {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
 
 template <int Rank>
-std::ostream& operator<<(std::ostream& out, cutlass::Coord<Rank> const& coord) {
+std::ostream& operator<<(std::ostream& out, Coord<Rank> const& coord) {
   for (int i = 0; i < Rank; ++i) {
     out << (i ? ", " : "") << coord.idx[i];
   }
   return out;
 }
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to enable formatted printing of CUTLASS scalar types to an ostream
+template <typename T>
+struct ScalarIO {
+
+  /// Value to print
+  T value;
+
+  /// Default ctor
+  ScalarIO() { }
+
+  /// Constructs from a value
+  ScalarIO(T value): value(value) {}
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Default printing to ostream
+template <typename T>
+inline std::ostream &operator<<(std::ostream &out, ScalarIO<T> const &scalar) {
+  return out << scalar.value;
+}
+
+/// Printing to ostream of int8_t as integer rather than character
+template <>
+inline std::ostream &operator<<(std::ostream &out, ScalarIO<int8_t> const &scalar) {
+  return out << int(scalar.value);
+}
+
+/// Printing to ostream of uint8_t as integer rather than character
+template <>
+inline std::ostream &operator<<(std::ostream &out, ScalarIO<uint8_t> const &scalar) {
+  return out << unsigned(scalar.value);
+}
+
+/// Printing to ostream of vector of 1b elements
+template <>
+inline std::ostream &operator<<(
+  std::ostream &out, 
+  ScalarIO<cutlass::Vector<cutlass::bin1_t, 32> > const &scalar) {
+
+  for (int i = 0; i < 32; i++) {
+    out << int(scalar.value[i]);
+    out << ((i != 31) ? ", " : "");
+  }
+  return out;
+}
+
+/// Printing to ostream of vector of 4b signed integer elements
+template <>
+inline std::ostream &operator<<(
+  std::ostream &out, 
+  ScalarIO<cutlass::Vector<cutlass::int4_t, 8> > const &scalar) {
+
+  for (int i = 0; i < 8; i++) {
+    out << int(scalar.value[i]);
+    out << ((i != 7) ? ", " : "");
+  }
+  return out;
+}
+
+/// Printing to ostream of vector of 4b unsigned integer elements
+template <>
+inline std::ostream &operator<<(
+  std::ostream &out, 
+  ScalarIO<cutlass::Vector<cutlass::uint4_t, 8> > const &scalar) {
+
+  for (int i = 0; i < 8; i++) {
+    out << unsigned(scalar.value[i]);
+    out << ((i != 7) ? ", " : "");
+  }
+  return out;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
diff --git a/cutlass/cutlass.h b/cutlass/cutlass.h
index 19600ec8f7..15ea83c014 100644
--- a/cutlass/cutlass.h
+++ b/cutlass/cutlass.h
@@ -32,8 +32,8 @@
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 #define CUTLASS_MAJOR 1
-#define CUTLASS_MINOR 0
-#define CUTLASS_PATCH 1
+#define CUTLASS_MINOR 1
+#define CUTLASS_PATCH 0
 #define CUTLASS_VERSION ((CUTLASS_MAJOR)*100 + (CUTLASS_MINOR)*10 + CUTLASS_PATCH)
 
 #ifdef __NVCC__
@@ -47,7 +47,9 @@
 // CUTLASS_DEVICE is an error if not compiling device code
 #endif
 
-// CUTLASS_PRAGMA_UNROLL inserts a CUTLASS_PRAGMA_UNROLL if supported by the compiler
+#define CUTLASS_ASSERT(x) assert(x)
+
+// CUTLASS_PRAGMA_(UNROLL|NO_UNROLL) optimization directives for the CUDA compiler.
 #if defined(__CUDA_ARCH__)
 #if defined(_MSC_VER)
 #define CUTLASS_PRAGMA_UNROLL __pragma("unroll")
@@ -61,7 +63,22 @@
 #define CUTLASS_PRAGMA_NO_UNROLL
 #endif
 
-#define CUTLASS_ASSERT(x) assert(x)
+#define CUTLASS_GEMM_LOOP CUTLASS_PRAGMA_NO_UNROLL
+
+// A small helper class to dump a type at compile time
+// Usage:: DumpType<Class>::Class
+template <typename T>
+struct DebugType {};
+
+template <typename T>
+void DebugTypeFunc(T const& t) {
+  T::t;
+}
+
+// A small helper class to dump a compile time constant at compile time
+// Usage: DumpValue<Class::kConstant>::kConstant
+template <int Value>
+struct DebugValue {};
 
 namespace cutlass {
 
diff --git a/cutlass/fragment.h b/cutlass/fragment.h
index 886b11405c..6a93d779c4 100644
--- a/cutlass/fragment.h
+++ b/cutlass/fragment.h
@@ -29,9 +29,9 @@
 #pragma once
 
 #include <assert.h>
-#include <cutlass/shape.h>
-#include <cutlass/util/cutlass_math.h>
-#include <cutlass/vector.h>
+#include "cutlass/shape.h"
+#include "cutlass/util/cutlass_math.h"
+#include "cutlass/vector.h"
 
 namespace cutlass {
 
@@ -72,7 +72,7 @@ provides access to element at (d, h, w, c)
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <int kAlignment_>
+template <int alignment>
 struct StorageType {
   typedef uint64_t Type;
 };
@@ -108,9 +108,11 @@ struct Fragment : public AlignedStruct<kAlignment_> {
   typedef Element_ Element;
   /// The number of elements.
   static int const kElements = kElements_;
+  /// Alignment
+  static int const kAlignment = kAlignment_;
 
   /// Clear a fragment.
-  CUTLASS_DEVICE void clear() {
+  CUTLASS_HOST_DEVICE void clear() {
     // Avoid element-wise access for sub 32b element type
     if (kAlignment_ >= 8 && (kElements * sizeof(Element)) % 8 == 0) {
       uint64_t* ptr = reinterpret_cast<uint64_t*>(storage);
@@ -135,14 +137,10 @@ struct Fragment : public AlignedStruct<kAlignment_> {
   }
 
   /// The accessor.
-  CUTLASS_DEVICE Element& operator[](int i) {
-    assert(i < kElements_);
-    return reinterpret_cast<Element*>(storage)[i];
-  }
+  CUTLASS_HOST_DEVICE Element& operator[](int i) { return reinterpret_cast<Element*>(storage)[i]; }
 
   /// The accessor.
-  CUTLASS_DEVICE Element const& operator[](int i) const {
-    assert(i < kElements_);
+  CUTLASS_HOST_DEVICE Element const& operator[](int i) const {
     return reinterpret_cast<Element const*>(storage)[i];
   }
 
@@ -188,35 +186,35 @@ struct FragmentIterator {
 
   /// Ctor.
   template <typename OtherFragment_>
-  CUTLASS_DEVICE FragmentIterator(OtherFragment_& fragment, int offset = 0)
+  CUTLASS_HOST_DEVICE FragmentIterator(OtherFragment_& fragment, int offset = 0)
       : pointer(reinterpret_cast<Element*>(&fragment[offset])) {
     static_assert(OtherFragment_::kElements >= Fragment::kElements, "");
   }
 
   /// The accessor.
-  CUTLASS_DEVICE AccessType const& at(int d, int h, int w, int c = 0) const {
+  CUTLASS_HOST_DEVICE AccessType const& at(int d, int h, int w, int c = 0) const {
     int const imm = ComputeOffsetFromStrides<Strides>::get(d, h, w, c);
     return reinterpret_cast<AccessType const&>(pointer[imm]);
   }
 
   /// The accessor.
-  CUTLASS_DEVICE AccessType& at(int d, int h, int w, int c = 0) {
+  CUTLASS_HOST_DEVICE AccessType& at(int d, int h, int w, int c = 0) {
     int const imm = ComputeOffsetFromStrides<Strides>::get(d, h, w, c);
     return reinterpret_cast<AccessType&>(pointer[imm]);
   }
 
   /// The accessor.
-  CUTLASS_DEVICE AccessType const& operator[](int i) const {
+  CUTLASS_HOST_DEVICE AccessType const& operator[](int i) const {
     return reinterpret_cast<AccessType const&>(pointer[i * kElementsPerAccess]);
   }
 
   /// The accessor.
-  CUTLASS_DEVICE AccessType& operator[](int i) {
+  CUTLASS_HOST_DEVICE AccessType& operator[](int i) {
     return reinterpret_cast<AccessType&>(pointer[i * kElementsPerAccess]);
   }
 
   /// Is the iterator valid?
-  CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const { return true; }
+  CUTLASS_HOST_DEVICE bool valid(int d, int h, int w, int c) const { return true; }
 
   /// The pointer.
   Element* pointer;
@@ -246,28 +244,28 @@ struct FragmentConstIterator {
 
   /// Ctor.
   template <typename OtherFragment_>
-  CUTLASS_DEVICE FragmentConstIterator(OtherFragment_& fragment, int offset = 0)
+  CUTLASS_HOST_DEVICE FragmentConstIterator(OtherFragment_& fragment, int offset = 0)
       : pointer(reinterpret_cast<Element const*>(&fragment[offset])) {
     static_assert(OtherFragment_::kElements >= Fragment::kElements, "");
   }
   /// Create from non-constant FragmentIterator
-  CUTLASS_DEVICE FragmentConstIterator(
+  CUTLASS_HOST_DEVICE FragmentConstIterator(
       FragmentIterator<Fragment_, Iterations_, AccessType_> const& rhs_)
       : pointer(reinterpret_cast<Element const*>(rhs_.offset)) {}
 
   /// The accessor.
-  CUTLASS_DEVICE AccessType const& at(int d, int h, int w, int c = 0) const {
+  CUTLASS_HOST_DEVICE AccessType const& at(int d, int h, int w, int c = 0) const {
     int const imm = ComputeOffsetFromStrides<IterationsStrides>::get(d, h, w, c);
     return reinterpret_cast<AccessType const&>(pointer[imm]);
   }
 
   /// The accessor.
-  CUTLASS_DEVICE AccessType const& operator[](int i) const {
+  CUTLASS_HOST_DEVICE AccessType const& operator[](int i) const {
     return reinterpret_cast<AccessType const&>(pointer[i * kElementsPerAccess]);
   }
 
   /// Is the iterator valid?
-  CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const { return true; }
+  CUTLASS_HOST_DEVICE bool valid(int d, int h, int w, int c) const { return true; }
 
   /// The pointer.
   Element const* pointer;
diff --git a/cutlass/fragment_load_store.h b/cutlass/fragment_load_store.h
deleted file mode 100644
index a7d272e9e3..0000000000
--- a/cutlass/fragment_load_store.h
+++ /dev/null
@@ -1,135 +0,0 @@
-/***************************************************************************************************
- * Copyright (c) 2017, NVIDIA CORPORATION.  All rights reserved.
- *
- * Redistribution and use in source and binary forms, with or without modification, are permitted
- * provided that the following conditions are met:
- *     * Redistributions of source code must retain the above copyright notice, this list of
- *       conditions and the following disclaimer.
- *     * Redistributions in binary form must reproduce the above copyright notice, this list of
- *       conditions and the following disclaimer in the documentation and/or other materials
- *       provided with the distribution.
- *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
- *       to endorse or promote products derived from this software without specific prior written
- *       permission.
- *
- * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
- * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
- * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
- * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
- * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
- * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
- * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
- * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *
- **************************************************************************************************/
-/*! \file
-    \brief Defines accessors for loading and storing fragments to memory efficiently.
-*/
-#pragma once
-
-#include <cutlass/load_store.h>
-#include <cutlass/vector.h>
-
-namespace cutlass {
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-template <IteratorFragment::Kind kIteratorFragment,
-          int kAccessSize,
-          typename Scalar_,
-          MemorySpace::Kind Memory_,
-          typename FragmentElement_,
-          int kStride>
-struct FragmentLoad {};
-
-template <int kAccessSize,
-          typename Scalar_,
-          MemorySpace::Kind Memory_,
-          typename FragmentElement_,
-          int kStride>
-struct FragmentLoad<IteratorFragment::kWmmaMatrix,
-                    kAccessSize,
-                    Scalar_,
-                    Memory_,
-                    FragmentElement_,
-                    kStride> {
-  /// The output type.
-  typedef FragmentElement_ AccessType;
-
-  /// The load function.
-  static CUTLASS_DEVICE void load(AccessType& value, Scalar_ const* pointer, int offset) {
-    value.load(&pointer[offset], kStride);
-  }
-};
-
-template <int kAccessSize,
-          typename Scalar_,
-          MemorySpace::Kind Memory_,
-          typename FragmentElement_,
-          int kStride>
-struct FragmentLoad<IteratorFragment::kScalar,
-                    kAccessSize,
-                    Scalar_,
-                    Memory_,
-                    FragmentElement_,
-                    kStride> {
-  /// The output type.
-  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
-
-  /// The load function.
-  static CUTLASS_DEVICE void load(AccessType& value, Scalar_ const* pointer, int offset) {
-    Load<Scalar_, kAccessSize, Memory_>::load(value, pointer, offset);
-  }
-};
-
-template <IteratorFragment::Kind kIteratorFragment,
-          int kAccessSize,
-          typename Scalar_,
-          MemorySpace::Kind Memory_,
-          typename FragmentElement_,
-          int kStride>
-struct FragmentStore {};
-
-template <int kAccessSize,
-          typename Scalar_,
-          MemorySpace::Kind Memory_,
-          typename FragmentElement_,
-          int kStride>
-struct FragmentStore<IteratorFragment::kWmmaMatrix,
-                     kAccessSize,
-                     Scalar_,
-                     Memory_,
-                     FragmentElement_,
-                     kStride> {
-  /// The input type.
-  typedef FragmentElement_ AccessType;
-
-  /// The store function.
-  static CUTLASS_DEVICE void store(AccessType const& value, Scalar_* pointer, int offset) {
-    value.store(&pointer[offset], kStride);
-  }
-};
-
-template <int kAccessSize,
-          typename Scalar_,
-          MemorySpace::Kind Memory_,
-          typename FragmentElement_,
-          int kStride>
-struct FragmentStore<IteratorFragment::kScalar,
-                     kAccessSize,
-                     Scalar_,
-                     Memory_,
-                     FragmentElement_,
-                     kStride> {
-  /// The input type.
-  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
-
-  /// The store function.
-  static CUTLASS_DEVICE void store(AccessType const& value, Scalar_* pointer, int offset) {
-    Store<Scalar_, kAccessSize, Memory_>::store(value, pointer, offset);
-  }
-};
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-}  /// namespace cutlass
diff --git a/cutlass/fragment_multiply_add.h b/cutlass/fragment_multiply_add.h
index 36a4d6f6a5..de2c8052fe 100644
--- a/cutlass/fragment_multiply_add.h
+++ b/cutlass/fragment_multiply_add.h
@@ -27,52 +27,59 @@
 */
 #pragma once
 
-#include <cutlass/fragment.h>
+#include "cutlass/fragment.h"
 
 namespace cutlass {
 namespace gemm {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename Scalar_>
+template < typename ScalarAlphaBeta_, 
+  typename ScalarAccum_, 
+  bool fragMul2 = true /*number of element per fragment is multiple of 2*/
+>
 struct FragmentMultiplyAdd {
   /// The shape of the instruction.
   typedef Shape<1, 1, 1, 1> InstructionShape;
-  /// The type for A.
-  typedef Scalar_ ScalarA;
-  /// The type for B.
-  typedef Scalar_ ScalarB;
-  /// The type for C and D.
-  typedef Scalar_ ScalarC;
+  /// The type for alpha and beta
+  typedef ScalarAlphaBeta_ ScalarAlphaBeta;
+  /// The type for accumlator
+  typedef ScalarAccum_ ScalarAccum;
 
   /// Ctor.
   CUTLASS_DEVICE FragmentMultiplyAdd() {}
 
   /// Multiply : d = a*b.
   template <typename FragmentB_, typename FragmentCd_>
-  CUTLASS_DEVICE void multiply(Scalar_ a, FragmentB_ const& b, FragmentCd_& d) {
+  CUTLASS_DEVICE void multiply(ScalarAlphaBeta a, FragmentB_ const& b, FragmentCd_& d) {
+#if defined(__CUDACC__) && __CUDA_ARCH__ >= 530
     int const kReduction = FragmentB_::kElements / FragmentCd_::kElements;
     for (int j = 0; j < FragmentCd_::kElements; ++j) {
-      d[j] = a * b[j * kReduction + 0];
+      d[j] = b[j * kReduction + 0];
       for (int k = 1; k < kReduction; ++k) {
-        d[j] += a * b[j * kReduction + k];
+        d[j] += b[j * kReduction + k];
       }
+      d[j] = a * ScalarAlphaBeta(d[j]);
     }
+#endif
   }
 
   /// Multiply : d = a*b + c.
   template <typename FragmentB_, typename FragmentCd_>
-  CUTLASS_DEVICE void multiply_add(Scalar_ a,
+  CUTLASS_DEVICE void multiply_add(ScalarAlphaBeta a,
                                    FragmentB_ const& b,
                                    FragmentCd_ const& c,
                                    FragmentCd_& d) {
+#if defined(__CUDACC__) && __CUDA_ARCH__ >= 530
     int const kReduction = FragmentB_::kElements / FragmentCd_::kElements;
     for (int j = 0; j < FragmentCd_::kElements; ++j) {
-      d[j] = a * b[j * kReduction + 0] + c[j];
+      d[j] = b[j * kReduction + 0];
       for (int k = 1; k < kReduction; ++k) {
-        d[j] += a * b[j * kReduction + k];
+        d[j] += b[j * kReduction + k];
       }
+      d[j] = a * ScalarAlphaBeta(d[j]) + ScalarAlphaBeta(c[j]);
     }
+#endif
   }
 };
 
@@ -80,15 +87,13 @@ struct FragmentMultiplyAdd {
 
 #if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)
 template <>
-struct FragmentMultiplyAdd<half> {
+struct FragmentMultiplyAdd<half, half, true> {
   /// The shape of the instruction.
-  typedef Shape<1, 1, 2, 1> InstructionShape;
-  /// The type for A.
-  typedef half ScalarA;
-  /// The type for B.
-  typedef half ScalarB;
-  /// The type for C and D.
-  typedef half ScalarC;
+  typedef Shape<1, 1, 1, 1> InstructionShape;
+  /// The type for alpha and beta
+  typedef half ScalarAlphaBeta;
+  /// The type for accumlator
+  typedef half ScalarAccum;
 
   /// Ctor.
   CUTLASS_DEVICE FragmentMultiplyAdd() {}
@@ -97,17 +102,19 @@ struct FragmentMultiplyAdd<half> {
   template <typename FragmentB_, typename FragmentCd_>
   CUTLASS_DEVICE void multiply(half a, FragmentB_ const& b, FragmentCd_& d) {
 #if defined(__CUDACC__) && __CUDA_ARCH__ >= 530
-
-    // Assemble a half2 from a.
-    __half2 const a_half2 = __half2half2(a);
     // The input.
     __half2 const* b_half2 = reinterpret_cast<__half2 const*>(&b[0]);
     // The output.
     __half2* d_half2 = reinterpret_cast<__half2*>(&d[0]);
 
-    int const kReduction = FragmentB_::kElements / FragmentCd_::kElements;
+    // Assemble a half2 from a.
+    __half2 const a_half2 = __half2half2(a);
+
+    int const kReduction = (FragmentB_::kElements / FragmentCd_::kElements);
+
     for (int j = 0; j < FragmentCd_::kElements / 2; ++j) {
       d_half2[j] = __hmul2(a_half2, b_half2[j * kReduction + 0]);
+
       for (int k = 1; k < kReduction; ++k) {
         d_half2[j] = __hfma2(a_half2, b_half2[j * kReduction + k], d_half2[j]);
       }
@@ -115,6 +122,7 @@ struct FragmentMultiplyAdd<half> {
 #endif
   }
 
+
   /// Multiply : d = a*b + c.
   template <typename FragmentB_, typename FragmentCd_>
   CUTLASS_DEVICE void multiply_add(half a,
@@ -122,17 +130,19 @@ struct FragmentMultiplyAdd<half> {
                                    FragmentCd_ const& c,
                                    FragmentCd_& d) {
 #if defined(__CUDACC__) && __CUDA_ARCH__ >= 530
-    // Assemble a half2 from a.
-    __half2 const a_half2 = __half2half2(a);
     // The inputs.
     __half2 const* b_half2 = reinterpret_cast<__half2 const*>(&b[0]);
     __half2 const* c_half2 = reinterpret_cast<__half2 const*>(&c[0]);
     // The output.
     __half2* d_half2 = reinterpret_cast<__half2*>(&d[0]);
 
+    // Assemble a half2 from a.
+    __half2 const a_half2 = __half2half2(a);
+
     int const kReduction = (FragmentB_::kElements / FragmentCd_::kElements);
     for (int j = 0; j < FragmentCd_::kElements / 2; ++j) {
       d_half2[j] = __hfma2(a_half2, b_half2[j * kReduction + 0], c_half2[j]);
+
       for (int k = 1; k < kReduction; ++k) {
         d_half2[j] = __hfma2(a_half2, b_half2[j * kReduction + k], d_half2[j]);
       }
diff --git a/cutlass/gemm/clear_accumulators.h b/cutlass/gemm/clear_accumulators.h
index 441370f4c3..3a2f337525 100644
--- a/cutlass/gemm/clear_accumulators.h
+++ b/cutlass/gemm/clear_accumulators.h
@@ -27,7 +27,7 @@
 */
 #pragma once
 
-#include <cutlass/vector.h>
+#include "cutlass/vector.h"
 
 namespace cutlass {
 namespace gemm {
@@ -39,11 +39,12 @@ struct ClearAccumulators {
   /// The shared storage.
   struct SharedStorage {};
 
-  /// Ctor.
-  CUTLASS_DEVICE ClearAccumulators() {}
   /// Ctor.
   CUTLASS_DEVICE ClearAccumulators(SharedStorage& shared_storage) {}
 
+  /// Ctor.
+  CUTLASS_DEVICE ClearAccumulators() {}
+
   /// Clear the fragment.
   template <typename Fragment_>
   CUTLASS_DEVICE void clear(Fragment_& fragment) {
diff --git a/cutlass/gemm/dgemm_traits.h b/cutlass/gemm/dgemm_traits.h
index 0bbc2210bc..5c05590207 100644
--- a/cutlass/gemm/dgemm_traits.h
+++ b/cutlass/gemm/dgemm_traits.h
@@ -27,13 +27,13 @@
 */
 #pragma once
 
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/gemm_epilogue.h>
-#include <cutlass/gemm/gemm_epilogue_traits.h>
-#include <cutlass/gemm/gemm_global_tile.h>
-#include <cutlass/gemm/gemm_shared_tile.h>
-#include <cutlass/gemm/gemm_traits.h>
-#include <cutlass/gemm/thread_multiply_add.h>
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/gemm_epilogue.h"
+#include "cutlass/gemm/gemm_epilogue_traits.h"
+#include "cutlass/gemm/gemm_global_tile.h"
+#include "cutlass/gemm/gemm_shared_tile.h"
+#include "cutlass/gemm/gemm_traits.h"
+#include "cutlass/gemm/thread_multiply_add.h"
 
 namespace cutlass {
 namespace gemm {
@@ -41,10 +41,10 @@ namespace gemm {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 template <
-    /// The tile size for the GEMM KxNxM.
+    /// The tile size for threadblock-level GEMM (K-by-N-by-M).
     typename OutputTile_,
-    /// The number of accumulators per thread.
-    typename AccumulatorsPerThread_,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_,
     /// The number of scalars per LDG for A.
     int kScalarsPerLdgA_ = 1,
     /// The number of scalars per LDG for B.
@@ -62,7 +62,7 @@ struct DgemmConfig
           /// The tile size for the GEMM KxNxM.
           OutputTile_,
           /// The functor to do the math in the main loop.
-          ThreadMultiplyAdd<AccumulatorsPerThread_, Shape<1, 4, 8>, double, double, double>,
+          ThreadMultiplyAdd<ThreadGemmShape_, Shape<1, 4, 8>, double, double, double>,
           /// The number of scalars per LDG for A.
           kScalarsPerLdgA_,
           /// The number of scalars per STS for A.
@@ -82,7 +82,14 @@ struct DgemmConfig
           /// The number of scalars per LDS for D.
           1,
           /// The number of stages in shared memory.
-          2> {};
+          2,
+          /// kResidueSeparate
+          false,
+          /// kResidueInPrologue
+          false,
+          /// kLaunchBounds
+          false
+          >{};
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
@@ -91,12 +98,12 @@ template <
     MatrixLayout::Kind kLayoutA_,
     /// The layout for B.
     MatrixLayout::Kind kLayoutB_,
-    /// The output tile.
+    /// The tile size for threadblock-level GEMM (K-by-N-by-M)
     typename OutputTile_ = Shape<8, 64, 128>,
     /// The functor to use in the epilogue.
     typename EpilogueFunctor_ = LinearScaling<double>,
-    /// The number of accumulators per thread.
-    typename AccumulatorsPerThread_ = Shape<8, 8, 8>,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_ = Shape<8, 8, 8>,
     /// The number of doubles loaded in one LDG for A.
     int kScalarsPerLdgA_ = 1,
     /// The number of doubles loaded in one LDG for B.
@@ -105,7 +112,7 @@ template <
     typename Index_ = int,
     /// The DGEMM config.
     typename GemmConfig_ =
-        DgemmConfig<OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_>,
+        DgemmConfig<OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_>,
     /// The traits class for the epilogue.
     typename GemmEpilogueTraits_ =
         SimplifiedGemmEpilogueTraits<GemmConfig_, EpilogueFunctor_, Index_> >
diff --git a/cutlass/gemm/fp16_sgemm_multiply_add.h b/cutlass/gemm/fp16_sgemm_multiply_add.h
new file mode 100644
index 0000000000..534b8c8998
--- /dev/null
+++ b/cutlass/gemm/fp16_sgemm_multiply_add.h
@@ -0,0 +1,83 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Template implementing matrix multiply-add operations on fragments.
+*/
+#pragma once
+
+#include "cutlass/fragment.h"
+#include "cutlass/gemm/thread_multiply_add.h"
+namespace cutlass {
+namespace gemm {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Template performing matrix multiply-add operation within a thread
+template <typename ThreadGemmShape_,
+          typename ThreadsPerWarp_>
+struct ThreadMultiplyAdd<ThreadGemmShape_, ThreadsPerWarp_, half, half, float> {
+  /// The shape of the instruction.
+  typedef Shape<1, 1, 1, 1> InstructionShape;
+  /// The shape of a thread-leveel matrix multiply accumulate.
+  typedef ThreadGemmShape_ ThreadGemmShape;
+  /// Aliased to "AccumulatorsPerThread" for compatibility. Expect to be renamed in CUTLASS v2.0
+  typedef ThreadGemmShape AccumulatorsPerThread;
+  /// The number of threads per warp.
+  typedef ThreadsPerWarp_ ThreadsPerWarp;
+  /// The number of accumulators per warp.
+  typedef typename ShapeMul<ThreadGemmShape, ThreadsPerWarp>::Shape AccumulatorsPerWarp;
+  /// The type for A. specialized to half
+  typedef half ScalarA;
+  /// The fragment for A.
+  typedef Fragment<ScalarA, AccumulatorsPerThread::kW> FragmentA;
+  /// The type for B. specialized to half
+  typedef half ScalarB;
+  /// The fragment for B.
+  typedef Fragment<ScalarB, AccumulatorsPerThread::kH> FragmentB;
+  /// The type for C and D. specialized to float
+  typedef float ScalarC;
+  /// The accumulators.
+  typedef Fragment<ScalarC, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW, 16> Accumulators;
+
+  /// Ctor.
+  CUTLASS_DEVICE ThreadMultiplyAdd() {}
+
+  /// Multiply : d = a*b + c.
+  CUTLASS_DEVICE void multiply_add(FragmentA const& a,
+                                   FragmentB const& b,
+                                   Accumulators const& c,
+                                   Accumulators& d) {
+    for (int j = 0; j < AccumulatorsPerThread::kH; ++j) {
+      for (int i = 0; i < AccumulatorsPerThread::kW; ++i) {
+        d[j * AccumulatorsPerThread::kW + i] = static_cast<ScalarC>(a[i]) * static_cast<ScalarC>(b[j]) + c[j * AccumulatorsPerThread::kW + i];
+      }
+    }
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namespace gemm
+}  // namespace cutlass
diff --git a/cutlass/gemm/fp16_sgemm_traits.h b/cutlass/gemm/fp16_sgemm_traits.h
new file mode 100644
index 0000000000..361186455b
--- /dev/null
+++ b/cutlass/gemm/fp16_sgemm_traits.h
@@ -0,0 +1,152 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Defies structural properties of single-precision GEMM where any number of the input/output
+    could be fp16 or fp32. The accumulator type stays in fp32
+*/
+#pragma once
+
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/gemm_epilogue.h"
+#include "cutlass/gemm/gemm_epilogue_traits.h"
+#include "cutlass/gemm/gemm_global_tile.h"
+#include "cutlass/gemm/gemm_shared_tile.h"
+#include "cutlass/gemm/gemm_traits.h"
+#include "cutlass/gemm/fp16_sgemm_multiply_add.h"
+
+namespace cutlass {
+namespace gemm {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <
+    /// The tile size for the GEMM KxNxM.
+    typename OutputTile_,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_,
+    /// The type for A
+    typename ScalarA_,
+    /// The type for B
+    typename ScalarB_,
+    /// The type for C
+    typename ScalarC_,
+    /// The type for D
+    typename ScalarD_,
+    /// The number of scalars per LDG for A.
+    int kScalarsPerLdgA_ = 1,
+    /// The number of scalars per LDG for B.
+    int kScalarsPerLdgB_ = 1>
+struct Fp16SgemmConfig : public GemmConfig<
+                         /// The scalar type for A.
+                         ScalarA_,
+                         /// The scalar type for B.
+                         ScalarB_,
+                         /// The scalar type for C.
+                         ScalarC_,
+                         /// The scalar type for D.
+                         ScalarD_,
+                         /// The tile size for the GEMM KxNxM.
+                         OutputTile_,
+                         /// The functor to do the math in the main loop.
+                         ThreadMultiplyAdd<ThreadGemmShape_, Shape<1, 4, 8>, ScalarA_, ScalarB_, float /*for sgemm accum is float*/>,
+                         /// The number of scalars per LDG for A.
+                         kScalarsPerLdgA_,
+                         /// The number of scalars per STS for A.
+                         kScalarsPerLdgA_,
+                         /// The number of scalars per LDS for A.
+                         4,
+                         /// The number of scalars per LDG for B.
+                         kScalarsPerLdgB_,
+                         /// The number of scalars per STS for B.
+                         kScalarsPerLdgB_,
+                         /// The number of scalars per LDS for B.
+                         4,
+                         /// The number of scalars per LDG for C and STG for D.
+                         1,
+                         /// The number of scalars per STS for D.
+                         4,
+                         /// The number of scalars per LDS for D.
+                         1,
+                         /// The number of stages in shared memory.
+                         2> {};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <
+    /// The layout for A.
+    MatrixLayout::Kind kLayoutA_,
+    /// The layout for B.
+    MatrixLayout::Kind kLayoutB_,
+    /// The output tile.
+    typename OutputTile_ = Shape<8, 128, 128>,
+    /// The type for A
+    typename ScalarA_ = half,
+    /// The type for B
+    typename ScalarB_ = half,
+    /// The type for C
+    typename ScalarC_ = half,
+    /// The type for D
+    typename ScalarD_ = half,
+    /// the Type for alpha and beta,
+    typename Scalar_ = half,
+    /// The functor to use in the epilogue.
+    typename EpilogueFunctor_ = LinearScaling<Scalar_, FragmentMultiplyAdd<Scalar_, float/*accumulator type*/> >,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_ = Shape<8, 8, 8>,
+    /// The number of floats loaded in one LDG for A.
+    int kScalarsPerLdgA_ = 1,
+    /// The number of floats loaded in one LDG for B.
+    int kScalarsPerLdgB_ = 1,
+    /// The index.
+    typename Index_ = int,
+    /// The SGEMM config.
+    typename GemmConfig_ =
+        Fp16SgemmConfig<OutputTile_, 
+                        ThreadGemmShape_, 
+                        ScalarA_,
+                        ScalarB_,
+                        ScalarC_,
+                        ScalarD_,
+                        kScalarsPerLdgA_, 
+                        kScalarsPerLdgB_>,
+    /// The traits class for the epilogue.
+    typename GemmEpilogueTraits_ =
+        SimplifiedGemmEpilogueTraits<GemmConfig_, EpilogueFunctor_, Index_> >
+struct Fp16SgemmSgemmTraits : public SimplifiedGemmTraits<
+                         // The layout for A.
+                         kLayoutA_,
+                         // The layout for B.
+                         kLayoutB_,
+                         // The config.
+                         GemmConfig_,
+                         // The epilogue.
+                         GemmEpilogue<GemmEpilogueTraits_>,
+                         // The index.
+                         Index_> {};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namespace gemm
+}  // namespace cutlass
diff --git a/cutlass/gemm/gemm.h b/cutlass/gemm/gemm.h
index c50a3f04b4..6340ab4f33 100644
--- a/cutlass/gemm/gemm.h
+++ b/cutlass/gemm/gemm.h
@@ -31,16 +31,32 @@
 #include <cuda.h>
 #endif
 
-#include <cutlass/coord.h>
-#include <cutlass/util/platform.h>
-
+#include "cutlass/coord.h"
+#include "cutlass/util/platform.h"
 namespace cutlass {
 namespace gemm {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+/// GEMM kernel with launch bounds specified
+template <typename Gemm_>
+__global__  __launch_bounds__(Gemm_::kThreads)
+void gemm_kernel(typename Gemm_::Params params) {
+  // Declare shared memory.
+  __shared__ typename Gemm_::SharedStorage shared_storage;
+
+  // Construct the GEMM object.
+  Gemm_ gemm(params, shared_storage);
+  // Run GEMM.
+  gemm.multiply_add();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// GEMM kernel without launch bounds specified
 template <typename Gemm_>
-__global__ /*__launch_bounds__(Gemm_::kThreads)*/ void gemm_kernel(typename Gemm_::Params params) {
+__global__ /* __launch_bounds__(Gemm_::kThreads) */
+void gemm_kernel_nolb(typename Gemm_::Params params) {
   // Declare shared memory.
   __shared__ typename Gemm_::SharedStorage shared_storage;
 
@@ -52,28 +68,22 @@ __global__ /*__launch_bounds__(Gemm_::kThreads)*/ void gemm_kernel(typename Gemm
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename Scalar_, typename Index_ = int>
-struct GemmDesc {
-  /// The dimensions of the GEMM.
-  Index_ m, n, k;
-  /// The alpha/beta scaling values.
-  Scalar_ alpha, beta;
-  /// The source matrix A.
-  void const* d_a;
-  /// The stride for A.
-  Index_ lda;
-  /// The source matrix B.
-  void const* d_b;
-  /// The stride for B.
-  Index_ ldb;
-  /// The source matrix C.
-  void const* d_c;
-  /// The stride for C.
-  Index_ ldc;
-  /// The destination matrix D.
-  void* d_d;
-  /// The stride for D.
-  Index_ ldd;
+/// Partial specialization for launching the GEMM kernel with or without launch bounds
+template <typename Gemm, bool WithLaunchBounds>
+struct Launch {
+  Launch(typename Gemm::Params params, dim3 grid, dim3 block, cudaStream_t stream = 0) {
+    gemm_kernel<Gemm><<< grid, block, 0, stream >>>(params);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Partial specialization for launching the GEMM kernel with or without launch bounds
+template <typename Gemm>
+struct Launch<Gemm, false> {
+  Launch(typename Gemm::Params params, dim3 grid, dim3 block, cudaStream_t stream = 0) {
+    gemm_kernel_nolb<Gemm><<< grid, block, 0, stream >>>(params);
+  }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
@@ -100,86 +110,52 @@ struct Gemm {
   /// The index.
   typedef typename Traits::Index Index;
 
+  /// Define the mainloop iteration size
+  typedef typename Traits::MultiplyAdd MultiplyAdd;
+
   /// The number of threads.
   static int const kThreads = Traits::GemmConfig::kThreads;
 
-  /// The params.
-  struct Params : public Traits::Params {
-    CUTLASS_HOST_DEVICE int initialize(Index m,
-                                       Index n,
-                                       Index k,
-                                       ScalarEpilogue alpha,
-                                       ScalarA const* d_a,
-                                       Index lda,
-                                       ScalarB const* d_b,
-                                       Index ldb,
-                                       ScalarEpilogue beta,
-                                       ScalarC const* d_c,
-                                       Index ldc,
-                                       ScalarD* d_d,
-                                       Index ldd) {
-      GemmDesc<ScalarEpilogue, Index> desc;
-      desc.m = m;
-      desc.n = n;
-      desc.k = k;
-      desc.alpha = alpha;
-      desc.beta = beta;
-      desc.d_a = reinterpret_cast<void const*>(d_a);
-      desc.lda = lda;
-      desc.d_b = reinterpret_cast<void const*>(d_b);
-      desc.ldb = ldb;
-      desc.d_c = reinterpret_cast<void const*>(d_c);
-      desc.ldc = ldc;
-      desc.d_d = reinterpret_cast<void*>(d_d);
-      desc.ldd = ldd;
-      return Traits::Params::initialize(desc);
-    }
-  };
+  // Number of warp-level multiply-accumulate steps executed by each warp.
+  static Index const kWarpGemmSteps =
+      Traits::GemmConfig::AccumulatorsPerWarp::kD / MultiplyAdd::InstructionShape::kD;
+
+  // Make sure we have at least 2 unrolling steps or our pipeling is not going to work.
+  static_assert(kWarpGemmSteps >= 2, "The pipelining assumes at least two steps");
 
+  /// Use the params object defined in traits
+  typedef typename Traits::Params Params;
+
+//
+// Static function members
+//
+
+/// Support for NVRTC
 #if !defined(__CUDACC_RTC__)
   /// Launch the kernel.
   static __host__ cudaError_t launch(Params const& params,
                                      cudaStream_t stream = cudaStreamDefault) {
-    // Setup the grid.
-    dim3 grid;
-    grid.x = (params.m + Traits::OutputTile::kW - 1) / Traits::OutputTile::kW;
-    grid.y = (params.n + Traits::OutputTile::kH - 1) / Traits::OutputTile::kH;
-
-    // The number of threads.
-    dim3 block;
-    block.x = kThreads;
 
     // Launch the kernel.
-    void const* params_ = reinterpret_cast<void const*>(&params);
-
-    return cudaLaunchKernel(reinterpret_cast<void*>(&gemm_kernel<This_>),
-                            grid,
-                            block,
-                            const_cast<void**>(&params_),
-                            0,
-                            stream);
+    Launch<This_, GemmTraits_::GemmConfig::kLaunchBounds>(
+      params, params.grid, params.block, stream);
+
+    return cudaGetLastError();
   }
 
   /// Launch the kernel.
   static __host__ cudaError_t launch(CUfunction kernel,
                                      Params const& params,
                                      CUstream stream = CU_STREAM_LEGACY) {
-    // Setup the grid.
-    dim3 grid;
-    grid.x = (params.m + Traits::OutputTile::kW - 1) / Traits::OutputTile::kW;
-    grid.y = (params.n + Traits::OutputTile::kH - 1) / Traits::OutputTile::kH;
-
-    // The number of threads.
-    dim3 block;
-    block.x = kThreads;
 
     // Launch the kernel.
     void* params_[] = {const_cast<void*>(reinterpret_cast<void const*>(&params))};
 
-    // return cudaLaunchKernel(reinterpret_cast<void*>(&gemm_kernel<This_>), grid, block,
-    //  const_cast<void**>(&params_), 0, stream);
     CUresult result = cuLaunchKernel(
-        kernel, grid.x, grid.y, grid.z, block.x, block.y, block.z, 0, stream, params_, 0);
+        kernel,
+        params.grid.x, params.grid.y, params.grid.z,
+        params.block.x, params.block.y, params.block.z,
+        0, stream, params_, 0);
 
     if (result != CUDA_SUCCESS) {
       return cudaErrorLaunchFailure;
@@ -189,39 +165,41 @@ struct Gemm {
 
 #endif
 
+  //
+  // Methods
+  //
+
   /// Ctor.
   CUTLASS_DEVICE Gemm(Params const& params_, SharedStorage& shared_storage_)
       : params(params_), shared_storage(shared_storage_) {}
 
-  /// Consume a single iteration of the loop.
-  template <bool kIsLastIteration>
-  CUTLASS_DEVICE void consume_tile(typename Traits::GlobalLoadStream& global_stream,
-                                   typename Traits::SharedLoadStream& shared_load_stream,
-                                   typename Traits::MultiplyAdd::Accumulators& accumulators,
+  /// Computes a warp-level GEMM on data held in shared memory
+  template <bool Residue, bool LastIteration>
+  CUTLASS_DEVICE void consume_tile(typename Traits::GlobalLoadStream& global_to_shared_stream,
+                                   typename Traits::SharedStream& shared_load_stream,
+                                   typename MultiplyAdd::Accumulators& accumulators,
                                    Index outer_k) {
-    // If that's the last "load iteration" update the predicates.
-    if (!kIsLastIteration) {
-      global_stream.move_to_residue<false>(outer_k);
+    // If residue portion and not calculating residue in prolog, update residue predicates now.
+    if (Residue && outer_k <= Traits::OutputTile::kD) {
+      global_to_shared_stream.residue(outer_k);
     }
 
-    // Load data for the next iteration of the main loop.
-    if (!kIsLastIteration) {
-      global_stream.copy();
+    // Load data for the next iteration of the main loop (unless it's the last iteration).
+    if (!LastIteration) {
+      global_to_shared_stream.copy();
     }
 
-    // The unrolling steps for the main loop.
-    int const kUnrollingSteps =
-        Traits::MultiplyAdd::AccumulatorsPerWarp::kD / Traits::MultiplyAdd::InstructionShape::kD;
-
     CUTLASS_PRAGMA_UNROLL
-    for (int step = 0; step < kUnrollingSteps - 1; ++step) {
+    for (int step = 0; step < kWarpGemmSteps - 1; ++step) {
       // Trigger the copy from shared memory for the next A/B values.
       shared_load_stream.copy(step + 1);
+
       // Make sure the values are available for the current iteration to do the multiply-add.
       shared_load_stream.commit(step);
 
+      MultiplyAdd multiply_add;
+
       // Do the math on the fragments of the current iteration.
-      typename Traits::MultiplyAdd multiply_add;
       multiply_add.multiply_add(shared_load_stream.fragment_a(step),
                                 shared_load_stream.fragment_b(step),
                                 accumulators,
@@ -232,28 +210,25 @@ struct Gemm {
     Traits::shared_load_fence(true);
 
     // Commit the data in shared memory for A/B.
-    if (!kIsLastIteration) {
-      global_stream.commit();
+    if (!LastIteration) {
+      global_to_shared_stream.commit();
     }
-
     // Make sure the data is in shared memory.
     Traits::shared_store_fence(true);
 
-    // Trigger the loads for the next iteration (if needed).
-    if (!kIsLastIteration) {
+    if (!LastIteration) {
       // Move to the next stage for the load (if it makes sense).
       shared_load_stream.inc_stage();
       // Trigger the copy from shared memory for the next loop iteration.
       shared_load_stream.copy(0);
     }
-
     // Make sure the values are available for the current iteration to do the multiply-add.
-    shared_load_stream.commit(kUnrollingSteps - 1);
+    shared_load_stream.commit(kWarpGemmSteps - 1);
 
     // Do the math on the fragments of the current iteration.
-    typename Traits::MultiplyAdd multiply_add;
-    multiply_add.multiply_add(shared_load_stream.fragment_a(kUnrollingSteps - 1),
-                              shared_load_stream.fragment_b(kUnrollingSteps - 1),
+    MultiplyAdd multiply_add;
+    multiply_add.multiply_add(shared_load_stream.fragment_a(kWarpGemmSteps - 1),
+                              shared_load_stream.fragment_b(kWarpGemmSteps - 1),
                               accumulators,
                               accumulators);
   }
@@ -262,76 +237,112 @@ struct Gemm {
   CUTLASS_DEVICE void multiply_add() {
     // Swizzle the IDs of the block (to enable better cache behavior).
     typename Traits::BlockSwizzle block_swizzle;
-    dim3 block = block_swizzle.swizzle();
-
-    // Scale the id.
-    block.x *= Traits::OutputTile::kW;
-    block.y *= Traits::OutputTile::kH;
+    Coord<3> threadblock_offset =
+        block_swizzle.get_threadblock_offset(make_Coord_from_shape<Traits::OutputTile>());
 
     // We may want to use shared memory to clear the registers.
     typedef typename Traits::ClearAccumulators ClearAccumulators;
 
     // The streams to read A/B from global memory to shared memory.
-    typename Traits::GlobalLoadStream global_stream(params, shared_storage, block);
+    typename Traits::GlobalLoadStream global_to_shared_stream(
+        params.global_to_shared_stream,
+        shared_storage.main_loop.global_to_shared_stream,
+        shared_storage.main_loop.threadblock_tile.reference(),
+        params.problem_size.knm(),
+        threadblock_offset);
 
-    // Create the accumulator clear.
-    ClearAccumulators clear(shared_storage.main_loop.clear);
+    // update A and B pointer offset based on batch_id and batch_stride_offset
+    //global_to_shared_stream.add_pointer_offset(block_swizzle.get_batch_id(), params.batch_stride_A, params.batch_stride_B);
+    global_to_shared_stream += make_Coord(block_swizzle.get_batch_id(), 0, 0);
 
-    // By how much we unroll the main loop.
-    Index const kUnroll = static_cast<Index>(Traits::OutputTile::kD);
+    // Create the accumulator clear.
+    ClearAccumulators clear;
 
-    // If we do not have enough steps in the main loop, trigger the residue code.
-    global_stream.move_to_residue<true>(params.k);
+    // Deal with residue in prolog.
+    global_to_shared_stream.move_to_residue(params.problem_size[0], Traits::OutputTile::kD);
 
     // Fetch the fragments for A and B from global memory.
-    global_stream.copy();
+    global_to_shared_stream.copy();
 
     // Copy the elements to shared memory (after transformation if needed).
-    global_stream.commit();
+    global_to_shared_stream.commit();
 
     // Make sure the data is in shared memory.
     Traits::shared_store_fence(false);
 
-    // Rollback to the beginning of the GEMM-K dimension. It may have no impact.
-    global_stream.rollback();
-
-    // The unrolling steps for the main loop.
-    int const kUnrollingSteps =
-        Traits::MultiplyAdd::AccumulatorsPerWarp::kD / Traits::MultiplyAdd::InstructionShape::kD;
-
-    // Make sure we have at least 2 unrolling steps or our pipeling is not going to work.
-    static_assert(kUnrollingSteps >= 2, "The pipelining assumes at least two steps");
+    // Rollback to the beginning of the first tile (if residue exists).
+    global_to_shared_stream.rollback(params.problem_size[0] % Traits::OutputTile::kD);
 
     // The stream of data from shared memory to fragments.
-    typename Traits::SharedLoadStream shared_load_stream(params, shared_storage);
+    typename Traits::SharedStream shared_load_stream(
+        params.shared_stream,
+        shared_storage.main_loop.threadblock_tile.reference());
 
     // Trigger the copy from shared memory for the 1st stream.
     shared_load_stream.copy(0);
 
     // Allocate the accumulators.
-    typename Traits::MultiplyAdd::Accumulators accumulators;
+    typename MultiplyAdd::Accumulators accumulators;
+
     // Clear the accumulators.
     clear.clear(accumulators);
 
-    // The loop index.
-    Index outer_k = params.k - kUnroll;
+    // Initial index
+    Index outer_k = params.problem_size[0] - Traits::OutputTile::kD;
 
-    // Enter the main loop and iterate.
-    for (; outer_k > 0; outer_k -= kUnroll) {
-      consume_tile<false>(global_stream, shared_load_stream, accumulators, outer_k);
-    }
+    // Check if we are computing residue in prolog or not.
+    if (Traits::GemmConfig::kResidueInProlog) {
+
+      // Execute all mainloop iterations but the last one.
+
+      CUTLASS_GEMM_LOOP
+      for (; outer_k > 0; outer_k -= Traits::OutputTile::kD) {
+        consume_tile<false, false>(
+            global_to_shared_stream, shared_load_stream, accumulators, outer_k);
+
+      }
+
+      // Don't load data for the last "residue" portion since we've already computed the residue.
+      CUTLASS_GEMM_LOOP
+      for (; outer_k > -Traits::OutputTile::kD; outer_k -= Traits::OutputTile::kD) {
+        consume_tile<false, true>(
+            global_to_shared_stream, shared_load_stream, accumulators, outer_k);
 
-    // Residual loop.
-    for (; outer_k > -kUnroll; outer_k -= kUnroll) {
-      consume_tile<true>(global_stream, shared_load_stream, accumulators, outer_k);
+      }
+    } else {
+      // When kResidueSeparate = true, execute all mainloop iterations but the last two without any
+      // consideration for K-residue or predicate updates. This improves the steady state of some
+      // kernels.
+      if (Traits::GemmConfig::kResidueSeparate) {
+
+        CUTLASS_GEMM_LOOP
+        for (; outer_k > Traits::OutputTile::kD; outer_k -= Traits::OutputTile::kD) {
+          consume_tile<false, false>(
+              global_to_shared_stream, shared_load_stream, accumulators, outer_k);
+
+        }
+      }
+
+      // Execute remaining tiles with K-residue predicate updates enabled.
+
+      CUTLASS_GEMM_LOOP
+      for (; outer_k > -Traits::OutputTile::kD; outer_k -= Traits::OutputTile::kD) {
+        consume_tile<true, false>(
+            global_to_shared_stream, shared_load_stream, accumulators, outer_k);
+
+      }
     }
 
     // Epilogue.
     typedef typename Traits::Epilogue Epilogue;
-    Epilogue epilogue(params.epilogue, shared_storage.epilogue, params.m, params.n);
-    epilogue.epilogue(cutlass::make_Coord(0, block.y, block.x), accumulators);
+    Epilogue epilogue(params.epilogue, shared_storage.epilogue, params.problem_size.knm());
+    epilogue.epilogue(accumulators, threadblock_offset, block_swizzle.get_batch_id());
   }
 
+  //
+  // Data members
+  //
+
   /// The params.
   Params const& params;
   /// The shared storage.
diff --git a/cutlass/gemm/gemm_config.h b/cutlass/gemm/gemm_config.h
new file mode 100644
index 0000000000..76df0add62
--- /dev/null
+++ b/cutlass/gemm/gemm_config.h
@@ -0,0 +1,145 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *   * Redistributions of source code must retain the above copyright notice, this list of
+ *     conditions and the following disclaimer.
+ *   * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *     conditions and the following disclaimer in the documentation and/or other materials
+ *     provided with the distribution.
+ *   * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *     to endorse or promote products derived from this software without specific prior written
+ *     permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+  \brief Defines properties of GEMM computation that impose some constraints on caller.
+*/
+#pragma once
+
+#include "cutlass/shape.h"
+
+namespace cutlass {
+namespace gemm {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <
+    /// The scalar type for A.
+    typename ScalarA_,
+    /// The scalar type for B.
+    typename ScalarB_,
+    /// The scalar type for C.
+    typename ScalarC_,
+    /// The scalar type for D.
+    typename ScalarD_,
+    /// The threadblock tile size for the GEMM KxNxM.
+    typename OutputTile_,
+    /// The functor to do the math.
+    typename MultiplyAdd_,
+    /// The number of scalars per LDG for A.
+    int kScalarsPerLdgA_,
+    /// The number of scalars per STS for A.
+    int kScalarsPerStsA_,
+    /// The number of scalars per LDG for A.
+    int kScalarsPerLdsA_,
+    /// The number of scalars per LDG for B.
+    int kScalarsPerLdgB_,
+    /// The number of scalars per STS for B.
+    int kScalarsPerStsB_,
+    /// The number of scalars per LDS for B.
+    int kScalarsPerLdsB_,
+    /// The number of scalars per LDG for C and STG for D.
+    int kScalarsPerLdgCAndStgD_,
+    /// The number of scalars per STS for D.
+    int kScalarsPerStsD_,
+    /// The number of scalars per LDS for D.
+    int kScalarsPerLdsD_,
+    /// The number of stages in shared memory to do single/double/triple-buffering.
+    int kStages_,
+    /// If true, residue is computed in mainloop. If false, separate loops are instantiated.
+    bool kResidueSeparate_ = false,
+    /// Is residue performed in prologue?
+    bool kResidueInProlog_ = false,
+    /// If true, kernel is launched with CUDA launch bounds specified
+    bool kLaunchBounds_ = true>
+struct GemmConfig {
+  //
+  /// The scalar for A.
+  typedef ScalarA_ ScalarA;
+  /// The scalar for B.
+  typedef ScalarB_ ScalarB;
+  /// The scalar for C.
+  typedef ScalarC_ ScalarC;
+  /// The scalar for D.
+  typedef ScalarD_ ScalarD;
+
+  /// The tile.
+  typedef OutputTile_ OutputTile;
+  /// The functor to do D = A*B + C.
+  typedef MultiplyAdd_ MultiplyAdd;
+  /// The shape of the instruction.
+  typedef typename MultiplyAdd::InstructionShape InstructionShape;
+  /// The shape of warp-level GEMM
+  typedef typename MultiplyAdd::AccumulatorsPerWarp AccumulatorsPerWarp;
+  /// The accumulators.
+  typedef typename MultiplyAdd::Accumulators Accumulators;
+
+  /// The number of warps.
+  typedef typename ShapeDiv<OutputTile, AccumulatorsPerWarp>::Shape Warps;
+  /// The default warp size (32 threads per warp).
+  static int const kWarpSize = cutlass::kWarpSize;
+  /// The numnber of threads.
+  static int const kThreads = ShapeCount<Warps>::kCount * kWarpSize;
+
+  /// The number of scalars per LDG/STS/LDS for A.
+  static int const kScalarsPerLdgA = kScalarsPerLdgA_;
+  static int const kScalarsPerStsA = kScalarsPerStsA_;
+  static int const kScalarsPerLdsA = kScalarsPerLdsA_;
+
+  /// The number of scalars per LDG/STS/LDS for B.
+  static int const kScalarsPerLdgB = kScalarsPerLdgB_;
+  static int const kScalarsPerStsB = kScalarsPerStsB_;
+  static int const kScalarsPerLdsB = kScalarsPerLdsB_;
+
+  /// The number of scalars per LDG for C.
+  static int const kScalarsPerLdgC = kScalarsPerLdgCAndStgD_;
+
+  /// The number of scalars per STS/LDS/STG for D.
+  static int const kScalarsPerStgD = kScalarsPerLdgCAndStgD_;
+  static int const kScalarsPerStsD = kScalarsPerStsD_;
+  static int const kScalarsPerLdsD = kScalarsPerLdsD_;
+
+  /// The number of accumulators that are going to be fed from one LDS A/B.
+  static int const kAccumulatorsPerLdsA = kScalarsPerLdsA / InstructionShape::kD;
+  static int const kAccumulatorsPerLdsB = kScalarsPerLdsB / InstructionShape::kD;
+
+  /// The number of stages in shared memory to implement double, triple, more-buffering.
+  static int const kStages = kStages_;
+
+  /// If true, mainloop is instantiated twice. The first instantiation contains no predicate
+  // updates and is more efficient for some kernels. If false, only a single mainloop is
+  // instantaited.
+  static bool const kResidueSeparate = kResidueSeparate_;
+
+  /// If true, residue is computed in the prologue.
+  static bool const kResidueInProlog = kResidueInProlog_;
+
+  /// If true, kernel is launched with launch bounds specified
+  static bool const kLaunchBounds = kLaunchBounds_;
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namespace gemm
+}  // namespace cutlass
diff --git a/cutlass/gemm/gemm_coord.h b/cutlass/gemm/gemm_coord.h
new file mode 100644
index 0000000000..8e36bb0430
--- /dev/null
+++ b/cutlass/gemm/gemm_coord.h
@@ -0,0 +1,203 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief GemmCoord is a structure derived from Coord<4> that specifies a location within the
+      coordinate system of a GEMM problem.
+*/
+
+#pragma once
+
+#include "cutlass/cutlass.h"
+#include "cutlass/coord.h"
+#include "cutlass/util/platform.h"
+
+namespace cutlass {
+namespace gemm {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// GemmCoord is a structure derived from Coord<4> that specifies a location within the
+/// coordinate space of a GEMM problem.
+struct GemmCoord : public Coord<4, int> {
+
+  /// Integer-valued index
+  typedef int Index;
+
+  /// Base type is a Coord of rank=4
+  typedef Coord<4, Index> Base;
+
+  /// GEMM K dimension - inner dimension of the GEMM problem
+  static int const kK = 0;
+
+  /// GEMM N dimension - columns of the output C matrix
+  static int const kN = 1;
+
+  /// GEMM M dimension - rows of the output C matrix
+  static int const kM = 2;
+
+  /// Batch dimension - for generalizing to larger problems
+  static int const kBatch = 3;
+
+  //
+  // Methods
+  //
+
+  /// Default ctor
+  CUTLASS_HOST_DEVICE
+  GemmCoord() { }
+
+  /// Constructs from Coord<3> and a batch
+  CUTLASS_HOST_DEVICE
+  GemmCoord(Coord<3, Index> const &coord, Index _batch = 0): Base(make_Coord(coord[0], coord[1], coord[2], _batch)) { }
+
+  /// Constructs from Coord<4>
+  CUTLASS_HOST_DEVICE
+  GemmCoord(Coord<4, Index> const &coord): Base(coord) { }
+
+  /// Constructs from an array of coordinate elements
+  CUTLASS_HOST_DEVICE
+  GemmCoord(Index coord[4]): Base(coord) { }
+
+  /// Helper to construct from a K, N, M, batch variables
+  CUTLASS_HOST_DEVICE
+  GemmCoord(Index k, Index n, Index m, Index batch = 0): Base(make_Coord(k, n, m, batch)) { }
+
+  /// Returns the GEMM M coordinate
+  CUTLASS_HOST_DEVICE
+  Index const & m() const { return this->at(kM); }
+
+  /// Returns reference to the GEMM M coordinate
+  CUTLASS_HOST_DEVICE
+  Index & m() { return this->at(kM); }
+
+  /// Returns the GEMM N coordinate
+  CUTLASS_HOST_DEVICE
+  Index const & n() const { return this->at(kN); }
+
+  /// Returns reference to the GEMM N coordinate
+  CUTLASS_HOST_DEVICE
+  Index & n() { return this->at(kN); }
+
+  /// Returns the GEMM K coordinate
+  CUTLASS_HOST_DEVICE
+  Index const & k() const { return this->at(kK); }
+
+  /// Returns reference to the GEMM K coordinate
+  CUTLASS_HOST_DEVICE
+  Index & k() { return this->at(kK); }
+
+  /// Returns the GEMM batch coordinate
+  CUTLASS_HOST_DEVICE
+  Index const & batch() const { return this->at(kBatch); }
+
+  /// Returns reference to the GEMM batch coordinate
+  CUTLASS_HOST_DEVICE
+  Index & batch() { return this->at(kBatch); }
+
+  /// Obtains a Coord<3> from GemmCoord
+  CUTLASS_HOST_DEVICE
+  Coord<3> knm() const {
+    return make_Coord(k(), n(), m());
+  }
+
+  /// Obtains a Coord<2> from GemmCoord
+  CUTLASS_HOST_DEVICE
+  Coord<2> nm() const {
+    return make_Coord(n(), m());
+  }
+
+  /// Obtains a Coord<2> from GemmCoord
+  CUTLASS_HOST_DEVICE
+  Coord<2> km() const {
+    return make_Coord(k(), m());
+  }
+
+  /// Obtains a Coord<2> from GemmCoord
+  CUTLASS_HOST_DEVICE
+  Coord<2> kn() const {
+    return make_Coord(k(), n());
+  }
+
+  //
+  // Coord operators
+  //
+
+  /// Element-wise addition
+  CUTLASS_HOST_DEVICE
+  GemmCoord operator+(Base const& b) const {
+    return GemmCoord(Base::operator+(b));
+  }
+
+  /// Element-wise subtraction
+  CUTLASS_HOST_DEVICE
+  GemmCoord operator-(Base const& b) const {
+    return GemmCoord(Base::operator-(b));
+  }
+
+  /// Element-wise multiplication
+  CUTLASS_HOST_DEVICE
+  GemmCoord operator*(Base const& b) const {
+    return GemmCoord(Base::operator*(b));
+  }
+
+  /// Element-wise division
+  CUTLASS_HOST_DEVICE
+  GemmCoord operator/(Base const& b) const {
+    return GemmCoord(Base::operator/(b));
+  }
+
+  /// In-place addition
+  CUTLASS_HOST_DEVICE
+  GemmCoord& operator+=(Base const& b) {
+    Base::operator+=(b);
+    return *this;
+  }
+
+  /// In-place subtraction
+  CUTLASS_HOST_DEVICE
+  GemmCoord& operator-=(Base const& b) {
+    Base::operator-=(b);
+    return *this;
+  }
+
+  /// In-place multiplication
+  CUTLASS_HOST_DEVICE
+  GemmCoord& operator*=(Base const& b) {
+    Base::operator*=(b);
+    return *this;
+  }
+
+  /// In-place division
+  CUTLASS_HOST_DEVICE
+  GemmCoord& operator/=(Base const& b) {
+    Base::operator/=(b);
+    return *this;
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace gemm
+} // namespace cutlass
diff --git a/cutlass/gemm/gemm_desc.h b/cutlass/gemm/gemm_desc.h
new file mode 100644
index 0000000000..80f4b36557
--- /dev/null
+++ b/cutlass/gemm/gemm_desc.h
@@ -0,0 +1,205 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Implements a software-pipelined efficient GEMM.
+*/
+#pragma once
+
+#include "cutlass/tensor_ref.h"
+#include "cutlass/gemm/gemm_coord.h"
+
+namespace cutlass {
+namespace gemm {
+
+/// GEMM problem description
+template <
+    /// Source accumulator matrix type
+    typename AType_,
+    /// Destination accumulator type
+    typename BType_,
+    /// Source accumulator matrix type
+    typename CType_,
+    /// Destination accumulator type
+    typename DType_,
+    /// Scalar type for alpha and beta
+    typename SType_,
+    /// Index type for dimensions and strides
+    typename Index_ = int
+> struct GemmDesc {
+  //
+  // Type definitions
+  //
+
+  /// Index type for dimensions and strides
+  typedef Index_ Index;
+
+  /// Source accumulator matrix type
+  typedef AType_ AType;
+
+  /// Tensor reference to A operand
+  typedef TensorRef<AType const, 2> TensorRefA;
+
+  /// Destination accumulator type
+  typedef BType_ BType;
+
+  /// Tensor reference to B operand
+  typedef TensorRef<BType const, 2> TensorRefB;
+
+  /// Source accumulator matrix type
+  typedef CType_ CType;
+
+  /// Tensor reference to C operand
+  typedef TensorRef<CType const, 2> TensorRefC;
+
+  /// Destination accumulator type
+  typedef DType_ DType;
+
+  /// Tensor reference to D operand
+  typedef TensorRef<DType, 2> TensorRefD;
+
+  /// Scalar type for alpha and beta
+  typedef SType_ SType;
+
+  //
+  // Data members
+  //
+
+  /// The dimensions of the GEMM.
+  GemmCoord problem_size;
+
+  /// The alpha scaling values.
+  SType alpha;
+
+  /// The source matrix A.
+  TensorRefA A;
+
+  /// batch stride for A operand
+  long long batch_stride_A;
+
+  /// The source matrix B.
+  TensorRefB B;
+
+  /// batch stride for B operand
+  long long batch_stride_B;
+
+  /// The beta scaling values.
+  SType beta;
+
+  /// The source matrix C.
+  TensorRefC C;
+
+  /// batch stride for C operand
+  long long batch_stride_C;
+
+  /// The destination matrix D.
+  TensorRefD D;
+
+  /// batch stride for D operand
+  long long batch_stride_D;
+
+  //
+  // Methods
+  //
+
+  /// Default ctor
+  CUTLASS_HOST_DEVICE
+  GemmDesc(): problem_size(0, 0, 0, 1), alpha(1), beta(0) {}
+
+  /// Constructor for basic GEMM with batch count = 1
+  CUTLASS_HOST_DEVICE
+  GemmDesc(Coord<3> _problem_size,
+           SType _alpha,
+           TensorRefA const &_A,
+           TensorRefB const &_B,
+           SType _beta,
+           TensorRefC const &_C,
+           TensorRefD const &_D
+  ):
+    problem_size(_problem_size[0], _problem_size[1], _problem_size[2], 1),
+    alpha(_alpha),
+    A(_A),
+    batch_stride_A(0),
+    B(_B),
+    batch_stride_B(0),
+    beta(_beta),
+    C(_C),
+    batch_stride_C(0),
+    D(_D),
+    batch_stride_D(0) {}
+
+  /// Constructor for basic GEMM with batch count = 1
+  CUTLASS_HOST_DEVICE
+  GemmDesc(GemmCoord _problem_size,
+           SType _alpha,
+           TensorRefA const &_A,
+           TensorRefB const &_B,
+           SType _beta,
+           TensorRefC const &_C,
+           TensorRefD const &_D
+  ):
+    problem_size(_problem_size.k(), _problem_size.n(), _problem_size.m(), 1),
+    alpha(_alpha),
+    A(_A),
+    batch_stride_A(0),
+    B(_B),
+    batch_stride_B(0),
+    beta(_beta),
+    C(_C),
+    batch_stride_C(0),
+    D(_D),
+    batch_stride_D(0) {
+
+    assert(_problem_size.batch() == 1);
+  }
+
+  /// Constructor for strided batch GEMM GEMM
+  CUTLASS_HOST_DEVICE
+  GemmDesc(GemmCoord _problem_size,
+           SType _alpha,
+           TensorRefA const &_A,
+           long long _batch_stride_A,
+           TensorRefB const &_B,
+           long long _batch_stride_B,
+           SType _beta,
+           TensorRefC const &_C,
+           long long _batch_stride_C,
+           TensorRefD const &_D,
+           long long _batch_stride_D
+  ):
+    problem_size(_problem_size),
+    alpha(_alpha),
+    A(_A),
+    batch_stride_A(_batch_stride_A),
+    B(_B),
+    batch_stride_B(_batch_stride_B),
+    beta(_beta),
+    C(_C),
+    batch_stride_C(_batch_stride_C),
+    D(_D),
+    batch_stride_D(_batch_stride_D) {}
+};
+
+}  // namespace gemm
+}  // namespace cutlass
diff --git a/cutlass/gemm/gemm_epilogue.h b/cutlass/gemm/gemm_epilogue.h
index bc25307775..d9469bb550 100644
--- a/cutlass/gemm/gemm_epilogue.h
+++ b/cutlass/gemm/gemm_epilogue.h
@@ -29,26 +29,15 @@
 */
 #pragma once
 
-#include <cutlass/convert.h>
-#include <cutlass/coord.h>
-#include <cutlass/fragment.h>
+#include "cutlass/convert.h"
+#include "cutlass/coord.h"
+#include "cutlass/fragment.h"
 
 namespace cutlass {
 namespace gemm {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename T>
-CUTLASS_DEVICE bool is_zero(T x) {
-  return x == T(0);
-}
-
-#if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)
-CUTLASS_DEVICE bool is_zero(half x) { return reinterpret_cast<int16_t&>(x) == int16_t(0); }
-#endif
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
 template <typename GemmEpilogueTraits_>
 struct GemmEpilogue {
   /// The traits class.
@@ -85,9 +74,7 @@ struct GemmEpilogue {
   /// The shared store transformer for D.
   typedef typename Traits::SharedStoreTransformerD SharedStoreTransformerD;
   /// The iterator to load D in shared memory.
-  typedef typename Traits::SharedLoadIteratorD SharedLoadIteratorD;
-  /// The shared load transformer for D.
-  typedef Copy<typename SharedLoadIteratorD::Fragment> SharedLoadTransformerD;
+  typedef typename Traits::SharedLoadStreamD SharedLoadStreamD;
 
   /// The index.
   typedef typename Traits::Index Index;
@@ -100,33 +87,28 @@ struct GemmEpilogue {
   /// Ctor.
   CUTLASS_DEVICE GemmEpilogue(Params const& params_,
                               SharedStorage& shared_storage_,
-                              Index m_,
-                              Index n_)
-      : params(params_), shared_storage(shared_storage_), m(m_), n(n_) {}
+                              Coord<3> const& _problem_size)
+      : params(params_), shared_storage(shared_storage_), problem_size(_problem_size), functor(params_.functor) {}
 
   /// Execute the epilogue.
-  CUTLASS_DEVICE void epilogue(Coord<3> const& block, Accumulators& accumulators) {
-    if (is_zero(params.functor.beta)) {
-      epilogue_with_or_without_beta<true>(block, accumulators);
+  CUTLASS_DEVICE void epilogue(Accumulators& accumulators,
+                               Coord<3> const& block = make_Coord(0, 0, 0),
+                               int batch_id = 0) {
+    if (functor.source_required()) {
+      epilogue_with_or_without_beta<true>(accumulators, block, batch_id);
     } else {
-      epilogue_with_or_without_beta<false>(block, accumulators);
+      epilogue_with_or_without_beta<false>(accumulators, block, batch_id);
     }
   }
 
-  template <bool kBetaIsZero_>
-  CUTLASS_DEVICE void epilogue_with_or_without_beta(Coord<3> const& block,
-                                                    Accumulators& accumulators) {
-
-    // The problem size.
-    Coord<3> const bounds = cutlass::make_Coord(0, n, m);
-
-    // The functor.
-    Functor functor(params.functor);
+  template <bool kSourceRequired>
+  CUTLASS_DEVICE void epilogue_with_or_without_beta(Accumulators& accumulators,
+                                                    Coord<3> const& block,
+                                                    int batch_id) {
     // The C fragment.
     typename GlobalLoadIteratorC::Fragment fragment_c;
     // The transformed C fragment.
     typename GlobalTransformerC::OutputFragment transformed_c;
-
     CUTLASS_PRAGMA_UNROLL
     for (int h = 0; h < Iterations::kH; ++h) {
       // Compute pointer and predicate offsets for C and D global iterators.
@@ -136,6 +118,7 @@ struct GemmEpilogue {
                Iterations::kW +
            params.stride_h) *
           h;
+
       int const predicate_offset =
           ((params.iterator_d.predicate_inc_h * (GlobalStoreIteratorD::Iterations::kH - 1) +
             params.iterator_d.predicate_inc_advance) *
@@ -145,32 +128,40 @@ struct GemmEpilogue {
 
       // The iterator to load the elements of the C matrix.
       GlobalLoadIteratorC global_load_iterator(
-          params.iterator_c, bounds, block, pointer_offset, predicate_offset);
+          params.iterator_c, problem_size, block, pointer_offset, predicate_offset);
+
+      // update C pointer offset based on batch_id and batch_stride_offset
+      //global_load_iterator.add_pointer_offset(batch_id * params.batch_stride_offset_c);
+      global_load_iterator += make_Coord(batch_id, 0, 0);
+
       // The transformer for C.
       GlobalTransformerC transformer_c;
       // The transformer for D.
       GlobalTransformerD transformer_d;
       // The iterator to store into the D matrix.
       GlobalStoreIteratorD global_store_iterator(
-          params.iterator_d, bounds, block, pointer_offset, predicate_offset);
+          params.iterator_d, problem_size, block, pointer_offset, predicate_offset);
+
+      // update D pointer offset based on batch_id and batch_stride_offset
+      //global_store_iterator.add_pointer_offset(batch_id * params.batch_stride_offset_d);
+      global_store_iterator += make_Coord(batch_id, 0, 0);
 
-      // The transformer to transform before storing to shared memory.
       SharedStoreTransformerD shared_store_transformer;
       typename SharedStoreTransformerD::OutputFragment shared_store_transformed_d;
 
-      // The iterator to store to shared memory.
-      SharedStoreIteratorD shared_store_iterator(params.shared_store_iterator_d,
-                                                 shared_storage.shared_stream.store);
+      SharedStoreIteratorD shared_store_iterator(
+          params.shared_store_iterator_d,
+          reinterpret_cast<typename SharedStoreIteratorD::Scalar*>(shared_storage.data()));
 
-      // The iterator to load from shared memory. TODO: Use a stream.
-      SharedLoadIteratorD shared_load_iterator(params.shared_load_iterator_d,
-                                               shared_storage.shared_stream.load);
+      SharedLoadStreamD shared_load_stream(
+          params.shared_load_stream_d,
+          reinterpret_cast<typename SharedLoadStreamD::Scalar*>(shared_storage.data()));
 
       CUTLASS_PRAGMA_UNROLL
       for (int w = 0; w < Iterations::kW; ++w) {
         // Load the C matrix into fragment.
-        if (!kBetaIsZero_) {
-          iterator_load(global_load_iterator, fragment_c);
+        if (kSourceRequired) {
+          global_load_iterator.load_post_increment(fragment_c);
         }
 
         // Make sure we can write to shared memory.
@@ -180,33 +171,33 @@ struct GemmEpilogue {
         int const offset = (h * Iterations::kW + w) * SharedStoreIteratorD::Fragment::kElements;
 
         shared_store_transformer.transform(accumulators, offset, shared_store_transformed_d);
-        shared_iterator_store(shared_store_iterator, shared_store_transformed_d);
+        shared_store_iterator.store_post_increment(shared_store_transformed_d);
 
         // Make sure the data is in shared memory.
         shared_store_fence();
 
         // Copy the accumulators back to registers from shared memory.
-        typename SharedLoadIteratorD::Fragment fetched_d;
-        shared_iterator_load(shared_load_iterator, fetched_d);
+        shared_load_stream.copy();
+        shared_load_stream.commit();
 
         // Do the math.
         typename GlobalTransformerD::InputFragment fragment_d;
 
-        if (kBetaIsZero_) {
-          functor.evaluate(fetched_d, fragment_d);
-        } else {
+        if (kSourceRequired) {
           // Transform C fragment.
           transformer_c.transform(fragment_c, transformed_c);
           // Do the math.
-          functor.evaluate(fetched_d, transformed_c, fragment_d);
+          functor.evaluate(shared_load_stream.fragment(), transformed_c, fragment_d);
+        } else {
+          functor.evaluate(shared_load_stream.fragment(), fragment_d);
         }
 
         // Transform D fragment.
-        typename GlobalTransformerD::OutputFragment transformed_d;
-        transformer_d.transform(fragment_d, transformed_d);
+        typename GlobalTransformerD::OutputFragment global_transformed_d;
+        transformer_d.transform(fragment_d, global_transformed_d);
 
         // Copy the results to global memory.
-        iterator_store(global_store_iterator, transformed_d);
+        global_store_iterator.store_post_increment(global_transformed_d);
       }
     }
   }
@@ -222,7 +213,9 @@ struct GemmEpilogue {
   /// The shared storage.
   SharedStorage& shared_storage;
   /// The dimensions of the GEMM.
-  Index m, n;
+  Coord<3> problem_size;
+  // The functor.
+  Functor functor;
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/cutlass/gemm/gemm_epilogue_traits.h b/cutlass/gemm/gemm_epilogue_traits.h
index c06fc25026..c6aff71e14 100644
--- a/cutlass/gemm/gemm_epilogue_traits.h
+++ b/cutlass/gemm/gemm_epilogue_traits.h
@@ -27,13 +27,13 @@
 */
 #pragma once
 
-#include <cutlass/convert.h>
-#include <cutlass/coord.h>
-#include <cutlass/gemm/gemm_global_stream.h>
-#include <cutlass/gemm/gemm_shared_stream.h>
-#include <cutlass/gemm/linear_scaling.h>
-#include <cutlass/reshape_tile.h>
-#include <cutlass/tile_iterator.h>
+#include "cutlass/convert.h"
+#include "cutlass/coord.h"
+#include "cutlass/gemm/gemm_global_stream.h"
+#include "cutlass/gemm/gemm_shared_stream.h"
+#include "cutlass/gemm/linear_scaling.h"
+#include "cutlass/reshape_tile.h"
+#include "cutlass/tile_iterator.h"
 
 namespace cutlass {
 namespace gemm {
@@ -57,8 +57,8 @@ template <
     typename SharedStoreIteratorD_,
     /// The shared store transformer for D.
     typename SharedStoreTransformerD_,
-    /// The iterator to load D from shared memory.
-    typename SharedLoadIteratorD_,
+    /// The stream to load D from shared memory.
+    typename SharedLoadStreamD_,
     /// The number of iterations in the epilogue.
     typename Iterations_,
     /// The iterations strides.
@@ -86,8 +86,8 @@ struct GemmEpilogueTraits {
   typedef SharedStoreIteratorD_ SharedStoreIteratorD;
   /// The shared store transformer for D.
   typedef SharedStoreTransformerD_ SharedStoreTransformerD;
-  /// The iterator to store D in shared memory.
-  typedef SharedLoadIteratorD_ SharedLoadIteratorD;
+  /// The stream to store D in shared memory.
+  typedef SharedLoadStreamD_ SharedLoadStreamD;
   /// typedef typename GemmConfig::EpilogueIterations Iterations;
   typedef Iterations_ Iterations;
   /// The iterations strides.
@@ -118,14 +118,15 @@ struct GemmEpilogueTraits {
     typename GlobalStoreIteratorD::Params iterator_d;
     /// The params for the D shared store iterator.
     typename SharedStoreIteratorD::Params shared_store_iterator_d;
-    /// The params for the D shared load iterator.
-    typename SharedLoadIteratorD::Params shared_load_iterator_d;
+    /// The params for the D shared load stream.
+    typename SharedLoadStreamD::Params shared_load_stream_d;
     /// The functor params.
     typename Functor::Params functor;
 
     /// Setup the params.
     template <typename GemmDesc_>
     CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const& desc) {
+
       // The parameters for the functor.
       int error_code = functor.initialize(desc);
       if (error_code) {
@@ -133,20 +134,27 @@ struct GemmEpilogueTraits {
       }
 
       // At the end of the H iteration, we jump over a number of columns.
-      this->stride_h = desc.ldd * Delta::kH;
+      this->stride_h = desc.D.leading_dim() * Delta::kH;
       // Nothing to do here.
       this->stride_w = 0;
-
       // Setup the params for the global memory iterator for C.
-      error_code = iterator_c.initialize(
-          reinterpret_cast<ScalarC const*>(desc.d_c), desc.ldc, desc.n, stride_w, Delta::kW);
+      error_code = iterator_c.initialize(desc.C.data(),
+                                         desc.batch_stride_C,
+                                         desc.C.leading_dim(),
+                                         desc.problem_size[1],
+                                         stride_w,
+                                         Delta::kW);
       if (error_code) {
         return error_code;
       }
 
       // Setup the params for the global memory iterator for D.
-      return iterator_d.initialize(
-          reinterpret_cast<ScalarD*>(desc.d_d), desc.ldd, desc.n, stride_w, Delta::kW);
+      return iterator_d.initialize(desc.D.data(),
+                                   desc.batch_stride_D,
+                                   desc.D.leading_dim(),
+                                   desc.problem_size[1],
+                                   stride_w,
+                                   Delta::kW);
     }
   };
 
@@ -155,13 +163,20 @@ struct GemmEpilogueTraits {
     // The storage for the store iterator.
     typename SharedStoreIteratorD::SharedStorage store;
     // The storage for the store iterator.
-    typename SharedLoadIteratorD::SharedStorage load;
+    typename SharedLoadStreamD::SharedStorage load;
   };
 
   /// The shared memory to swizzle the data in the epilogue.
   struct SharedStorage {
     // The storage for the shared stream D.
     StreamSharedStorage shared_stream;
+
+    //
+    //
+    //
+
+    CUTLASS_DEVICE
+    ScalarD* data() { return reinterpret_cast<ScalarD*>(&shared_stream.load); }
   };
 };
 
@@ -192,7 +207,10 @@ struct GemmEpilogueTraitsHelper {
   /// The traits class to build the iterator to store to shared memory for D.
   typedef GemmSharedStoreTileDTraits<
       // The pointer is float.
-      typename Functor::Scalar,
+      // typename Functor::Scalar,
+      // Functor::Scalar is alpha, beta type, in mixed precision, alpha and beta may not be the same with accumulation.
+      // In this case Functor::ScalarAccum is needed
+      typename Functor::ScalarAccum,
       // The output tile size.
       typename GemmConfig_::OutputTile,
       // The number of warps.
@@ -221,7 +239,10 @@ struct GemmEpilogueTraitsHelper {
   /// The traits class to build the iterator to load from shared memory for D.
   typedef GemmSharedLoadTileDTraits<
       // The pointer is float.
-      typename Functor::Scalar,
+      // typename Functor::Scalar,
+      // Functor::Scalar is alpha, beta type, in mixed precision, alpha and beta may not be the same with accumulation.
+      // In this case Functor::ScalarAccum is needed
+      typename Functor::ScalarAccum,
       // The output tile size.
       typename GemmConfig_::OutputTile,
       // The number of warps.
@@ -242,6 +263,8 @@ struct GemmEpilogueTraitsHelper {
                            IteratorAdvance::kH,
                            MemorySpace::kShared>
       SharedLoadIteratorD;
+  /// The stream to load D.
+  typedef SharedLoadStream<SharedLoadIteratorD> SharedLoadStreamD;
 
   /// The traits class to build the iterator to load data from global memory for C^N.
   typedef GemmGlobalTileCdTraits<
@@ -314,8 +337,8 @@ struct SimplifiedGemmEpilogueTraits : public GemmEpilogueTraits<
                                           typename Helper_::SharedStoreIteratorD,
                                           // The shared store transformer for D.
                                           typename Helper_::SharedStoreTransformerD,
-                                          // The iterator to load D from shared memory.
-                                          typename Helper_::SharedLoadIteratorD,
+                                          // The stream to load D from shared memory.
+                                          typename Helper_::SharedLoadStreamD,
                                           // The number of iterations.
                                           typename Helper_::Iterations,
                                           // The strides between iterations.
diff --git a/cutlass/gemm/gemm_global_stream.h b/cutlass/gemm/gemm_global_stream.h
index ec675a38fe..6ea72cf30c 100644
--- a/cutlass/gemm/gemm_global_stream.h
+++ b/cutlass/gemm/gemm_global_stream.h
@@ -29,9 +29,10 @@
 */
 #pragma once
 
-#include <cutlass/convert.h>
-#include <cutlass/gemm/gemm_global_tile.h>
-#include <cutlass/iterator_access.h>
+#include "cutlass/coord.h"
+#include "cutlass/convert.h"
+#include "cutlass/gemm/gemm_global_tile.h"
+#include "cutlass/tile_allocation.h"
 
 namespace cutlass {
 namespace gemm {
@@ -39,6 +40,8 @@ namespace gemm {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 template <
+    /// Identifies multiplicand
+    GemmOperand::Kind Operand,
     /// The load iterator.
     typename LoadIterator_,
     /// The store iterator to copy to shared memory.
@@ -46,7 +49,9 @@ template <
     /// The transformer to be applied after the data has been copied from global memory.
     typename Transformer_>
 
-struct GlobalLoadStreamBase {
+struct GlobalLoadStream {
+  /// Indicates the type of GEMM operand
+  static GemmOperand::Kind const kOperand = Operand;
   /// The load iterator.
   typedef LoadIterator_ LoadIterator;
   /// The transformer.
@@ -75,6 +80,15 @@ struct GlobalLoadStreamBase {
   typedef typename LoadIterator::Pointer Pointer;
   /// The index.
   typedef typename LoadIterator::Index Index;
+  /// The tile
+  typedef typename LoadIterator::Tile Tile;
+
+  /// Shared memory allocation for the tile
+  typedef TileAllocation<typename StoreIterator::Scalar, typename StoreIterator::Tile>
+      ThreadblockTileStorage;
+
+  /// Tensor reference to threadblock tile
+  typedef typename ThreadblockTileStorage::TensorRef ThreadblockTileRef;
 
   /// The params.
   struct Params {
@@ -82,56 +96,73 @@ struct GlobalLoadStreamBase {
     typename LoadIterator::Params load_iterator;
     // The store iterator.
     typename StoreIterator::Params store_iterator;
+    // Offset to residue.
+    Index offset_to_residue;
 
     /// Setup the params.
-    template <typename GemmDesc_>
-    CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const& desc, Pointer pointer, Index ld) {
-      int error_code = load_iterator.initialize(desc, pointer, ld);
+    CUTLASS_HOST_DEVICE int initialize(Pointer pointer,
+                                       long long batch_stride,
+                                       Index ldm,
+                                       Index _offset_to_residue) {
+
+      offset_to_residue = _offset_to_residue;
+      int error_code = load_iterator.initialize(pointer, batch_stride, ldm);
       if (error_code) {
         return error_code;
       }
-
       return store_iterator.initialize();
     }
   };
 
-  /// The amount of storage in shared memory needed to store the tile.
-  typedef typename StoreIterator::SharedStorage SharedStoreStorage;
-
-  /// The storage in shared memory needed by that stream.
-  union SharedStorage {
-    // The load iterator.
-    typename LoadIterator::SharedStorage load_iterator;
-    // The store iterator.
-    SharedStoreStorage store_iterator;
-  };
+  /// Contains private storage in shared memory needed by the objects within this class. Note,
+  /// this is *NOT* the shared memory allocation for the GEMM threadblock tile. That necessarily
+  /// exists outside this class, as it is also needed by the warp-level shared=>RF stream.
+  struct SharedStorage {};
+
+  //
+  // Static member functions
+  //
+
+  /// Maps a coordinate in the GEMM's (K, N, M) coordinate system to global memory
+  CUTLASS_DEVICE static Coord<3> project_coordinate(Coord<3> const& coord, Index d_offset = 0) {
+    bool const kKstrided =
+        GemmMultiplicandTraits<typename LoadIterator::Tile, kOperand, kLayout>::kKstrided;
+    Coord<3> tile_coord = ProjectOperand<kOperand, kKstrided>::project(coord);
+    return make_Coord(
+        tile_coord[0] + d_offset, tile_coord[1], tile_coord[2] / LoadIterator::Tile::kC);
+  }
 
   /// Ctor.
-  CUTLASS_DEVICE GlobalLoadStreamBase(Params const& params,
-                                      SharedStorage& shared_storage,
-                                      Coord<3> const bounds,
-                                      Coord<3> const& block)
-      : load_iterator(params.load_iterator, bounds, block),
+  CUTLASS_DEVICE GlobalLoadStream(
+      Params const& _params,
+      SharedStorage& shared_storage,
+      ThreadblockTileRef const& threadblock_tile_ref,
+      Coord<3> const bounds,
+      Coord<3> const& _threadblock_offset)
+      : params(_params),
+        multiplicand_bounds(project_coordinate(bounds, 1)),
+        threadblock_offset(project_coordinate(_threadblock_offset)),
+        load_iterator(params.load_iterator,
+          project_coordinate(bounds, 1), /*multiplicant_bounds*/
+          project_coordinate(_threadblock_offset) /*threablock_offset*/),
         transformer(),
-        store_iterator(params.store_iterator, shared_storage.store_iterator)
-
+        store_iterator(params.store_iterator, threadblock_tile_ref.data())
   {
+    load_iterator.initialize_predicates(multiplicand_bounds, threadblock_offset);
     fetched_fragment.clear();
   }
 
+
   /// Load the data from shared memory to the fetch fragment.
-  CUTLASS_DEVICE void copy() { iterator_load(load_iterator, fetched_fragment); }
+  CUTLASS_DEVICE void copy() { load_iterator.load_post_increment(fetched_fragment); }
 
   /// Commit the data.
   CUTLASS_DEVICE void commit() {
     transformer.transform(fetched_fragment, transformed_fragment);
-    iterator_store(store_iterator, transformed_fragment);
+    store_iterator.store_post_increment(transformed_fragment);
     store_iterator.inc_stage();
   }
 
-  /// Move to the beginning of the residue code. That's a new code path in CUTLASS 1.0.1.
-  CUTLASS_DEVICE void move_to_residue(Index k) { load_iterator.move_to_residue(k); }
-
   /// Execute the residue code.
   CUTLASS_DEVICE void residue(Index k, bool skip_clear = false) {
     load_iterator.residue(k);
@@ -140,9 +171,43 @@ struct GlobalLoadStreamBase {
     }
   }
 
-  /// Rollback to the beginning of the GEMM-k dimension.
-  CUTLASS_DEVICE void rollback() { load_iterator.rollback(); }
+  /// Move to the residue portion.
+  CUTLASS_DEVICE void move_to_residue(Index k, Index kTileK) {
+    Index kResidue = k % kTileK;
+    if (kResidue) {
+      residue(kResidue);
+    }
+    load_iterator.add_pointer_offset(params.offset_to_residue * load_iterator.stride_advance());
+  }
+
+  /// Rollback to the beginning of the first tile
+  CUTLASS_DEVICE void rollback(void) {
+    load_iterator.initialize_predicates(multiplicand_bounds, threadblock_offset);
+
+    int const kBlock = kOperand == GemmOperand::kA
+                           ? (kLayout == MatrixLayout::kColumnMajor ? Tile::kH : Tile::kW)
+                           : (kLayout == MatrixLayout::kRowMajor ? Tile::kH : Tile::kW);
+
+    load_iterator.add_pointer_offset(-(params.offset_to_residue + kBlock) *
+                                     load_iterator.stride_advance());
+  }
+
+  /// Adds a Coord<3> to the underlying global load iterator
+  CUTLASS_DEVICE GlobalLoadStream &operator+=(Coord<3> const &offset) {
+    load_iterator += offset;
+    return *this;
+  }
 
+  //
+  // Data members
+  //
+
+  /// Parameters
+  Params params;
+  /// Multiplicand bounds
+  Coord<3> multiplicand_bounds;
+  /// Threadblock offset
+  Coord<3> threadblock_offset;
   /// The iterator.
   LoadIterator load_iterator;
   /// The fragment to fetch from shared memory.
@@ -155,28 +220,6 @@ struct GlobalLoadStreamBase {
   StoreIterator store_iterator;
 };
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-template <
-    /// The load iterator.
-    typename LoadIterator_,
-    /// The store iterator to copy to shared memory.
-    typename StoreIterator_,
-    /// The transformer to be applied after the data has been copied from global memory.
-    typename Transformer_ = Copy<typename LoadIterator_::Fragment> >
-
-struct GlobalLoadStream : public GlobalLoadStreamBase<LoadIterator_, StoreIterator_, Transformer_> {
-  /// The base class.
-  typedef GlobalLoadStreamBase<LoadIterator_, StoreIterator_, Transformer_> Base;
-
-  /// Ctor.
-  CUTLASS_DEVICE GlobalLoadStream(typename Base::Params const& params,
-                                  typename Base::SharedStorage& shared_storage,
-                                  Coord<3> const& bounds,
-                                  Coord<3> const& block)
-      : Base(params, shared_storage, bounds, block) {}
-};
-
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 }  // namespace gemm
 }  // namespace cutlass
diff --git a/cutlass/gemm/gemm_global_tile.h b/cutlass/gemm/gemm_global_tile.h
index 1cc3b3377a..a355ebea0e 100644
--- a/cutlass/gemm/gemm_global_tile.h
+++ b/cutlass/gemm/gemm_global_tile.h
@@ -27,14 +27,14 @@
 */
 #pragma once
 
-#include <cutlass/coord.h>
-#include <cutlass/util/platform.h>
+#include "cutlass/coord.h"
+#include "cutlass/util/platform.h"
 
-#include <cutlass/gemm/gemm_operand.h>
-#include <cutlass/matrix_traits.h>
-#include <cutlass/predicate_vector.h>
-#include <cutlass/reshape_tile.h>
-#include <cutlass/tile_iterator.h>
+#include "cutlass/gemm/gemm_operand.h"
+#include "cutlass/matrix_traits.h"
+#include "cutlass/predicate_vector.h"
+#include "cutlass/reshape_tile.h"
+#include "cutlass/tile_iterator.h"
 
 namespace cutlass {
 namespace gemm {
@@ -80,20 +80,24 @@ struct GemmGlobalTileTraits {
   static int const kAccessSize = kAccessSize_;
   /// The memory space.
   static MemorySpace::Kind const kMemorySpace = MemorySpace::kGlobal;
-
   /// The tile shape
-  typedef typename ReshapeTile<Tile_, kAccessSize_>::Tile Tile;
+  typedef Tile_ Tile;
+  /// The vectorized tile shape
+  typedef typename ReshapeTile<Tile_, kAccessSize_>::Tile VectorizedTile;
   /// The threads shape
-  typedef typename ReshapeThreads<Tile, Threads_>::Threads Threads;
+  typedef typename ReshapeThreads<VectorizedTile, Threads_>::Threads Threads;
   /// The relative offset between two elements in the H/W dimension in adjacent threads.
-  typedef Shape<1, 1, Tile::kC> ThreadsDelta;
-
+  typedef Shape<1, 1, VectorizedTile::kC> ThreadsDelta;
   /// The strides in each dimension between different loads/stores.
   typedef Shape<0, Threads::kH, Threads::kW * kAccessSize> Delta;
+
   /// Strides for immediate offset computation
   typedef Shape<0, 0, Threads::kW * ThreadsDelta::kW, kAccessSize> ImmediateOffsetStrides;
   /// The number of iterations needed to load/store the tile.
-  typedef Shape<1, Tile::kH / Threads::kH, Tile::kW / Threads::kW, Tile::kC / kAccessSize>
+  typedef Shape<1,
+                VectorizedTile::kH / Threads::kH,
+                VectorizedTile::kW / Threads::kW,
+                VectorizedTile::kC / kAccessSize>
       Iterations;
 
   typedef GemmMultiplicandTraits<Tile, kOperand, kLayout> MultiplicandTraits;
@@ -165,7 +169,6 @@ struct GemmGlobalIteratorAb
                               Index_> {
   /// This class.
   typedef GemmGlobalIteratorAb<TileTraits_, Index_> This_;  /// The base class.
-
   typedef TileLoadIterator<TileTraits_,
                            typename TileTraits_::Scalar,
                            TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH
@@ -175,6 +178,8 @@ struct GemmGlobalIteratorAb
       Base;
   /// The layout.
   static MatrixLayout::Kind const kLayout = TileTraits_::kLayout;
+  /// The tile
+  typedef typename TileTraits_::Tile Tile;
   /// Fragment type loaded by the iterator
   typedef typename Base::Fragment Fragment;
   /// The scalar.
@@ -195,8 +200,9 @@ struct GemmGlobalIteratorAb
 
   struct Params : public BaseParams {
     /// Initializes params to load a strip-mined tile, given pointer and stride_h.
-    template <typename GemmDesc_>
-    CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const& desc, Scalar const* ptr, Index stride_h) {
+    CUTLASS_HOST_DEVICE int initialize(Scalar const* ptr,
+                                       long long stride_d,
+                                       Index stride_h) {
       Index inc_d = 0;
       Index inc_advance = 0;
       // Move by some columns for each iteration in the H dimension.
@@ -221,99 +227,36 @@ struct GemmGlobalIteratorAb
                       (Base::Iterations::kH - 1) * inc_h;
       }
 
-      // The dimensions of the tile.
-      int const kH = TileTraits_::Tile::kH;
-      int const kW = TileTraits_::Tile::kW * TileTraits_::kAccessSize;
-
-      // Move to the residue.
-      Index const kBlock = kAdvance == IteratorAdvance::kH ? kH : kW;
-      // The jump in the gemm-k dimension.
-      Index const stride = kAdvance == IteratorAdvance::kH ? stride_h : 1;
-
-      // Compute the offset to the residue and how to "come" back.
-      Index const kResidue = desc.k % kBlock;
-      if (kResidue > 0) {
-        move_to_residue_offset = (desc.k - kResidue) * stride;
-      } else {
-        move_to_residue_offset = (desc.k - kBlock) * stride;
-      }
-
-      Base::Params::initialize(ptr, 0, stride_h, 1, inc_d, inc_h, 0, inc_advance);
+      Base::Params::initialize(
+          ptr, stride_d, stride_h, 1, inc_d, inc_h, 0, inc_advance);
       return 0;
     }
-
-    // The extra offset to control moving to the residue.
-    Index move_to_residue_offset;
   };
 
-  /// Ctor.
-  CUTLASS_DEVICE GemmGlobalIteratorAb(Params const& _params,
-                                      const Coord<3>& bounds,
-                                      const Coord<3>& block,
-                                      ThreadOffset thread_offset_func = ThreadOffset())
-      : params(_params) {
-    thread_offset = thread_offset_func();
-    // The column.
-    Index block_h = thread_offset[1];
-    // The contiguous dimension.
-    Index block_w = thread_offset[2];
-
-    // Add the blocks indices.
-    if (kAdvance == IteratorAdvance::kH) {
-      block_h += block[1];
-      block_w += block[2];
-
-    } else {
-      block_h += block[2];
-      block_w += block[1];
-    }
-
-    // Setup the pointer.
-    params.pointer += (block_h * params.stride_h + block_w);
-
-    // Initialize predicates
-    initialize_predicates(bounds, make_Coord(0, block_h, block_w));
-  }
-
-  /// The accessor.
-  CUTLASS_DEVICE void get(typename Base::AccessType& value, int d, int h, int w, int c) const {
-    int const imm =
-        ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(0, 0, w, c);
-    Load<Scalar, TileTraits_::kAccessSize, MemorySpace::kGlobal>::load(value, params.pointer, imm);
-  }
-
-  /// Increment the pointer in the H dimension.
-  CUTLASS_DEVICE void inc_h() { params.pointer += params.inc_h; }
-  /// Increment the pointer in the D dimension.
-  CUTLASS_DEVICE void inc_d() { params.pointer += params.inc_d; }
-  /// Increment the pointer to move to the next iteration.
-  CUTLASS_DEVICE void inc_advance() { params.pointer += params.inc_advance; }
+  /// Offset of an individual lane from the start of the tile
+  Coord<4> thread_offset;
+  /// The parameters
+  Params params;
+  /// The predicates.
+  PredicateVector predicates;
 
-  /// Initialize the predicates.
-  CUTLASS_DEVICE void initialize_predicates(const Coord<3>& bounds, const Coord<3>& block) {
+  CUTLASS_HOST_DEVICE void initialize_predicates(const Coord<3>& bounds, const Coord<3>& block_offset) {
     // Setup the masks to control loads.
     predicates.fill(0);
 
-    int bounds_h, bounds_w;
-    if (kAdvance == IteratorAdvance::kH) {
-      bounds_w = bounds[2] - block[2];
-      bounds_h = bounds[1];
-
-    } else {
-      bounds_w = bounds[1];
-      bounds_h = bounds[2] - block[1];
-    }
-
     // Fill in the bits of the predicate vector.
     for (int d = 0; d < Base::Iterations::kD; ++d) {
       for (int h = 0; h < Base::Iterations::kH; ++h) {
         for (int w = 0; w < Base::Iterations::kW; ++w) {
           for (int c = 0; c < Base::Iterations::kC; ++c) {
-            bool flag = w * Base::Delta::kW < bounds_w;
+            bool flag = w * Base::Delta::kW + thread_offset[2] + block_offset[2] < bounds[2];
             if (kAdvance == IteratorAdvance::kH) {
-              flag = flag && (h * Base::Delta::kH + d * Base::Delta::kD) < bounds_h;
+              flag =
+                  flag &&
+                  (h * Base::Delta::kH + d * Base::Delta::kD) + thread_offset[1] + block_offset[1] <
+                      bounds[1];
             } else {
-              flag = flag && (h * Base::Delta::kH) < bounds_h;
+              flag = flag && (h * Base::Delta::kH) + thread_offset[1] + block_offset[1] < bounds[1];
             }
             int const bit = ComputeOffsetFromShape<typename Base::Iterations>::get(d, h, w, c);
             predicates.set(bit, flag);
@@ -323,31 +266,44 @@ struct GemmGlobalIteratorAb
     }
   }
 
-  /// Move to residue portion.
-  CUTLASS_DEVICE void move_to_residue(Index k) {
-    // Store the pointer and the predicates.
-    stored_pointer = params.pointer;
-    stored_predicates = predicates;
-
-    // Move the pointer to the residue.
-    params.pointer += params.move_to_residue_offset;
+  /// Ctor.
+  CUTLASS_HOST_DEVICE GemmGlobalIteratorAb(Params const& _params,
+                                           const Coord<3>& bounds,
+                                           const Coord<3>& threadblock_offset,
+                                           ThreadOffset thread_offset_func = ThreadOffset())
+      : params(_params) {
+    thread_offset = thread_offset_func();
+    // Setup the pointer.
+    params.pointer += ((threadblock_offset[1] + thread_offset[1]) * params.stride_h +
+                       (threadblock_offset[2] + thread_offset[2]));
 
-    // The dimensions of the tile.
-    int const kH = TileTraits_::Tile::kH;
-    int const kW = TileTraits_::Tile::kW * TileTraits_::kAccessSize;
+  }
 
-    // The unrolling factor.
-    int const kUnroll = kAdvance == IteratorAdvance::kH ? kH : kW;
+  /// Increment the pointer in the W dimension.
+  CUTLASS_HOST_DEVICE void inc_w() { Base::inc_w(); }
+  /// Increment the pointer in the H dimension.
+  CUTLASS_HOST_DEVICE void inc_h() { params.pointer += params.inc_h; }
+  /// Increment the pointer in the D dimension.
+  CUTLASS_HOST_DEVICE void inc_d() { params.pointer += params.inc_d; }
+  /// Increment the pointer to move to the next iteration.
+  CUTLASS_HOST_DEVICE void inc_advance() { params.pointer += params.inc_advance; }
 
-    // Clear the predicates for the residue. TODO: We can do something smarter.
-    int const kResidue = (int)(k % (Index)kUnroll);
-    if (kResidue > 0) {
-      residue(kResidue);
-    }
+  /// Loads a single fragment element from memory
+  CUTLASS_HOST_DEVICE void load_element(
+      typename Base::AccessType& value, int d, int h, int w, int c) const {
+    int const offset =
+        ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(0, 0, w, c);
+    Load<Scalar,
+         Base::kAccessSize,
+         Base::kMemorySpace,
+         Base::kFragmentElementType,
+         typename Base::FragmentElement,
+         Base::Tile::kW,
+         Base::kAccessSize * sizeof(Scalar)>::load(value, params.pointer, offset);
   }
 
   /// That's the residue! Update the predicates.
-  CUTLASS_DEVICE void residue(Index k) {
+  CUTLASS_HOST_DEVICE void residue(Index k) {
     // The coordinates of the thread.
     Index block_h = thread_offset[1];
     // The contiguous dimension.
@@ -375,26 +331,63 @@ struct GemmGlobalIteratorAb
     }
   }
 
-  /// Rollback to beginning of first tile and initialize predicates.
-  CUTLASS_DEVICE void rollback() {
-    params.pointer = stored_pointer;
-    predicates = stored_predicates;
-  }
-
-  /// Is the iterator valid?
-  CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const {
+  /// Is the valid?
+  CUTLASS_HOST_DEVICE bool valid(int d, int h, int w, int c) const {
     int const bit = ComputeOffsetFromShape<typename Base::Iterations>::get(d, h, w, c);
     return predicates[bit];
   }
 
-  /// Offset of an individual lane from the start of the tile
-  Coord<4> thread_offset;
-  /// The parameters
-  Params params;
-  /// The pointer.
-  typename Base::Scalar const* stored_pointer;
-  /// The predicates.
-  PredicateVector predicates, stored_predicates;
+  /// Adds a vector offset to the iterator
+  CUTLASS_HOST_DEVICE GemmGlobalIteratorAb & operator+=(Coord<3> const &offset) {
+
+    long long _offset = offset.template dot<long long>(
+      make_Coord(params.stride_d, params.stride_h, params.stride_w)
+    );
+
+    params.pointer += _offset;
+    return *this;
+  }
+
+  CUTLASS_HOST_DEVICE void add_pointer_offset(Index offset) { params.pointer += offset; }
+
+  CUTLASS_HOST_DEVICE Index stride_advance(void) {
+    Index stride = params.stride_h;
+    if (kAdvance == IteratorAdvance::kW) {
+      stride = params.stride_w;
+    }
+    return stride;
+  }
+
+  template <typename Fragment>
+  CUTLASS_HOST_DEVICE void load_post_increment(Fragment& fragment) {
+    typename Base::FragmentIterator frag_iterator(fragment);
+    for (int d = 0; d < Base::Iterations::kD; ++d) {
+      for (int h = 0; h < Base::Iterations::kH; ++h) {
+        for (int w = 0; w < Base::Iterations::kW; ++w) {
+          for (int c = 0; c < Base::Iterations::kC; ++c) {
+            if (valid(d, h, w, c)) {
+              load_element(
+                  reinterpret_cast<typename Base::AccessType&>(frag_iterator.at(d, h, w, c)),
+                  d,
+                  h,
+                  w,
+                  c);
+            }
+          }
+          if (w < Base::Iterations::kW - 1) {
+            inc_w();
+          }
+        }
+        if (h < Base::Iterations::kH - 1) {
+          inc_h();
+        }
+      }
+      if (d < Base::Iterations::kD - 1) {
+        inc_d();
+      }
+    }
+    inc_advance();
+  }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
@@ -433,6 +426,8 @@ struct GemmGlobalIteratorCd : public TileIteratorBase<TileTraits_,
   struct Params {
     /// The pointer.
     Pointer pointer;
+    /// The stride in the D dimension
+    long long stride_d;
     /// The stride in the H dimension to setup the thread in the block.
     Index stride_h;
     /// The strides to increment the pointer.
@@ -443,17 +438,23 @@ struct GemmGlobalIteratorCd : public TileIteratorBase<TileTraits_,
     Index predicate_offset;
 
     /// Setup the params.
-    CUTLASS_HOST_DEVICE int initialize(
-        Pointer pointer, Index ld, Index bound, Index epilogue_stride_w, Index epilogue_delta_w) {
+    CUTLASS_HOST_DEVICE int initialize(Pointer pointer,
+                                       long long batch_stride,
+                                       Index ldm,
+                                       Index bound,
+                                       Index epilogue_stride_w,
+                                       Index epilogue_delta_w) {
       // The pointer.
       this->pointer = pointer;
+      // Stride per batch
+      stride_d = batch_stride;
       // Each column of the matrix.
-      stride_h = TileTraits_::ThreadsDelta::kH * ld;
+      stride_h = TileTraits_::ThreadsDelta::kH * ldm;
       // Each thread output 1 column per iteration. The stride between columns is given by the
       // number of scalars that are loaded per LDS for B.
-      inc_h = ld * TileTraits_::kStrideH;
+      inc_h = ldm * TileTraits_::kStrideH;
       inc_advance =
-          (ld - ld * TileTraits_::kStrideH * (Base::Iterations::kH - 1)) + epilogue_stride_w;
+          (ldm - ldm * TileTraits_::kStrideH * (Base::Iterations::kH - 1)) + epilogue_stride_w;
 
       predicate_offset = bound;
       predicate_inc_h = TileTraits_::kStrideH;
@@ -464,75 +465,173 @@ struct GemmGlobalIteratorCd : public TileIteratorBase<TileTraits_,
     }
   };
 
+  /// Parameters.
   Params params;
   /// Offset of an individual lane from the start of the tile
   Coord<4> thread_offset;
+  /// The predicates for the row.
+  cutlass::PredicateVector<Base::Iterations::kW> predicates;
 
   /// Ctor.
-  CUTLASS_DEVICE GemmGlobalIteratorCd() {}
+  CUTLASS_HOST_DEVICE GemmGlobalIteratorCd(Params const& _params,
+                                           const Coord<3>& bounds,
+                                           const Coord<3>& block_offset,
+                                           ThreadOffset thread_offset_func = ThreadOffset())
+      : params(_params) {
+    thread_offset = thread_offset_func();
+    // Prepare the vector of predicates.
+    for (int i = 0; i < Base::Iterations::kW; ++i) {
+      predicates.set(i, thread_offset[2] + i * Base::Delta::kW < bounds[2]);
+    }
+  }
 
   /// Ctor.
-  CUTLASS_DEVICE GemmGlobalIteratorCd(Params const& params,
-                                      const Coord<3>& bounds,
-                                      const Coord<3>& block,
-                                      int offset = 0,
-                                      int pred_offset = 0,
-                                      ThreadOffset thread_offset_func = ThreadOffset())
-      : params(params) {
+  CUTLASS_HOST_DEVICE GemmGlobalIteratorCd(Params const& _params,
+                                           const Coord<3>& bounds,
+                                           const Coord<3>& block,
+                                           int offset = 0,
+                                           int pred_offset = 0,
+                                           ThreadOffset thread_offset_func = ThreadOffset())
+      : params(_params) {
     thread_offset = thread_offset_func();
     // Each warp works on a different column of the tile.
     int const h = thread_offset[1] + block[1];
     // Each lane writes a different element.
     int const w = thread_offset[2] + block[2];
     // Setup the pointer.
-    this->params.pointer += ((h * params.stride_h + w) + offset);
+    params.pointer += ((h * params.stride_h + w) + offset);
 
     // Prepare the vector of predicates.
     for (int i = 0; i < Base::Iterations::kW; ++i) {
       predicates.set(i, w + i * Base::Delta::kW < bounds[2]);
     }
-    this->params.predicate_offset -= (h + pred_offset);
-  }
-
-  /// The accessor.
-  CUTLASS_DEVICE void get(typename Base::AccessType& value, int d, int h, int w, int c) const {
-    int const imm =
-        ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(0, 0, w, c);
-    Load<Scalar, TileTraits_::kAccessSize, MemorySpace::kGlobal>::load(value, params.pointer, imm);
+    params.predicate_offset -= (h + pred_offset);
   }
 
   /// Increment the pointer in the C dimension.
-  CUTLASS_DEVICE void inc_c() {}
+  CUTLASS_HOST_DEVICE void inc_c() {}
   /// Increment the pointer in the W dimension.
-  CUTLASS_DEVICE void inc_w() {}
+  CUTLASS_HOST_DEVICE void inc_w() {}
   /// Increment the pointer in the H dimension.
-  CUTLASS_DEVICE void inc_h() {
+  CUTLASS_HOST_DEVICE void inc_h() {
     params.pointer += params.inc_h;
     params.predicate_offset -= params.predicate_inc_h;
   }
   /// Increment the pointer in the D dimension.
-  CUTLASS_DEVICE void inc_d() {}
+  CUTLASS_HOST_DEVICE void inc_d() {}
   /// Increment the pointer to move to the next iteration.
-  CUTLASS_DEVICE void inc_advance() {
+  CUTLASS_HOST_DEVICE void inc_advance() {
     params.pointer += params.inc_advance;
-    this->params.predicate_offset -= params.predicate_inc_advance;
+    params.predicate_offset -= params.predicate_inc_advance;
   }
 
-  /// The accessor.
-  CUTLASS_DEVICE void set(typename Base::AccessType const& value, int d, int h, int w, int c) {
-    int const imm =
-        ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(0, 0, w, c);
-    Store<Scalar, TileTraits_::kAccessSize, MemorySpace::kGlobal>::store(
-        value, params.pointer, imm);
+  /// Adds a vector offset to the iterator
+  CUTLASS_HOST_DEVICE GemmGlobalIteratorCd & operator+=(Coord<3> const &offset) {
+    long long _offset = offset.template dot<long long>(
+      make_Coord(params.stride_d, params.stride_h, 1)
+    );
+    params.pointer += _offset;
+    return *this;
+  }
+
+  /// Loads a single fragment element from memory.
+  CUTLASS_HOST_DEVICE void load_element(
+      typename Base::AccessType& value, int d, int h, int w, int c) const {
+    int const offset =
+        ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(d, h, w, c);
+    Load<Scalar,
+         Base::kAccessSize,
+         Base::kMemorySpace,
+         Base::kFragmentElementType,
+         typename Base::FragmentElement,
+         Base::Tile::kW,
+         Base::kAccessSize * sizeof(Scalar)>::load(value, params.pointer, offset);
   }
 
-  /// Test the validity of the iterator.
-  CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const {
+  /// Stores a single fragment element into memory.
+  CUTLASS_HOST_DEVICE void store_element(
+      typename Base::AccessType const& value, int d, int h, int w, int c) {
+    int const offset =
+        ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(d, h, w, c);
+    Store<Scalar,
+          Base::kAccessSize,
+          Base::kMemorySpace,
+          Base::kFragmentElementType,
+          typename Base::FragmentElement,
+          Base::Tile::kW,
+          Base::kAccessSize * sizeof(Scalar)>::store(value, params.pointer, offset);
+  }
+
+  /// Test the validity of the
+  CUTLASS_HOST_DEVICE bool valid(int d, int h, int w, int c) const {
     return predicates.at(w) && params.predicate_offset > 0;
   }
 
-  /// The predicates for the row.
-  cutlass::PredicateVector<Base::Iterations::kW> predicates;
+  /// add pointer offset
+  CUTLASS_HOST_DEVICE void add_pointer_offset(Index offset) { params.pointer += offset; }
+
+  /// Loads and increments iterator
+  template <typename Fragment>
+  CUTLASS_HOST_DEVICE void load_post_increment(Fragment& fragment) {
+    typename Base::FragmentIterator frag_iterator(fragment);
+    for (int d = 0; d < Base::Iterations::kD; ++d) {
+      for (int h = 0; h < Base::Iterations::kH; ++h) {
+        for (int w = 0; w < Base::Iterations::kW; ++w) {
+          for (int c = 0; c < Base::Iterations::kC; ++c) {
+            if (valid(d, h, w, c)) {
+              load_element(
+                  reinterpret_cast<typename Base::AccessType&>(frag_iterator.at(d, h, w, c)),
+                  d,
+                  h,
+                  w,
+                  c);
+            }
+          }
+          if (w < Base::Iterations::kW - 1) {
+            inc_w();
+          }
+        }
+        if (h < Base::Iterations::kH - 1) {
+          inc_h();
+        }
+      }
+      if (d < Base::Iterations::kD - 1) {
+        inc_d();
+      }
+    }
+    inc_advance();
+  }
+
+  template <typename Fragment>
+  CUTLASS_HOST_DEVICE void store_post_increment(Fragment& fragment) {
+    typename Base::FragmentIterator frag_iterator(fragment);
+    for (int d = 0; d < Base::Iterations::kD; ++d) {
+      for (int h = 0; h < Base::Iterations::kH; ++h) {
+        for (int w = 0; w < Base::Iterations::kW; ++w) {
+          for (int c = 0; c < Base::Iterations::kC; ++c) {
+            if (valid(d, h, w, c)) {
+              store_element(
+                  reinterpret_cast<typename Base::AccessType&>(frag_iterator.at(d, h, w, c)),
+                  d,
+                  h,
+                  w,
+                  c);
+            }
+          }
+          if (w < Base::Iterations::kW - 1) {
+            inc_w();
+          }
+        }
+        if (h < Base::Iterations::kH - 1) {
+          inc_h();
+        }
+      }
+      if (d < Base::Iterations::kD - 1) {
+        inc_d();
+      }
+    }
+    inc_advance();
+  }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/cutlass/gemm/gemm_operand.h b/cutlass/gemm/gemm_operand.h
index 737f993f01..2b4dcdc916 100644
--- a/cutlass/gemm/gemm_operand.h
+++ b/cutlass/gemm/gemm_operand.h
@@ -28,9 +28,9 @@
 */
 #pragma once
 
-#include <cutlass/matrix_traits.h>
-#include <cutlass/reshape_tile.h>
-#include <cutlass/util/platform.h>
+#include "cutlass/matrix_traits.h"
+#include "cutlass/reshape_tile.h"
+#include "cutlass/util/platform.h"
 
 namespace cutlass {
 namespace gemm {
diff --git a/cutlass/gemm/gemm_shared_stream.h b/cutlass/gemm/gemm_shared_stream.h
index c6ff7bd973..df20bd6ca5 100644
--- a/cutlass/gemm/gemm_shared_stream.h
+++ b/cutlass/gemm/gemm_shared_stream.h
@@ -28,7 +28,8 @@
 */
 #pragma once
 
-#include <cutlass/gemm/gemm_shared_tile.h>
+#include "cutlass/tensor_ref.h"
+#include "cutlass/gemm/gemm_shared_tile.h"
 
 namespace cutlass {
 namespace gemm {
@@ -56,6 +57,11 @@ struct SharedLoadStream {
                 "");
   /// The output fragment.
   typedef TransformedFragment Fragment;
+  /// Scalar data type
+  typedef typename Iterator::Scalar Scalar;
+
+  /// Reference type to a tensor
+  typedef TensorRef<Scalar, 4> TensorRef;
 
   /// The params.
   struct Params {
@@ -73,29 +79,38 @@ struct SharedLoadStream {
   CUTLASS_DEVICE SharedLoadStream() {}
 
   /// Ctor.
-  CUTLASS_DEVICE SharedLoadStream(Params const &params, SharedStorage &shared_storage) {
-    this->initialize(params, shared_storage);
+  CUTLASS_DEVICE SharedLoadStream(Params const &params, TensorRef const &ref) {
+    this->initialize(params, ref);
   }
 
   /// Initialize the stream.
-  CUTLASS_DEVICE void initialize(Params const &params, SharedStorage &shared_storage) {
+  CUTLASS_DEVICE void initialize(Params const &params, TensorRef const &ref) {
     // The iterator.
-    iterator = Iterator(params.iterator, shared_storage);
+    iterator = Iterator(params.iterator, ref.data());
     // The transformer.
     transformer = Transformer();
   }
 
   /// Load the data from shared memory to the fetch fragment.
-  CUTLASS_DEVICE void copy(FetchedFragment &fetched) { shared_iterator_load(iterator, fetched); }
+  CUTLASS_DEVICE void copy() { iterator.load_post_increment(fetched[0]); }
 
   /// Load the data from shared memory to the fetch fragment.
-  CUTLASS_DEVICE void copy(int d, FetchedFragment &fetched) {
-    shared_iterator_load(iterator, fetched, d);
-  }
+  CUTLASS_DEVICE void copy(int step) { iterator.load(fetched[step % 2], step); }
+
+  /// Commit the data.
+  CUTLASS_DEVICE void commit() { transformer.transform(fetched[0], transformed[0]); }
 
   /// Commit the data.
-  CUTLASS_DEVICE void commit(FetchedFragment &fetched, TransformedFragment &transformed) {
-    transformer.transform(fetched, transformed);
+  CUTLASS_DEVICE void commit(int step) {
+    transformer.transform(fetched[step % 2], transformed[step % 2]);
+  }
+
+  /// Returns the fragment for the given step
+  CUTLASS_DEVICE TransformedFragment &fragment(int step = 0) { return transformed[step % 2]; }
+
+  /// Returns the fragment for the given step
+  CUTLASS_DEVICE TransformedFragment const &fragment(int step = 0) const {
+    return transformed[step % 2];
   }
 
   /// Increment the stage.
@@ -103,8 +118,12 @@ struct SharedLoadStream {
 
   /// The iterator.
   Iterator iterator;
+  /// Fetched fragment
+  FetchedFragment fetched[2];
   /// The transformer.
   Transformer transformer;
+  /// Transformed fragment
+  TransformedFragment transformed[2];
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/cutlass/gemm/gemm_shared_tile.h b/cutlass/gemm/gemm_shared_tile.h
index 7c61e02297..78fb1f2054 100644
--- a/cutlass/gemm/gemm_shared_tile.h
+++ b/cutlass/gemm/gemm_shared_tile.h
@@ -27,7 +27,7 @@
 */
 #pragma once
 
-#include <cutlass/gemm/gemm_operand.h>
+#include "cutlass/gemm/gemm_operand.h"
 
 namespace cutlass {
 namespace gemm {
diff --git a/cutlass/gemm/gemm_stream_pair.h b/cutlass/gemm/gemm_stream_pair.h
new file mode 100644
index 0000000000..0a6df15ed4
--- /dev/null
+++ b/cutlass/gemm/gemm_stream_pair.h
@@ -0,0 +1,251 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Defines a pair of GEMM tile streams
+*/
+#pragma once
+
+#include "cutlass/convert.h"
+#include "cutlass/matrix_traits.h"
+#include "cutlass/reshape_tile.h"
+#include "cutlass/tile_allocation.h"
+#include "cutlass/tile_iterator.h"
+
+#include "cutlass/gemm/clear_accumulators.h"
+#include "cutlass/gemm/gemm_config.h"
+#include "cutlass/gemm/gemm_global_stream.h"
+#include "cutlass/gemm/gemm_operand.h"
+#include "cutlass/gemm/gemm_shared_stream.h"
+#include "cutlass/gemm/threadblock_swizzle.h"
+
+namespace cutlass {
+namespace gemm {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Collect the global load streams for multiplicands.
+template <typename StreamA_, typename StreamB_, bool kResidueInProlog_>
+struct GlobalLoadStreamPair {
+  //
+  // Type definitions
+  //
+
+  /// Stream for A multiplicand
+  typedef StreamA_ StreamA;
+
+  /// Stream for B multiplicand
+  typedef StreamB_ StreamB;
+
+  /// Parameters object
+  struct Params {
+    /// Parameters object for StreamA
+    typename StreamA::Params stream_a;
+
+    /// Parameters object for StreamB
+    typename StreamB::Params stream_b;
+
+    /// Default constructor
+    CUTLASS_HOST_DEVICE
+    Params() {}
+
+    /// Constructs a global load stream pair Params object
+    CUTLASS_HOST_DEVICE
+    Params(typename StreamA::Params const &_params_A, typename StreamB::Params const &_params_B)
+        : stream_a(_params_A), stream_b(_params_B) {}
+  };
+
+  /// Assumes the A stream defines the index type
+  typedef typename StreamA::Index Index;
+
+  /// Shared memory allocation for threadblock-scoped GEMM tile
+  typedef ZipTileAllocation<typename StreamA::ThreadblockTileStorage,
+                              typename StreamB::ThreadblockTileStorage>
+      ThreadblockTileStorage;
+
+  /// ZipTensorRef to threadblock tiles
+  typedef typename ThreadblockTileStorage::TensorRef ThreadblockTileRef;
+
+  /// Defines a structure containing shared storage for each pair
+  struct SharedStorage {
+    typename StreamA::SharedStorage stream_a;
+    typename StreamB::SharedStorage stream_b;
+  };
+
+  //
+  // Data members
+  //
+
+  /// Stream for A multiplicand
+  StreamA stream_a;
+
+  /// Stream for B multiplicand
+  StreamB stream_b;
+
+  //
+  // Methods
+  //
+
+  /// Ctor.
+  CUTLASS_DEVICE GlobalLoadStreamPair(Params const &params,
+                                      SharedStorage &shared_storage,
+                                      ThreadblockTileRef const &threadblock_tile_ref,
+                                      Coord<3> const &bounds,
+                                      Coord<3> const &block_offset = make_Coord(0, 0, 0))
+      : stream_a(params.stream_a,
+                 shared_storage.stream_a,
+                 threadblock_tile_ref.first,
+                 bounds,
+                 block_offset),
+        stream_b(params.stream_b,
+                 shared_storage.stream_b,
+                 threadblock_tile_ref.second,
+                 bounds,
+                 block_offset) {}
+
+  CUTLASS_DEVICE
+  GlobalLoadStreamPair & operator+=(Coord<3> const offset) {
+    stream_a += offset;
+    stream_b += offset;
+    return *this;
+  }
+
+  /// Trigger the copies from shared memory to registers.
+  CUTLASS_DEVICE void copy() {
+    stream_a.copy();
+    stream_b.copy();
+  }
+
+  /// Commit the data.
+  CUTLASS_DEVICE void commit() {
+    stream_a.commit();
+    stream_b.commit();
+  }
+
+  /// Execute the residue code.
+  CUTLASS_DEVICE void residue(Index k, bool skip_clear = false) {
+    stream_a.residue(k, skip_clear);
+    stream_b.residue(k, skip_clear);
+  }
+
+  /// Move to residue.
+  CUTLASS_DEVICE void move_to_residue(Index k, Index kTileK) {
+    if (kResidueInProlog_) {
+      stream_a.move_to_residue(k, kTileK);
+      stream_b.move_to_residue(k, kTileK);
+    } else if (k < kTileK) {
+      residue(k, true);
+    }
+  }
+
+  /// Rollback to beginning of first tile.
+  CUTLASS_DEVICE void rollback(bool kRollback) {
+    if (kResidueInProlog_ && kRollback) {
+      stream_a.rollback();
+      stream_b.rollback();
+    }
+  }
+};
+
+/// Collect the global load streams for multiplicands.
+template <typename StreamA_, typename StreamB_>
+struct SharedStreamPair {
+  //
+  // Type definitions
+  //
+
+  /// Stream for A multiplicand
+  typedef StreamA_ StreamA;
+
+  /// Stream for B multiplicand
+  typedef StreamB_ StreamB;
+
+  /// Parameters object passed to load iterators
+  struct Params {
+    ///
+    typename StreamA::Params stream_a;
+
+    ///
+    typename StreamB::Params stream_b;
+  };
+
+  /// Shared memory allocation for threadblock-scoped GEMM tile
+  typedef ZipTensorRef<typename StreamA::TensorRef,
+                       typename StreamB::TensorRef >
+      ThreadblockTileRef;
+
+  //
+  // Data members
+  //
+
+  /// The stream for A.
+  StreamA stream_a;
+
+  /// The stream for B.
+  StreamB stream_b;
+
+  //
+  // Methods
+  //
+
+  /// Construct with the composable structure
+  CUTLASS_DEVICE SharedStreamPair(Params const &params, ThreadblockTileRef const &threadblock_tile_ref)
+      : stream_a(params.stream_a, threadblock_tile_ref.first),
+        stream_b(params.stream_b, threadblock_tile_ref.second) {}
+
+  /// Trigger the copies from shared memory to registers.
+  CUTLASS_DEVICE void copy(int step) {
+    stream_a.copy(step);
+    stream_b.copy(step);
+  }
+
+  /// Commit the data.
+  CUTLASS_DEVICE void commit(int step) {
+    stream_a.commit(step);
+    stream_b.commit(step);
+  }
+
+  /// The fragment A.
+  CUTLASS_DEVICE
+  typename StreamA::TransformedFragment const &fragment_a(int step) const {
+    return stream_a.fragment(step);
+  }
+
+  /// The fragment B.
+  CUTLASS_DEVICE
+  typename StreamB::TransformedFragment const &fragment_b(int step) const {
+    return stream_b.fragment(step);
+  }
+
+  /// Increment the stage.
+  CUTLASS_DEVICE void inc_stage() {
+    stream_a.inc_stage();
+    stream_b.inc_stage();
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namespace gemm
+}  // namespace cutlass
diff --git a/cutlass/gemm/gemm_traits.h b/cutlass/gemm/gemm_traits.h
index cb57c4d5cf..fd6efb4669 100644
--- a/cutlass/gemm/gemm_traits.h
+++ b/cutlass/gemm/gemm_traits.h
@@ -27,117 +27,27 @@
 */
 #pragma once
 
-#include <cutlass/convert.h>
-#include <cutlass/gemm/clear_accumulators.h>
-#include <cutlass/gemm/gemm_global_stream.h>
-#include <cutlass/gemm/gemm_operand.h>
-#include <cutlass/gemm/gemm_shared_stream.h>
-#include <cutlass/gemm/identity_block_swizzle.h>
-#include <cutlass/matrix_traits.h>
-#include <cutlass/reshape_tile.h>
-#include <cutlass/tile_iterator.h>
-
+#include "cutlass/convert.h"
+#include "cutlass/matrix_traits.h"
+#include "cutlass/reshape_tile.h"
+#include "cutlass/tile_allocation.h"
+#include "cutlass/tile_iterator.h"
+#include "cutlass/kernel_launch.h"
+
+#include "cutlass/gemm/clear_accumulators.h"
+#include "cutlass/gemm/gemm_config.h"
+#include "cutlass/gemm/gemm_desc.h"
+#include "cutlass/gemm/gemm_stream_pair.h"
+#include "cutlass/gemm/gemm_global_stream.h"
+#include "cutlass/gemm/gemm_operand.h"
+#include "cutlass/gemm/gemm_shared_stream.h"
+#include "cutlass/gemm/threadblock_swizzle.h"
+#include "cutlass/gemm/gemm.h"
 namespace cutlass {
 namespace gemm {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <
-    /// The scalar type for A.
-    typename ScalarA_,
-    /// The scalar type for B.
-    typename ScalarB_,
-    /// The scalar type for C.
-    typename ScalarC_,
-    /// The scalar type for D.
-    typename ScalarD_,
-    /// The output tile size for the GEMM KxNxM.
-    typename OutputTile_,
-    /// The functor to do the math.
-    typename MultiplyAdd_,
-    /// The number of scalars per LDG for A.
-    int kScalarsPerLdgA_,
-    /// The number of scalars per STS for A.
-    int kScalarsPerStsA_,
-    /// The number of scalars per LDG for A.
-    int kScalarsPerLdsA_,
-    /// The number of scalars per LDG for B.
-    int kScalarsPerLdgB_,
-    /// The number of scalars per STS for B.
-    int kScalarsPerStsB_,
-    /// The number of scalars per LDS for B.
-    int kScalarsPerLdsB_,
-    /// The number of scalars per LDG for C and STG for D.
-    int kScalarsPerLdgCAndStgD_,
-    /// The number of scalars per STS for D.
-    int kScalarsPerStsD_,
-    /// The number of scalars per LDS for D.
-    int kScalarsPerLdsD_,
-    /// The number of stages in shared memory to do single/double/triple-buffering.
-    int kStages_,
-    /// Do we do the residue in the prologue?
-    bool kResidueInPrologue_ = false>
-
-struct GemmConfig {
-  //
-  /// The scalar for A.
-  typedef ScalarA_ ScalarA;
-  /// The scalar for B.
-  typedef ScalarB_ ScalarB;
-  /// The scalar for C.
-  typedef ScalarC_ ScalarC;
-  /// The scalar for D.
-  typedef ScalarD_ ScalarD;
-
-  /// The tile.
-  typedef OutputTile_ OutputTile;
-  /// The functor to do D = A*B + C.
-  typedef MultiplyAdd_ MultiplyAdd;
-  /// The shape of the instruction.
-  typedef typename MultiplyAdd::InstructionShape InstructionShape;
-  /// The number of accumulators per warp.
-  typedef typename MultiplyAdd::AccumulatorsPerWarp AccumulatorsPerWarp;
-  /// The accumulators.
-  typedef typename MultiplyAdd::Accumulators Accumulators;
-
-  /// The number of warps.
-  typedef typename ShapeDiv<OutputTile, AccumulatorsPerWarp>::Shape Warps;
-  /// The default warp size (32 threads per warp).
-  static int const kWarpSize = cutlass::kWarpSize;
-  /// The numnber of threads.
-  static int const kThreads = ShapeCount<Warps>::kCount * kWarpSize;
-
-  /// The number of scalars per LDG/STS/LDS for A.
-  static int const kScalarsPerLdgA = kScalarsPerLdgA_;
-  static int const kScalarsPerStsA = kScalarsPerStsA_;
-  static int const kScalarsPerLdsA = kScalarsPerLdsA_;
-
-  /// The number of scalars per LDG/STS/LDS for B.
-  static int const kScalarsPerLdgB = kScalarsPerLdgB_;
-  static int const kScalarsPerStsB = kScalarsPerStsB_;
-  static int const kScalarsPerLdsB = kScalarsPerLdsB_;
-
-  /// The number of scalars per LDG for C.
-  static int const kScalarsPerLdgC = kScalarsPerLdgCAndStgD_;
-
-  /// The number of scalars per STS/LDS/STG for D.
-  static int const kScalarsPerStgD = kScalarsPerLdgCAndStgD_;
-  static int const kScalarsPerStsD = kScalarsPerStsD_;
-  static int const kScalarsPerLdsD = kScalarsPerLdsD_;
-
-  /// The number of accumulators that are going to be fed from one LDS A/B.
-  static int const kAccumulatorsPerLdsA = kScalarsPerLdsA / InstructionShape::kD;
-  static int const kAccumulatorsPerLdsB = kScalarsPerLdsB / InstructionShape::kD;
-
-  /// The number of stages in shared memory to implement double, triple, more-buffering.
-  static int const kStages = kStages_;
-
-  /// Do we do the residue in the prologue?
-  static bool const kResidueInPrologue = kResidueInPrologue_;
-};
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
 template <enum MatrixLayout::Kind, typename GemmConfig_>
 struct GemmTileTraitsHelperA {};
 
@@ -416,60 +326,6 @@ struct GemmTileTraitsHelperB<MatrixLayout::kRowMajor, GemmConfig_> {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename GemmTraits_, bool kResidueInPrologue_ = GemmTraits_::kResidueInPrologue>
-struct GemmResidue {
-  /// Move to residue portion.
-  template <bool kIsPrologue>
-  static CUTLASS_DEVICE void move_to_residue(typename GemmTraits_::GlobalLoadStreamA& stream_a,
-                                             typename GemmTraits_::GlobalLoadStreamB& stream_b,
-                                             typename GemmTraits_::Index k) {
-    // The new code path in CUTLASS 1.0.1: We treat the residue in the prologue so we can have
-    // complete main loops after that. It helps simplify the logic in the main loop.
-    if (kIsPrologue) {
-      stream_a.move_to_residue(k);
-      stream_b.move_to_residue(k);
-    }
-  }
-
-  /// Rollback to beginning of first tile and initialize predicates.
-  static CUTLASS_DEVICE void rollback(typename GemmTraits_::GlobalLoadStreamA& stream_a,
-                                      typename GemmTraits_::GlobalLoadStreamB& stream_b) {
-    stream_a.rollback();
-    stream_b.rollback();
-  }
-};
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-template <typename GemmTraits_>
-struct GemmResidue<GemmTraits_, false> {
-  /// Move to residue portion.
-  template <bool kIsPrologue>
-  static CUTLASS_DEVICE void move_to_residue(typename GemmTraits_::GlobalLoadStreamA& stream_a,
-                                             typename GemmTraits_::GlobalLoadStreamB& stream_b,
-                                             typename GemmTraits_::Index k) {
-    // The index.
-    typedef typename GemmTraits_::Index Index;
-    // By how much we unroll the main loop.
-    Index const kUnroll = static_cast<Index>(GemmTraits_::OutputTile::kD);
-
-    // Call the residue code. That's the same path as CUTLASS 1.0.0.
-    if (kIsPrologue && k < kUnroll) {
-      stream_a.residue(k, true);
-      stream_b.residue(k, true);
-    } else if (k <= kUnroll) {
-      stream_a.residue(k, false);
-      stream_b.residue(k, false);
-    }
-  }
-
-  /// Rollback to beginning of first tile and initialize predicates.
-  static CUTLASS_DEVICE void rollback(typename GemmTraits_::GlobalLoadStreamA& stream_a,
-                                      typename GemmTraits_::GlobalLoadStreamB& stream_b) {}
-};
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
 template <
     /// The GEMM configuration.
     typename GemmConfig_,
@@ -488,27 +344,27 @@ template <
     /// The index.
     typename Index_ = int,
     /// The tool used to clear accumulators.
-    typename ClearAccumulators_ = ClearAccumulators<typename GemmConfig_::Accumulators::Scalar> >
+    typename ClearAccumulators_ = ClearAccumulators<typename GemmConfig_::Accumulators::Element> >
 
 struct GemmTraits {
-  /// This class.
+  /// This traits
   typedef GemmTraits<GemmConfig_,
-                     GlobalLoadStreamA_,
-                     GlobalLoadStreamB_,
-                     SharedLoadStreamA_,
-                     SharedLoadStreamB_,
-                     Epilogue_,
-                     BlockSwizzle_,
-                     Index_,
-                     ClearAccumulators_>
-      This_;
+    GlobalLoadStreamA_,
+    GlobalLoadStreamB_,
+    SharedLoadStreamA_,
+    SharedLoadStreamB_,
+    Epilogue_,
+    BlockSwizzle_,
+    Index_,
+    ClearAccumulators_> This_;
+
+  /// The struct that consumes this Traits
+  typedef typename cutlass::gemm::Gemm<This_> KernelClass;
 
   /// The configuration.
   typedef GemmConfig_ GemmConfig;
   /// The output tile.
   typedef typename GemmConfig::OutputTile OutputTile;
-  /// Is the residue treated in the prologue?
-  static bool const kResidueInPrologue = GemmConfig::kResidueInPrologue;
 
   /// The stream to load A from global memory to shared memory.
   typedef GlobalLoadStreamA_ GlobalLoadStreamA;
@@ -544,18 +400,30 @@ struct GemmTraits {
   /// Clear the accumulators.
   typedef ClearAccumulators_ ClearAccumulators;
 
-  /// The params.
-  struct Params {
-    /// The dimensions of the GEMM.
-    Index m, n, k;
-    /// The params for the A stream.
-    typename GlobalLoadStreamA::Params global_stream_a;
-    /// The params for the B stream.
-    typename GlobalLoadStreamB::Params global_stream_b;
-    /// The params for the A stream from shared memory.
-    typename SharedLoadStreamA::Params shared_stream_a;
-    /// The params for the B stream from shared memory.
-    typename SharedLoadStreamB::Params shared_stream_b;
+  /// Assemble the global load streams for A/B.
+  typedef GlobalLoadStreamPair<GlobalLoadStreamA,
+                               GlobalLoadStreamB,
+                               GemmConfig::kResidueInProlog>
+      GlobalLoadStream;
+
+  /// Memory needed to store the threadblock-scoped GEMM tile
+  typedef typename GlobalLoadStream::ThreadblockTileStorage ThreadblockTileStorage;
+
+  /// Assemble the shared load streams for A/B.
+  typedef SharedStreamPair<SharedLoadStreamA, SharedLoadStreamB> SharedStream;
+
+  /// Parameters object constructable on the host.
+  struct Params : public KernelLaunchConfiguration {
+
+    /// GEMM problem size
+    GemmCoord problem_size;
+
+    /// Parameters object for the global load stream
+    typename GlobalLoadStream::Params global_to_shared_stream;
+
+    /// Parameters object for the shared load stream
+    typename SharedStream::Params shared_stream;
+
     /// The params for the epilogue.
     typename Epilogue::Params epilogue;
 
@@ -563,21 +431,36 @@ struct GemmTraits {
     template <typename GemmDesc_>
     CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const& desc) {
       // Set the problem size.
-      this->m = desc.m;
-      this->n = desc.n;
-      this->k = desc.k;
-
-      // Initialize the iterator for A.
-      int error_code =
-          global_stream_a.initialize(desc, reinterpret_cast<ScalarA const*>(desc.d_a), desc.lda);
-
+      problem_size = desc.problem_size;
+
+      // Compute grid dimensions
+      BlockSwizzle block_swizzle;
+      this->block = dim3(GemmConfig::kThreads);
+      this->grid = block_swizzle.get_grid_layout(
+        problem_size,
+        make_Coord_from_shape<OutputTile>());
+
+      // Compute offset to residue.
+      Index gemm_k = problem_size[0];
+      Index offset_to_residue = (gemm_k % OutputTile::kD) ? gemm_k - (gemm_k % OutputTile::kD) : 0;
+
+      // Initialize parameters objects for
+      int error_code = global_to_shared_stream.stream_a.initialize(
+        desc.A.data(),
+        desc.batch_stride_A,
+        desc.A.leading_dim(),
+        offset_to_residue
+      );
       if (error_code) {
         return error_code;
       }
 
-      // Initialize the iterator for B.
-      error_code =
-          global_stream_b.initialize(desc, reinterpret_cast<ScalarB const*>(desc.d_b), desc.ldb);
+      error_code = global_to_shared_stream.stream_b.initialize(
+        desc.B.data(),
+        desc.batch_stride_B,
+        desc.B.leading_dim(),
+        offset_to_residue
+      );
 
       if (error_code) {
         return error_code;
@@ -586,24 +469,81 @@ struct GemmTraits {
       // The epilogue.
       return epilogue.initialize(desc);
     }
-  };
 
-  // The storage for A.
-  template <typename GlobalLoadStream_, typename SharedLoadStream_>
-  union StreamSharedStorage {
-    // The storage needed by the global stream.
-    typename GlobalLoadStream_::SharedStorage global;
-    // The storage needed by the shared stream.
-    typename SharedLoadStream_::SharedStorage shared;
+    /// Helper to construct a GEMM params using a BLAS-like API
+    CUTLASS_HOST_DEVICE int initialize(Index m,
+                                       Index n,
+                                       Index k,
+                                       typename Epilogue::Scalar alpha,
+                                       ScalarA const* d_a,
+                                       Index lda,
+                                       ScalarB const* d_b,
+                                       Index ldb,
+                                       typename Epilogue::Scalar beta,
+                                       ScalarC const* d_c,
+                                       Index ldc,
+                                       ScalarD* d_d,
+                                       Index ldd) {
+      GemmDesc<ScalarA, ScalarB, ScalarC, ScalarD, typename Epilogue::Scalar> desc(
+        GemmCoord(k, n, m, 1),
+        alpha,
+        TensorRef<ScalarA const, 2>(d_a, lda),
+        TensorRef<ScalarB const, 2>(d_b, ldb),
+        beta,
+        TensorRef<ScalarC const, 2>(d_c, ldc),
+        TensorRef<ScalarD, 2>(d_d, ldd)
+      );
+
+      return this->initialize(desc);
+    }
+
+    /// Helper to construct a batched GEMM params
+    CUTLASS_HOST_DEVICE int initialize(Index m,
+                                       Index n,
+                                       Index k,
+                                       typename Epilogue::Scalar alpha,
+                                       ScalarA const* d_a,
+                                       Index lda,
+                                       long long int batch_stride_A,
+                                       ScalarB const* d_b,
+                                       Index ldb,
+                                       long long int batch_stride_B,
+                                       typename Epilogue::Scalar beta,
+                                       ScalarC const* d_c,
+                                       Index ldc,
+                                       long long int batch_stride_C,
+                                       ScalarD* d_d,
+                                       Index ldd,
+                                       long long int batch_stride_D,
+                                       Index batch_count) {
+
+      GemmDesc<ScalarA, ScalarB, ScalarC, ScalarD, typename Epilogue::Scalar> desc(
+        GemmCoord(k, n, m, batch_count),
+        alpha,
+        TensorRef<ScalarA const, 2>(d_a, lda),
+        batch_stride_A,
+        TensorRef<ScalarB const, 2>(d_b, ldb),
+        batch_stride_B,
+        beta,
+        TensorRef<ScalarC const, 2>(d_c, ldc),
+        batch_stride_C,
+        TensorRef<ScalarD, 2>(d_d, ldd),
+        batch_stride_D
+      );
+
+      return this->initialize(desc);
+    }
   };
 
   // The storage for the main loop + prologue.
   struct MainLoopSharedStorage {
-    // The storage to shuffle the A matrix in shared memory.
-    StreamSharedStorage<GlobalLoadStreamA, SharedLoadStreamA> stream_a;
-    // The storage to shuffle the B matrix in shared memory.
-    StreamSharedStorage<GlobalLoadStreamB, SharedLoadStreamB> stream_b;
-    // The storage to clear the accumulators if needed.
+    /// Stores the threadblock tile
+    ThreadblockTileStorage threadblock_tile;
+
+    /// Storage for GEMM global stream
+    typename GlobalLoadStream::SharedStorage global_to_shared_stream;
+
+    /// Storage for clearing accumulators
     typename ClearAccumulators::SharedStorage clear;
   };
 
@@ -615,108 +555,18 @@ struct GemmTraits {
     typename Epilogue::SharedStorage epilogue;
   };
 
-  /// Assemble the global load streams for A/B.
-  struct GlobalLoadStream {
-    /// Ctor.
-    CUTLASS_DEVICE GlobalLoadStream(Params const& params,
-                                    SharedStorage& shared_storage,
-                                    dim3 const& block)
-        : stream_a(params.global_stream_a,
-                   shared_storage.main_loop.stream_a.global,
-                   cutlass::make_Coord(0, params.k, params.m),
-                   cutlass::make_Coord(0, 0, block.x)),
-          stream_b(params.global_stream_b,
-                   shared_storage.main_loop.stream_b.global,
-                   cutlass::make_Coord(0, params.k, params.n),
-                   make_Coord(0, 0, block.y)) {}
-
-    /// Trigger the copies from shared memory to registers.
-    CUTLASS_DEVICE void copy() {
-      stream_a.copy();
-      stream_b.copy();
-    }
-
-    /// Commit the data.
-    CUTLASS_DEVICE void commit() {
-      stream_a.commit();
-      stream_b.commit();
-    }
-
-    /// Move to residue portion.
-    template <bool kIsPrologue>
-    CUTLASS_DEVICE void move_to_residue(Index k) {
-      GemmResidue<This_>::move_to_residue<kIsPrologue>(stream_a, stream_b, k);
-    }
-
-    /// Rollback to beginning of first tile and initialize predicates.
-    CUTLASS_DEVICE void rollback() { GemmResidue<This_>::rollback(stream_a, stream_b); }
-
-    /// The stream for A.
-    GlobalLoadStreamA stream_a;
-    /// The stream for B.
-    GlobalLoadStreamB stream_b;
-  };
-
-  /// Assemble the shared load stream for A/B.
-  struct SharedLoadStream {
-    /// Ctor.
-    CUTLASS_DEVICE SharedLoadStream(Params const& params, SharedStorage& shared_storage) {
-      stream_a.initialize(params.shared_stream_a, shared_storage.main_loop.stream_a.shared);
-      stream_b.initialize(params.shared_stream_b, shared_storage.main_loop.stream_b.shared);
-    }
-
-    /// Trigger the copies from shared memory to registers.
-    CUTLASS_DEVICE void copy(int step) {
-      stream_a.copy(step, fetched_a[step % 2]);
-      stream_b.copy(step, fetched_b[step % 2]);
-    }
-
-    /// Commit the data.
-    CUTLASS_DEVICE void commit(int step) {
-      stream_a.commit(fetched_a[step % 2], transformed_a[step % 2]);
-      stream_b.commit(fetched_b[step % 2], transformed_b[step % 2]);
-    }
-
-    /// The fragment A.
-    CUTLASS_DEVICE typename SharedLoadStreamA::Fragment const& fragment_a(int step) const {
-      return transformed_a[step % 2];
-    }
-
-    /// The fragment B.
-    CUTLASS_DEVICE typename SharedLoadStreamB::Fragment const& fragment_b(int step) const {
-      return transformed_b[step % 2];
-    }
-
-    /// Increment the stage.
-    CUTLASS_DEVICE void inc_stage() {
-      stream_a.inc_stage();
-      stream_b.inc_stage();
-    }
-
-    /// The stream for A.
-    SharedLoadStreamA stream_a;
-    /// The fragments to fetch A.
-    typename SharedLoadStreamA::FetchedFragment fetched_a[2];
-    /// The fragments to transform A.
-    typename SharedLoadStreamA::TransformedFragment transformed_a[2];
-    /// The stream for B.
-    SharedLoadStreamB stream_b;
-    /// The fragments to fetch B.
-    typename SharedLoadStreamB::FetchedFragment fetched_b[2];
-    /// The fragments to transform B.
-    typename SharedLoadStreamB::TransformedFragment transformed_b[2];
-  };
-
   /// The memory fence for shared loads.
   static CUTLASS_DEVICE void shared_load_fence(bool in_loop) {
     if (SharedLoadStreamA::Iterator::kRequiresLoadFence ||
         SharedLoadStreamB::Iterator::kRequiresLoadFence) {
-      __syncthreads();
+        __syncthreads();
     }
   }
 
   /// The memory fence for shared stores.
-  static CUTLASS_DEVICE void shared_store_fence(bool in_loop) { __syncthreads(); }
+  static CUTLASS_DEVICE void shared_store_fence(bool in_loop) {
+      __syncthreads();
+  }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
@@ -735,7 +585,10 @@ struct SimplifiedGemmTraitsHelper {
                             MemorySpace::kShared>
       SharedStoreIteratorA;
   /// The stream to load A from global memory to shared memory.
-  typedef GlobalLoadStream<GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA>
+  typedef GlobalLoadStream<GemmOperand::kA,
+                              GlobalLoadIteratorA,
+                              SharedStoreIteratorA,
+                              GlobalTransformerA>
       GlobalLoadStreamA;
 
   /// The global iterator to load B from global memory.
@@ -750,7 +603,10 @@ struct SimplifiedGemmTraitsHelper {
                             MemorySpace::kShared>
       SharedStoreIteratorB;
   /// The stream to load B from global memory to shared memory.
-  typedef GlobalLoadStream<GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB>
+  typedef GlobalLoadStream<GemmOperand::kB,
+                              GlobalLoadIteratorB,
+                              SharedStoreIteratorB,
+                              GlobalTransformerB>
       GlobalLoadStreamB;
 
   /// The iterator to load A from shared memory.
diff --git a/cutlass/gemm/hgemm_global_tile.h b/cutlass/gemm/hgemm_global_tile.h
index f14dbb311a..9d5ffe8508 100644
--- a/cutlass/gemm/hgemm_global_tile.h
+++ b/cutlass/gemm/hgemm_global_tile.h
@@ -29,10 +29,10 @@
 */
 #pragma once
 
-#include <cutlass/coord.h>
-#include <cutlass/gemm/gemm_global_tile.h>
-#include <cutlass/matrix_traits.h>
-#include <cutlass/reshape_tile.h>
+#include "cutlass/coord.h"
+#include "cutlass/gemm/gemm_global_tile.h"
+#include "cutlass/matrix_traits.h"
+#include "cutlass/reshape_tile.h"
 
 namespace cutlass {
 namespace gemm {
@@ -63,14 +63,14 @@ struct HgemmCrosswiseGlobalTileTraits : public GemmGlobalTileTraits<
   /// The threads.
   typedef typename Base::Threads Threads;
   /// The threads strides.
-  typedef Shape<1, 2, Base::Tile::kC> ThreadsDelta;
+  typedef Shape<1, 2, Base::VectorizedTile::kC> ThreadsDelta;
   /// The strides in each dimension between different loads/stores.
   typedef Shape<Base::Threads::kH * 2, 1, Base::Threads::kW, Base::kAccessSize> Delta;
   /// The number of iterations needed to load/store the tile.
-  typedef Shape<Base::Tile::kH / Base::Threads::kH / 2,
+  typedef Shape<Base::VectorizedTile::kH / Base::Threads::kH / 2,
                 2,
-                Base::Tile::kW / Base::Threads::kW,
-                Base::Tile::kC / Base::kAccessSize>
+                Base::VectorizedTile::kW / Base::Threads::kW,
+                Base::VectorizedTile::kC / Base::kAccessSize>
       Iterations;
   /// Computes the thread offset in (H, W) based on thread ID
   struct ThreadOffset {
diff --git a/cutlass/gemm/hgemm_multiply_add.h b/cutlass/gemm/hgemm_multiply_add.h
index ebbdd06e87..7217d82c58 100644
--- a/cutlass/gemm/hgemm_multiply_add.h
+++ b/cutlass/gemm/hgemm_multiply_add.h
@@ -28,9 +28,9 @@
 */
 #pragma once
 
-#include <cutlass/fragment.h>
+#include "cutlass/fragment.h"
 
-#include <cutlass/gemm/thread_multiply_add.h>
+#include "cutlass/gemm/thread_multiply_add.h"
 
 namespace cutlass {
 namespace gemm {
@@ -38,16 +38,18 @@ namespace gemm {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 /// Template performing matrix multiply-add operation within a thread
-template <typename AccumulatorsPerThread_, typename ThreadsPerWarp_>
-struct ThreadMultiplyAdd<AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half> {
+template <typename ThreadGemmShape_, typename ThreadsPerWarp_>
+struct ThreadMultiplyAdd<ThreadGemmShape_, ThreadsPerWarp_, half, half, half> {
   /// The shape of the instruction.
   typedef Shape<1, 1, 2, 1> InstructionShape;
   /// The number of accumulators per thread.
-  typedef AccumulatorsPerThread_ AccumulatorsPerThread;
+  typedef ThreadGemmShape_ ThreadGemmShape;
+  /// Aliased for compatibility. Will be removed for CUTLASS v2.0.
+  typedef ThreadGemmShape AccumulatorsPerThread;
   /// The number of threads per warp.
   typedef ThreadsPerWarp_ ThreadsPerWarp;
   /// The number of accumulators per warp.
-  typedef typename ShapeMul<AccumulatorsPerThread, ThreadsPerWarp>::Shape AccumulatorsPerWarp;
+  typedef typename ShapeMul<ThreadGemmShape, ThreadsPerWarp>::Shape AccumulatorsPerWarp;
   /// The type for A.
   typedef half ScalarA;
   /// The fragment for A.
@@ -88,9 +90,9 @@ struct ThreadMultiplyAdd<AccumulatorsPerThread_, ThreadsPerWarp_, half, half, ha
         int const k0 = (2 * j + 0) * (AccumulatorsPerThread::kW / 2) + i;
         int const k1 = (2 * j + 1) * (AccumulatorsPerThread::kW / 2) + i;
 
-        // Compute the product a[i] * b[j].H0_H0.
+        // Compute the product a[i] * b[j].low.
         d_half2[k0] = __hfma2(a_half2[i], __low2half2(b_half2[j]), c_half2[k0]);
-        // Compute the product a[i] * b[j].H1_H1.
+        // Compute the product a[i] * b[j].high.
         d_half2[k1] = __hfma2(a_half2[i], __high2half2(b_half2[j]), c_half2[k1]);
       }
     }
diff --git a/cutlass/gemm/hgemm_swizzle.h b/cutlass/gemm/hgemm_swizzle.h
index ebec0d4680..2ecd00881e 100644
--- a/cutlass/gemm/hgemm_swizzle.h
+++ b/cutlass/gemm/hgemm_swizzle.h
@@ -29,7 +29,7 @@
 #pragma once
 
 #include <cuda_fp16.h>
-#include <cutlass/fragment.h>
+#include "cutlass/fragment.h"
 
 namespace cutlass {
 namespace gemm {
diff --git a/cutlass/gemm/hgemm_traits.h b/cutlass/gemm/hgemm_traits.h
index b08645bf40..2261bb4b3e 100644
--- a/cutlass/gemm/hgemm_traits.h
+++ b/cutlass/gemm/hgemm_traits.h
@@ -27,18 +27,18 @@
 */
 #pragma once
 
-#include <cutlass/convert.h>
-#include <cutlass/reshape_tile.h>
-
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/gemm_epilogue.h>
-#include <cutlass/gemm/gemm_epilogue_traits.h>
-#include <cutlass/gemm/gemm_global_tile.h>
-#include <cutlass/gemm/gemm_shared_tile.h>
-#include <cutlass/gemm/gemm_traits.h>
-#include <cutlass/gemm/hgemm_global_tile.h>
-#include <cutlass/gemm/hgemm_multiply_add.h>
-#include <cutlass/gemm/hgemm_swizzle.h>
+#include "cutlass/convert.h"
+#include "cutlass/reshape_tile.h"
+
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/gemm_epilogue.h"
+#include "cutlass/gemm/gemm_epilogue_traits.h"
+#include "cutlass/gemm/gemm_global_tile.h"
+#include "cutlass/gemm/gemm_shared_tile.h"
+#include "cutlass/gemm/gemm_traits.h"
+#include "cutlass/gemm/hgemm_global_tile.h"
+#include "cutlass/gemm/hgemm_multiply_add.h"
+#include "cutlass/gemm/hgemm_swizzle.h"
 
 namespace cutlass {
 namespace gemm {
@@ -48,46 +48,52 @@ namespace gemm {
 template <
     /// The tile size for the GEMM KxNxM.
     typename OutputTile_,
-    /// The number of accumulators per thread.
-    typename AccumulatorsPerThread_,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_,
     /// The number of scalars per LDG for A.
     int kScalarsPerLdgA_ = 2,
     /// The number of scalars per LDG for B.
     int kScalarsPerLdgB_ = 2>
-struct HgemmConfig
-    : public GemmConfig<
-          /// The scalar type for A.
-          half,
-          /// The scalar type for B.
-          half,
-          /// The scalar type for C.
-          half,
-          /// The scalar type for D.
-          half,
-          /// The tile size for the GEMM KxNxM.
-          OutputTile_,
-          /// The functor to do the math in the main loop.
-          ThreadMultiplyAdd<AccumulatorsPerThread_, Shape<1, 4, 8>, half, half, half>,
-          /// The number of scalars per LDG for A.
-          kScalarsPerLdgA_,
-          /// The number of scalars per STS for A.
-          kScalarsPerLdgA_,
-          /// The number of scalars per LDS for A.
-          8,
-          /// The number of scalars per LDG for B.
-          kScalarsPerLdgB_,
-          /// The number of scalars per STS for B.
-          kScalarsPerLdgB_,
-          /// The number of scalars per LDS for B.
-          8,
-          /// The number of scalars per LDG for C and STG for D.
-          2,
-          /// The number of scalars per STS for D.
-          8,
-          /// The number of scalars per LDS for D.
-          2,
-          /// The number of stages in shared memory.
-          2> {};
+struct HgemmConfig : public GemmConfig<
+                         /// The scalar type for A.
+                         half,
+                         /// The scalar type for B.
+                         half,
+                         /// The scalar type for C.
+                         half,
+                         /// The scalar type for D.
+                         half,
+                         /// The tile size for the GEMM KxNxM.
+                         OutputTile_,
+                         /// The functor to do the math in the main loop.
+                         ThreadMultiplyAdd<ThreadGemmShape_, Shape<1, 4, 8>, half, half, half>,
+                         /// The number of scalars per LDG for A.
+                         kScalarsPerLdgA_,
+                         /// The number of scalars per STS for A.
+                         kScalarsPerLdgA_,
+                         /// The number of scalars per LDS for A.
+                         8,
+                         /// The number of scalars per LDG for B.
+                         kScalarsPerLdgB_,
+                         /// The number of scalars per STS for B.
+                         kScalarsPerLdgB_,
+                         /// The number of scalars per LDS for B.
+                         8,
+                         /// The number of scalars per LDG for C and STG for D.
+                         2,
+                         /// The number of scalars per STS for D.
+                         8,
+                         /// The number of scalars per LDS for D.
+                         2,
+                         /// The number of stages in shared memory.
+                         2,
+                         /// kResidueSeparate
+                         false,
+                         /// kResidueInPrologue
+                         true,
+                         /// kLaunchBounds
+                         false
+                         > {};
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
@@ -147,7 +153,6 @@ struct HgemmTileTraitsHelperA<MatrixLayout::kRowMajor, GemmConfig_>
       GemmConfig_::kScalarsPerLdgA>
       GlobalTileTraits;
 
-  /// The skew.
   static int const kSkewA = 128 / sizeof(half) / GlobalTileTraits::Threads::kW / 2;
 
   /// The traits class to build the iterator to store data to shared memory for A^T.
@@ -215,7 +220,6 @@ struct HgemmTileTraitsHelperB<MatrixLayout::kColumnMajor, GemmConfig_>
       GemmConfig_::kScalarsPerLdgB>
       GlobalTileTraits;
 
-  /// The skew for B.
   static int const kSkewB = 128 / sizeof(half) / GlobalTileTraits::Threads::kW / 2;
 
   /// The traits class to build the iterator to store data to shared memory for B^N.
@@ -266,8 +270,8 @@ template <
     typename OutputTile_,
     /// The functor to do the math in the epilogue.
     typename EpilogueFunctor_,
-    /// The number of accumulators per thread.
-    typename AccumulatorsPerThread_ = Shape<8, 8, 16>,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_,
     /// The number of halfs loaded in one LDG for A.
     int kScalarsPerLdgA_ = 2,
     /// The number of halfs loaded in one LDG for B.
@@ -276,8 +280,7 @@ template <
     typename Index_ = int>
 struct HgemmTraitsHelper {
   /// The HGEMM config.
-  typedef HgemmConfig<OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_>
-      GemmConfig;
+  typedef HgemmConfig<OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_> GemmConfig;
   /// The GEMM config for A.
   typedef HgemmTileTraitsHelperA<kLayoutA_, GemmConfig> GemmTileTraitsHelperA;
   /// The GEMM config for B.
@@ -296,7 +299,10 @@ struct HgemmTraitsHelper {
                             MemorySpace::kShared>
       SharedStoreIteratorA;
   /// The stream to load A from global memory to shared memory.
-  typedef GlobalLoadStream<GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA>
+  typedef GlobalLoadStream<GemmOperand::kA,
+                              GlobalLoadIteratorA,
+                              SharedStoreIteratorA,
+                              GlobalTransformerA>
       GlobalLoadStreamA;
 
   /// The iterator to load B from global memory.
@@ -312,7 +318,10 @@ struct HgemmTraitsHelper {
                             MemorySpace::kShared>
       SharedStoreIteratorB;
   /// The stream to load B from global memory to shared memory.
-  typedef GlobalLoadStream<GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB>
+  typedef GlobalLoadStream<GemmOperand::kB,
+                              GlobalLoadIteratorB,
+                              SharedStoreIteratorB,
+                              GlobalTransformerB>
       GlobalLoadStreamB;
 
   /// The iterator to load A from shared memory
@@ -354,8 +363,8 @@ template <
     typename OutputTile_ = Shape<8, 128, 128>,
     /// The functor to do the math in the epilogue.
     typename EpilogueFunctor_ = LinearScaling<half>,
-    /// The number of accumulators per thread.
-    typename AccumulatorsPerThread_ = Shape<8, 8, 16>,
+    /// Tile size for warp-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_ = Shape<8, 8, 16>,
     /// The number of halfs loaded in one LDG for A.
     int kScalarsPerLdgA_ = 2,
     /// The number of halfs loaded in one LDG for B.
@@ -367,7 +376,7 @@ template <
                                          kLayoutB_,
                                          OutputTile_,
                                          EpilogueFunctor_,
-                                         AccumulatorsPerThread_,
+                                         ThreadGemmShape_,
                                          kScalarsPerLdgA_,
                                          kScalarsPerLdgB_,
                                          Index_> >
diff --git a/cutlass/gemm/igemm_epilogue.h b/cutlass/gemm/igemm_epilogue.h
index 0d69980316..2ad24f32cc 100644
--- a/cutlass/gemm/igemm_epilogue.h
+++ b/cutlass/gemm/igemm_epilogue.h
@@ -28,13 +28,13 @@
 */
 #pragma once
 
-#include <cutlass/convert.h>
-#include <cutlass/fragment.h>
-#include <cutlass/gemm/gemm_global_stream.h>
-#include <cutlass/gemm/gemm_shared_stream.h>
-#include <cutlass/gemm/igemm_global_tile.h>
-#include <cutlass/reshape_tile.h>
-#include <cutlass/tile_iterator.h>
+#include "cutlass/convert.h"
+#include "cutlass/fragment.h"
+#include "cutlass/gemm/gemm_global_stream.h"
+#include "cutlass/gemm/gemm_shared_stream.h"
+#include "cutlass/gemm/igemm_global_tile.h"
+#include "cutlass/reshape_tile.h"
+#include "cutlass/tile_iterator.h"
 
 namespace cutlass {
 namespace gemm {
@@ -269,8 +269,8 @@ struct IgemmEpilogueTraits : public GemmEpilogueTraits<
                                  typename Helper_::SharedStoreIteratorD,
                                  // The shared store transformer for D.
                                  typename Helper_::SharedStoreTransformerD,
-                                 // The iterator to load D from shared memory.
-                                 typename Helper_::SharedLoadIteratorD,
+                                 // The stream to load D from shared memory.
+                                 typename Helper_::SharedLoadStreamD,
                                  // The iterations.
                                  typename Helper_::Iterations,
                                  // The strides between iterations.
@@ -294,9 +294,8 @@ struct IgemmEpilogue : public GemmEpilogue<GemmEpilogueTraits_> {
   /// Ctor.
   CUTLASS_DEVICE IgemmEpilogue(typename Base::Params const& params_,
                                typename Base::SharedStorage& shared_storage_,
-                               typename Base::Index m_,
-                               typename Base::Index n_)
-      : Base(params_, shared_storage_, m_, n_) {}
+                               Coord<3> const& _problem_size)
+      : Base(params_, shared_storage_, _problem_size) {}
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
@@ -309,9 +308,8 @@ struct IgemmEpilogue<GemmEpilogueTraits_, true> : public GemmEpilogue<GemmEpilog
   /// Ctor.
   CUTLASS_DEVICE IgemmEpilogue(typename Base::Params const& params_,
                                typename Base::SharedStorage& shared_storage_,
-                               typename Base::Index m_,
-                               typename Base::Index n_)
-      : Base(params_, shared_storage_, m_, n_) {}
+                               Coord<3> const& _problem_size)
+      : Base(params_, shared_storage_, _problem_size) {}
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/cutlass/gemm/igemm_global_tile.h b/cutlass/gemm/igemm_global_tile.h
index 3f594ac6ad..7a9c1573ae 100644
--- a/cutlass/gemm/igemm_global_tile.h
+++ b/cutlass/gemm/igemm_global_tile.h
@@ -32,9 +32,9 @@
 */
 #pragma once
 
-#include <cutlass/coord.h>
-#include <cutlass/gemm/gemm_global_tile.h>
-#include <cutlass/matrix_traits.h>
+#include "cutlass/coord.h"
+#include "cutlass/gemm/gemm_global_tile.h"
+#include "cutlass/matrix_traits.h"
 
 namespace cutlass {
 namespace gemm {
@@ -67,10 +67,10 @@ struct IgemmGlobalTileTraits : public GemmGlobalTileTraits<
   /// The strides in each dimension between different loads/stores.
   typedef Shape<Base::Threads::kH * 4, 1, Base::Threads::kW, Base::kAccessSize> Delta;
   /// The number of iterations needed to load/store the tile.
-  typedef Shape<Base::Tile::kH / Base::Threads::kH / 4,
+  typedef Shape<Base::VectorizedTile::kH / Base::Threads::kH / 4,
                 4,
-                Base::Tile::kW / Base::Threads::kW,
-                Base::Tile::kC / Base::kAccessSize>
+                Base::VectorizedTile::kW / Base::Threads::kW,
+                Base::VectorizedTile::kC / Base::kAccessSize>
       Iterations;
 
   /// Computes the thread offset in (H, W) based on thread ID
@@ -86,24 +86,11 @@ struct IgemmGlobalTileTraits : public GemmGlobalTileTraits<
 
  public:
   /// The threads strides.
-  typedef Shape<1, 4, Base::Tile::kC> ThreadsDelta;
+  typedef Shape<1, 4, Base::VectorizedTile::kC> ThreadsDelta;
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Deprecated. Please use IgemmGlobalTileTraits instead.
-
-template <GemmOperand::Kind kOperand_,
-          MatrixLayout::Kind kLayout_,
-          typename Scalar_,
-          typename Tile_,
-          typename Threads_,
-          int kAccessSize_>
-struct IgemmContiguousGlobalTileTraits
-    : public IgemmGlobalTileTraits<kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_> {};
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
 template <typename TileTraits_, typename Index_ = int>
 struct IgemmGlobalIteratorAb : public GemmGlobalIteratorAb<TileTraits_, Index_> {
   /// The base class.
@@ -114,11 +101,11 @@ struct IgemmGlobalIteratorAb : public GemmGlobalIteratorAb<TileTraits_, Index_>
   /// Constructor.
   CUTLASS_DEVICE IgemmGlobalIteratorAb(typename Base::Params const& _params,
                                        const Coord<3>& bounds,
-                                       const Coord<3>& block,
+                                       const Coord<3>& threadblock_offset,
                                        ThreadOffset thread_offset_func = ThreadOffset())
-      : Base(_params, bounds, block, thread_offset_func), in_residue_(false), mask_(0xffffffff) {
+      : Base(_params, bounds, threadblock_offset, thread_offset_func), mask_(0xffffffff) {
     // The number of elements read in a single iteration.
-    int const kBlock = TileTraits_::Tile::kW * TileTraits_::kAccessSize;
+    int const kBlock = TileTraits_::Tile::kW;
     // The residue.
     int const kResidue = (int)(bounds[1] % kBlock);
 
@@ -129,28 +116,12 @@ struct IgemmGlobalIteratorAb : public GemmGlobalIteratorAb<TileTraits_, Index_>
     }
   }
 
-  /// The accessor.
-  CUTLASS_DEVICE void get(typename Base::AccessType& value, int d, int h, int w, int c) const {
-    Base::get(value, d, h, w, c);
-    if (in_residue_) {
-      reinterpret_cast<uint32_t&>(value) &= mask_;
-    }
-  }
-
-  /// Move to residue portion.
-  CUTLASS_DEVICE void move_to_residue(typename Base::Index k) {
-    Base::move_to_residue(k);
-    in_residue_ = true;
-  }
-
-  /// Move back to the beginning of the first tile.
-  CUTLASS_DEVICE void rollback() {
-    Base::rollback();
-    in_residue_ = false;
+  CUTLASS_DEVICE void load_element(
+      typename Base::AccessType& value, int d, int h, int w, int c) const {
+    Base::load_element(value, d, h, w, c);
+    reinterpret_cast<uint32_t&>(value) &= mask_;
   }
 
-  /// Are we in the residue?
-  bool in_residue_;
   /// The mask to clean up the values.
   uint32_t mask_;
 };
diff --git a/cutlass/gemm/igemm_multiply_add.h b/cutlass/gemm/igemm_multiply_add.h
index 5a8baec533..5ff6c7c1b9 100644
--- a/cutlass/gemm/igemm_multiply_add.h
+++ b/cutlass/gemm/igemm_multiply_add.h
@@ -28,9 +28,9 @@
 */
 #pragma once
 
-#include <cutlass/fragment.h>
+#include "cutlass/fragment.h"
 
-#include <cutlass/gemm/thread_multiply_add.h>
+#include "cutlass/gemm/thread_multiply_add.h"
 
 namespace cutlass {
 namespace gemm {
@@ -38,16 +38,18 @@ namespace gemm {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 /// Template performing matrix multiply-add operation within a thread
-template <typename AccumulatorsPerThread_, typename ThreadsPerWarp_>
-struct ThreadMultiplyAdd<AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int> {
+template <typename ThreadGemmShape_, typename ThreadsPerWarp_>
+struct ThreadMultiplyAdd<ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int> {
   /// The shape of the instruction.
   typedef Shape<4, 1, 1> InstructionShape;
-  /// The number of accumulators per thread.
-  typedef AccumulatorsPerThread_ AccumulatorsPerThread;
+  /// Shape of the thread-level GEMM (K-by-N-by-M)
+  typedef ThreadGemmShape_ ThreadGemmShape;
+  /// Aliased for compatibility. Will be removed in CUTLASS v2.0
+  typedef ThreadGemmShape AccumulatorsPerThread;
   /// The number of threads per warp.
   typedef ThreadsPerWarp_ ThreadsPerWarp;
   /// The number of accumulators per warp.
-  typedef typename ShapeMul<AccumulatorsPerThread, ThreadsPerWarp>::Shape AccumulatorsPerWarp;
+  typedef typename ShapeMul<ThreadGemmShape, ThreadsPerWarp>::Shape AccumulatorsPerWarp;
   /// The type for A.
   typedef int8_t ScalarA;
   /// The fragment for A.
diff --git a/cutlass/gemm/igemm_swizzle.h b/cutlass/gemm/igemm_swizzle.h
index 77cf7118df..fbb68d1434 100644
--- a/cutlass/gemm/igemm_swizzle.h
+++ b/cutlass/gemm/igemm_swizzle.h
@@ -27,7 +27,7 @@
 */
 #pragma once
 
-#include <cutlass/fragment.h>
+#include "cutlass/fragment.h"
 
 namespace cutlass {
 namespace gemm {
@@ -82,6 +82,11 @@ struct IgemmSwizzle {
           int a2 = src_int[i2];
           int a3 = src_int[i3];
 
+          // // DEBUG.
+          // if (threadIdx.x == 0) {
+          //     printf("a=0x%08x 0x%08x 0x%08x 0x%08x\n", a0, a1, a2, a3);
+          // }
+
           int b0, b1, b2, b3, c0;
           asm volatile("prmt.b32 %0, %1, %2, 0x0040;" : "=r"(b0) : "r"(a0), "r"(a1));
           asm volatile("prmt.b32 %0, %1, %2, 0x0040;" : "=r"(c0) : "r"(a2), "r"(a3));
@@ -99,6 +104,11 @@ struct IgemmSwizzle {
           asm volatile("prmt.b32 %0, %1, %2, 0x0073;" : "=r"(c0) : "r"(a2), "r"(a3));
           asm volatile("prmt.b32 %0, %1, %2, 0x5410;" : "=r"(b3) : "r"(b3), "r"(c0));
 
+          // // DEBUG.
+          // if (threadIdx.x == 0) {
+          //     printf("b=0x%08x 0x%08x 0x%08x 0x%08x\n", b0, b1, b2, b3);
+          // }
+
           dst_int[i0] = b0;
           dst_int[i1] = b1;
           dst_int[i2] = b2;
diff --git a/cutlass/gemm/igemm_traits.h b/cutlass/gemm/igemm_traits.h
index 82f8de5cd0..5bceeda92e 100644
--- a/cutlass/gemm/igemm_traits.h
+++ b/cutlass/gemm/igemm_traits.h
@@ -29,18 +29,18 @@
 */
 #pragma once
 
-#include <cutlass/convert.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/gemm_epilogue.h>
-#include <cutlass/gemm/gemm_epilogue_traits.h>
-#include <cutlass/gemm/gemm_global_tile.h>
-#include <cutlass/gemm/gemm_shared_tile.h>
-#include <cutlass/gemm/gemm_traits.h>
-#include <cutlass/gemm/igemm_epilogue.h>
-#include <cutlass/gemm/igemm_global_tile.h>
-#include <cutlass/gemm/igemm_multiply_add.h>
-#include <cutlass/gemm/igemm_swizzle.h>
-#include <cutlass/reshape_tile.h>
+#include "cutlass/convert.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/gemm_epilogue.h"
+#include "cutlass/gemm/gemm_epilogue_traits.h"
+#include "cutlass/gemm/gemm_global_tile.h"
+#include "cutlass/gemm/gemm_shared_tile.h"
+#include "cutlass/gemm/gemm_traits.h"
+#include "cutlass/gemm/igemm_epilogue.h"
+#include "cutlass/gemm/igemm_global_tile.h"
+#include "cutlass/gemm/igemm_multiply_add.h"
+#include "cutlass/gemm/igemm_swizzle.h"
+#include "cutlass/reshape_tile.h"
 
 namespace cutlass {
 namespace gemm {
@@ -52,49 +52,52 @@ template <
     typename OutputTile_,
     /// The output type.
     typename ScalarD_,
-    /// The number of accumulators per thread.
-    typename AccumulatorsPerThread_>
-struct IgemmConfig
-    : public GemmConfig<
-          /// The scalar type for A.
-          int8_t,
-          /// The scalar type for B.
-          int8_t,
-          /// The scalar type for C.
-          ScalarD_,
-          /// The scalar type for D.
-          ScalarD_,
-          /// The tile size for the GEMM KxNxM.
-          OutputTile_,
-          /// The functor to do the math in the main loop.
-          ThreadMultiplyAdd<AccumulatorsPerThread_, Shape<1, 4, 8>, int8_t, int8_t, int>,
-          /// The number of scalars per LDG for A.
-          4,
-          /// The number of scalars per STS for A.
-          4,
-          /// The number of scalars per LDS for A.
-          16,
-          /// The number of scalars per LDG for B.
-          4,
-          /// The number of scalars per STS for B.
-          4,
-          /// The number of scalars per LDS for B.
-          16,
-          /// The number of scalars per LDG for C and STG for D.
-          1,
-          /// The number of scalars per STS for D.
-          4,
-          /// The number of scalars per LDS for D.
-          1,
-          /// The number of stages in shared memory.
-          2,
-          /// Enable the code path that deals with the residue in epilogue.
-          true> {};
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_>
+struct IgemmConfig : public GemmConfig<
+                         /// The scalar type for A.
+                         int8_t,
+                         /// The scalar type for B.
+                         int8_t,
+                         /// The scalar type for C.
+                         ScalarD_,
+                         /// The scalar type for D.
+                         ScalarD_,
+                         /// The tile size for the GEMM KxNxM.
+                         OutputTile_,
+                         /// The functor to do the math in the main loop.
+                         ThreadMultiplyAdd<ThreadGemmShape_, Shape<1, 4, 8>, int8_t, int8_t, int>,
+                         /// The number of scalars per LDG for A.
+                         4,
+                         /// The number of scalars per STS for A.
+                         4,
+                         /// The number of scalars per LDS for A.
+                         16,
+                         /// The number of scalars per LDG for B.
+                         4,
+                         /// The number of scalars per STS for B.
+                         4,
+                         /// The number of scalars per LDS for B.
+                         16,
+                         /// The number of scalars per LDG for C and STG for D.
+                         1,
+                         /// The number of scalars per STS for D.
+                         4,
+                         /// The number of scalars per LDS for D.
+                         1,
+                         /// The number of stages in shared memory.
+                         2,
+                         /// kResidueSeparate
+                         false,
+                         /// kResidueInPrologue
+                         false,
+                         /// kLaunchBounds
+                         false> {};
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename OutputTile_, typename AccumulatorsPerThread_>
-struct IgemmConfig<OutputTile_, int8_t, AccumulatorsPerThread_>
+template <typename OutputTile_, typename ThreadGemmShape_>
+struct IgemmConfig<OutputTile_, int8_t, ThreadGemmShape_>
     : public GemmConfig<
           /// The scalar type for A.
           int8_t,
@@ -107,7 +110,7 @@ struct IgemmConfig<OutputTile_, int8_t, AccumulatorsPerThread_>
           /// The tile size for the GEMM KxNxM.
           OutputTile_,
           /// The functor to do the math in the main loop.
-          ThreadMultiplyAdd<AccumulatorsPerThread_, Shape<1, 4, 8>, int8_t, int8_t, int>,
+          ThreadMultiplyAdd<ThreadGemmShape_, Shape<1, 4, 8>, int8_t, int8_t, int>,
           /// The number of scalars per LDG for A.
           4,
           /// The number of scalars per STS for A.
@@ -128,8 +131,12 @@ struct IgemmConfig<OutputTile_, int8_t, AccumulatorsPerThread_>
           4,
           /// The number of stages in shared memory.
           2,
-          /// Enable the code path that deals with the residue in epilogue.
-          true> {};
+          /// If true, separate mainloop is instantiated from residue
+          false,
+          /// Compute residue in prolog?
+          true,
+          /// Launch bounds?
+          false> {};
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
@@ -162,7 +169,7 @@ struct IgemmTileTraitsHelperA<MatrixLayout::kColumnMajor, GemmConfig_, Index_>
       GemmConfig_::kScalarsPerLdgA>
       GlobalTileTraits;
 
-  // The iterator.
+  /// The global load iterator.
   typedef GemmGlobalIteratorAb<GlobalTileTraits, Index_> GlobalLoadIterator;
 
   /// The traits class to build the iterator to store data to shared memory for A^N.
@@ -208,7 +215,7 @@ struct IgemmTileTraitsHelperA<MatrixLayout::kRowMajor, GemmConfig_, Index_> {
       GemmConfig_::kScalarsPerLdgA>
       GlobalTileTraits;
 
-  // The iterator.
+  /// The global load iterator.
   typedef IgemmGlobalIteratorAb<GlobalTileTraits, Index_> GlobalLoadIterator;
 
   /// The traits class to build the iterator to store data to shared memory for A^N.
@@ -281,7 +288,7 @@ struct IgemmTileTraitsHelperB<MatrixLayout::kColumnMajor, GemmConfig_, Index_> {
       GemmConfig_::kScalarsPerLdgB>
       GlobalTileTraits;
 
-  // The iterator.
+  /// The global load iterator.
   typedef IgemmGlobalIteratorAb<GlobalTileTraits, Index_> GlobalLoadIterator;
 
   /// The traits class to build the iterator to store data to shared memory for B^N.
@@ -345,7 +352,7 @@ struct IgemmTileTraitsHelperB<MatrixLayout::kRowMajor, GemmConfig_, Index_>
       GemmConfig_::kScalarsPerLdgB>
       GlobalTileTraits;
 
-  // The iterator.
+  /// The global load iterator.
   typedef GemmGlobalIteratorAb<GlobalTileTraits, Index_> GlobalLoadIterator;
 
   /// The traits class to build the iterator to store data to shared memory for B^N.
@@ -404,13 +411,13 @@ template <
     typename ScalarD_,
     /// The functor to do the math in the epilogue.
     typename EpilogueFunctor_,
-    /// The number of accumulators per thread.
-    typename AccumulatorsPerThread_ = Shape<32, 8, 8>,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_ = Shape<32, 8, 8>,
     /// The index.
     typename Index_ = int>
 struct IgemmTraitsHelper {
   /// The IGEMM config.
-  typedef IgemmConfig<OutputTile_, ScalarD_, AccumulatorsPerThread_> GemmConfig;
+  typedef IgemmConfig<OutputTile_, ScalarD_, ThreadGemmShape_> GemmConfig;
   /// The GEMM config for A.
   typedef IgemmTileTraitsHelperA<kLayoutA_, GemmConfig, Index_> GemmTileTraitsHelperA;
   /// The GEMM config for B.
@@ -418,7 +425,6 @@ struct IgemmTraitsHelper {
 
   /// The iterator to load A from global memory.
   typedef typename GemmTileTraitsHelperA::GlobalLoadIterator GlobalLoadIteratorA;
-
   /// The default transformer for A.
   typedef typename IgemmTransformerA<GemmTileTraitsHelperA::kLayout,
                                      GlobalLoadIteratorA>::Transformer GlobalTransformerA;
@@ -429,12 +435,14 @@ struct IgemmTraitsHelper {
                             MemorySpace::kShared>
       SharedStoreIteratorA;
   /// The stream to load A from global memory to shared memory.
-  typedef GlobalLoadStream<GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA>
+  typedef GlobalLoadStream<GemmOperand::kA,
+                              GlobalLoadIteratorA,
+                              SharedStoreIteratorA,
+                              GlobalTransformerA>
       GlobalLoadStreamA;
 
   /// The iterator to load B from global memory.
   typedef typename GemmTileTraitsHelperB::GlobalLoadIterator GlobalLoadIteratorB;
-
   // The default transformer for B.
   typedef typename IgemmTransformerB<GemmTileTraitsHelperB::kLayout,
                                      GlobalLoadIteratorB>::Transformer GlobalTransformerB;
@@ -445,7 +453,10 @@ struct IgemmTraitsHelper {
                             MemorySpace::kShared>
       SharedStoreIteratorB;
   /// The stream to load B from global memory to shared memory.
-  typedef GlobalLoadStream<GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB>
+  typedef GlobalLoadStream<GemmOperand::kB,
+                              GlobalLoadIteratorB,
+                              SharedStoreIteratorB,
+                              GlobalTransformerB>
       GlobalLoadStreamB;
 
   /// The iterator to load A from shared memory.
@@ -501,8 +512,8 @@ template <
     typename ScalarD_ = int,
     /// The functor to do the math in the epilogue.
     typename EpilogueFunctor_ = LinearScaling<typename IgemmEpilogueScalar<ScalarD_>::Scalar>,
-    /// The number of accumulators per thread.
-    typename AccumulatorsPerThread_ = Shape<32, 8, 8>,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_ = Shape<32, 8, 8>,
     /// The index.
     typename Index_ = int,
     /// The helper class.
@@ -511,7 +522,7 @@ template <
                                          OutputTile_,
                                          ScalarD_,
                                          EpilogueFunctor_,
-                                         AccumulatorsPerThread_,
+                                         ThreadGemmShape_,
                                          Index_> >
 struct IgemmTraits : public GemmTraits<
                          // The config.
diff --git a/cutlass/gemm/linear_scaling.h b/cutlass/gemm/linear_scaling.h
index 979c93f962..a12fc5f19f 100644
--- a/cutlass/gemm/linear_scaling.h
+++ b/cutlass/gemm/linear_scaling.h
@@ -1,3 +1,4 @@
+
 /***************************************************************************************************
  * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
  *
@@ -27,18 +28,31 @@
 */
 #pragma once
 
-#include <cutlass/fragment_multiply_add.h>
+#include "cutlass/fragment_multiply_add.h"
 
 namespace cutlass {
 namespace gemm {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+template <typename T>
+CUTLASS_DEVICE bool is_zero(T x) {
+  return x == T(0);
+}
+
+#if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)
+CUTLASS_DEVICE bool is_zero(half x) { return reinterpret_cast<int16_t&>(x) == int16_t(0); }
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 /// Functor to compute linear combination of fragments
-template <typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd<Scalar_> >
+template <typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd<Scalar_, Scalar_> >
 struct LinearScaling {
   // The scalar.
   typedef Scalar_ Scalar;
+  // The accumulator Type
+  typedef typename FragmentMultiplyAdd_::ScalarAccum ScalarAccum;
   // The adapater.
   typedef FragmentMultiplyAdd_ FragmentMultiplyAdd;
 
@@ -47,6 +61,21 @@ struct LinearScaling {
     /// The alpha/beta scaling params.
     Scalar alpha, beta;
 
+    //
+    // Methods
+    //
+
+    // Constructor
+    CUTLASS_HOST_DEVICE
+    Params(Scalar _alpha = 0, Scalar _beta = 0) : alpha(_alpha), beta(_beta) {}
+
+    /// Initialize the parameters
+    CUTLASS_HOST_DEVICE int initialize(Scalar _alpha, Scalar _beta) {
+      alpha = _alpha;
+      beta = _beta;
+      return 0;
+    }
+
     /// Initialize the parameters.
     template <typename GemmDesc_>
     CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const& desc) {
@@ -56,14 +85,53 @@ struct LinearScaling {
     }
   };
 
+  //
+  // Data members
+  //
+
+  Params params;
+
+  //
+  // Methods
+  //
+
   /// Ctor.
-  CUTLASS_DEVICE LinearScaling(Params const& params) : alpha(params.alpha), beta(params.beta) {}
+  CUTLASS_DEVICE LinearScaling() { }
+
+  /// Ctor.
+  CUTLASS_DEVICE LinearScaling(Params const& _params) : params(_params) {}
+
+  /// Method to determine whether the source accumulator matrix C is ever needed. This method
+  /// may always safely return true, though better performance is possible if the source accumulator
+  /// matrix is never loaded unnecessarily.
+  CUTLASS_DEVICE
+  bool source_required() const {
+    return !is_zero(params.beta);
+  }
 
   /// Evaluate the functor.
   template <typename FragmentA_, typename FragmentB_>
   CUTLASS_DEVICE void evaluate(FragmentA_ const& accum, FragmentB_& output) {
     FragmentMultiplyAdd mad;
-    mad.multiply(alpha, accum, output);
+    mad.multiply(params.alpha, accum, output);
+
+  }
+
+  /// Evaluate the functor, without using fragment in the API
+  template <typename ScalarAccum, typename ScalarOutput, int size>
+  CUTLASS_DEVICE void evaluate(ScalarAccum const *accum, ScalarOutput *output) {
+    Fragment<ScalarAccum, size> FragAccum;
+    Fragment<ScalarOutput, size> FragOutput;
+#pragma unroll
+    for (int i = 0; i < size; i++) {
+      FragAccum[i] = accum[i];
+      FragOutput[i] = output[i];
+    }
+    evaluate(FragAccum, FragOutput);
+#pragma unroll
+    for (int i = 0; i < size; i++) {
+      output[i] = FragOutput[i];
+    }
   }
 
   /// Evaluate the functor.
@@ -71,12 +139,28 @@ struct LinearScaling {
   CUTLASS_DEVICE void evaluate(FragmentA_ const& accum, FragmentB_ const& old, FragmentB_& output) {
     FragmentMultiplyAdd mad;
     FragmentB_ tmp;
-    mad.multiply(beta, old, tmp);
-    mad.multiply_add(alpha, accum, tmp, output);
+    mad.multiply(params.beta, old, tmp);
+    mad.multiply_add(params.alpha, accum, tmp, output);
   }
 
-  /// The alpha/beta scaling factors.
-  Scalar alpha, beta;
+  /// Evaluate the functor, without using fragment in the API
+  template <typename ScalarAccum, typename ScalarOutput, int size>
+  CUTLASS_DEVICE void evaluate(ScalarAccum const *accum, ScalarOutput const *old, ScalarOutput *output) {
+    Fragment<ScalarAccum, size> FragAccum;
+    Fragment<ScalarOutput, size> FragOutput;
+    Fragment<ScalarOutput, size> FragOld;
+#pragma unroll
+    for (int i = 0; i < size; i++) {
+      FragAccum[i] = accum[i];
+      FragOutput[i] = output[i];
+      FragOld[i] = old[i];
+    }
+    evaluate(FragAccum, FragOld, FragOutput);
+#pragma unroll
+    for (int i = 0; i < size; i++) {
+      output[i] = FragOutput[i];
+    }
+  }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/cutlass/gemm/linear_scaling_device_ptr.h b/cutlass/gemm/linear_scaling_device_ptr.h
new file mode 100644
index 0000000000..5dc845da4a
--- /dev/null
+++ b/cutlass/gemm/linear_scaling_device_ptr.h
@@ -0,0 +1,149 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Implements the BLAS linear scaling function alpha*AB + beta*C
+*/
+#pragma once
+
+#include "cutlass/cutlass.h"
+#include "cutlass/gemm/scalar_or_pointer.h"
+#include "cutlass/gemm/linear_scaling.h"
+
+namespace cutlass {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace gemm {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Functor to compute linear combination of fragments. This is intended to support passing scalars
+/// either by value from the host or by reference to device-side scalar elements. This is inspired
+/// by cuBLAS's device pointer mode.
+template <typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd<Scalar_, Scalar_> >
+struct LinearScalingDevicePtr : public LinearScaling<Scalar_, FragmentMultiplyAdd_> {
+
+  /// Linear Scaling class used
+  typedef LinearScaling<Scalar_, FragmentMultiplyAdd_> Base;
+
+  // The scalar.
+  typedef typename Base::Scalar Scalar;
+
+  /// The parameters.
+  class Params  {
+  private:
+    /// Alpha scalar
+    detail::ScalarOrPointer<Scalar> alpha_;
+
+    /// Beta sclaar
+    detail::ScalarOrPointer<Scalar> beta_;
+
+  public:
+    //
+    // Methods
+    //
+
+    // Constructor
+    CUTLASS_HOST_DEVICE
+    Params() {}
+
+    // Constructor
+    CUTLASS_HOST_DEVICE
+    Params(
+      Scalar alpha,
+      Scalar beta
+    ):
+      alpha_(alpha),
+      beta_(beta) {}
+
+    // Constructor
+    CUTLASS_HOST_DEVICE
+    Params(
+      Scalar const *alpha_ptr,
+      Scalar const *beta_ptr
+    ):
+      alpha_(alpha_ptr),
+      beta_(alpha_ptr) {}
+
+    /// Initialize the parameters
+    CUTLASS_HOST_DEVICE int initialize(
+      Scalar alpha,
+      Scalar beta) {
+
+      alpha_ = alpha;
+      beta_ = beta;
+
+      return 0;
+    }
+
+    /// Initialize the parameters
+    CUTLASS_HOST_DEVICE int initialize(
+      Scalar const *alpha,
+      Scalar const *beta) {
+
+      alpha_ = alpha;
+      beta_= beta;
+
+      return 0;
+    }
+
+    /// Initialize the parameters.
+    template <typename GemmDesc_>
+    CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const& desc) {
+
+      alpha_ = desc.alpha;
+      beta_ = desc.beta;
+
+      return 0;
+    }
+
+    /// Gets the alpha scalar
+    CUTLASS_HOST_DEVICE
+    Scalar alpha() const {
+      return alpha_;
+    }
+
+    /// Gets the beta scalar
+    CUTLASS_HOST_DEVICE
+    Scalar beta() const {
+      return beta_;
+    }
+  };
+
+  //
+  // Methods
+  //
+
+  /// Ctor.
+  CUTLASS_HOST_DEVICE LinearScalingDevicePtr(Params const& _params) {
+    this->params.alpha = _params.alpha();
+    this->params.beta = _params.beta();
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace gemm
+} // namespace cutlass
diff --git a/cutlass/gemm/scalar_or_pointer.h b/cutlass/gemm/scalar_or_pointer.h
new file mode 100644
index 0000000000..7c4b4b75d0
--- /dev/null
+++ b/cutlass/gemm/scalar_or_pointer.h
@@ -0,0 +1,129 @@
+
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Implements the BLAS linear scaling function alpha*AB + beta*C
+*/
+#pragma once
+
+#include "cutlass/cutlass.h"
+
+namespace cutlass {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace detail {
+
+/// Helper class defines an object  which operates as either a scalar or a pointer. If the pointer
+/// is non-null, it is dereferenced when the object is accessed.
+template <typename Scalar_>
+class ScalarOrPointer {
+public:
+  /// Underlying scalar type
+  typedef Scalar_ Scalar;
+
+private:
+  //
+  // Data members
+  //
+
+  /// Scalar value
+  Scalar scalar;
+
+  /// Pointer to use if non null
+  Scalar const *ptr;
+
+public:
+
+  //
+  // Methods
+  //
+
+  /// Default ctor
+  CUTLASS_HOST_DEVICE
+  ScalarOrPointer(): scalar(0), ptr(nullptr) {}
+
+  /// Object behaves as a scalar
+  CUTLASS_HOST_DEVICE
+  ScalarOrPointer(Scalar const &val): scalar(val), ptr(nullptr) {}
+
+  /// Object behaves as a scalar
+  CUTLASS_HOST_DEVICE
+  ScalarOrPointer(Scalar const *ptr_): scalar(0), ptr(ptr_) {}
+
+  /// Returns true if is pointer
+  CUTLASS_HOST_DEVICE
+  bool is_pointer() const {
+    return bool(ptr);
+  }
+
+  /// Gets the pointer value
+  CUTLASS_HOST_DEVICE
+  Scalar const *get_ptr() const {
+    return ptr;
+  }
+
+  /// Gets the pointer value
+  CUTLASS_HOST_DEVICE
+  Scalar get_scalar() const {
+    return scalar;
+  }
+
+  /// Assigns to a scalar and sets pointer to nullptr
+  CUTLASS_HOST_DEVICE
+  ScalarOrPointer &operator=(Scalar const &scalar_) {
+    scalar = scalar_;
+    ptr = nullptr;
+    return *this;
+  }
+
+  /// Assigns to a pointer value
+  CUTLASS_HOST_DEVICE
+  ScalarOrPointer &operator=(Scalar const *ptr_) {
+    ptr = ptr_;
+    return *this;
+  }
+
+  /// Access the element
+  CUTLASS_HOST_DEVICE
+  Scalar get() const {
+    if (ptr) {
+      return *ptr;
+    }
+    return scalar;
+  }
+
+  /// Accesses the element
+  CUTLASS_HOST_DEVICE
+  operator Scalar() const {
+    return get();
+  }
+};
+
+} // namespace detail
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
diff --git a/cutlass/gemm/sgemm_traits.h b/cutlass/gemm/sgemm_traits.h
index 66b7677486..8ce7f58e26 100644
--- a/cutlass/gemm/sgemm_traits.h
+++ b/cutlass/gemm/sgemm_traits.h
@@ -27,13 +27,13 @@
 */
 #pragma once
 
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/gemm_epilogue.h>
-#include <cutlass/gemm/gemm_epilogue_traits.h>
-#include <cutlass/gemm/gemm_global_tile.h>
-#include <cutlass/gemm/gemm_shared_tile.h>
-#include <cutlass/gemm/gemm_traits.h>
-#include <cutlass/gemm/thread_multiply_add.h>
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/gemm_epilogue.h"
+#include "cutlass/gemm/gemm_epilogue_traits.h"
+#include "cutlass/gemm/gemm_global_tile.h"
+#include "cutlass/gemm/gemm_shared_tile.h"
+#include "cutlass/gemm/gemm_traits.h"
+#include "cutlass/gemm/thread_multiply_add.h"
 
 namespace cutlass {
 namespace gemm {
@@ -43,46 +43,53 @@ namespace gemm {
 template <
     /// The tile size for the GEMM KxNxM.
     typename OutputTile_,
-    /// The number of accumulators per thread.
-    typename AccumulatorsPerThread_,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_,
     /// The number of scalars per LDG for A.
     int kScalarsPerLdgA_ = 1,
     /// The number of scalars per LDG for B.
-    int kScalarsPerLdgB_ = 1>
-struct SgemmConfig
-    : public GemmConfig<
-          /// The scalar type for A.
-          float,
-          /// The scalar type for B.
-          float,
-          /// The scalar type for C.
-          float,
-          /// The scalar type for D.
-          float,
-          /// The tile size for the GEMM KxNxM.
-          OutputTile_,
-          /// The functor to do the math in the main loop.
-          ThreadMultiplyAdd<AccumulatorsPerThread_, Shape<1, 4, 8>, float, float, float>,
-          /// The number of scalars per LDG for A.
-          kScalarsPerLdgA_,
-          /// The number of scalars per STS for A.
-          kScalarsPerLdgA_,
-          /// The number of scalars per LDS for A.
-          4,
-          /// The number of scalars per LDG for B.
-          kScalarsPerLdgB_,
-          /// The number of scalars per STS for B.
-          kScalarsPerLdgB_,
-          /// The number of scalars per LDS for B.
-          4,
-          /// The number of scalars per LDG for C and STG for D.
-          1,
-          /// The number of scalars per STS for D.
-          4,
-          /// The number of scalars per LDS for D.
-          1,
-          /// The number of stages in shared memory.
-          2> {};
+    int kScalarsPerLdgB_ = 1,
+    /// Whether to specify launch bounds
+    bool kLaunchBounds = true>
+struct SgemmConfig : public GemmConfig<
+                         /// The scalar type for A.
+                         float,
+                         /// The scalar type for B.
+                         float,
+                         /// The scalar type for C.
+                         float,
+                         /// The scalar type for D.
+                         float,
+                         /// The tile size for the GEMM KxNxM.
+                         OutputTile_,
+                         /// The functor to do the math in the main loop.
+                         ThreadMultiplyAdd<ThreadGemmShape_, Shape<1, 4, 8>, float, float, float>,
+                         /// The number of scalars per LDG for A.
+                         kScalarsPerLdgA_,
+                         /// The number of scalars per STS for A.
+                         kScalarsPerLdgA_,
+                         /// The number of scalars per LDS for A.
+                         4,
+                         /// The number of scalars per LDG for B.
+                         kScalarsPerLdgB_,
+                         /// The number of scalars per STS for B.
+                         kScalarsPerLdgB_,
+                         /// The number of scalars per LDS for B.
+                         4,
+                         /// The number of scalars per LDG for C and STG for D.
+                         1,
+                         /// The number of scalars per STS for D.
+                         4,
+                         /// The number of scalars per LDS for D.
+                         1,
+                         /// The number of stages in shared memory.
+                         2,
+                         /// kResidueSeparate
+                         false,
+                         /// kResidueInPrologue
+                         true,
+                         /// kLaunchBounds
+                         kLaunchBounds> {};
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
@@ -95,8 +102,8 @@ template <
     typename OutputTile_ = Shape<8, 128, 128>,
     /// The functor to use in the epilogue.
     typename EpilogueFunctor_ = LinearScaling<float>,
-    /// The number of accumulators per thread.
-    typename AccumulatorsPerThread_ = Shape<8, 8, 8>,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_ = Shape<8, 8, 8>,
     /// The number of floats loaded in one LDG for A.
     int kScalarsPerLdgA_ = 1,
     /// The number of floats loaded in one LDG for B.
@@ -105,7 +112,7 @@ template <
     typename Index_ = int,
     /// The SGEMM config.
     typename GemmConfig_ =
-        SgemmConfig<OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_>,
+        SgemmConfig<OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, false>,
     /// The traits class for the epilogue.
     typename GemmEpilogueTraits_ =
         SimplifiedGemmEpilogueTraits<GemmConfig_, EpilogueFunctor_, Index_> >
@@ -123,5 +130,43 @@ struct SgemmTraits : public SimplifiedGemmTraits<
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+/// Helper to define SGEMM traits using Launch Bounds
+template <
+    /// The layout for A.
+    MatrixLayout::Kind kLayoutA_,
+    /// The layout for B.
+    MatrixLayout::Kind kLayoutB_,
+    /// The output tile.
+    typename OutputTile_ = Shape<8, 128, 128>,
+    /// The functor to use in the epilogue.
+    typename EpilogueFunctor_ = LinearScaling<float>,
+    /// Tile size for thread-level GEMM (K-by-N-by-M)
+    typename ThreadGemmShape_ = Shape<8, 8, 8>,
+    /// The number of floats loaded in one LDG for A.
+    int kScalarsPerLdgA_ = 1,
+    /// The number of floats loaded in one LDG for B.
+    int kScalarsPerLdgB_ = 1,
+    /// The index.
+    typename Index_ = int,
+    /// The SGEMM config.
+    typename GemmConfig_ =
+        SgemmConfig<OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, true>,
+    /// The traits class for the epilogue.
+    typename GemmEpilogueTraits_ =
+        SimplifiedGemmEpilogueTraits<GemmConfig_, EpilogueFunctor_, Index_> >
+struct SgemmLBTraits : public SimplifiedGemmTraits<
+                         // The layout for A.
+                         kLayoutA_,
+                         // The layout for B.
+                         kLayoutB_,
+                         // The config.
+                         GemmConfig_,
+                         // The epilogue.
+                         GemmEpilogue<GemmEpilogueTraits_>,
+                         // The index.
+                         Index_> {};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 }  // namespace gemm
 }  // namespace cutlass
diff --git a/cutlass/gemm/thread_multiply_add.h b/cutlass/gemm/thread_multiply_add.h
index 20dca15965..b95dee58a0 100644
--- a/cutlass/gemm/thread_multiply_add.h
+++ b/cutlass/gemm/thread_multiply_add.h
@@ -27,7 +27,7 @@
 */
 #pragma once
 
-#include <cutlass/fragment.h>
+#include "cutlass/fragment.h"
 
 namespace cutlass {
 namespace gemm {
@@ -35,20 +35,23 @@ namespace gemm {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 /// Template performing matrix multiply-add operation within a thread
-template <typename AccumulatorsPerThread_,
+template <typename ThreadGemmShape_,
           typename ThreadsPerWarp_,
           typename ScalarA_,
           typename ScalarB_,
-          typename ScalarC_>
+          typename ScalarC_,
+          MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor>
 struct ThreadMultiplyAdd {
   /// The shape of the instruction.
   typedef Shape<1, 1, 1, 1> InstructionShape;
-  /// The number of accumulators per thread.
-  typedef AccumulatorsPerThread_ AccumulatorsPerThread;
+  /// The shape of a thread-leveel matrix multiply accumulate.
+  typedef ThreadGemmShape_ ThreadGemmShape;
+  /// Aliased to "AccumulatorsPerThread" for compatibility. Expect to be renamed in CUTLASS v2.0
+  typedef ThreadGemmShape AccumulatorsPerThread;
   /// The number of threads per warp.
   typedef ThreadsPerWarp_ ThreadsPerWarp;
   /// The number of accumulators per warp.
-  typedef typename ShapeMul<AccumulatorsPerThread, ThreadsPerWarp>::Shape AccumulatorsPerWarp;
+  typedef typename ShapeMul<ThreadGemmShape, ThreadsPerWarp>::Shape AccumulatorsPerWarp;
   /// The type for A.
   typedef ScalarA_ ScalarA;
   /// The fragment for A.
@@ -70,9 +73,18 @@ struct ThreadMultiplyAdd {
                                    FragmentB const& b,
                                    Accumulators const& c,
                                    Accumulators& d) {
-    for (int j = 0; j < AccumulatorsPerThread::kH; ++j) {
-      for (int i = 0; i < AccumulatorsPerThread::kW; ++i) {
-        d[j * AccumulatorsPerThread::kW + i] = a[i] * b[j] + c[j * AccumulatorsPerThread::kW + i];
+    if(kLayout_ == MatrixLayout::kColumnMajor) {
+      for (int j = 0; j < AccumulatorsPerThread::kH; ++j) {
+        for (int i = 0; i < AccumulatorsPerThread::kW; ++i) {
+          d[j * AccumulatorsPerThread::kW + i] = a[i] * b[j] + c[j * AccumulatorsPerThread::kW + i];
+        }
+      }
+    }
+    else {
+      for(int i = 0; i < AccumulatorsPerThread::kW; ++i) {
+        for(int j = 0; j < AccumulatorsPerThread::kH; ++j) {
+          d[i * AccumulatorsPerThread::kH + j] = a[i] * b[j] + c[i * AccumulatorsPerThread::kH + j];
+        }
       }
     }
   }
diff --git a/cutlass/gemm/threadblock_swizzle.h b/cutlass/gemm/threadblock_swizzle.h
new file mode 100644
index 0000000000..fe7a3be7f5
--- /dev/null
+++ b/cutlass/gemm/threadblock_swizzle.h
@@ -0,0 +1,387 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Defies functors for mapping blockIdx to partitions of the GEMM computation.
+*/
+#pragma once
+
+#include "cutlass/coord.h"
+#include "cutlass/gemm/gemm_coord.h"
+
+namespace cutlass {
+namespace gemm {
+
+struct swizzleDirection {
+  enum Kind { Boustrophedon, OneDirection };
+};
+// helper template function
+template <enum swizzleDirection::Kind>
+CUTLASS_DEVICE int getLinearIdx(int groups) {
+  // groupCols is not needed for OneDirection Swizzle
+  return blockIdx.y * gridDim.x + blockIdx.x;
+}
+template <>
+CUTLASS_DEVICE int getLinearIdx<swizzleDirection::Boustrophedon>(int groups) {
+  // reverse blockIdx.x for some columns
+  if ((blockIdx.y / groups) % 2 == 1)
+    return blockIdx.y * gridDim.x + (gridDim.x - blockIdx.x - 1);
+  else
+    return blockIdx.y * gridDim.x + blockIdx.x;
+}
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/*!@defgroup IdentityBlockSwizzle Identity Block Swizzle
+@{
+    Block Swizzle provides the mapping logic between a block in the physical memory of Matrix C and
+Thread Block
+    Identiy Block Swizzle effective maps blocks in leading dimension order (column major) with
+thread block
+    in leading dimension order (blockIdx.x)
+    blockIdx.z is mapped with batch_count for batched GEMM
+@}
+*/
+struct IdentityBlockSwizzle {
+  /// Ctor. aka ColumnMajorBlockSwizzle<1>
+  CUTLASS_HOST_DEVICE IdentityBlockSwizzle() {}
+
+  /// Swizzle the block index.
+  CUTLASS_DEVICE dim3 swizzle() { return blockIdx; }
+
+  ///
+  CUTLASS_HOST_DEVICE dim3 get_grid_layout(GemmCoord const &problem_size,
+                                           Coord<3> const &OutputTile) {
+    /*OutputTile and problem_size are both in KNM order*/
+    dim3 grid;
+    grid.x = (problem_size.m() + OutputTile[2] - 1) / OutputTile[2];
+    grid.y = (problem_size.n() + OutputTile[1] - 1) / OutputTile[1];
+    grid.z = problem_size.batch();
+    return grid;
+  }
+
+  ///
+  CUTLASS_DEVICE Coord<3> get_threadblock_offset(Coord<3> const &OutputTile) {
+    dim3 block = swizzle();
+    Coord<3> threadblock_offset =
+        make_Coord(0, block.y * OutputTile[1], block.x * OutputTile[2]);
+    return threadblock_offset;
+  }
+
+  ///
+  CUTLASS_DEVICE int get_batch_id() {
+    dim3 block = swizzle();
+    return block.z;
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/*
+ColumnMajorBlockSwizzle<1, OneDirection> is equivalent with IdentityBlockSwizzle
+groupCols has the effect of controlling the schedulling of thread blocks
+settings with different groupCols can contribute to the overall performance by affecting L2 cache
+hit rate
+
+consider a regular thread block mapping btween matrix C and different thread blocks
+note that C is column major, and the leading dimension of thread block id is blockIdx.x
+
+let's look at an example where gridIdx.x = 6, gridIdx.y = 7, gridIdx.z = 1
+(blockIdx.x, blockIdx.y)
+mapping between threadblockID and C matrix:
+-------------------------------------------------------
+(0,0) | (0,1) | (0,2) | (0,3) | (0,4) | (0,5) | (0,6) |
+-------------------------------------------------------
+(1,0) | (1,1) | (1,2) | (1,3) | (1,4) | (1,5) | (1,6) |
+-------------------------------------------------------
+(2,0) | (2,1) | (2,2) | (2,3) | (2,4) | (2,5) | (2,6) |
+-------------------------------------------------------
+(3,0) | (3,1) | (3,2) | (3,3) | (3,4) | (3,5) | (3,6) |
+-------------------------------------------------------
+(4,0) | (4,1) | (4,2) | (4,3) | (4,4) | (4,5) | (4,6) |
+-------------------------------------------------------
+(5,0) | (5,1) | (5,2) | (5,3) | (5,4) | (5,5) | (5,6) |
+-------------------------------------------------------
+
+A ColumnMajorBlockSwizzle<1, OneDirection> will imply the above order where threadblocks are
+launched in a column major
+
+A ColumnMajorBlockSwizzle<2, OneDirection> swizzles things a little,
+-------------------------------------------------------
+(0,0) | (3,0) | (0,2) | (3,2) | (0,4) | (3,4) | (0,6) |
+-------------------------------------------------------
+(0,1) | (3,1) | (0,3) | (3,3) | (0,5) | (3,5) | (1,6) |
+-------------------------------------------------------
+(1,0) | (4,0) | (1,2) | (4,2) | (1,4) | (4,4) | (2,6) |
+-------------------------------------------------------
+(1,1) | (4,1) | (1,3) | (4,3) | (1,5) | (4,5) | (3,6) |
+-------------------------------------------------------
+(2,0) | (5,0) | (2,2) | (5,2) | (2,4) | (5,4) | (4,6) |
+-------------------------------------------------------
+(2,1) | (5,1) | (2,3) | (5,3) | (2,5) | (5,5) | (5,6) |
+-------------------------------------------------------
+
+so in memory, it would apprear that we work on 2 columns at a time rather than 1
+Note that the index here really represent how each block maps to memory
+
+A ColumnMajorBlockSwizzle<1, Boustrophedon> is similar to ColumnMajorBlockSwizzle<1, OneDirection>
+except that every column flips the ordering against the previous one
+-------------------------------------------------------
+(0,0) | (5,1) | (0,2) | (5,3) | (0,4) | (5,5) | (0,6) |
+-------------------------------------------------------
+(1,0) | (4,1) | (1,2) | (4,3) | (1,4) | (4,5) | (1,6) |
+-------------------------------------------------------
+(2,0) | (3,1) | (2,2) | (3,3) | (2,4) | (3,5) | (2,6) |
+-------------------------------------------------------
+(3,0) | (2,1) | (3,2) | (2,3) | (3,4) | (2,5) | (3,6) |
+-------------------------------------------------------
+(4,0) | (1,1) | (4,2) | (1,3) | (4,4) | (1,5) | (4,6) |
+-------------------------------------------------------
+(5,0) | (0,1) | (5,2) | (0,3) | (5,4) | (0,5) | (5,6) |
+-------------------------------------------------------
+
+similarily, A ColumnMajorBlockSwizzle<2, Boustrophedon> looks like
+-------------------------------------------------------
+(0,0) | (3,0) | (2,3) | (5,3) | (0,4) | (3,4) | (5,6) |
+-------------------------------------------------------
+(0,1) | (3,1) | (2,2) | (5,2) | (0,5) | (3,5) | (4,6) |
+-------------------------------------------------------
+(1,0) | (4,0) | (1,3) | (4,3) | (1,4) | (4,4) | (3,6) |
+-------------------------------------------------------
+(1,1) | (4,1) | (1,2) | (4,2) | (1,5) | (4,5) | (2,6) |
+-------------------------------------------------------
+(2,0) | (5,0) | (0,3) | (3,3) | (2,4) | (5,4) | (1,6) |
+-------------------------------------------------------
+(2,1) | (5,1) | (0,2) | (3,2) | (2,5) | (5,5) | (0,6) |
+-------------------------------------------------------
+
+*/
+
+template <int groupCols, enum swizzleDirection::Kind swDirection>
+struct ColumnMajorBlockSwizzle {
+  /// Ctor.
+  CUTLASS_HOST_DEVICE ColumnMajorBlockSwizzle() {}
+
+  /// Swizzle the block index.
+  CUTLASS_DEVICE dim3 swizzle() {
+    assert(gridDim.z == 1);
+    int linearIdx = getLinearIdx<swDirection>(groupCols);
+    dim3 swizzledBlockIdx;
+    int currGroupCols = groupCols;
+    int prevGroupCols = groupCols;
+
+    if ((gridDim.y % groupCols != 0) && ((blockIdx.y + (gridDim.y % groupCols)) >= gridDim.y)) {
+      // last colmuns if gridDim.y is not divisble by groupCols
+      currGroupCols = gridDim.y % groupCols;
+    }
+
+    swizzledBlockIdx.x = (linearIdx / currGroupCols) % gridDim.x;
+    swizzledBlockIdx.y =
+        linearIdx % currGroupCols + prevGroupCols * (linearIdx / (prevGroupCols * gridDim.x));
+    swizzledBlockIdx.z = blockIdx.z;
+
+    return swizzledBlockIdx;
+  }
+
+  ///
+  CUTLASS_HOST_DEVICE dim3 get_grid_layout(GemmCoord const &problem_size,
+                                           Coord<3> const &OutputTile) {
+    dim3 grid;
+    grid.x = (problem_size.m() + OutputTile[2] - 1) / OutputTile[2];
+    grid.y = (problem_size.n() + OutputTile[1] - 1) / OutputTile[1];
+    grid.z = problem_size.batch();
+    return grid;
+  }
+
+  ///
+  CUTLASS_DEVICE Coord<3> get_threadblock_offset(Coord<3> const &OutputTile) {
+    dim3 block = swizzle();
+    Coord<3> threadblock_offset =
+        make_Coord(0, block.y * OutputTile[1], block.x * OutputTile[2]);
+    return threadblock_offset;
+  }
+
+  ///
+  CUTLASS_DEVICE int get_batch_id() {
+    dim3 block = swizzle();
+    return block.z;
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/*
+
+consider a regular thread block mapping btween matrix C and different thread blocks
+note that C is column major, and the leading dimension of thread block id is blockIdx.x
+
+let's look at an example where gridIdx.x = 6, gridIdx.y = 7, gridIdx.z = 1
+(blockIdx.x, blockIdx.y)
+mapping between threadblockID and C matrix:
+-------------------------------------------------------
+(0,0) | (0,1) | (0,2) | (0,3) | (0,4) | (0,5) | (0,6) |
+-------------------------------------------------------
+(1,0) | (1,1) | (1,2) | (1,3) | (1,4) | (1,5) | (1,6) |
+-------------------------------------------------------
+(2,0) | (2,1) | (2,2) | (2,3) | (2,4) | (2,5) | (2,6) |
+-------------------------------------------------------
+(3,0) | (3,1) | (3,2) | (3,3) | (3,4) | (3,5) | (3,6) |
+-------------------------------------------------------
+(4,0) | (4,1) | (4,2) | (4,3) | (4,4) | (4,5) | (4,6) |
+-------------------------------------------------------
+(5,0) | (5,1) | (5,2) | (5,3) | (5,4) | (5,5) | (5,6) |
+-------------------------------------------------------
+
+A RowMajorBlockSwizzle<1, OneDirection> will effectively transpose the map
+
+-----------------------------------------------
+(0,0) | (1,0) | (2,0) | (3,0) | (4,0) | (5,0) |
+-----------------------------------------------
+(0,1) | (1,1) | (2,1) | (3,1) | (4,1) | (5,1) |
+-----------------------------------------------
+(0,2) | (1,2) | (2,2) | (3,2) | (4,2) | (5,2) |
+-----------------------------------------------
+(0,3) | (1,3) | (2,3) | (3,3) | (4,3) | (5,3) |
+-----------------------------------------------
+(0,4) | (1,4) | (2,4) | (3,4) | (4,4) | (5,4) |
+---------------------------------------------
+(0,5) | (1,5) | (2,5) | (3,5) | (4,5) | (5,5) |
+-----------------------------------------------
+(0,6) | (1,6) | (2,6) | (3,6) | (4,6) | (5,6) |
+-----------------------------------------------
+
+It would aprear in memory we are working on 1 row at a time
+
+A ColumnMajorBlockSwizzle<2, OneDirection> swizzles things a little bit more
+-----------------------------------------------
+(0,0) | (1,3) | (2,0) | (3,3) | (4,0) | (5,3) |
+-----------------------------------------------
+(1,0) | (0,4) | (3,0) | (2,4) | (5,0) | (4,4) |
+-----------------------------------------------
+(0,1) | (1,4) | (2,1) | (3,4) | (4,1) | (5,4) |
+-----------------------------------------------
+(1,1) | (0,5) | (3,1) | (2,5) | (5,1) | (4,5) |
+-----------------------------------------------
+(0,2) | (1,5) | (2,2) | (3,5) | (4,2) | (5,5) |
+---------------------------------------------
+(1,2) | (0,6) | (3,2) | (2,6) | (5,2) | (4,6) |
+-----------------------------------------------
+(0,3) | (1,6) | (2,3) | (3,6) | (4,3) | (5,6) |
+-----------------------------------------------
+
+so in memory, it would apprear that we work on 2 rows at a time rather than 1 row
+Note that the index here really represent how each block maps to memory
+
+A RowMajorBlockSwizzle<1, Boustrophedon> is similar to RowMajorBlockSwizzle<1, OneDirection>
+except that every column flips the ordering against the previous one
+
+-----------------------------------------------
+(0,0) | (1,6) | (2,0) | (3,6) | (4,0) | (5,6) |
+-----------------------------------------------
+(0,1) | (1,5) | (2,1) | (3,5) | (4,1) | (5,5) |
+-----------------------------------------------
+(0,2) | (1,4) | (2,2) | (3,4) | (4,2) | (5,4) |
+-----------------------------------------------
+(0,3) | (1,3) | (2,3) | (3,3) | (4,3) | (5,3) |
+-----------------------------------------------
+(0,4) | (1,2) | (2,4) | (3,2) | (4,4) | (5,2) |
+---------------------------------------------
+(0,5) | (1,1) | (2,5) | (3,1) | (4,5) | (5,1) |
+-----------------------------------------------
+(0,6) | (1,0) | (2,6) | (3,0) | (4,6) | (5,0) |
+-----------------------------------------------
+
+similarily, A RowMajorBlockSwizzle<2, Boustrophedon> looks like
+-----------------------------------------------
+(0,0) | (1,3) | (2,3) | (3,6) | (4,0) | (5,3) |
+-----------------------------------------------
+(1,0) | (0,4) | (3,2) | (2,6) | (5,0) | (4,4) |
+-----------------------------------------------
+(0,1) | (1,4) | (2,2) | (3,5) | (4,1) | (5,4) |
+-----------------------------------------------
+(1,1) | (0,5) | (3,1) | (2,5) | (5,1) | (4,5) |
+-----------------------------------------------
+(0,2) | (1,5) | (2,1) | (3,4) | (4,2) | (5,5) |
+---------------------------------------------
+(1,2) | (0,6) | (3,0) | (2,4) | (5,2) | (4,6) |
+-----------------------------------------------
+(0,3) | (1,6) | (2,0) | (3,3) | (4,3) | (5,6) |
+-----------------------------------------------
+
+*/
+
+template <int groupRows, enum swizzleDirection::Kind swDirection>
+struct RowMajorBlockSwizzle {
+  /// Ctor.
+  CUTLASS_HOST_DEVICE RowMajorBlockSwizzle() {}
+
+  /// Swizzle the block index.
+  CUTLASS_DEVICE dim3 swizzle() {
+    assert(gridDim.z == 1);
+    int linearIdx = getLinearIdx<swDirection>(groupRows);
+    dim3 swizzledBlockIdx;
+    int currGroupRows = groupRows;
+    int prevGroupRows = groupRows;
+
+    if ((gridDim.y % groupRows != 0) && ((blockIdx.y + (gridDim.y % groupRows)) >= gridDim.y)) {
+      // last columns
+      currGroupRows = gridDim.y % groupRows;
+    }
+
+    swizzledBlockIdx.x =
+        linearIdx % currGroupRows + prevGroupRows * (linearIdx / (prevGroupRows * gridDim.x));
+    swizzledBlockIdx.y = (linearIdx / currGroupRows) % gridDim.x;
+    swizzledBlockIdx.z = blockIdx.z;
+
+    return swizzledBlockIdx;
+  }
+
+  ///
+  CUTLASS_HOST_DEVICE dim3 get_grid_layout(GemmCoord const &problem_size,
+                                           Coord<3> const &OutputTile) {
+    dim3 grid;
+    grid.x = (problem_size.n() + OutputTile[1] - 1) / OutputTile[1];
+    grid.y = (problem_size.m() + OutputTile[2] - 1) / OutputTile[2];
+    grid.z = problem_size.batch();
+    return grid;
+  }
+
+  ///
+  CUTLASS_DEVICE Coord<3> get_threadblock_offset(Coord<3> const &OutputTile) {
+    dim3 block = swizzle();
+    Coord<3> threadblock_offset =
+        make_Coord(0, block.y * OutputTile[1], block.x * OutputTile[2]);
+    return threadblock_offset;
+  }
+
+  ///
+  CUTLASS_DEVICE int get_batch_id() {
+    dim3 block = swizzle();
+    return block.z;
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namespace gemm
+}  // namespace cutlass
diff --git a/cutlass/gemm/wmma_gemm_epilogue_traits.h b/cutlass/gemm/wmma_gemm_epilogue_traits.h
index 0fafacf90e..f35264dda1 100644
--- a/cutlass/gemm/wmma_gemm_epilogue_traits.h
+++ b/cutlass/gemm/wmma_gemm_epilogue_traits.h
@@ -27,18 +27,18 @@
 */
 #pragma once
 
-#include <cutlass/wmma_matrix.h>
+#include "cutlass/wmma_matrix.h"
 #ifdef CUTLASS_USE_WMMA_API
 
-#include <cutlass/convert.h>
-#include <cutlass/coord.h>
-#include <cutlass/gemm/gemm_global_stream.h>
-#include <cutlass/gemm/gemm_shared_stream.h>
-#include <cutlass/gemm/linear_scaling.h>
-#include <cutlass/gemm/wmma_gemm_global_tile.h>
-#include <cutlass/gemm/wmma_gemm_shared_tile.h>
-#include <cutlass/reshape_tile.h>
-#include <cutlass/tile_iterator.h>
+#include "cutlass/convert.h"
+#include "cutlass/coord.h"
+#include "cutlass/gemm/gemm_global_stream.h"
+#include "cutlass/gemm/gemm_shared_stream.h"
+#include "cutlass/gemm/linear_scaling.h"
+#include "cutlass/gemm/wmma_gemm_global_tile.h"
+#include "cutlass/gemm/wmma_gemm_shared_tile.h"
+#include "cutlass/reshape_tile.h"
+#include "cutlass/tile_iterator.h"
 
 namespace cutlass {
 namespace gemm {
@@ -89,7 +89,7 @@ struct WmmaGemmEpilogueTraitsHelper {
                             MemorySpace::kShared,
                             Index_,
                             WmmaMatrix,
-                            IteratorFragment::kWmmaMatrix>
+                            FragmentElementType::kWmmaMatrix>
       SharedStoreIteratorD;
 
   /// The shared store transformer for D.
@@ -114,6 +114,9 @@ struct WmmaGemmEpilogueTraitsHelper {
                            MemorySpace::kShared>
       SharedLoadIteratorD;
 
+  /// The stream to load D.
+  typedef SharedLoadStream<SharedLoadIteratorD> SharedLoadStreamD;
+
   /// The traits class to build the iterator to load data from global memory for C^N.
   typedef WmmaGemmGlobalIteratorCdTraits<
       // The pointer is float const.
diff --git a/cutlass/gemm/wmma_gemm_global_tile.h b/cutlass/gemm/wmma_gemm_global_tile.h
index dbd57f6b5b..ce369d0ebb 100644
--- a/cutlass/gemm/wmma_gemm_global_tile.h
+++ b/cutlass/gemm/wmma_gemm_global_tile.h
@@ -27,7 +27,7 @@
 */
 #pragma once
 
-#include <cutlass/gemm/gemm_global_tile.h>
+#include "cutlass/gemm/gemm_global_tile.h"
 
 namespace cutlass {
 namespace gemm {
@@ -68,22 +68,13 @@ struct WmmaGemmGlobalIteratorCdTraits : public GemmGlobalTileTraits<GemmOperand:
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 template <typename TileTraits_, typename Index_ = int>
-struct WmmaGemmGlobalIteratorCd : public TileIteratorBase<TileTraits_,
-                                                          typename TileTraits_::Scalar,
-                                                          IteratorAdvance::kH,
-                                                          MemorySpace::kGlobal,
-                                                          Index_> {
+struct WmmaGemmGlobalIteratorCd : public GemmGlobalIteratorCd<TileTraits_, Index_> {
   /// This class.
   typedef WmmaGemmGlobalIteratorCd<TileTraits_, Index_> This_;
   /// The traits.
   typedef TileTraits_ Traits;
   /// The base class.
-  typedef TileIteratorBase<Traits,
-                           typename TileTraits_::Scalar,
-                           IteratorAdvance::kH,
-                           MemorySpace::kGlobal,
-                           Index_>
-      Base;
+  typedef GemmGlobalIteratorCd<Traits, Index_> Base;
   /// Override the strides in each dimension between different loads/stores.
   typedef Shape<0, 0, Base::Delta::kW, Base::Delta::kC> ImmediateOffsetStrides;
   /// The layout.
@@ -99,47 +90,36 @@ struct WmmaGemmGlobalIteratorCd : public TileIteratorBase<TileTraits_,
   typedef Index_ Index;
   /// The thread offset functor.
   typedef typename TileTraits_::ThreadOffset ThreadOffset;
+  /// Base parameters.
+  typedef typename Base::Params BaseParams;
 
   /// The params.
-  struct Params {
-    /// The pointer.
-    Pointer pointer;
-    /// The stride in the H dimension to setup the thread in the block.
-    Index stride_h;
-    /// The strides to increment the pointer.
-    Index inc_h, inc_advance;
-    /// The column offset to compute the predicate for the columns.
-    Index predicate_offset;
-    /// The strides to increment the predicate offset.
-    Index predicate_inc_h, predicate_inc_advance;
-
+  struct Params : public BaseParams {
     /// Setup the params.
-    CUTLASS_HOST_DEVICE int initialize(
-        Pointer pointer, Index ld, Index n, Index epilogue_stride_w, Index epilogue_delta_w) {
+    CUTLASS_HOST_DEVICE int initialize(Pointer pointer,
+                                       long long batch_stride,
+                                       Index ldm,
+                                       Index n,
+                                       Index epilogue_stride_w,
+                                       Index epilogue_delta_w) {
       // The pointer.
-      this->pointer = pointer;
+      BaseParams::pointer = pointer;
+      // Stride between GEMMs
+      BaseParams::stride_d = batch_stride;
       // Setup the base stride. One "group of threads" per column.
-      stride_h = ld;
+      BaseParams::stride_h = ldm;
       // Each thread output 1 column per iteration. .
-      inc_h = ld * TileTraits_::Threads::kH;
-      inc_advance = inc_h + epilogue_stride_w;
+      BaseParams::inc_h = ldm * TileTraits_::Threads::kH;
+      BaseParams::inc_advance = BaseParams::inc_h + epilogue_stride_w;
 
-      predicate_offset = n;
-      predicate_inc_h = TileTraits_::Threads::kH;
-      predicate_inc_advance = predicate_inc_h + epilogue_delta_w;
+      BaseParams::predicate_offset = n;
+      BaseParams::predicate_inc_h = TileTraits_::Threads::kH;
+      BaseParams::predicate_inc_advance = BaseParams::predicate_inc_h + epilogue_delta_w;
 
-      // It worked.
       return 0;
     }
   };
 
-  Params params;
-
-  Coord<4> thread_offset;
-
-  /// Ctor.
-  CUTLASS_DEVICE WmmaGemmGlobalIteratorCd() {}
-
   /// Ctor.
   CUTLASS_DEVICE WmmaGemmGlobalIteratorCd(Params const& params,
                                           const Coord<3>& bounds,
@@ -148,61 +128,37 @@ struct WmmaGemmGlobalIteratorCd : public TileIteratorBase<TileTraits_,
                                           int const pred_offset = 0,
                                           ThreadOffset thread_offset_func = ThreadOffset())
 
-      : params(params) {
-    thread_offset = thread_offset_func();
-    // Each warp works on a different column of the tile.
-    int const h = thread_offset[1] + block[1];
-    // Each lane writes a different element.
-    int const w = thread_offset[2] + block[2];
-    // Setup the pointer.
-    this->params.pointer += ((h * params.stride_h + w) + pointer_offset);
-
-    // Prepare the vector of predicates.
-    for (int i = 0; i < Base::Iterations::kW; ++i) {
-      predicates.set(i, w + i * Base::Delta::kW < bounds[2]);
-    }
-    this->params.predicate_offset -= (h + pred_offset);
-  }
-
-  /// The accessor.
-  CUTLASS_DEVICE void get(typename Base::AccessType& value, int d, int h, int w, int c) const {
-    int const imm =
-        ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(0, 0, w, c);
-    Load<Scalar, TileTraits_::kAccessSize, MemorySpace::kGlobal>::load(value, params.pointer, imm);
-  }
+      : Base(params, bounds, block, pointer_offset, pred_offset, thread_offset_func) {}
 
-  /// Increment the pointer in the C dimension.
-  CUTLASS_DEVICE void inc_c() {}
-  /// Increment the pointer in the W dimension.
-  CUTLASS_DEVICE void inc_w() {}
-  /// Increment the pointer in the H dimension.
-  CUTLASS_DEVICE void inc_h() {
-    params.pointer += params.inc_h;
-    params.predicate_offset -= params.predicate_inc_h;
-  }
-  /// Increment the pointer in the D dimension.
-  CUTLASS_DEVICE void inc_d() {}
-  /// Increment the pointer to move to the next iteration.
-  CUTLASS_DEVICE void inc_advance() {
-    params.pointer += params.inc_advance;
-    params.predicate_offset -= params.predicate_inc_advance;
+  /// Loads a single fragment element from memory
+  CUTLASS_DEVICE void load_element(
+      typename Base::AccessType& value, int d, int h, int w, int c) const {
+    Base::load_element(value, d, h, w, c);
   }
 
-  /// The accessor.
-  CUTLASS_DEVICE void set(typename Base::AccessType const& value, int d, int h, int w, int c) {
-    int const imm =
+  /// Stores a single fragment element into memory
+  CUTLASS_DEVICE void store_element(
+      typename Base::AccessType const& value, int d, int h, int w, int c) {
+    int const offset =
         ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(d, h, w, 0);
-    Store<Scalar, TileTraits_::kAccessSize, MemorySpace::kGlobal>::store(
-        value, params.pointer, imm);
+    Store<Scalar,
+          Base::kAccessSize,
+          Base::kMemorySpace,
+          Base::kFragmentElementType,
+          typename Base::FragmentElement,
+          Base::Tile::kW>::store(value, Base::params.pointer, offset);
   }
 
-  /// Test the predicate.
-  CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const {
-    return predicates.at(w) && params.predicate_offset > 0;
+ public:
+  template <typename Fragment>
+  CUTLASS_DEVICE void load_post_increment(Fragment& fragment) {
+    Base::load_post_increment(fragment);
   }
 
-  /// The predicates for the row.
-  cutlass::PredicateVector<Base::Iterations::kW> predicates;
+  template <typename Fragment>
+  CUTLASS_DEVICE void store_post_increment(Fragment& fragment) {
+    Base::store_post_increment(fragment);
+  }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/cutlass/gemm/wmma_gemm_multiply_add.h b/cutlass/gemm/wmma_gemm_multiply_add.h
index 5968350e05..328e43adbd 100644
--- a/cutlass/gemm/wmma_gemm_multiply_add.h
+++ b/cutlass/gemm/wmma_gemm_multiply_add.h
@@ -27,9 +27,9 @@
 */
 #pragma once
 
-#include <cutlass/wmma_matrix.h>
+#include "cutlass/wmma_matrix.h"
 #ifdef CUTLASS_USE_WMMA_API
-#include <cutlass/fragment.h>
+#include "cutlass/fragment.h"
 
 namespace cutlass {
 namespace gemm {
@@ -42,15 +42,17 @@ template <MatrixLayout::Kind kLayoutA_,
           typename ScalarB_,
           MatrixLayout::Kind kLayoutC_,
           typename ScalarC_,
-          typename AccumulatorsPerWarp_,
+          typename WarpGemmShape_,
           typename InstructionShape_>
 struct WmmaGemmMultiplyAdd {
   /// The shape of the instruction.
   typedef InstructionShape_ InstructionShape;
   /// The number of threads per warp. That's a dummy configuration.
   typedef Shape<1, InstructionShape_::kH, InstructionShape_::kW> ThreadsPerWarp;
-  /// The dimensions.
-  typedef AccumulatorsPerWarp_ AccumulatorsPerWarp;
+  /// Dimensions of the warp-level GEMM (K-by-N-by-M)
+  typedef WarpGemmShape_ WarpGemmShape;
+  /// Aliased for compatibility. Will be removed in CUTLASS v2.0
+  typedef WarpGemmShape_ AccumulatorsPerWarp;
   /// The type for A.
   typedef ScalarA_ ScalarA;
   /// The type for B.
@@ -102,6 +104,251 @@ struct WmmaGemmMultiplyAdd {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+/// Specialization for WMMA GEMM with binary operands
+template<typename WarpGemmShape_>
+struct WmmaGemmMultiplyAdd <MatrixLayout::kRowMajor,
+                            Vector<bin1_t, 32>,
+                            MatrixLayout::kColumnMajor,
+                            Vector<bin1_t, 32>,
+                            MatrixLayout::kColumnMajor,
+                            int,
+                            WarpGemmShape_,
+                            Shape<128, 8, 8> >{
+  /// The shape of the instruction.
+  typedef Shape<128, 8, 8> InstructionShape;
+  /// The number of threads per warp. That's a dummy configuration.
+  typedef Shape<1, 4, 8> ThreadsPerWarp;
+  /// Dimensions of the warp-level GEMM (K-by-N-by-M)
+  typedef WarpGemmShape_ WarpGemmShape;
+  /// Aliased for compatibility. Will be removed in CUTLASS v2.0
+  typedef WarpGemmShape_ AccumulatorsPerWarp;
+  /// The type for A.
+  typedef Vector<bin1_t, 32> ScalarA;
+  /// The type for B.
+  typedef Vector<bin1_t, 32> ScalarB;
+  /// The type for C and D.
+  typedef int ScalarC;
+  /// The number of iterations.
+  typedef typename ShapeDiv<AccumulatorsPerWarp, InstructionShape>::Shape Iterations;
+
+  /// The element for A.
+  typedef WmmaMatrix<GemmOperand::kA,
+                     MatrixLayout::kRowMajor,
+                     Vector<bin1_t, 32>,
+                     InstructionShape> ElementA;
+  /// The fragment for A.
+  typedef Fragment<ElementA, Iterations::kW> FragmentA;
+
+  /// The element for B.
+  typedef WmmaMatrix<GemmOperand::kB,
+                     MatrixLayout::kColumnMajor,
+                     Vector<bin1_t, 32>,
+                     InstructionShape> ElementB;
+  /// The fragment for B.
+  typedef Fragment<ElementB, Iterations::kH> FragmentB;
+
+  /// The element for C.
+  typedef WmmaMatrix<GemmOperand::kC,
+                     MatrixLayout::kColumnMajor,
+                     int,
+                     InstructionShape> ElementC;
+  /// The fragment for C.
+  typedef Fragment<ElementC, Iterations::kH * Iterations::kW> Accumulators;
+
+  /// Ctor.
+  CUTLASS_DEVICE WmmaGemmMultiplyAdd() {}
+
+  /// Multiply : d = a*b.
+  CUTLASS_DEVICE void multiply_add(FragmentA const& a,
+                                   FragmentB const& b,
+                                   Accumulators const& c,
+                                   Accumulators& d) {
+    for (int j = 0; j < Iterations::kH; ++j) {
+      for (int i = 0; i < Iterations::kW; ++i) {
+        // The input elements.
+        ElementA const& elt_a = a[i];
+        ElementB const& elt_b = b[j];
+        ElementC const& elt_c = c[j * Iterations::kW + i];
+
+        // The output element.
+        ElementC& elt_d = d[j * Iterations::kW + i];
+
+        // The wmma instruction.
+        nvcuda::wmma::bmma_sync(elt_d,
+                                elt_a,
+                                elt_b,
+                                elt_c,
+                                nvcuda::wmma::experimental::bmmaBitOpXOR,
+                                nvcuda::wmma::experimental::bmmaAccumulateOpPOPC);
+      }
+    }
+  }
+};
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+/// Specialization for WMMA GEMM with signed 4-bit integer operands
+template<typename WarpGemmShape_>
+struct WmmaGemmMultiplyAdd <MatrixLayout::kRowMajor,
+                            Vector<int4_t, 8>,
+                            MatrixLayout::kColumnMajor,
+                            Vector<int4_t, 8>,
+                            MatrixLayout::kColumnMajor,
+                            int,
+                            WarpGemmShape_,
+                            Shape<32, 8, 8> >{
+  /// The shape of the instruction.
+  typedef Shape<32, 8, 8> InstructionShape;
+  /// The number of threads per warp. That's a dummy configuration.
+  typedef Shape<1, 4, 8> ThreadsPerWarp;
+  /// Dimensions of the warp-level GEMM (K-by-N-by-M)
+  typedef WarpGemmShape_ WarpGemmShape;
+  /// Aliased for compatibility. Will be removed in CUTLASS v2.0
+  typedef WarpGemmShape_ AccumulatorsPerWarp;
+  /// The type for A.
+  typedef Vector<int4_t, 8> ScalarA;
+  /// The type for B.
+  typedef Vector<int4_t, 8> ScalarB;
+  /// The type for C and D.
+  typedef int ScalarC;
+  /// The number of iterations.
+  typedef typename ShapeDiv<AccumulatorsPerWarp, InstructionShape>::Shape Iterations;
+
+  /// The element for A.
+  typedef WmmaMatrix<GemmOperand::kA,
+                     MatrixLayout::kRowMajor,
+                     Vector<int4_t, 8>,
+                     InstructionShape> ElementA;
+  /// The fragment for A.
+  typedef Fragment<ElementA, Iterations::kW> FragmentA;
+
+  /// The element for B.
+  typedef WmmaMatrix<GemmOperand::kB,
+                     MatrixLayout::kColumnMajor,
+                     Vector<int4_t, 8>,
+                     InstructionShape> ElementB;
+  /// The fragment for B.
+  typedef Fragment<ElementB, Iterations::kH> FragmentB;
+
+  /// The element for C.
+  typedef WmmaMatrix<GemmOperand::kC,
+                     MatrixLayout::kColumnMajor,
+                     int,
+                     InstructionShape> ElementC;
+  /// The fragment for C.
+  typedef Fragment<ElementC, Iterations::kH * Iterations::kW> Accumulators;
+
+  /// Ctor.
+  CUTLASS_DEVICE WmmaGemmMultiplyAdd() {}
+
+  /// Multiply : d = a*b.
+  CUTLASS_DEVICE void multiply_add(FragmentA const& a,
+                                   FragmentB const& b,
+                                   Accumulators const& c,
+                                   Accumulators& d) {
+    for (int j = 0; j < Iterations::kH; ++j) {
+      for (int i = 0; i < Iterations::kW; ++i) {
+        // The input elements.
+        ElementA const& elt_a = a[i];
+        ElementB const& elt_b = b[j];
+        ElementC const& elt_c = c[j * Iterations::kW + i];
+
+        // The output element.
+        ElementC& elt_d = d[j * Iterations::kW + i];
+
+        // The wmma instruction.
+        nvcuda::wmma::mma_sync(elt_d, elt_a, elt_b, elt_c);
+      }
+    }
+  }
+};
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+/// Specialization for WMMA GEMM with unsigned 4-bit integer operands
+template<typename WarpGemmShape_>
+struct WmmaGemmMultiplyAdd <MatrixLayout::kRowMajor,
+                            Vector<uint4_t, 8>,
+                            MatrixLayout::kColumnMajor,
+                            Vector<uint4_t, 8>,
+                            MatrixLayout::kColumnMajor,
+                            int,
+                            WarpGemmShape_,
+                            Shape<32, 8, 8> >{
+  /// The shape of the instruction.
+  typedef Shape<32, 8, 8> InstructionShape;
+  /// The number of threads per warp. That's a dummy configuration.
+  typedef Shape<1, 4, 8> ThreadsPerWarp;
+  /// Dimensions of the warp-level GEMM (K-by-N-by-M)
+  typedef WarpGemmShape_ WarpGemmShape;
+  /// Aliased for compatibility. Will be removed in CUTLASS v2.0
+  typedef WarpGemmShape_ AccumulatorsPerWarp;
+  /// The type for A.
+  typedef Vector<uint4_t, 8> ScalarA;
+  /// The type for B.
+  typedef Vector<uint4_t, 8> ScalarB;
+  /// The type for C and D.
+  typedef int ScalarC;
+  /// The number of iterations.
+  typedef typename ShapeDiv<AccumulatorsPerWarp, InstructionShape>::Shape Iterations;
+
+  /// The element for A.
+  typedef WmmaMatrix<GemmOperand::kA,
+                     MatrixLayout::kRowMajor,
+                     Vector<uint4_t, 8>,
+                     InstructionShape> ElementA;
+  /// The fragment for A.
+  typedef Fragment<ElementA, Iterations::kW> FragmentA;
+
+  /// The element for B.
+  typedef WmmaMatrix<GemmOperand::kB,
+                     MatrixLayout::kColumnMajor,
+                     Vector<uint4_t, 8>,
+                     InstructionShape> ElementB;
+  /// The fragment for B.
+  typedef Fragment<ElementB, Iterations::kH> FragmentB;
+
+  /// The element for C.
+  typedef WmmaMatrix<GemmOperand::kC,
+                     MatrixLayout::kColumnMajor,
+                     int,
+                     InstructionShape> ElementC;
+  /// The fragment for C.
+  typedef Fragment<ElementC, Iterations::kH * Iterations::kW> Accumulators;
+
+  /// Ctor.
+  CUTLASS_DEVICE WmmaGemmMultiplyAdd() {}
+
+  /// Multiply : d = a*b.
+  CUTLASS_DEVICE void multiply_add(FragmentA const& a,
+                                   FragmentB const& b,
+                                   Accumulators const& c,
+                                   Accumulators& d) {
+    for (int j = 0; j < Iterations::kH; ++j) {
+      for (int i = 0; i < Iterations::kW; ++i) {
+        // The input elements.
+        ElementA const& elt_a = a[i];
+        ElementB const& elt_b = b[j];
+        ElementC const& elt_c = c[j * Iterations::kW + i];
+
+        // The output element.
+        ElementC& elt_d = d[j * Iterations::kW + i];
+
+        // The wmma instruction.
+        nvcuda::wmma::mma_sync(elt_d, elt_a, elt_b, elt_c);
+      }
+    }
+  }
+};
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 }  // namespace gemm
 }  // namespace cutlass
 
diff --git a/cutlass/gemm/wmma_gemm_shared_tile.h b/cutlass/gemm/wmma_gemm_shared_tile.h
index 7d15b260fa..1a90e2f107 100644
--- a/cutlass/gemm/wmma_gemm_shared_tile.h
+++ b/cutlass/gemm/wmma_gemm_shared_tile.h
@@ -28,18 +28,15 @@
 */
 #pragma once
 
-#include <cutlass/wmma_matrix.h>
+#include "cutlass/wmma_matrix.h"
 #ifdef CUTLASS_USE_WMMA_API
 
-#include <cutlass/gemm/gemm_operand.h>
-#include <cutlass/reshape_tile.h>
+#include "cutlass/gemm/gemm_operand.h"
+#include "cutlass/reshape_tile.h"
 
 namespace cutlass {
 namespace gemm {
 
-template <class>
-struct Debug {};
-
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 template <MatrixLayout::Kind kLayout_,
diff --git a/cutlass/gemm/wmma_gemm_traits.h b/cutlass/gemm/wmma_gemm_traits.h
index 7901201630..65ffb50bfd 100644
--- a/cutlass/gemm/wmma_gemm_traits.h
+++ b/cutlass/gemm/wmma_gemm_traits.h
@@ -27,19 +27,19 @@
 */
 #pragma once
 
-#include <cutlass/wmma_matrix.h>
+#include "cutlass/wmma_matrix.h"
 #ifdef CUTLASS_USE_WMMA_API
 
-#include <cutlass/convert.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/gemm_epilogue.h>
-#include <cutlass/gemm/gemm_epilogue_traits.h>
-#include <cutlass/gemm/gemm_global_tile.h>
-#include <cutlass/gemm/gemm_shared_tile.h>
-#include <cutlass/gemm/gemm_traits.h>
-#include <cutlass/gemm/wmma_gemm_epilogue_traits.h>
-#include <cutlass/gemm/wmma_gemm_global_tile.h>
-#include <cutlass/gemm/wmma_gemm_multiply_add.h>
+#include "cutlass/convert.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/gemm_epilogue.h"
+#include "cutlass/gemm/gemm_epilogue_traits.h"
+#include "cutlass/gemm/gemm_global_tile.h"
+#include "cutlass/gemm/gemm_shared_tile.h"
+#include "cutlass/gemm/gemm_traits.h"
+#include "cutlass/gemm/wmma_gemm_epilogue_traits.h"
+#include "cutlass/gemm/wmma_gemm_global_tile.h"
+#include "cutlass/gemm/wmma_gemm_multiply_add.h"
 
 namespace cutlass {
 namespace gemm {
@@ -53,12 +53,16 @@ template <
     MatrixLayout::Kind kLayoutB_,
     /// The tile size for the GEMM KxNxM.
     typename OutputTile_,
+    /// The input type.
+    typename ScalarA_,
+    /// The input type.
+    typename ScalarB_,
     /// The output type.
     typename ScalarC_,
     /// The accumulator type.
     typename Accumulator_,
-    /// The number of accumulators per warp.
-    typename AccumulatorsPerWarp_,
+    /// Tile size for warp-level GEMM (K-by-N-by-M)
+    typename WarpGemmShape_,
     /// The shape of the WMMA instruction.
     typename InstructionShape_,
     /// The number of scalars per LDG for A.
@@ -67,9 +71,9 @@ template <
     int kScalarsPerLdgB_>
 struct WmmaGemmConfig : public GemmConfig<
                             /// The scalar type for A.
-                            half,
+                            ScalarA_,
                             /// The scalar type for B.
-                            half,
+                            ScalarB_,
                             /// The scalar type for C.
                             ScalarC_,
                             /// The scalar type for D.
@@ -78,12 +82,12 @@ struct WmmaGemmConfig : public GemmConfig<
                             OutputTile_,
                             /// The functor to do the math in the main loop.
                             WmmaGemmMultiplyAdd<kLayoutA_,
-                                                half,
+                                                ScalarA_,
                                                 kLayoutB_,
-                                                half,
+                                                ScalarB_,
                                                 MatrixLayout::kColumnMajor,
                                                 Accumulator_,
-                                                AccumulatorsPerWarp_,
+                                                WarpGemmShape_,
                                                 InstructionShape_>,
                             /// The number of scalars per LDG for A.
                             kScalarsPerLdgA_,
@@ -100,21 +104,29 @@ struct WmmaGemmConfig : public GemmConfig<
                             /// The number of scalars per LDG for C and STG for D.
                             16 / sizeof(ScalarC_),
                             /// The number of scalars per STS for D.
-                            16 / sizeof(ScalarC_),
+                            16 / sizeof(Accumulator_),
                             /// The number of scalars per LDS for D.
-                            16 / sizeof(ScalarC_),
+                            16 / sizeof(Accumulator_),
                             /// The number of stages in shared memory.
-                            1> {};
+                            1,
+                            /// If true, residue is computed in mainloop. If false, separate loops are instantiated.
+                            false,
+                            /// Is residue performed in prologue?
+                            true,
+                            /// If true, kernel is launched with CUDA launch bounds specified
+                            false> {};
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <enum MatrixLayout::Kind kLayout_, typename GemmConfig_>
+template <enum MatrixLayout::Kind kLayout_,
+          typename GemmConfig_,
+          typename ScalarA_>
 struct WmmaGemmTileTraitsHelperA {};
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename GemmConfig_>
-struct WmmaGemmTileTraitsHelperA<MatrixLayout::kColumnMajor, GemmConfig_>
+template <typename GemmConfig_, typename ScalarA_>
+struct WmmaGemmTileTraitsHelperA<MatrixLayout::kColumnMajor, GemmConfig_, ScalarA_>
     : public GemmTileTraitsHelperA<MatrixLayout::kColumnMajor, GemmConfig_> {
   /// The base config.
   typedef GemmTileTraitsHelperA<MatrixLayout::kColumnMajor, GemmConfig_> Base;
@@ -173,8 +185,8 @@ struct WmmaGemmTileTraitsHelperA<MatrixLayout::kColumnMajor, GemmConfig_>
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename GemmConfig_>
-struct WmmaGemmTileTraitsHelperA<MatrixLayout::kRowMajor, GemmConfig_> {
+template <typename GemmConfig_, typename ScalarA_>
+struct WmmaGemmTileTraitsHelperA<MatrixLayout::kRowMajor, GemmConfig_, ScalarA_> {
   /// The layout.
   static MatrixLayout::Kind const kLayout = MatrixLayout::kRowMajor;
 
@@ -251,13 +263,276 @@ struct WmmaGemmTileTraitsHelperA<MatrixLayout::kRowMajor, GemmConfig_> {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <enum MatrixLayout::Kind kLayout_, typename GemmConfig_>
-struct WmmaGemmTileTraitsHelperB {};
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+/// Specialization for WMMA GEMM with binary operands
+template <typename GemmConfig_>
+struct WmmaGemmTileTraitsHelperA<MatrixLayout::kRowMajor, GemmConfig_, Vector<bin1_t, 32> > {
+  /// The layout.
+  static MatrixLayout::Kind const kLayout = MatrixLayout::kRowMajor;
+
+  /// The input scalar.
+  typedef typename GemmConfig_::ScalarA Scalar;
+  /// The scalar stored in shared memory.
+  typedef typename GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar;
+
+  /// GemmConfig_::OutputTile::kD is in number of 'bits'. TileTraits expects number of 'Scalar'.
+  /// Divide by 'kBitsPerScalar' to get the number in 'Scalar'.
+  static int const kBitsPerScalar = sizeof(Scalar) * 8;
+
+  /// WMMA matrix
+  typedef WmmaMatrix<GemmOperand::kA,
+                     MatrixLayout::kRowMajor,
+                     Vector<bin1_t, 32>,
+                     typename GemmConfig_::InstructionShape>
+      WmmaMatrix;
+
+  /// The traits class to build the iterator to load data from global memory for A^T.
+  typedef GemmGlobalTileTraits<
+      // That's A.
+      GemmOperand::kA,
+      // A is row-major.
+      MatrixLayout::kRowMajor,
+      // The pointer is float const.
+      Scalar const,
+      // The tile has size KxM in GEMM's terminology.
+      Shape<1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD / kBitsPerScalar>,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      Shape<1,
+            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kBitsPerScalar),
+            GemmConfig_::OutputTile::kD / kBitsPerScalar>,
+      // The number of scalars per LDG (LDG.32 or LDG.128, etc).
+      GemmConfig_::kScalarsPerLdgA / kBitsPerScalar>
+      GlobalTileTraits;
+
+  /// The skew.
+  static int const kSkew = 16 / sizeof(MultiplyAddScalar);
+  /// The tile.
+  typedef Shape<GemmConfig_::kStages,
+                GemmConfig_::OutputTile::kW,
+                GemmConfig_::OutputTile::kD / kBitsPerScalar + kSkew>
+      Tile;
+
+  /// The traits class to build the iterator to store data to shared memory for A^N.
+  typedef GemmSharedStoreTileAbTraits<
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile has size KxM in GEMM's terminology.
+      Tile,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      typename GlobalTileTraits::Threads,
+      // The number of scalars per STS (STS.32 or STS.128, etc).
+      GemmConfig_::kScalarsPerStsA / kBitsPerScalar>
+      SharedStoreTileTraits;
+
+  /// The number of elements loaded in one LDG.
+  static int const kScalarsPerW = GemmConfig_::InstructionShape::kW * GemmConfig_::Warps::kW;
+  /// The traits class to build the iterator to load from shared memory for A.
+  typedef WmmaGemmSharedLoadTileATraits<
+      // The layout of the matrix.
+      MatrixLayout::kRowMajor,
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile in shared memory.
+      Tile,
+      // The number of warps.
+      typename GemmConfig_::Warps,
+      // The strides between warps.
+      GemmConfig_::InstructionShape::kW * Tile::kW,
+      // The number of iterations to load the data.
+      Shape<1, 1, GemmConfig_::OutputTile::kW / kScalarsPerW>,
+      // The stride between iterations.
+      Shape<GemmConfig_::InstructionShape::kD / kBitsPerScalar, 0, kScalarsPerW * Tile::kW>,
+      // The shape of the instruction.
+      typename GemmConfig_::InstructionShape>
+      SharedLoadTileTraits;
+};
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+/// Specialization for WMMA GEMM with unsigned 4-bit integer operands
+template <typename GemmConfig_>
+struct WmmaGemmTileTraitsHelperA<MatrixLayout::kRowMajor, GemmConfig_, Vector<uint4_t, 8> > {
+  /// The layout.
+  static MatrixLayout::Kind const kLayout = MatrixLayout::kRowMajor;
+
+  /// The input scalar.
+  typedef typename GemmConfig_::ScalarA Scalar;
+  /// The scalar stored in shared memory.
+  typedef typename GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar;
+
+  /// GemmConfig_::OutputTile::kD is in number of 'int4'. TileTraits expects number of 'Scalar'.
+  /// Divide by 'kInt4PerScalar' to get the number in 'Scalar'.
+  static int const kInt4PerScalar = sizeof(Scalar) * 2;
+
+  /// WMMA matrix
+  typedef WmmaMatrix<GemmOperand::kA,
+                     MatrixLayout::kRowMajor,
+                     Vector<uint4_t, 8>,
+                     typename GemmConfig_::InstructionShape>
+      WmmaMatrix;
+
+  /// The traits class to build the iterator to load data from global memory for A^T.
+  typedef GemmGlobalTileTraits<
+      // That's A.
+      GemmOperand::kA,
+      // A is row-major.
+      MatrixLayout::kRowMajor,
+      // The pointer is float const.
+      Scalar const,
+      // The tile has size KxM in GEMM's terminology.
+      Shape<1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD / kInt4PerScalar>,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      Shape<1,
+            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kInt4PerScalar),
+            GemmConfig_::OutputTile::kD / kInt4PerScalar>,
+      // The number of scalars per LDG (LDG.32 or LDG.128, etc).
+      GemmConfig_::kScalarsPerLdgA / kInt4PerScalar>
+      GlobalTileTraits;
+
+  /// The skew.
+  static int const kSkew = 16 / sizeof(MultiplyAddScalar);
+  /// The tile.
+  typedef Shape<GemmConfig_::kStages,
+                GemmConfig_::OutputTile::kW,
+                GemmConfig_::OutputTile::kD / kInt4PerScalar + kSkew>
+      Tile;
+
+  /// The traits class to build the iterator to store data to shared memory for A^N.
+  typedef GemmSharedStoreTileAbTraits<
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile has size KxM in GEMM's terminology.
+      Tile,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      typename GlobalTileTraits::Threads,
+      // The number of scalars per STS (STS.32 or STS.128, etc).
+      GemmConfig_::kScalarsPerStsA / kInt4PerScalar>
+      SharedStoreTileTraits;
+
+  /// The number of elements loaded in one LDG.
+  static int const kScalarsPerW = GemmConfig_::InstructionShape::kW * GemmConfig_::Warps::kW;
+  /// The traits class to build the iterator to load from shared memory for A.
+  typedef WmmaGemmSharedLoadTileATraits<
+      // The layout of the matrix.
+      MatrixLayout::kRowMajor,
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile in shared memory.
+      Tile,
+      // The number of warps.
+      typename GemmConfig_::Warps,
+      // The strides between warps.
+      GemmConfig_::InstructionShape::kW * Tile::kW,
+      // The number of iterations to load the data.
+      Shape<1, 1, GemmConfig_::OutputTile::kW / kScalarsPerW>,
+      // The stride between iterations.
+      Shape<GemmConfig_::InstructionShape::kD / kInt4PerScalar, 0, kScalarsPerW * Tile::kW>,
+      // The shape of the instruction.
+      typename GemmConfig_::InstructionShape>
+      SharedLoadTileTraits;
+};
+#endif
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+/// Specialization for WMMA GEMM with signed 4-bit integer operands
 template <typename GemmConfig_>
-struct WmmaGemmTileTraitsHelperB<MatrixLayout::kRowMajor, GemmConfig_>
+struct WmmaGemmTileTraitsHelperA<MatrixLayout::kRowMajor, GemmConfig_, Vector<int4_t, 8> > {
+  /// The layout.
+  static MatrixLayout::Kind const kLayout = MatrixLayout::kRowMajor;
+
+  /// The input scalar.
+  typedef typename GemmConfig_::ScalarA Scalar;
+  /// The scalar stored in shared memory.
+  typedef typename GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar;
+
+  /// GemmConfig_::OutputTile::kD is in number of 'int4'. TileTraits expects number of 'Scalar'.
+  /// Divide by 'kInt4PerScalar' to get the number in 'Scalar'.
+  static int const kInt4PerScalar = sizeof(Scalar) * 2;
+
+  /// WMMA matrix
+  typedef WmmaMatrix<GemmOperand::kA,
+                     MatrixLayout::kRowMajor,
+                     Vector<int4_t, 8>,
+                     typename GemmConfig_::InstructionShape>
+      WmmaMatrix;
+
+  /// The traits class to build the iterator to load data from global memory for A^T.
+  typedef GemmGlobalTileTraits<
+      // That's A.
+      GemmOperand::kA,
+      // A is row-major.
+      MatrixLayout::kRowMajor,
+      // The pointer is float const.
+      Scalar const,
+      // The tile has size KxM in GEMM's terminology.
+      Shape<1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD / kInt4PerScalar>,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      Shape<1,
+            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kInt4PerScalar),
+            GemmConfig_::OutputTile::kD / kInt4PerScalar>,
+      // The number of scalars per LDG (LDG.32 or LDG.128, etc).
+      GemmConfig_::kScalarsPerLdgA / kInt4PerScalar>
+      GlobalTileTraits;
+
+  /// The skew.
+  static int const kSkew = 16 / sizeof(MultiplyAddScalar);
+  /// The tile.
+  typedef Shape<GemmConfig_::kStages,
+                GemmConfig_::OutputTile::kW,
+                GemmConfig_::OutputTile::kD / kInt4PerScalar + kSkew>
+      Tile;
+
+  /// The traits class to build the iterator to store data to shared memory for A^N.
+  typedef GemmSharedStoreTileAbTraits<
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile has size KxM in GEMM's terminology.
+      Tile,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      typename GlobalTileTraits::Threads,
+      // The number of scalars per STS (STS.32 or STS.128, etc).
+      GemmConfig_::kScalarsPerStsA / kInt4PerScalar>
+      SharedStoreTileTraits;
+
+  /// The number of elements loaded in one LDG.
+  static int const kScalarsPerW = GemmConfig_::InstructionShape::kW * GemmConfig_::Warps::kW;
+  /// The traits class to build the iterator to load from shared memory for A.
+  typedef WmmaGemmSharedLoadTileATraits<
+      // The layout of the matrix.
+      MatrixLayout::kRowMajor,
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile in shared memory.
+      Tile,
+      // The number of warps.
+      typename GemmConfig_::Warps,
+      // The strides between warps.
+      GemmConfig_::InstructionShape::kW * Tile::kW,
+      // The number of iterations to load the data.
+      Shape<1, 1, GemmConfig_::OutputTile::kW / kScalarsPerW>,
+      // The stride between iterations.
+      Shape<GemmConfig_::InstructionShape::kD / kInt4PerScalar, 0, kScalarsPerW * Tile::kW>,
+      // The shape of the instruction.
+      typename GemmConfig_::InstructionShape>
+      SharedLoadTileTraits;
+};
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <enum MatrixLayout::Kind kLayout_,
+          typename GemmConfig_,
+          typename ScalarB_>
+struct WmmaGemmTileTraitsHelperB {};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename GemmConfig_, typename ScalarB_>
+struct WmmaGemmTileTraitsHelperB<MatrixLayout::kRowMajor, GemmConfig_, ScalarB_>
     : public GemmTileTraitsHelperB<MatrixLayout::kRowMajor, GemmConfig_> {
   /// The base config.
   typedef GemmTileTraitsHelperB<MatrixLayout::kRowMajor, GemmConfig_> Base;
@@ -316,8 +591,8 @@ struct WmmaGemmTileTraitsHelperB<MatrixLayout::kRowMajor, GemmConfig_>
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename GemmConfig_>
-struct WmmaGemmTileTraitsHelperB<MatrixLayout::kColumnMajor, GemmConfig_> {
+template <typename GemmConfig_, typename ScalarB_>
+struct WmmaGemmTileTraitsHelperB<MatrixLayout::kColumnMajor, GemmConfig_, ScalarB_> {
   /// The layout.
   static MatrixLayout::Kind const kLayout = MatrixLayout::kColumnMajor;
 
@@ -394,6 +669,267 @@ struct WmmaGemmTileTraitsHelperB<MatrixLayout::kColumnMajor, GemmConfig_> {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+/// Specialization for WMMA GEMM with binary operands
+template <typename GemmConfig_>
+struct WmmaGemmTileTraitsHelperB<MatrixLayout::kColumnMajor, GemmConfig_, Vector<bin1_t, 32> > {
+  /// The layout.
+  static MatrixLayout::Kind const kLayout = MatrixLayout::kColumnMajor;
+
+  /// The input scalar.
+  typedef typename GemmConfig_::ScalarB Scalar;
+  /// The scalar stored in shared memory.
+  typedef typename GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar;
+
+  /// GemmConfig_::OutputTile::kD is in number of 'bits'. TileTraits expects number of 'Scalar'.
+  /// Divide by 'kBitsPerScalar' to get the number in 'Scalar'.
+  static int const kBitsPerScalar = sizeof(Scalar) * 8;
+
+  /// WMMA matrix
+  typedef WmmaMatrix<GemmOperand::kB,
+                     MatrixLayout::kColumnMajor,
+                     Vector<bin1_t, 32>,
+                     typename GemmConfig_::InstructionShape>
+      WmmaMatrix;
+
+  /// The traits class to build the iterator to load data from global memory for B^N.
+  typedef GemmGlobalTileTraits<
+      // That's B.
+      GemmOperand::kB,
+      // A is row-major.
+      MatrixLayout::kColumnMajor,
+      // The pointer is float const.
+      Scalar const,
+      // The tile has size KxM in GEMM's terminology.
+      Shape<1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD / kBitsPerScalar>,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      Shape<1,
+            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kBitsPerScalar),
+            GemmConfig_::OutputTile::kD / kBitsPerScalar>,
+      // The number of scalars per LDG (LDG.32 or LDG.128, etc).
+      GemmConfig_::kScalarsPerLdgB / kBitsPerScalar>
+      GlobalTileTraits;
+
+  /// The skew.
+  static int const kSkew = 16 / sizeof(MultiplyAddScalar);
+  /// The tile.
+  typedef Shape<GemmConfig_::kStages,
+                GemmConfig_::OutputTile::kH,
+                GemmConfig_::OutputTile::kD / kBitsPerScalar + kSkew>
+      Tile;
+
+  /// The traits class to build the iterator to store data to shared memory for B^N.
+  typedef GemmSharedStoreTileAbTraits<
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile has size KxM in GEMM's terminology.
+      Tile,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      typename GlobalTileTraits::Threads,
+      // The number of scalars per STS (STS.32 or STS.128, etc).
+      GemmConfig_::kScalarsPerStsB / kBitsPerScalar>
+      SharedStoreTileTraits;
+
+  /// The number of elements loaded in one LDG.
+  static int const kScalarsPerW = GemmConfig_::InstructionShape::kH * GemmConfig_::Warps::kH;
+  /// The traits class to build the iterator to load from shared memory for B.
+  typedef WmmaGemmSharedLoadTileBTraits<
+      // The layout of the matrix.
+      MatrixLayout::kColumnMajor,
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile in shared memory.
+      Tile,
+      // The number of warps.
+      typename GemmConfig_::Warps,
+      // The strides between warps.
+      GemmConfig_::InstructionShape::kH * Tile::kW,
+      // The number of iterations to load the data.
+      Shape<1, 1, GemmConfig_::OutputTile::kH / kScalarsPerW>,
+      // The stride between iterations.
+      Shape<GemmConfig_::InstructionShape::kD / kBitsPerScalar, 0, kScalarsPerW * Tile::kW>,
+      // The shape of the instruction.
+      typename GemmConfig_::InstructionShape>
+      SharedLoadTileTraits;
+};
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+/// Specialization for WMMA GEMM with unsigned 4-bit integer operands
+template <typename GemmConfig_>
+struct WmmaGemmTileTraitsHelperB<MatrixLayout::kColumnMajor, GemmConfig_, Vector<uint4_t, 8> > {
+  /// The layout.
+  static MatrixLayout::Kind const kLayout = MatrixLayout::kColumnMajor;
+
+  /// The input scalar.
+  typedef typename GemmConfig_::ScalarB Scalar;
+  /// The scalar stored in shared memory.
+  typedef typename GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar;
+
+  /// GemmConfig_::OutputTile::kD is in number of 'int4'. TileTraits expects number of 'Scalar'.
+  /// Divide by 'kInt4PerScalar' to get the number in 'Scalar'.
+  static int const kInt4PerScalar = sizeof(Scalar) * 2;
+
+  /// WMMA matrix
+  typedef WmmaMatrix<GemmOperand::kB,
+                     MatrixLayout::kColumnMajor,
+                     Vector<uint4_t, 8>,
+                     typename GemmConfig_::InstructionShape>
+      WmmaMatrix;
+
+  /// The traits class to build the iterator to load data from global memory for B^N.
+  typedef GemmGlobalTileTraits<
+      // That's B.
+      GemmOperand::kB,
+      // A is row-major.
+      MatrixLayout::kColumnMajor,
+      // The pointer is float const.
+      Scalar const,
+      // The tile has size KxM in GEMM's terminology.
+      Shape<1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD / kInt4PerScalar>,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      Shape<1,
+            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kInt4PerScalar),
+            GemmConfig_::OutputTile::kD / kInt4PerScalar>,
+      // The number of scalars per LDG (LDG.32 or LDG.128, etc).
+      GemmConfig_::kScalarsPerLdgB / kInt4PerScalar>
+      GlobalTileTraits;
+
+  /// The skew.
+  static int const kSkew = 16 / sizeof(MultiplyAddScalar);
+  /// The tile.
+  typedef Shape<GemmConfig_::kStages,
+                GemmConfig_::OutputTile::kH,
+                GemmConfig_::OutputTile::kD / kInt4PerScalar + kSkew>
+      Tile;
+
+  /// The traits class to build the iterator to store data to shared memory for B^N.
+  typedef GemmSharedStoreTileAbTraits<
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile has size KxM in GEMM's terminology.
+      Tile,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      typename GlobalTileTraits::Threads,
+      // The number of scalars per STS (STS.32 or STS.128, etc).
+      GemmConfig_::kScalarsPerStsB / kInt4PerScalar>
+      SharedStoreTileTraits;
+
+  /// The number of elements loaded in one LDG.
+  static int const kScalarsPerW = GemmConfig_::InstructionShape::kH * GemmConfig_::Warps::kH;
+  /// The traits class to build the iterator to load from shared memory for B.
+  typedef WmmaGemmSharedLoadTileBTraits<
+      // The layout of the matrix.
+      MatrixLayout::kColumnMajor,
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile in shared memory.
+      Tile,
+      // The number of warps.
+      typename GemmConfig_::Warps,
+      // The strides between warps.
+      GemmConfig_::InstructionShape::kH * Tile::kW,
+      // The number of iterations to load the data.
+      Shape<1, 1, GemmConfig_::OutputTile::kH / kScalarsPerW>,
+      // The stride between iterations.
+      Shape<GemmConfig_::InstructionShape::kD / kInt4PerScalar, 0, kScalarsPerW * Tile::kW>,
+      // The shape of the instruction.
+      typename GemmConfig_::InstructionShape>
+      SharedLoadTileTraits;
+};
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+/// Specialization for WMMA GEMM with signed 4-bit integer operands
+template <typename GemmConfig_>
+struct WmmaGemmTileTraitsHelperB<MatrixLayout::kColumnMajor, GemmConfig_, Vector<int4_t, 8> > {
+  /// The layout.
+  static MatrixLayout::Kind const kLayout = MatrixLayout::kColumnMajor;
+
+  /// The input scalar.
+  typedef typename GemmConfig_::ScalarB Scalar;
+  /// The scalar stored in shared memory.
+  typedef typename GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar;
+
+  /// GemmConfig_::OutputTile::kD is in number of 'int4'. TileTraits expects number of 'Scalar'.
+  /// Divide by 'kInt4PerScalar' to get the number in 'Scalar'.
+  static int const kInt4PerScalar = sizeof(Scalar) * 2;
+
+  /// WMMA matrix
+  typedef WmmaMatrix<GemmOperand::kB,
+                     MatrixLayout::kColumnMajor,
+                     Vector<int4_t, 8>,
+                     typename GemmConfig_::InstructionShape>
+      WmmaMatrix;
+
+  /// The traits class to build the iterator to load data from global memory for B^N.
+  typedef GemmGlobalTileTraits<
+      // That's B.
+      GemmOperand::kB,
+      // A is row-major.
+      MatrixLayout::kColumnMajor,
+      // The pointer is float const.
+      Scalar const,
+      // The tile has size KxM in GEMM's terminology.
+      Shape<1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD / kInt4PerScalar>,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      Shape<1,
+            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kInt4PerScalar),
+            GemmConfig_::OutputTile::kD / kInt4PerScalar>,
+      // The number of scalars per LDG (LDG.32 or LDG.128, etc).
+      GemmConfig_::kScalarsPerLdgB / kInt4PerScalar>
+      GlobalTileTraits;
+
+  /// The skew.
+  static int const kSkew = 16 / sizeof(MultiplyAddScalar);
+  /// The tile.
+  typedef Shape<GemmConfig_::kStages,
+                GemmConfig_::OutputTile::kH,
+                GemmConfig_::OutputTile::kD / kInt4PerScalar + kSkew>
+      Tile;
+
+  /// The traits class to build the iterator to store data to shared memory for B^N.
+  typedef GemmSharedStoreTileAbTraits<
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile has size KxM in GEMM's terminology.
+      Tile,
+      // The threads are distributed as warps x 32 (the traits may reorganize).
+      typename GlobalTileTraits::Threads,
+      // The number of scalars per STS (STS.32 or STS.128, etc).
+      GemmConfig_::kScalarsPerStsB / kInt4PerScalar>
+      SharedStoreTileTraits;
+
+  /// The number of elements loaded in one LDG.
+  static int const kScalarsPerW = GemmConfig_::InstructionShape::kH * GemmConfig_::Warps::kH;
+  /// The traits class to build the iterator to load from shared memory for B.
+  typedef WmmaGemmSharedLoadTileBTraits<
+      // The layout of the matrix.
+      MatrixLayout::kColumnMajor,
+      // The pointer.
+      MultiplyAddScalar,
+      // The tile in shared memory.
+      Tile,
+      // The number of warps.
+      typename GemmConfig_::Warps,
+      // The strides between warps.
+      GemmConfig_::InstructionShape::kH * Tile::kW,
+      // The number of iterations to load the data.
+      Shape<1, 1, GemmConfig_::OutputTile::kH / kScalarsPerW>,
+      // The stride between iterations.
+      Shape<GemmConfig_::InstructionShape::kD / kInt4PerScalar, 0, kScalarsPerW * Tile::kW>,
+      // The shape of the instruction.
+      typename GemmConfig_::InstructionShape>
+      SharedLoadTileTraits;
+};
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 template <
     /// The layout for A.
     MatrixLayout::Kind kLayoutA_,
@@ -401,14 +937,18 @@ template <
     MatrixLayout::Kind kLayoutB_,
     /// The output tile.
     typename OutputTile_,
+    /// The input type.
+    typename ScalarA_,
+    /// The input type.
+    typename ScalarB_,
     /// The output type.
     typename ScalarC_,
     /// The accumulator type.
     typename Accumulator_,
     /// The functor to do the math in the epilogue.
     typename EpilogueFunctor_,
-    /// The number of accumulators per warp.
-    typename AccumulatorsPerWarp_,
+    /// Tile size for warp-level GEMM (K-by-N-by-M)
+    typename WarpGemmShape_,
     /// The shape of the WMMA instruction.
     typename InstructionShape_,
     /// The number of halfs loaded in one LDG for A.
@@ -422,18 +962,20 @@ struct WmmaGemmTraitsHelper {
   typedef WmmaGemmConfig<kLayoutA_,
                          kLayoutB_,
                          OutputTile_,
+                         ScalarA_,
+                         ScalarB_,
                          ScalarC_,
                          Accumulator_,
-                         AccumulatorsPerWarp_,
+                         WarpGemmShape_,
                          InstructionShape_,
                          kScalarsPerLdgA_,
                          kScalarsPerLdgB_>
       GemmConfig;
 
   /// The GEMM config for A.
-  typedef WmmaGemmTileTraitsHelperA<kLayoutA_, GemmConfig> GemmTileTraitsHelperA;
+  typedef WmmaGemmTileTraitsHelperA<kLayoutA_, GemmConfig, ScalarA_> GemmTileTraitsHelperA;
   /// The GEMM config for B.
-  typedef WmmaGemmTileTraitsHelperB<kLayoutB_, GemmConfig> GemmTileTraitsHelperB;
+  typedef WmmaGemmTileTraitsHelperB<kLayoutB_, GemmConfig, ScalarB_> GemmTileTraitsHelperB;
 
   /// The iterator to load A from global memory.
   typedef GemmGlobalIteratorAb<typename GemmTileTraitsHelperA::GlobalTileTraits, Index_>
@@ -447,7 +989,10 @@ struct WmmaGemmTraitsHelper {
                             MemorySpace::kShared>
       SharedStoreIteratorA;
   /// The stream to load A from global memory to shared memory.
-  typedef GlobalLoadStream<GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA>
+  typedef GlobalLoadStream<GemmOperand::kA,
+                              GlobalLoadIteratorA,
+                              SharedStoreIteratorA,
+                              GlobalTransformerA>
       GlobalLoadStreamA;
 
   /// The iterator to load B from global memory.
@@ -462,7 +1007,10 @@ struct WmmaGemmTraitsHelper {
                             MemorySpace::kShared>
       SharedStoreIteratorB;
   /// The stream to load B from global memory to shared memory.
-  typedef GlobalLoadStream<GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB>
+  typedef GlobalLoadStream<GemmOperand::kB,
+                              GlobalLoadIteratorB,
+                              SharedStoreIteratorB,
+                              GlobalTransformerB>
       GlobalLoadStreamB;
 
   /// The iterator to load A from shared memory.
@@ -472,7 +1020,7 @@ struct WmmaGemmTraitsHelper {
                            MemorySpace::kShared,
                            Index_,
                            typename GemmTileTraitsHelperA::WmmaMatrix,
-                           IteratorFragment::kWmmaMatrix>
+                           FragmentElementType::kWmmaMatrix>
       SharedLoadIteratorA;
   /// The stream to load A from shared memory.
   typedef SharedLoadStream<SharedLoadIteratorA> SharedLoadStreamA;
@@ -483,7 +1031,7 @@ struct WmmaGemmTraitsHelper {
                            MemorySpace::kShared,
                            Index_,
                            typename GemmTileTraitsHelperB::WmmaMatrix,
-                           IteratorFragment::kWmmaMatrix>
+                           FragmentElementType::kWmmaMatrix>
       SharedLoadIteratorB;
   /// The stream to load B from shared memory.
   typedef SharedLoadStream<SharedLoadIteratorB> SharedLoadStreamB;
@@ -518,14 +1066,18 @@ template <
     MatrixLayout::Kind kLayoutB_,
     /// The tile size for the GEMM KxNxM.
     typename OutputTile_ = Shape<64, 128, 128>,
+    /// The input type.
+    typename ScalarA_ = half,
+    /// The input type.
+    typename ScalarB_ = half,
     /// The output type.
     typename ScalarC_ = float,
     /// The functor to do the math in the epilogue.
     typename EpilogueFunctor_ = LinearScaling<ScalarC_>,
     /// The accumulator type.
     typename Accumulator_ = ScalarC_,
-    /// The number of accumulators per warp.
-    typename AccumulatorsPerWarp_ = typename WmmaGemmAccumulatorsPerWarp<OutputTile_>::Shape,
+    /// Tile size for warp-level GEMM (K-by-N-by-M)
+    typename WarpGemmShape_ = typename WmmaGemmAccumulatorsPerWarp<OutputTile_>::Shape,
     /// The shape of the WMMA instruction.
     typename InstructionShape_ = Shape<16, 16, 16>,
     /// The number of scalars per LDG for A.
@@ -538,10 +1090,12 @@ template <
     typename Helper_ = WmmaGemmTraitsHelper<kLayoutA_,
                                             kLayoutB_,
                                             OutputTile_,
+                                            ScalarA_,
+                                            ScalarB_,
                                             ScalarC_,
                                             Accumulator_,
                                             EpilogueFunctor_,
-                                            AccumulatorsPerWarp_,
+                                            WarpGemmShape_,
                                             InstructionShape_,
                                             kScalarsPerLdgA_,
                                             kScalarsPerLdgB_,
diff --git a/cutlass/iterator_access.h b/cutlass/iterator_access.h
index e94beb7349..b961766bb8 100644
--- a/cutlass/iterator_access.h
+++ b/cutlass/iterator_access.h
@@ -27,16 +27,14 @@
 */
 #pragma once
 
-#include <cutlass/fragment_load_store.h>
-#include <cutlass/load_store.h>
-#include <cutlass/predicate_vector.h>
-#include <cutlass/shape.h>
+#include "cutlass/load_store.h"
+#include "cutlass/predicate_vector.h"
+#include "cutlass/shape.h"
 
 namespace cutlass {
 
 ///////////////////////////////////////////////////////////////////////////////////////////////////
-
-/// Loads a fragment from an input iterator
+// Used by convolution
 template <typename InputIterator, typename Fragment>
 CUTLASS_HOST_DEVICE void iterator_load(InputIterator &iterator, Fragment &fragment) {
   typename InputIterator::FragmentIterator frag_iterator(fragment);
@@ -45,12 +43,12 @@ CUTLASS_HOST_DEVICE void iterator_load(InputIterator &iterator, Fragment &fragme
       for (int w = 0; w < InputIterator::Iterations::kW; ++w) {
         for (int c = 0; c < InputIterator::Iterations::kC; ++c) {
           if (iterator.valid(d, h, w, c)) {
-            iterator.get(reinterpret_cast<typename InputIterator::AccessType &>(
-                             frag_iterator.at(d, h, w, c)),
-                         d,
-                         h,
-                         w,
-                         c);
+            iterator.load_element(reinterpret_cast<typename InputIterator::AccessType &>(
+                                      frag_iterator.at(d, h, w, c)),
+                                  d,
+                                  h,
+                                  w,
+                                  c);
           }
         }
         if (w < InputIterator::Iterations::kW - 1) {
@@ -68,138 +66,21 @@ CUTLASS_HOST_DEVICE void iterator_load(InputIterator &iterator, Fragment &fragme
   iterator.inc_advance();
 }
 
-/// Loads a fragment from a shared memory input iterator
-template <typename InputIterator, typename Fragment>
-CUTLASS_DEVICE void shared_iterator_load(InputIterator &iterator, Fragment &fragment) {
-  typename InputIterator::FragmentIterator frag_iterator(fragment);
-  for (int d = 0; d < InputIterator::Iterations::kD; ++d) {
-    for (int h = 0; h < InputIterator::Iterations::kH; ++h) {
-      for (int w = 0; w < InputIterator::Iterations::kW; ++w) {
-        for (int c = 0; c < InputIterator::Iterations::kC; ++c) {
-          int const offset =
-              ComputeOffsetFromStrides<typename InputIterator::ImmediateOffsetStrides>::get(
-                  d, h, w, c);
-
-          FragmentLoad<InputIterator::kIteratorFragment,
-                       InputIterator::Tile::kC,
-                       typename InputIterator::Scalar,
-                       InputIterator::kMemorySpace,
-                       typename InputIterator::FragmentElement,
-                       InputIterator::Tile::kW>::load(frag_iterator.at(d, h, w, c),
-                                                      iterator.data(),
-                                                      offset);
-        }
-      }
-    }
-  }
-}
-
-/// Loads a fragment from a shared memory input iterator
-template <typename InputIterator, typename Fragment>
-CUTLASS_DEVICE void shared_iterator_load(InputIterator &iterator, Fragment &fragment, int d) {
-  typename InputIterator::FragmentIterator frag_iterator(fragment);
-  for (int h = 0; h < InputIterator::Iterations::kH; ++h) {
-    for (int w = 0; w < InputIterator::Iterations::kW; ++w) {
-      for (int c = 0; c < InputIterator::Iterations::kC; ++c) {
-        int const offset =
-            ComputeOffsetFromStrides<typename InputIterator::ImmediateOffsetStrides>::get(
-                d, h, w, c);
-
-        FragmentLoad<InputIterator::kIteratorFragment,
-                     InputIterator::Tile::kC,
-                     typename InputIterator::Scalar,
-                     InputIterator::kMemorySpace,
-                     typename InputIterator::FragmentElement,
-                     InputIterator::Tile::kW>::load(frag_iterator.at(0, h, w, c),
-                                                    iterator.data(),
-                                                    offset);
-      }
-    }
-  }
-}
-
-/// Loads a fragment from an input iterator, masked by a predicate iterator
-template <typename InputIterator, typename Fragment, typename ConstPredicateAdapter>
-CUTLASS_HOST_DEVICE void iterator_load_post_increment(InputIterator &iterator,
-                                                      Fragment &fragment,
-                                                      typename InputIterator::Index offset,
-                                                      ConstPredicateAdapter predicate_adapter) {
-  for (int d = 0; d < InputIterator::Iterations::kD; ++d, iterator.inc_d()) {
-    for (int h = 0; h < InputIterator::Iterations::kH; ++h, iterator.inc_h()) {
-      for (int w = 0; w < InputIterator::Iterations::kW; ++w, iterator.inc_w()) {
-        if (predicate_adapter.at(d, h, w, 0)) {
-          int idx = InputIterator::Tile::kC *
-                    (w + InputIterator::Iterations::kW * (h + InputIterator::Iterations::kH * d));
-
-          Load<typename Fragment::Element, InputIterator::Tile::kC, InputIterator::kMemorySpace>::
-              load(reinterpret_cast<typename InputIterator::AccessType &>(fragment[idx]),
-                   iterator.data(),
-                   offset);
-        }
-      }
-    }
-  }
-}
-
-/// Loads a fragment from an input iterator
-template <typename InputIterator, typename Fragment>
-CUTLASS_HOST_DEVICE void iterator_load_post_increment(InputIterator &iterator,
-                                                      Fragment &fragment,
-                                                      typename InputIterator::Index offset = 0) {
-  TrivialPredicateTileAdapter pred;
-  iterator_load_post_increment(iterator, fragment, offset, pred);
-}
-
-/// Loads a fragment from an input iterator
-template <typename InputIterator, typename Fragment, typename ConstPredicateAdapter>
-CUTLASS_HOST_DEVICE void iterator_load_post_increment(InputIterator &iterator,
-                                                      Fragment &fragment,
-                                                      ConstPredicateAdapter pred_it) {
-  iterator_load_post_increment(iterator, fragment, 0, pred_it);
-}
-
-template <typename InputIterator, typename Fragment, typename ConstPredicateAdapter>
-CUTLASS_HOST_DEVICE void iterator_load(InputIterator const &_iterator,
-                                       Fragment &fragment,
-                                       typename InputIterator::Index offset,
-                                       ConstPredicateAdapter predicate_adapter) {
-  InputIterator iterator(_iterator);
-  iterator_load_post_increment(iterator, fragment, offset, predicate_adapter);
-}
-
-/// Loads a fragment from an input iterator
-template <typename InputIterator, typename Fragment>
-CUTLASS_HOST_DEVICE void iterator_load(InputIterator const &iterator,
-                                       Fragment &fragment,
-                                       typename InputIterator::Index offset = 0) {
-  TrivialPredicateTileAdapter pred;
-  iterator_load(iterator, fragment, offset, pred);
-}
-
-/// Loads a fragment from an input iterator
-template <typename InputIterator, typename Fragment, typename ConstPredicateAdapter>
-CUTLASS_HOST_DEVICE void iterator_load(InputIterator const &iterator,
-                                       Fragment &fragment,
-                                       ConstPredicateAdapter pred_it) {
-  iterator_load(iterator, fragment, 0, pred_it);
-}
-
-///////////////////////////////////////////////////////////////////////////////////////////////////
-
-/// Stores a fragment to an output iterator
 template <typename OutputIterator, typename Fragment>
 CUTLASS_HOST_DEVICE void iterator_store(OutputIterator &iterator, Fragment &fragment) {
   typename OutputIterator::FragmentIterator frag_iterator(fragment);
   for (int d = 0; d < OutputIterator::Iterations::kD; ++d) {
     for (int h = 0; h < OutputIterator::Iterations::kH; ++h) {
       for (int w = 0; w < OutputIterator::Iterations::kW; ++w) {
-        if (iterator.valid(d, h, w, 0)) {
-          iterator.set(reinterpret_cast<typename OutputIterator::AccessType const &>(
-                           frag_iterator.at(d, h, w, 0)),
-                       d,
-                       h,
-                       w,
-                       0);
+        for (int c = 0; c < OutputIterator::Iterations::kC; ++c) {
+          if (iterator.valid(d, h, w, c)) {
+            iterator.store_element(reinterpret_cast<typename OutputIterator::AccessType &>(
+                                       frag_iterator.at(d, h, w, c)),
+                                   d,
+                                   h,
+                                   w,
+                                   c);
+          }
         }
         if (w < OutputIterator::Iterations::kW - 1) {
           iterator.inc_w();
@@ -215,104 +96,6 @@ CUTLASS_HOST_DEVICE void iterator_store(OutputIterator &iterator, Fragment &frag
   }
   iterator.inc_advance();
 }
-
-/// Stores a fragment to a shared memory output iterator
-template <typename OutputIterator, typename Fragment>
-CUTLASS_DEVICE void shared_iterator_store(OutputIterator &iterator, Fragment const &fragment) {
-  typename OutputIterator::FragmentConstIterator frag_iterator(fragment);
-  for (int d = 0; d < OutputIterator::Iterations::kD; ++d) {
-    for (int h = 0; h < OutputIterator::Iterations::kH; ++h) {
-      for (int w = 0; w < OutputIterator::Iterations::kW; ++w) {
-        for (int c = 0; c < OutputIterator::Iterations::kC; ++c) {
-          int const offset =
-              ComputeOffsetFromStrides<typename OutputIterator::ImmediateOffsetStrides>::get(
-                  d, h, w, c);
-
-          FragmentStore<OutputIterator::kIteratorFragment,
-                        OutputIterator::Tile::kC,
-                        typename OutputIterator::Scalar,
-                        OutputIterator::kMemorySpace,
-                        typename OutputIterator::FragmentElement,
-                        OutputIterator::Tile::kW>::store(frag_iterator.at(d, h, w, c),
-                                                         iterator.data(),
-                                                         offset);
-        }
-      }
-    }
-  }
-}
-
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Stores a fragment to an output iterator, masked by a predicate iterator
-template <typename OutputIterator, typename Fragment, typename ConstPredicateAdapter>
-CUTLASS_HOST_DEVICE void iterator_store_post_increment(OutputIterator &iterator,
-                                                       Fragment const &fragment,
-                                                       typename OutputIterator::Index offset,
-                                                       ConstPredicateAdapter predicate_adapter) {
-  for (int d = 0; d < OutputIterator::Iterations::kD; ++d, iterator.inc_d()) {
-    for (int h = 0; h < OutputIterator::Iterations::kH; ++h, iterator.inc_h()) {
-      for (int w = 0; w < OutputIterator::Iterations::kW; ++w, iterator.inc_w()) {
-        if (predicate_adapter.at(d, h, w, 0)) {
-          int idx = OutputIterator::Tile::kC *
-                    (w + OutputIterator::Iterations::kW * (h + OutputIterator::Iterations::kH * d));
-
-          Store<typename Fragment::Element,
-                OutputIterator::Tile::kC,
-                OutputIterator::kMemorySpace>::
-              store(reinterpret_cast<typename OutputIterator::AccessType const &>(fragment[idx]),
-                    iterator.data(),
-                    offset);
-        }
-      }
-    }
-  }
-}
-
-/// Stores a fragment to an output iterator
-template <typename OutputIterator, typename Fragment>
-CUTLASS_HOST_DEVICE void iterator_store_post_increment(OutputIterator &iterator,
-                                                       Fragment const &fragment,
-                                                       typename OutputIterator::Index offset = 0) {
-  TrivialPredicateTileAdapter pred;
-  iterator_store_post_increment(iterator, fragment, offset, pred);
-}
-
-/// Stores a fragment to an output iterator
-template <typename OutputIterator, typename Fragment, typename ConstPredicateAdapter>
-CUTLASS_HOST_DEVICE void iterator_store_post_increment(OutputIterator &iterator,
-                                                       Fragment const &fragment,
-                                                       ConstPredicateAdapter pred_it) {
-  iterator_store_post_increment(iterator, fragment, 0, pred_it);
-}
-
-/// Stores a fragment to an output iterator, masked by a predicate iterator
-template <typename OutputIterator, typename Fragment, typename ConstPredicateAdapter>
-CUTLASS_HOST_DEVICE void iterator_store(OutputIterator const &_iterator,
-                                        Fragment const &fragment,
-                                        typename OutputIterator::Index offset,
-                                        ConstPredicateAdapter predicate_adapter) {
-  OutputIterator iterator(_iterator);
-  iterator_store_post_increment(iterator, fragment, offset, predicate_adapter);
-}
-
-/// Stores a fragment to an output iterator
-template <typename OutputIterator, typename Fragment>
-CUTLASS_HOST_DEVICE void iterator_store(OutputIterator const &iterator,
-                                        Fragment const &fragment,
-                                        typename OutputIterator::Index offset = 0) {
-  TrivialPredicateTileAdapter pred;
-  iterator_store(iterator, fragment, offset, pred);
-}
-
-/// Stores a fragment to an output iterator
-template <typename OutputIterator, typename Fragment, typename ConstPredicateAdapter>
-CUTLASS_HOST_DEVICE void iterator_store(OutputIterator const &iterator,
-                                        Fragment const &fragment,
-                                        ConstPredicateAdapter pred_it) {
-  iterator_store(iterator, fragment, 0, pred_it);
-}
-
-///////////////////////////////////////////////////////////////////////////////////////////////////
-
 }  // namespace cutlass
diff --git a/cutlass/kernel_launch.h b/cutlass/kernel_launch.h
new file mode 100644
index 0000000000..ee37b2fda9
--- /dev/null
+++ b/cutlass/kernel_launch.h
@@ -0,0 +1,67 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *   * Redistributions of source code must retain the above copyright notice, this list of
+ *     conditions and the following disclaimer.
+ *   * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *     conditions and the following disclaimer in the documentation and/or other materials
+ *     provided with the distribution.
+ *   * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *     to endorse or promote products derived from this software without specific prior written
+ *     permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+  \brief Defines structures and helpers to launch CUDA kernels within CUTLASS.
+*/
+
+#pragma once
+
+#include "cutlass/cutlass.h"
+
+namespace cutlass {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Structure containing the basic launch configuration of a CUDA kernel.
+struct KernelLaunchConfiguration {
+
+  /// CUDA grid dimensions
+  dim3 grid;
+
+  /// CUDA threablock dimensions
+  dim3 block;
+
+  /// Bytes of dynamically allocated SMEM in addition to static SMEM
+  size_t dynamic_smem;
+
+  //
+  // Methods
+  //
+
+  /// Constructs a KernellaunchConfiguration object
+  CUTLASS_HOST_DEVICE
+  KernelLaunchConfiguration(
+    dim3 _grid = dim3(1,1,1),
+    dim3 _block = dim3(1,1,1),
+    size_t _dynamic_smem = 0
+  ):
+    grid(_grid),
+    block(_block),
+    dynamic_smem(_dynamic_smem) { }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
diff --git a/cutlass/load_store.h b/cutlass/load_store.h
index 5cb5eb6728..db09dd0a48 100644
--- a/cutlass/load_store.h
+++ b/cutlass/load_store.h
@@ -27,8 +27,7 @@
 */
 #pragma once
 
-#include <cutlass/vector.h>
-
+#include "cutlass/vector.h"
 namespace cutlass {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
@@ -44,45 +43,68 @@ struct MemorySpace {
   };
 };
 
+/// Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix
+struct FragmentElementType {
+  enum Kind { kScalar, kWmmaMatrix };
+};
+
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 template <typename Scalar_,
-          int Lanes_,
+          int kAccessSize,
           MemorySpace::Kind Memory_,
-          bool = (Lanes_ > 1),
-          size_t = (sizeof(Scalar_) * Lanes_)>
+          FragmentElementType::Kind kFragmentElementType = FragmentElementType::kScalar,
+          typename FragmentElement_ = Scalar_,
+          int kStride = 1,
+          size_t size = (sizeof(Scalar_) * kAccessSize)>
 struct Load {
   /// The output type.
-  typedef typename Vectorize<Scalar_, Lanes_>::Type AccessType;
+  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
 
   /// The load function.
-  static CUTLASS_DEVICE void load(AccessType& dst, Scalar_ const* pointer, int offset) {
-    dst = reinterpret_cast<AccessType const*>(&pointer[offset])[0];
+  static CUTLASS_HOST_DEVICE void load(AccessType& dst, Scalar_ const* pointer, int offset) {
+    dst = *reinterpret_cast<AccessType const*>(pointer + offset);
   }
+
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename Scalar_, int Lanes_, MemorySpace::Kind Memory_>
-struct Load<Scalar_, Lanes_, Memory_, true, 4> {
+/// Partial specialization for 16b loads
+template <typename Scalar_, int kAccessSize, MemorySpace::Kind Memory_>
+struct Load<Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2> {
   /// The output type.
-  typedef typename Vectorize<Scalar_, Lanes_>::Type AccessType;
+  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
 
-  /// The store function.
-  static CUTLASS_DEVICE void load(AccessType& dst, Scalar_ const* pointer, int offset) {
+  /// The load function.
+  static CUTLASS_HOST_DEVICE void load(AccessType& dst, Scalar_ const* pointer, int offset) {
+    reinterpret_cast<uint16_t&>(dst) = reinterpret_cast<uint16_t const*>(&pointer[offset])[0];
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename Scalar_, int kAccessSize, MemorySpace::Kind Memory_, int kStride>
+struct Load<Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4> {
+  /// The output type.
+  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
+
+  /// The load function.
+  static CUTLASS_HOST_DEVICE void load(AccessType& dst, Scalar_ const* pointer, int offset) {
     dst.registers[0] = reinterpret_cast<uint32_t const*>(&pointer[offset])[0];
   }
+
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename Scalar_, int Lanes_, MemorySpace::Kind Memory_>
-struct Load<Scalar_, Lanes_, Memory_, true, 8> {
+template <typename Scalar_, int kAccessSize, MemorySpace::Kind Memory_, int kStride>
+struct Load<Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8> {
   /// The output type.
-  typedef typename Vectorize<Scalar_, Lanes_>::Type AccessType;
+  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
 
-  /// The store function.
-  static CUTLASS_DEVICE void load(AccessType& dst, Scalar_ const* pointer, int offset) {
+  /// The load function.
+  static CUTLASS_HOST_DEVICE void load(AccessType& dst, Scalar_ const* pointer, int offset) {
     uint2 tmp = reinterpret_cast<uint2 const*>(&pointer[offset])[0];
     dst.registers[0] = tmp.x;
     dst.registers[1] = tmp.y;
@@ -91,13 +113,13 @@ struct Load<Scalar_, Lanes_, Memory_, true, 8> {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <MemorySpace::Kind Memory_>
-struct Load<double, 2, Memory_, true, 16> {
+template <MemorySpace::Kind Memory_, int kStride>
+struct Load<double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16> {
   /// The output type.
   typedef typename Vectorize<double, 2>::Type AccessType;
 
-  /// The store function.
-  static CUTLASS_DEVICE void load(AccessType& dst, double const* pointer, int offset) {
+  /// The load function.
+  static CUTLASS_HOST_DEVICE void load(AccessType& dst, double const* pointer, int offset) {
     double2 tmp = reinterpret_cast<double2 const*>(&pointer[offset])[0];
     dst[0] = tmp.x;
     dst[1] = tmp.y;
@@ -108,13 +130,13 @@ struct Load<double, 2, Memory_, true, 16> {
 
 #if defined(__CUDACC_VERSION_MAJOR) && __CUDACC_VERSION_MAJOR < 10
 // WAR bug in NVCC where the upper and lower half of the register end up being the same
-template <MemorySpace::Kind Memory_>
-struct Load<half, 8, Memory_, true, 16> {
+template <MemorySpace::Kind Memory_, int kStride>
+struct Load<half, 8, Memory_, FragmentElementType::kScalar, half, kStride, 16> {
   /// The output type.
   typedef typename Vectorize<half, 8>::Type AccessType;
 
-  /// The store function.
-  static CUTLASS_DEVICE void load(AccessType& dst, half const* pointer, int offset) {
+  /// The load function.
+  static CUTLASS_HOST_DEVICE void load(AccessType& dst, half const* pointer, int offset) {
     int2 tmp = reinterpret_cast<int2 const*>(&pointer[offset])[0];
     dst.registers[0] = tmp.x;
     dst.registers[1] = tmp.y;
@@ -129,13 +151,13 @@ struct Load<half, 8, Memory_, true, 16> {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename Scalar_, int Lanes_, MemorySpace::Kind Memory_>
-struct Load<Scalar_, Lanes_, Memory_, true, 16> {
+template <typename Scalar_, int kAccessSize, MemorySpace::Kind Memory_, int kStride>
+struct Load<Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16> {
   /// The output type.
-  typedef typename Vectorize<Scalar_, Lanes_>::Type AccessType;
+  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
 
-  /// The store function.
-  static CUTLASS_DEVICE void load(AccessType& dst, Scalar_ const* pointer, int offset) {
+  /// The load function.
+  static CUTLASS_HOST_DEVICE void load(AccessType& dst, Scalar_ const* pointer, int offset) {
     uint4 tmp = reinterpret_cast<uint4 const*>(&pointer[offset])[0];
     dst.registers[0] = tmp.x;
     dst.registers[1] = tmp.y;
@@ -147,29 +169,45 @@ struct Load<Scalar_, Lanes_, Memory_, true, 16> {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 template <typename Scalar_,
-          int Lanes_,
+          int kAccessSize,
           MemorySpace::Kind Memory_,
-          bool = (Lanes_ > 1),
-          size_t = (sizeof(Scalar_) * Lanes_)>
+          FragmentElementType::Kind kFragmentElementType = FragmentElementType::kScalar,
+          typename FragmentElement_ = Scalar_,
+          int kStride = 1,
+          size_t size = (sizeof(Scalar_) * kAccessSize)>
 struct Store {
   /// The output type.
-  typedef typename Vectorize<Scalar_, Lanes_>::Type AccessType;
+  typedef typename Vectorize<FragmentElement_, kAccessSize>::Type AccessType;
 
   /// The store function.
-  static CUTLASS_DEVICE void store(AccessType const& src, Scalar_* pointer, int offset) {
-    pointer[offset] = src;
+  static CUTLASS_HOST_DEVICE void store(AccessType const& src, Scalar_* pointer, int offset) {
+    pointer[offset] = *reinterpret_cast<Scalar_ const*>(&src);
   }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename Scalar_, int Lanes_, MemorySpace::Kind Memory_>
-struct Store<Scalar_, Lanes_, Memory_, true, 4> {
+template <typename Scalar_, int kAccessSize, MemorySpace::Kind Memory_>
+struct Store<Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2> {
   /// The output type.
-  typedef typename Vectorize<Scalar_, Lanes_>::Type AccessType;
+  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
 
   /// The store function.
-  static CUTLASS_DEVICE void store(AccessType const& src, Scalar_* pointer, int offset) {
+  static CUTLASS_HOST_DEVICE void store(AccessType const& src, Scalar_* pointer, int offset) {
+    uint16_t* addr = reinterpret_cast<uint16_t*>(&pointer[offset]);
+    addr[0] = reinterpret_cast<uint16_t const&>(src);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename Scalar_, int kAccessSize, MemorySpace::Kind Memory_, int kStride>
+struct Store<Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4> {
+  /// The output type.
+  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
+
+  /// The store function.
+  static CUTLASS_HOST_DEVICE void store(AccessType const& src, Scalar_* pointer, int offset) {
     uint32_t* addr = reinterpret_cast<uint32_t*>(&pointer[offset]);
     addr[0] = src.registers[0];
   }
@@ -177,13 +215,13 @@ struct Store<Scalar_, Lanes_, Memory_, true, 4> {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename Scalar_, int Lanes_, MemorySpace::Kind Memory_>
-struct Store<Scalar_, Lanes_, Memory_, true, 8> {
+template <typename Scalar_, int kAccessSize, MemorySpace::Kind Memory_, int kStride>
+struct Store<Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8> {
   /// The output type.
-  typedef typename Vectorize<Scalar_, Lanes_>::Type AccessType;
+  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
 
   /// The store function.
-  static CUTLASS_DEVICE void store(AccessType const& src, Scalar_* pointer, int offset) {
+  static CUTLASS_HOST_DEVICE void store(AccessType const& src, Scalar_* pointer, int offset) {
     uint2* addr = reinterpret_cast<uint2*>(&pointer[offset]);
     addr[0] = make_uint2(src.registers[0], src.registers[1]);
   }
@@ -191,13 +229,13 @@ struct Store<Scalar_, Lanes_, Memory_, true, 8> {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <MemorySpace::Kind Memory_>
-struct Store<double, 2, Memory_, true, 16> {
+template <MemorySpace::Kind Memory_, int kStride>
+struct Store<double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16> {
   /// The output type.
   typedef typename Vectorize<double, 2>::Type AccessType;
 
   /// The store function.
-  static CUTLASS_DEVICE void store(AccessType const& src, double* pointer, int offset) {
+  static CUTLASS_HOST_DEVICE void store(AccessType const& src, double* pointer, int offset) {
     double2* addr = reinterpret_cast<double2*>(&pointer[offset]);
     addr[0] = make_double2(src[0], src[1]);
   }
@@ -205,13 +243,13 @@ struct Store<double, 2, Memory_, true, 16> {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename Scalar_, int Lanes_, MemorySpace::Kind Memory_>
-struct Store<Scalar_, Lanes_, Memory_, true, 16> {
+template <typename Scalar_, int kAccessSize, MemorySpace::Kind Memory_, int kStride>
+struct Store<Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16> {
   /// The output type.
-  typedef typename Vectorize<Scalar_, Lanes_>::Type AccessType;
+  typedef typename Vectorize<Scalar_, kAccessSize>::Type AccessType;
 
   /// The store function.
-  static CUTLASS_DEVICE void store(AccessType const& src, Scalar_* pointer, int offset) {
+  static CUTLASS_HOST_DEVICE void store(AccessType const& src, Scalar_* pointer, int offset) {
     uint4* addr = reinterpret_cast<uint4*>(&pointer[offset]);
     addr[0] = make_uint4(src.registers[0], src.registers[1], src.registers[2], src.registers[3]);
   }
@@ -219,4 +257,123 @@ struct Store<Scalar_, Lanes_, Memory_, true, 16> {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+template <typename Scalar_,
+          int kAccessSize,
+          MemorySpace::Kind Memory_,
+          typename FragmentElement_,
+          int kStride,
+          size_t size>
+struct Load<Scalar_,
+            kAccessSize,
+            Memory_,
+            FragmentElementType::kWmmaMatrix,
+            FragmentElement_,
+            kStride,
+            size> {
+  /// The output type.
+  typedef FragmentElement_ AccessType;
+
+  /// The load function.
+  static CUTLASS_HOST_DEVICE void load(AccessType& value, Scalar_ const* pointer, int offset) {
+    value.load(&pointer[offset], kStride);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <int kAccessSize,
+          MemorySpace::Kind Memory_,
+          typename FragmentElement_,
+          int kStride,
+          size_t size>
+struct Load<Vector<bin1_t, 32>,
+            kAccessSize,
+            Memory_,
+            FragmentElementType::kWmmaMatrix,
+            FragmentElement_,
+            kStride,
+            size> {
+  /// The output type.
+  typedef FragmentElement_ AccessType;
+
+  /// The load function.
+  static CUTLASS_HOST_DEVICE void load(AccessType& value, Vector<bin1_t, 32> const* pointer,
+                                       int offset) {
+    value.load(&pointer[offset], kStride * 32);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <int kAccessSize,
+          MemorySpace::Kind Memory_,
+          typename FragmentElement_,
+          int kStride,
+          size_t size>
+struct Load<Vector<int4_t, 8>,
+            kAccessSize,
+            Memory_,
+            FragmentElementType::kWmmaMatrix,
+            FragmentElement_,
+            kStride,
+            size> {
+  /// The output type.
+  typedef FragmentElement_ AccessType;
+
+  /// The load function.
+  static CUTLASS_HOST_DEVICE void load(AccessType& value, Vector<int4_t, 8> const* pointer,
+                                       int offset) {
+    value.load(&pointer[offset], kStride * 8);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <int kAccessSize,
+          MemorySpace::Kind Memory_,
+          typename FragmentElement_,
+          int kStride,
+          size_t size>
+struct Load<Vector<uint4_t, 8>,
+            kAccessSize,
+            Memory_,
+            FragmentElementType::kWmmaMatrix,
+            FragmentElement_,
+            kStride,
+            size> {
+  /// The output type.
+  typedef FragmentElement_ AccessType;
+
+  /// The load function.
+  static CUTLASS_HOST_DEVICE void load(AccessType& value, Vector<uint4_t, 8> const* pointer,
+                                       int offset) {
+    value.load(&pointer[offset], kStride * 8);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+template <typename Scalar_,
+          int kAccessSize,
+          MemorySpace::Kind Memory_,
+          typename FragmentElement_,
+          int kStride,
+          size_t size>
+struct Store<Scalar_,
+             kAccessSize,
+             Memory_,
+             FragmentElementType::kWmmaMatrix,
+             FragmentElement_,
+             kStride,
+             size> {
+  /// The input type.
+  typedef FragmentElement_ AccessType;
+
+  /// The store function.
+  static CUTLASS_HOST_DEVICE void store(AccessType const& value, Scalar_* pointer, int offset) {
+    value.store(&pointer[offset], kStride);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 }  // namespace cutlass
diff --git a/cutlass/matrix_traits.h b/cutlass/matrix_traits.h
index 77e8b70625..08a43a99af 100644
--- a/cutlass/matrix_traits.h
+++ b/cutlass/matrix_traits.h
@@ -27,13 +27,327 @@
 */
 #pragma once
 
+#include "cutlass/coord.h"
+
 namespace cutlass {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Describes layouts of matrices
+/// MatrixCoord wraps Coord<2, int> to provide a helper for accessing named dimensions. Classes
+/// expecting a coordinate in the rank=2 index space of a matrix should use MatrixCoord.
+struct MatrixCoord : public Coord<2, int> {
+
+  /// Integer-valued index
+  typedef int Index;
+
+  /// Base type is a Coord of rank=2
+  typedef Coord<2, Index> Base;
+
+  /// Rows dimension
+  static int const kRow = 0;
+
+  /// Columns dimension
+  static int const kColumn = 1;
+
+  //
+  // Methods
+  //
+
+  /// Default ctor
+  CUTLASS_HOST_DEVICE
+  MatrixCoord() { }
+
+  /// Constructs from Coord<2>
+  CUTLASS_HOST_DEVICE
+  MatrixCoord(Coord<2, Index> const &coord): Base(coord) { }
+
+  /// Helper to construct from a row and column
+  CUTLASS_HOST_DEVICE
+  MatrixCoord(Index row, Index column): Base(make_Coord(row, column)) { }
+
+  /// Returns the row of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index const & row() const { return this->at(kRow); }
+
+  /// Returns the row of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index & row() { return this->at(kRow); }
+
+  /// Returns the column of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index const & column() const { return this->at(kColumn); }
+
+  /// Returns the column of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index & column() { return this->at(kColumn); }
+
+  //
+  // Coord operators
+  //
+
+  /// Element-wise addition
+  CUTLASS_HOST_DEVICE
+  MatrixCoord operator+(Base const& b) const {
+    return MatrixCoord(Base::operator+(b));
+  }
+
+  /// Element-wise subtraction
+  CUTLASS_HOST_DEVICE
+  MatrixCoord operator-(Base const& b) const {
+    return MatrixCoord(Base::operator-(b));
+  }
+
+  /// Element-wise multiplication
+  CUTLASS_HOST_DEVICE
+  MatrixCoord operator*(Base const& b) const {
+    return MatrixCoord(Base::operator*(b));
+  }
+
+  /// Element-wise division
+  CUTLASS_HOST_DEVICE
+  MatrixCoord operator/(Base const& b) const {
+    return MatrixCoord(Base::operator/(b));
+  }
+
+  /// In-place addition
+  CUTLASS_HOST_DEVICE
+  MatrixCoord& operator+=(Base const& b) {
+    Base::operator+=(b);
+    return *this;
+  }
+
+  /// In-place subtraction
+  CUTLASS_HOST_DEVICE
+  MatrixCoord& operator-=(Base const& b) {
+    Base::operator-=(b);
+    return *this;
+  }
+
+  /// In-place multiplication
+  CUTLASS_HOST_DEVICE
+  MatrixCoord& operator*=(Base const& b) {
+    Base::operator*=(b);
+    return *this;
+  }
+
+  /// In-place division
+  CUTLASS_HOST_DEVICE
+  MatrixCoord& operator/=(Base const& b) {
+    Base::operator/=(b);
+    return *this;
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Defines data layouts of various matrix formats usable by TensorRef and other classes.
+//
+// The following define classes satisfying the TensorRefMapFunc concept. These must support the
+// following operations, where func is an instance of type TensorRefMapFunc.
+//
+//   Coord<TensorRefMapFunc::kStorageRank> = func(Coord<kRank>);
+//
+// Though not required to be usable by TensorRef, each of the following also define a helper
+// function to map the "leading dimension" to an appropriate stride vector. Implementations
+// following this convention should also implement the following static method:
+//
+//   Coord<TensorRefMapFunc::kStorageRank> stride = TensorRefMapFunc::stride(leading_dim);
+//
 struct MatrixLayout {
+
+  /// Enumeration defining fundamental contiguous layouts.
   enum Kind { kRowMajor, kColumnMajor };
+
+  //
+  // TensorRefMapFunc definitions for common layouts
+  //
+
+  /// Mapping function for row-major matrices
+  struct RowMajor {
+    static int const kStorageRank = 2;
+    /// Maps (i, j) to (i, j)
+    CUTLASS_HOST_DEVICE
+    Coord<kStorageRank> operator()(MatrixCoord const &coord) const {
+      return coord;
+    }
+  };
+
+  /// Mapping function for column-major matrices
+  struct ColumnMajor {
+    static int const kStorageRank = 2;
+    /// Maps (i, j) to (j, i)
+    CUTLASS_HOST_DEVICE
+    Coord<kStorageRank> operator()(MatrixCoord const &coord) const {
+      return make_Coord(coord.column(), coord.row());
+    }
+  };
+
+  /// Mapping function for interleaved matrices. Matrix is structured
+  /// as row-major arrangement of fixed-size columns.
+  template <int Interleave>
+  struct RowMajorInterleaved {
+
+    /// Rank of storage n-D array
+    static int const kStorageRank = 3;
+
+    /// Interleaving size
+    static int const kInterleave = Interleave;
+
+    /// Maps (row, col) to (row, col, row)
+    CUTLASS_HOST_DEVICE
+    Coord<kStorageRank> operator()(MatrixCoord const &coord) const {
+      return make_Coord(
+        coord.row() / kInterleave,
+        coord.column(),
+        coord.row() % kInterleave
+      );
+    }
+
+    /// Helper to compute stride vector from leading dimension
+    CUTLASS_HOST_DEVICE
+    static Coord<kStorageRank> stride(int ldm) {
+      return make_Coord(
+        ldm * kInterleave,
+        kInterleave,
+        1
+      );
+    }
+  };
+
+  /// Mapping function for interleaved matrices. Matrix is structured
+  /// as column-major arrangement of fixed-size rows.
+  template <int Interleave>
+  struct ColumnMajorInterleaved {
+
+    /// Rank of storage n-D array
+    static int const kStorageRank = 3;
+
+    /// Interleaving size
+    static int const kInterleave = Interleave;
+
+    /// Maps (row, col) to (col, row, col)
+    CUTLASS_HOST_DEVICE
+    Coord<kStorageRank> operator()(MatrixCoord const &coord) const {
+      return make_Coord(
+        coord.column() / kInterleave,
+        coord.row(),
+        coord.column() % kInterleave
+      );
+    }
+
+    /// Helper to compute stride vector from leading dimension
+    CUTLASS_HOST_DEVICE
+    static Coord<kStorageRank> stride(int ldm) {
+      return make_Coord(
+        ldm * kInterleave,
+        kInterleave,
+        1
+      );
+    }
+  };
+
+  /// Mapping function for scenario in which layout is row-major or column-major but this information
+  /// is only available at runtime.
+  struct ContiguousLayout {
+    /// Arbitrary storage rank
+    static int const kStorageRank = 3;
+
+    /// Dimension of rows
+    static int const kRow = 0;
+
+    /// Dimension of columns
+    static int const kColumn = 1;
+
+    /// Mapping function defined by runtime variable. Returns coordinates in n-D storage array
+    /// as (matrix row, matrix colum, 0)
+    CUTLASS_HOST_DEVICE
+    Coord<kStorageRank> operator()(MatrixCoord const &coord) const {
+        return make_Coord(coord.row(), coord.column(), 0);
+    }
+
+    /// Helper to construct a stride vector based on contiguous matrix layout and leading dimension
+    CUTLASS_HOST_DEVICE
+    static Coord<kStorageRank> stride(MatrixLayout::Kind layout, int ldm) {
+      if (layout == MatrixLayout::kRowMajor) {
+        return make_Coord(ldm, 1, 1);
+      }
+      return make_Coord(1, ldm, 1);
+    }
+  };
+
+  /// Mapping function for block-linear matrices. Matrix is structured
+  /// as column-major arrangement of 2D tiles (that are column-major).
+  template <int BlockRows, int BlockColumns>
+  struct ColumnMajorBlockLinear {
+
+    /// Rank of storage n-D array
+    static int const kStorageRank = 4;
+
+    /// Interleaving size in rows dimension
+    static int const kBlockRows = BlockRows;
+
+    /// Interleaving size in columns dimension
+    static int const kBlockColumns = BlockColumns;
+
+    /// Maps (row, col) to (col, row, col, row)
+    CUTLASS_HOST_DEVICE
+    Coord<kStorageRank> operator()(MatrixCoord const &coord) const {
+      return make_Coord(
+        coord.column() / kBlockColumns,
+        coord.row() / kBlockRows,
+        coord.column() % kBlockColumns,
+        coord.row() % kBlockRows
+      );
+    }
+
+    /// Helper to compute stride vector from leading dimension
+    CUTLASS_HOST_DEVICE
+    static Coord<kStorageRank> stride(int ldm) {
+      return make_Coord(
+        ldm * kBlockRows * kBlockColumns,
+        kBlockRows * kBlockColumns,
+        kBlockRows,
+        1
+      );
+    }
+  };
+
+  /// Mapping function for block-linear matrices. Matrix is structured
+  /// as row-major arrangement of 2D tiles (that are row-major)
+  template <int BlockRows, int BlockColumns>
+  struct RowMajorBlockLinear {
+
+    /// Rank of storage n-D array
+    static int const kStorageRank = 4;
+
+    /// Interleaving size in rows dimension
+    static int const kBlockRows = BlockRows;
+
+    /// Interleaving size in columns dimension
+    static int const kBlockColumns = BlockColumns;
+
+    /// Maps (row, col) to (row, col, row, col)
+    CUTLASS_HOST_DEVICE
+    Coord<kStorageRank> operator()(MatrixCoord const &coord) const {
+      return make_Coord(
+        coord.row() / kBlockRows,
+        coord.column() / kBlockColumns,
+        coord.row() % kBlockRows,
+        coord.column() % kBlockColumns
+      );
+    }
+
+    /// Helper to compute stride vector from leading dimension
+    CUTLASS_HOST_DEVICE
+    static Coord<kStorageRank> stride(int ldm) {
+      return make_Coord(
+        ldm * kBlockRows * kBlockColumns,
+        kBlockRows * kBlockColumns,
+        kBlockColumns,
+        1
+      );
+    }
+  };
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
@@ -45,4 +359,14 @@ struct GemmOperand {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+/// Transformation applied to matrix operands
+struct MatrixTransform {
+  enum Kind {
+    kNone,       /// no operation
+    kConjugate,  /// conjugate
+  };
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 }  // namespace cutlass
diff --git a/cutlass/predicate_vector.h b/cutlass/predicate_vector.h
index 81668577e2..4a37d017d7 100644
--- a/cutlass/predicate_vector.h
+++ b/cutlass/predicate_vector.h
@@ -28,12 +28,13 @@
 */
 #pragma once
 
+#include <assert.h>
 #include <stdint.h>
 
-#include <cutlass/cutlass.h>
-#include <cutlass/shape.h>
+#include "cutlass/cutlass.h"
+#include "cutlass/shape.h"
 
-#include <cutlass/util/platform.h>
+#include "cutlass/util/platform.h"
 
 namespace cutlass {
 
@@ -114,7 +115,7 @@ struct PredicateVector {
   // Make sure no one tries to put more than 8 bits in a byte :)
   static_assert(kPredicatesPerByte <= 8, "kPredicatesPerByte must fit within an actual byte");
   // Make sure the "offsetted" bits fit in one byte.
-  static_assert(kPredicateStart + kPredicatesPerByte < 8,
+  static_assert(kPredicateStart + kPredicatesPerByte <= 8,
                 "The offsetted predicates must fit within an actual byte.");
 
   /// Storage type of individual elements
diff --git a/cutlass/reshape_tile.h b/cutlass/reshape_tile.h
index 55aebfcafb..67faa602ac 100644
--- a/cutlass/reshape_tile.h
+++ b/cutlass/reshape_tile.h
@@ -27,7 +27,7 @@
 */
 #pragma once
 
-#include <cutlass/shape.h>
+#include "cutlass/shape.h"
 
 namespace cutlass {
 
diff --git a/cutlass/shape.h b/cutlass/shape.h
index 4f6b222eec..b8c0c66f35 100644
--- a/cutlass/shape.h
+++ b/cutlass/shape.h
@@ -27,7 +27,7 @@
 */
 #pragma once
 
-#include <cutlass/cutlass.h>
+#include "cutlass/cutlass.h"
 
 namespace cutlass {
 
@@ -128,6 +128,17 @@ struct ShapeDiv {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+template <typename A_, typename B_>
+struct ShapeDivCeiling {
+  typedef Shape<(A_::kD + B_::kD - 1) / B_::kD,
+                (A_::kH + B_::kH - 1) / B_::kH,
+                (A_::kW + B_::kW - 1) / B_::kW,
+                (A_::kC + B_::kC - 1) / B_::kC>
+      Shape;
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 template <typename A_, typename B_>
 struct ShapeMax {
   typedef Shape<(A_::kD > B_::kD ? A_::kD : B_::kD),
@@ -150,12 +161,12 @@ struct ShapeMin {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename Shape_, int kElementsPerAccess>
+template <typename Shape_, int elementsPerAccess>
 struct ShapeStrides {
   typedef Shape<Shape_::kH * Shape_::kW * Shape_::kC,
                 Shape_::kW * Shape_::kC,
                 Shape_::kC,
-                kElementsPerAccess>
+                elementsPerAccess>
       Shape;
 };
 
@@ -167,7 +178,7 @@ struct ShapeStrides {
 */
 template <typename Shape_>
 struct ComputeOffsetFromShape {
-  static CUTLASS_DEVICE int get(int d, int h, int w, int c) {
+  static CUTLASS_HOST_DEVICE int get(int d, int h, int w, int c) {
     // clang-format off
     return d * Shape_::kH * Shape_::kW * Shape_::kC +
            h * Shape_::kW * Shape_::kC +
@@ -179,73 +190,19 @@ struct ComputeOffsetFromShape {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/**
-* @brief Compute the offset for the given coordinates in a cube with a depth of 1
-* @tparam kSh Elements in the H dimension
-* @tparam kSw Elements in the W dimension
-* @tparam kSc Separation between two elements in "elements"
-*/
-template <int kSh_, int kSw_, int kSc_>
-struct ComputeOffsetFromShape<Shape<1, kSh_, kSw_, kSc_> > {
-  static CUTLASS_DEVICE int get(int d, int h, int w, int c) {
-    return h * kSw_ * kSc_ + w * kSc_ + c;
-  }
-};
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-/**
-* @brief Compute the offset for the given coordinates in a cube with one channel and a depth of 1
-* @tparam kSh Elements in the H dimension
-* @tparam kSw Elements in the W dimension
-*/
-template <int kSh_, int kSw_>
-struct ComputeOffsetFromShape<Shape<1, kSh_, kSw_, 1> > {
-  static CUTLASS_DEVICE int get(int d, int h, int w, int c) { return h * kSw_ + w; }
-};
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
 /**
 * @brief Compute the offset for the given coordinates in a cube
 * @tparam A \ref layout_concept where each dimension of the cube specifies the corresponding stride.
 */
 template <typename Strides_>
 struct ComputeOffsetFromStrides {
-  static CUTLASS_DEVICE int get(int d, int h, int w, int c) {
+  static CUTLASS_HOST_DEVICE int get(int d, int h, int w, int c) {
     return d * Strides_::kD + h * Strides_::kH + w * Strides_::kW + c * Strides_::kC;
   }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/**
-* @brief Compute the offset for the given coordinates in a cube with a depth of 1
-* @tparam S_h Stride in the H dimension in scalars
-* @tparam S_w Stride in the W dimension in scalars
-* @tparam S_c Stride between two scalars.
-*/
-template <int S_h_, int S_w_, int S_c_>
-struct ComputeOffsetFromStrides<Shape<1, S_h_, S_w_, S_c_> > {
-  static CUTLASS_DEVICE int get(int d, int h, int w, int c) {
-    return h * S_h_ + w * S_w_ + c * S_c_;
-  }
-};
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-/**
-* @brief Compute the offset for the given coordinates in a cube with one channel and a depth of 1
-* @tparam S_h Stride in the H dimension in scalars
-* @tparam S_w Stride in the W dimension in scalars
-*/
-template <int S_h_, int S_w_>
-struct ComputeOffsetFromStrides<Shape<1, S_h_, S_w_, 1> > {
-  static CUTLASS_DEVICE int get(int d, int h, int w, int c) { return h * S_h_ + w * S_w_; }
-};
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
 /**
 * @brief Decompose threadId.x into coordinate of a cube whose dimensions are specified by Threads_.
 * Afterwards compute the offset of those coordinates using Strides_
diff --git a/cutlass/tensor_ref.h b/cutlass/tensor_ref.h
index 8ef31e3b8f..09134190c0 100644
--- a/cutlass/tensor_ref.h
+++ b/cutlass/tensor_ref.h
@@ -27,125 +27,613 @@
 */
 #pragma once
 
-#include <typeinfo>
-
-#include <cutlass/coord.h>
-#include <cutlass/cutlass.h>
-#include <cutlass/vector.h>
+#include "cutlass/coord.h"
+#include "cutlass/cutlass.h"
+#include "cutlass/vector.h"
 
 namespace cutlass {
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Default mapping function from coordinates in a tensor's index space into the n-D array held
+/// in memory. Assumes StorageRank = Rank
+template <int Rank>
+struct IdentityTensorMapFunc {
+  static int const kStorageRank = Rank;
+  CUTLASS_HOST_DEVICE
+  Coord<Rank> operator()(Coord<Rank> const &coord) const {
+    return coord;
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/* \brief Structure modeling a pointer and stride into a tensor.
+
+  A tensor consists of an index space with Rank_ dimensions. It is stored in memory modeled
+  as an n-D array, where n = StorageRank_. A mapping function maps the logical coordinates of the
+  tensor's index space into the n-D array, and a stride vector maps the n-D array to linear memory.
+
+  CUTLASS requires the n-D array's least significant, "fastest changing" dimension to
+  be contiguous in memory. It therefore has a stride of 1 and is not stored. Construction is offered
+  from vectors of full StorageRank and of the 'compact' rank, though it is in error to construct
+  with the least significant stride != 1.
+
+  The requirement that the least significant dimension be consecutive enables numerous optimizations
+  and assumptions about vectorizing memory accesses throughout CUTLASS. It also matches various
+  BLAS conventions in which only the "leading dimension" or most significant stride of a rank=2
+  matrix is provided.
+
+  This does affect the ability of constructing arbitrary "sparse" 2-D matrices in memory where all
+  stride elements are > 1. This can be overcome by defining a custom mapping function and a
+  StorageRank of 3 or more.
+
+
+  Examples:
+
+  (These examples use helpers for matrix layouts defined in cutlass/matrix_traits.h)
+
+  1. Column-major matrix may be represented as a rank=2 tensor:
+
+    TensorRef<float, 2, MatrixLayout::ColumnMajor> A(ptr_A, make_Coord(ldm, 1));
+
+  2. Row-major matrix may be represented as a rank=2 tensor:
+
+    TensorRef<float, 2, MatrixLayout::RowMajor> B(ptr_A, ldm);
+
+  3. An interleaved matrix may be represented as a rank=2 tensor:
+
+    TensorRef<int8_t, 2, MatrixLayout::ColumnMajorInterleaved<32> > C;
+
+  4. Defining a sparse matrix with arbitrary strides in each dimension
+
+    struct ContiguousLayout {
+
+      /// Arbitrary storage rank
+      static int const kStorageRank = 3;
+
+      /// Mapping function defined by runtime stride configuration
+      CUTLASS_HOST_DEVICE
+      Coord<3> operator()(MatrixCoord const &coord) const {
+          return make_Coord(coord.row(), coord.column(), 0);
+      }
+    };
+
+    typedef TensorRef<float, 2, ContiguousLayout> ContiguousTensorRef;
+
+    // Construct the TensorRef object from a pair of stride values
+    ContiguousTensorRef D(ptr_D, make_Coord(row_stride, column_stride));
+
 
-/// Structure modeling a pointer and stride into a tensor
-template <typename Storage_, int Rank_>
+  5. A helper exists to define a TensorRef for a contiguous matrix whose layout
+     is not known at compile time.
+
+    MatrixLayout::Kind layout;   // Could be MatrixLayout::kRowMajor or MatrixLayout::kColumnMajor
+    int ldm;                     // leading dimension
+
+    ContiguousTensorRef E(ptr_E, ContiguousLayout::stride(layout, ldm));
+
+*/
+template <
+  /// Data type of element stored within tensor
+  typename Storage_,
+  /// Rank of logical tensor
+  int Rank_,
+  /// Maps a Coord<Rank_> in the logical tensor index space to the internal n-D array
+  typename MapFunc_ = IdentityTensorMapFunc<Rank_>,
+  /// Rank of internal n-D array
+  int StorageRank_ = MapFunc_::kStorageRank,
+  /// Index type used for coordinates
+  typename Index_ = int,
+  /// Index type used for offsets and pointer differences
+  typename LongIndex_ = long long
+>
 class TensorRef {
  public:
   /// Data type of individual access
   typedef Storage_ Storage;
 
-  /// Rank of tensor
-  static int const Rank = Rank_;
+  /// Logical rank of tensor index space
+  static int const kRank = Rank_;
+
+  /// Mapping function from logical coordinate to internal n-D array
+  typedef MapFunc_ MapFunc;
+
+  /// Rank of internal storage
+  static int const kStorageRank = StorageRank_;
+
+  /// Index type
+  typedef Index_ Index;
+
+  /// Typically, strides in memory can be very large
+  typedef LongIndex_ LongIndex;
+
+  /// Coordinate in logical tensor space
+  typedef Coord<kRank> TensorCoord;
+
+  /// Coordinate in storage n-D array
+  typedef Coord<kStorageRank> StorageCoord;
+
+  /// Stride vector in storage coordinage space - assumes least significant stride
+  /// is 1 and does not store it.
+  typedef Coord<kStorageRank - 1> StrideVector;
+
+  /// Tensor reference to of constant value
+  typedef TensorRef<
+    typename platform::remove_const<Storage>::type const,
+    Rank_,
+    MapFunc_,
+    StorageRank_,
+    Index_,
+    LongIndex_> ConstTensorRef;
+
+  /// Require at least rank=1. Mathematically, a rank=0 tensor would be considered to be a
+  /// scalar, but degenerate cases such as these are difficult to accommodate without
+  /// extensive C++ metaprogramming or support for zero-length arrays.
+  static_assert(kRank > 0, "Cannot define a zero-rank TensorRef");
 
- private:
   //
-  // Data members
+  // Definitions included for backwards compatibility - to be removed in next major release
   //
 
-  /// Pointer to storage element
+  /// Coordinate in logical tensor space
+  typedef TensorCoord Coord_t;
+
+  /// Logical rank of tensor index space
+  static int const Rank = kRank;
+
+ private:
+
+  /// Pointer
   Storage* ptr_;
 
-  /// Stride information
-  Coord<Rank> stride_;
+  /// Stride vector - fastest-changing stride assumed to be 1 and not stored
+  StrideVector stride_;
+
+  /// Maps a logical coordinate to an n-D array's tensor space
+  MapFunc coord_map_;
 
  public:
+
   //
   // Methods
   //
 
-  /// Default ctor
+  /// Helper for 1-D memory. All higher ranks are projected onto the fastest changing rank.
   CUTLASS_HOST_DEVICE
-  TensorRef() : ptr_(nullptr) {}
+  TensorRef(Storage *ptr = nullptr): ptr_(ptr) {
+    for (int i = 0; i < kStorageRank - 1; ++i) {
+      stride_[i] = 1;
+    }
+  }
 
-  /// Constructs from a pointer, size, and stride
+  /// Helper to construct from a pointer and single stride element for 2-D pitch linear memory.
+  // Higher ranks are projected onto the fastest-changing rank.
   CUTLASS_HOST_DEVICE
-  TensorRef(Storage* ptr, Coord<Rank> stride) : ptr_(ptr), stride_(stride) {}
+  TensorRef(Storage* ptr, Index ldm) {
+    ptr_ = ptr;
+    for (int i = 0; i < kStorageRank - 1; ++i) {
+      stride_[i] = ldm;
+    }
+  }
 
-  /// Updates the pointer, stride, and location within a TensorRef
+  /// Constructs from a single pointer and stride vector
   CUTLASS_HOST_DEVICE
-  void reset(Storage* ptr = nullptr, Coord<Rank> stride = Coord<Rank>(0)) {
+  TensorRef(Storage* ptr, StrideVector const& stride) : ptr_(ptr), stride_(stride) {
+
+  }
+
+  /// Constructs from a pointer and a stride vector of size kRank. If fastest changing
+  /// stride is not 1, construction fails and subsequent calls to good() will return false.
+  CUTLASS_HOST_DEVICE
+  TensorRef(Storage* ptr, StorageCoord const& stride) {
+    // Fastest-changing stride must be one
+    if (stride.at(kStorageRank - 1) == 1) {
+      ptr_ = ptr;
+      for (int i = 0; i < kStorageRank - 1; ++i) {
+        stride_[i] = stride[i];
+      }
+    }
+    else {
+      // Fastest-chaning stride must be 1.
+      reset();
+    }
+  }
+
+  /// Enables conversion from TensorRef of non-const type
+  CUTLASS_HOST_DEVICE
+  TensorRef(
+    TensorRef<
+      typename platform::remove_const<Storage>::type,
+      kRank,
+      MapFunc,
+      kStorageRank,
+      Index,
+      LongIndex> const &ref
+  ):
+    ptr_(ref.data()) {
+    for (int i = 0; i < kStorageRank - 1; ++i) {
+      stride_[i] = ref.stride(i);
+    }
+  }
+
+  /// Returns a reference to constant-valued tensor
+  CUTLASS_HOST_DEVICE
+  ConstTensorRef const_ref() const {
+    return ConstTensorRef(*this);
+  }
+
+  /// Updates only the pointer
+  CUTLASS_HOST_DEVICE
+  void reset(Storage* ptr = nullptr) {
     ptr_ = ptr;
-    stride_ = stride;
   }
 
-  /// Conversion function
-  template <typename T>
-  TensorRef<T, Rank> convert() {
-    Coord<Rank> converted_stride;
-    for (int i = 0; i < Rank - 1; ++i) {
-      converted_stride[i] = stride_[i] * Extent<Storage>::kValue / Extent<T>::kValue;
+  /// Updates the pointer, stride, and location within a TensorRef
+  CUTLASS_HOST_DEVICE
+  void reset(Storage* ptr, StorageCoord const & stride) {
+    // Fastest-changing stride must be one
+    if (stride.at(kStorageRank - 1) == 1) {
+      ptr_ = ptr;
+      for (int i = 0; i < kStorageRank - 1; ++i) {
+        stride_[i] = stride[i];
+      }
+    }
+    else {
+      // Fastest-changing stride must be 1 - this is an error.
+      reset();
+    }
+  }
+
+  /// Returns true if the TensorRef may be safely accessed
+  CUTLASS_HOST_DEVICE
+  bool good() const {
+    return ptr_ != nullptr;
+  }
+
+  /// Returns the pointer to referenced data
+  CUTLASS_HOST_DEVICE
+  Storage * data() const { return ptr_; }
+
+  /// Returns the stride of the tensor
+  CUTLASS_HOST_DEVICE
+  StorageCoord stride() const {
+    StorageCoord ld;
+    for (int i = 0; i < kStorageRank - 1; ++i) {
+      ld[i] = stride_[i];
+    }
+    ld[kStorageRank - 1] = 1;
+    return ld;
+  }
+
+  /// Returns the stride of the tensor in the given dimension
+  CUTLASS_HOST_DEVICE
+  Index stride(int dim) const {
+    // fastest-changing stride assumbed to be 1
+    if (dim + 1 >= kStorageRank) {
+      return 1;
+    }
+    return stride_.at(dim);
+  }
+
+  /// Returns the maximum stride element as the 'leading dimension'
+  CUTLASS_HOST_DEVICE
+  Index leading_dim(int idx = 0) const { return stride(idx); }
+
+  /// Maps a logical coordinate to an n-D array in memory
+  CUTLASS_HOST_DEVICE
+  StorageCoord map(TensorCoord const &coord) const {
+    return coord_map_(coord);
+  }
+
+  /// Computes the offset of an index from the origin of the tensor
+  CUTLASS_HOST_DEVICE
+  LongIndex offset(TensorCoord const& coord) const {
+    return stride().template dot<LongIndex>(map(coord));
+  }
+
+  /// Returns a reference to the element at a given Coord
+  CUTLASS_HOST_DEVICE
+  Storage& at(TensorCoord const& coord) const {
+    return ptr_[offset(coord)];
+  }
+
+  /// Returns a reference to the element at a given linear index
+  CUTLASS_HOST_DEVICE
+  Storage& at(LongIndex idx) const { return ptr_[idx]; }
+
+  /// Returns a reference to the element at a given Coord
+  CUTLASS_HOST_DEVICE
+  Storage& operator[](TensorCoord const& coord) const {
+    return ptr_[offset(coord)];
+  }
+
+  /// Returns a reference to the element at a given linear index
+  CUTLASS_HOST_DEVICE
+  Storage& operator[](LongIndex idx) const { return ptr_[idx]; }
+
+  /// Adds an offset to each pointer
+  CUTLASS_HOST_DEVICE
+  TensorRef & add_pointer_offset(LongIndex delta) {
+    ptr_ += delta;
+    return *this;
+  }
+
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  TensorRef operator+(TensorCoord const& b) const {
+    TensorRef result(*this);
+    result.add_pointer_offset(offset(b));
+    return result;
+  }
+
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  TensorRef& operator+=(TensorCoord const& b) {
+    add_pointer_offset(offset(b));
+    return *this;
+  }
+
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  TensorRef operator-(TensorCoord const& b) const {
+    TensorRef result(*this);
+    result.add_pointer_offset(-offset(b));
+    return result;
+  }
+
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  TensorRef& operator-=(TensorCoord const& b) {
+    add_pointer_offset(-offset(b));
+    return *this;
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// Partial specializations to handle degenerate cases.
+//
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Specialization for rank=1 case with no internal StrideVector
+template <
+  /// Data type of element stored within tensor
+  typename Storage_,
+  /// Rank of logical tensor
+  int Rank_,
+  /// Maps a Coord<Rank_> in the logical tensor index space to the internal n-D array
+  typename MapFunc_,
+  /// Index type used for coordinates
+  typename Index_,
+  /// Index type used for offsets and pointer differences
+  typename LongIndex_
+>
+class TensorRef<Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_> {
+ public:
+  /// Data type of individual access
+  typedef Storage_ Storage;
+
+  /// Logical rank of tensor index space
+  static int const kRank = Rank_;
+
+  /// Mapping function from logical coordinate to internal n-D array
+  typedef MapFunc_ MapFunc;
+
+  /// Rank of internal storage
+  static int const kStorageRank = 1;
+
+  /// Index type
+  typedef Index_ Index;
+
+  /// Typically, strides in memory can be very large
+  typedef LongIndex_ LongIndex;
+
+  /// Coordinate in logical tensor space
+  typedef Coord<kRank> TensorCoord;
+
+  /// Coordinate in storage n-D array
+  typedef Coord<kStorageRank> StorageCoord;
+
+  /// Stride vector in storage coordinage space - assumes least significant stride
+  /// is 1 and does not store it.
+  struct StrideVector { };
+
+  /// Tensor reference to of constant value
+  typedef TensorRef<
+    typename platform::remove_const<Storage>::type const,
+    Rank_,
+    MapFunc_,
+    kStorageRank,
+    Index_,
+    LongIndex_> ConstTensorRef;
+
+  //
+  // Definitions included for backwards compatibility - to be removed in next major release
+  //
+
+  /// Coordinate in logical tensor space
+  typedef TensorCoord Coord_t;
+
+  /// Logical rank of tensor index space
+  static int const Rank = kRank;
+
+ private:
+
+  /// Pointer
+  Storage* ptr_;
+
+  /// Maps a logical coordinate to an n-D array's tensor space
+  MapFunc coord_map_;
+
+ public:
+
+  //
+  // Methods
+  //
+
+  /// Helper for 1-D memory. All higher ranks are projected onto the fastest changing rank.
+  CUTLASS_HOST_DEVICE
+  TensorRef(Storage *ptr = nullptr): ptr_(ptr) { }
+
+  /// Constructs from a single pointer and stride vector
+  CUTLASS_HOST_DEVICE
+  TensorRef(Storage* ptr, StrideVector const& stride) : ptr_(ptr) {
+
+  }
+
+  /// Constructs from a pointer and a stride vector of size kRank. If fastest changing
+  /// stride is not 1, construction fails and subsequent calls to good() will return false.
+  CUTLASS_HOST_DEVICE
+  TensorRef(Storage* ptr, StorageCoord const& stride) {
+    // Fastest-changing stride must be one
+    if (stride.at(kStorageRank - 1) == 1) {
+      ptr_ = ptr;
+    }
+    else {
+      // Fastest-chaning stride must be 1.
+      reset();
     }
-    converted_stride[Rank - 1] = stride_[Rank - 1];
+  }
 
-    return TensorRef<T, Rank>(reinterpret_cast<T*>(ptr_), converted_stride);
+  /// Enables conversion from TensorRef of non-const type
+  CUTLASS_HOST_DEVICE
+  TensorRef(
+    TensorRef<
+      typename platform::remove_const<Storage>::type,
+      kRank,
+      MapFunc,
+      kStorageRank,
+      Index,
+      LongIndex> const &ref
+  ):
+    ptr_(ref.data()) {
+  }
+
+  /// Returns a reference to constant-valued tensor
+  CUTLASS_HOST_DEVICE
+  ConstTensorRef const_ref() const {
+    return ConstTensorRef(*this);
+  }
+
+  /// Updates only the pointer
+  CUTLASS_HOST_DEVICE
+  void reset(Storage* ptr = nullptr) {
+    ptr_ = ptr;
+  }
+
+  /// Updates the pointer, stride, and location within a TensorRef
+  CUTLASS_HOST_DEVICE
+  void reset(Storage* ptr, StorageCoord const & stride) {
+    // Fastest-changing stride must be one
+    if (stride.at(kStorageRank - 1) == 1) {
+      ptr_ = ptr;
+    }
+    else {
+      // Fastest-changing stride must be 1 - this is an error.
+      reset();
+    }
   }
 
   /// Returns true if the TensorRef may be safely accessed
   CUTLASS_HOST_DEVICE
-  bool good() const { return ptr_ != nullptr; }
+  bool good() const {
+    return ptr_ != nullptr;
+  }
 
   /// Returns the pointer to referenced data
   CUTLASS_HOST_DEVICE
-  Storage* data() const { return ptr_; }
+  Storage * data() const { return ptr_; }
 
   /// Returns the stride of the tensor
   CUTLASS_HOST_DEVICE
-  Coord<Rank> const& stride() const { return stride_; }
+  StorageCoord stride() const {
+    StorageCoord ld;
+    ld[kStorageRank - 1] = 1;
+    return ld;
+  }
 
   /// Returns the stride of the tensor in the given dimension
   CUTLASS_HOST_DEVICE
-  int const& stride(int dim) const { return stride_.at(dim); }
+  Index stride(int dim) const {
+    // fastest-changing stride assumbed to be 1
+    return 1;
+  }
 
   /// Returns the maximum stride element as the 'leading dimension'
   CUTLASS_HOST_DEVICE
-  int leading_dim() const { return __NV_STD_MAX(stride_[1], stride_[2]); }
+  Index leading_dim(int idx = 0) const { return 1; }
+
+  /// Maps a logical coordinate to an n-D array in memory
+  CUTLASS_HOST_DEVICE
+  StorageCoord map(TensorCoord const &coord) const {
+    return coord_map_(coord);
+  }
 
   /// Computes the offset of an index from the origin of the tensor
   CUTLASS_HOST_DEVICE
-  long long offset(Coord<Rank> const& coord) const {
-    return stride_.template dot<long long>(coord);
+  LongIndex offset(TensorCoord const& coord) const {
+    return stride().template dot<LongIndex>(map(coord));
   }
 
   /// Returns a reference to the element at a given Coord
   CUTLASS_HOST_DEVICE
-  Storage& at(Coord<Rank> const& coord) const { return ptr_[offset(coord)]; }
+  Storage& at(TensorCoord const& coord) const {
+    return ptr_[offset(coord)];
+  }
 
-  /// Element-wise accessor
-  Storage& operator[](Coord<Rank> const& coord) const { return at(coord); }
+  /// Returns a reference to the element at a given linear index
+  CUTLASS_HOST_DEVICE
+  Storage& at(LongIndex idx) const { return ptr_[idx]; }
 
   /// Returns a reference to the element at a given Coord
   CUTLASS_HOST_DEVICE
-  Storage& at(int idx) const { return ptr_[idx]; }
+  Storage& operator[](TensorCoord const& coord) const {
+    return ptr_[offset(coord)];
+  }
+
+  /// Returns a reference to the element at a given linear index
+  CUTLASS_HOST_DEVICE
+  Storage& operator[](LongIndex idx) const { return ptr_[idx]; }
 
-  /// Element-wise accessor
-  Storage& operator[](int idx) const { return at(idx); }
+  /// Adds an offset to each pointer
+  CUTLASS_HOST_DEVICE
+  TensorRef & add_pointer_offset(LongIndex delta) {
+    ptr_ += delta;
+    return *this;
+  }
 
-  /// Adds an offset to the pointer
+  /// Returns a TensorRef offset by a given amount
   CUTLASS_HOST_DEVICE
-  TensorRef& advance(Coord<Rank> const& b) {
-    ptr_ += offset(b);
+  TensorRef operator+(TensorCoord const& b) const {
+    TensorRef result(*this);
+    result.add_pointer_offset(offset(b));
+    return result;
+  }
+
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  TensorRef& operator+=(TensorCoord const& b) {
+    add_pointer_offset(offset(b));
     return *this;
   }
 
   /// Returns a TensorRef offset by a given amount
   CUTLASS_HOST_DEVICE
-  TensorRef operator+(Coord<Rank> const& b) const { return TensorRef(ptr_ + offset(b), stride_); }
+  TensorRef operator-(TensorCoord const& b) const {
+    TensorRef result(*this);
+    result.add_pointer_offset(-offset(b));
+    return result;
+  }
 
   /// Returns a TensorRef offset by a given amount
   CUTLASS_HOST_DEVICE
-  TensorRef operator-(Coord<Rank> const& b) const { return TensorRef(ptr_ - offset(b), stride_); }
+  TensorRef& operator-=(TensorCoord const& b) {
+    add_pointer_offset(-offset(b));
+    return *this;
+  }
 };
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
+///////////////////////////////////////////////////////////////////////////////////////////////////
 
-}  // namespace cutlass
+} // namespace cutlass
diff --git a/cutlass/tensor_ref_collection.h b/cutlass/tensor_ref_collection.h
new file mode 100644
index 0000000000..b2972e1848
--- /dev/null
+++ b/cutlass/tensor_ref_collection.h
@@ -0,0 +1,420 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Introduces TensorRefCollection concept and defines TensorRefBatch and TensorRefArray. 
+*/
+
+#pragma once
+
+#include "cutlass/tensor_ref.h"
+
+namespace cutlass {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// TensorRefCollection is a concept for storing a logical collection of TensorRef objects. Classes
+// satisfying the TensorRefCollection concept must support the following:
+//
+//   // Define storage type
+//   typedef typename TensorRefCollection::Storage Storage;
+//
+//   // Define a type for offsets in memory
+//   typedef typename TensorRefCollection::LongIndex LongIndex;
+//
+//   // Define a ConstIterator type satisfying TensorRefIterator
+//   typedef typename TensorRefCollection::ConstIterator TensorRefIterator;
+//
+//   // Implement a begin() method.
+//   TensorRefIterator iterator = collection.begin();
+//
+//
+// TensorRefIterator is a concept for accessing an element in a TensorRefCollection. Classes
+// satisfying the TensorRefIterator concept must support the following:
+//
+//   // Define a TensorRef type accessed by the iterator
+//   typedef typename TensorRefIterator::TensorRef TensorRef;
+//
+//   // Access the TensorRef
+//   TensorRef ref = *iterator;
+//
+//   // Pre-increment and post-increment
+//   ++iterator;
+//   iterator++;
+//
+//   // Pre-decrement and post-decrement
+//   --iterator;
+//   iterator--;
+//
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// This satisfies TensorRefCollection and stores a collection of TensorRef objects that
+/// have identical strides. TensorRef objects are separated by a linear stride.
+template <
+  /// Data type of element stored within tensor
+  typename Storage_,
+  /// Rank of logical tensor
+  int Rank_,
+  /// Maps a Coord<Rank_> in the logical tensor index space to the internal n-D array
+  typename MapFunc_ = IdentityTensorMapFunc<Rank_>,
+  /// Rank of internal n-D array
+  int StorageRank_ = MapFunc_::kStorageRank,
+  /// Index type used for coordinates
+  typename Index_ = int,
+  /// Index type used for offsets and pointer differences
+  typename LongIndex_ = long long
+>
+struct TensorRefBatchStrided: 
+  public TensorRef<Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_> {
+
+  //
+  // Type definitions
+  //
+
+  /// Underlying TensorRef type
+  typedef TensorRef<Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_> Base;
+
+  /// Storage type
+  typedef typename Base::Storage Storage;
+
+  /// Index type
+  typedef Index_ Index;
+
+  /// Typically, strides in memory can be very large
+  typedef LongIndex_ LongIndex;
+
+  /// Coordinate in logical tensor space
+  typedef Coord<kRank> TensorCoord;
+
+  /// Tensor reference implied by the TensorRefBatchStrided
+  typedef Base TensorRef;
+
+  /// Constant iterator over tensors implied by TensorRefBatchStrided
+  class ConstIterator {
+  public:
+    /// TensorRef returned by the iterator
+    typedef Base TensorRef;
+
+  private:
+
+    /// Reference to the parent TensorBatchRef object
+    TensorRefBatchStrided const &ref_;
+
+    /// Offset from the base TensorRef pointer 
+    LongIndex offset_;
+
+  public:
+
+    /// Constructs a ConstIterator from a parent TensorRefBatchStrided
+    CUTLASS_HOST_DEVICE
+    ConstIterator(
+      TensorRefBatchStrided const &ref, 
+      LongIndex offset = 0): ref_(ref), offset_(offset) { }
+
+    /// Obtains a TensorRef pointed to by the iterator
+    CUTLASS_HOST_DEVICE
+    TensorRef *operator() const {
+      TensorRef ref(ref_);
+      ref.add_pointer_offset(offset_);
+      return ref;
+    }
+
+    /// Advances the iterator to point to the next tensor
+    CUTLASS_HOST_DEVICE
+    ConstIterator &operator++() {
+      offset_ += ref_.tensor_stride;
+      return *this;
+    }
+
+    /// Advances the iterator to point to the next tensor
+    CUTLASS_HOST_DEVICE
+    ConstIterator operator++(int) {
+      ConstIterator ret(*this);
+      offset_ += ref_.tensor_stride;
+      return ret;
+    }
+
+    /// Returns an iterator advanced by (idx) amount
+    CUTLASS_HOST_DEVICE
+    ConstIterator operator+(Index idx) {
+      return ConstIterator(ref, offset_ + ref_.tensor_stride * idx);
+    }
+
+    /// Advances this iterator by (idx) and returns a reference to self
+    CUTLASS_HOST_DEVICE
+    ConstIterator &operator+=(Index idx) {
+      offset_ += ref_.tensor_stride * idx;
+      return *this;
+    }
+
+    /// Moves to the previous tensor
+    CUTLASS_HOST_DEVICE
+    ConstIterator &operator--() {
+      offset_ -= ref_.tensor_stride;
+      return *this;
+    }
+
+    /// Moves to the previous tensor
+    CUTLASS_HOST_DEVICE
+    ConstIterator operator--(int) {
+      ConstIterator ret(*this);
+      offset_ -= ref_.tensor_stride;
+      return ret;
+    }
+
+    /// Returns an iterator moved forward by (idx) amount
+    CUTLASS_HOST_DEVICE
+    ConstIterator operator-(Index idx) {
+      return ConstIterator(ref_, offset_ - ref_.tensor_stride * idx);
+    }
+
+    /// Moves this iterator by (idx) and returns a reference to self
+    CUTLASS_HOST_DEVICE
+    ConstIterator &operator-=(Index idx) {
+      offset_ -= ref_.tensor_stride * idx;
+      return *this;
+    }
+
+    /// Returns the difference in offset between two iterators
+    CUTLASS_HOST_DEVICE
+    Stride operator-(ConstIterator const &it) {
+      return offset_ - it.offset_;
+    }
+  };
+
+  //
+  // Data members
+  //
+
+  /// Stride between tensors
+  LongIndex tensor_stride;
+
+  //
+  // Methods
+  //
+
+  // Default ctor
+  CUTLASS_HOST_DEVICE
+  TensorRefBatchStrided(): tensor_stride(0) { }
+
+  // Constructs form a tensor reference and 
+  CUTLASS_HOST_DEVICE
+  TensorRefBatchStrided(TensorRef const &ref, LongIndex _tensor_stride = 0): 
+    TensorRef(ref), 
+    tensor_stride(_tensor_stride) { }
+
+  /// Gets the pointer offset
+  CUTLASS_HOST_DEVICE
+  LongIndex get_pointer_offset(Index idx) const {
+    return idx * tensor_stride;
+  }
+
+  // Returns a reference
+  CUTLASS_HOST_DEVICE
+  TensorRef at(Index idx) const {
+    TensorRef ref(*this);
+    ref.add_pointer_offset(get_pointer_offset(idx));
+    return ref;
+  }
+
+  /// Returns an iterator
+  CUTLASS_HOST_DEVICE
+  ConstIterator begin() {
+    return ConstIterator(*this);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// This satisfies TensorRefCollection and stores a collection of TensorRef objects. This is a
+/// structure of arrays in that the individual members of the TensorRef are held in distinct arrays.
+///
+/// Note, TensorRef maps a logical coordinate space to an n-D array with rank kStorageRank. It
+/// maintains a stride vector of similar rank, but the least significant rank is defined to be 1.
+///
+/// The least significant stride of 1 is not stored, and therefore the number of stride arrays is 
+/// kStorageRank - 1.
+template <
+  /// Data type of element stored within tensor
+  typename Storage_,
+  /// Rank of logical tensor
+  int Rank_,
+  /// Maps a Coord<Rank_> in the logical tensor index space to the internal n-D array
+  typename MapFunc_ = IdentityTensorMapFunc<Rank_>,
+  /// Rank of internal n-D array
+  int StorageRank_ = MapFunc_::kStorageRank,
+  /// Index type used for coordinates
+  typename Index_ = int,
+  /// Index type used for offsets and pointer differences
+  typename LongIndex_ = long long
+>
+struct TensorRefArray {
+  //
+  // Type definitions
+  //
+
+  /// TensorRef type obtained from the TensorRefArray
+  typedef TensorRef<Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_> TensorRef;
+
+  /// Element pointed to by the TensorRef
+  typedef Storage_ Storage;
+
+  /// Index type
+  typedef Index_ Index;
+
+  /// Typically, strides in memory can be very large
+  typedef LongIndex_ LongIndex;
+
+  /// Rank of the stride vector
+  static int const kStorageRank = TensorRef::kStorageRank;
+
+  /// TensorRefIterator over TensorRef objects in TensorRefArray 
+  class ConstIterator {
+  public:
+
+    /// TensorRef returned by the iterator
+    typedef Base TensorRef;
+
+  private:
+    /// Reference to the TensorRefArray
+    TensorRefArray const &ref_;
+
+    /// Index into TensorRefArray
+    int idx_;
+
+  public:
+
+    /// Constructs a ConstIterator over the TensorRef objects
+    CUTLASS_HOST_DEVICE
+    ConstIterator(TensorArrayRef const &ref, int idx = 0): ref_(ref), idx_(idx) { }
+
+    /// Obtains a TensorRef pointed to by this iterator
+    CUTLASS_HOST_DEVICE
+    TensorRef *operator() const {
+      return ref_.reference(idx_);
+    }
+
+    /// Advances to next TensorRef
+    CUTLASS_HOST_DEVICE
+    ConstIterator &operator++() {
+      ++idx_;
+      return *this;
+    }
+
+    /// Advances to next TensorRef
+    CUTLASS_HOST_DEVICE
+    ConstIterator operator++(int) {
+      ConstIterator ret(*this);
+      idx_ ++;
+      return ret;
+    }
+
+    CUTLASS_HOST_DEVICE
+    ConstIterator operator+(Index idx) {
+      return ConstIterator(ref_, idx_ + idx);
+    }
+
+    CUTLASS_HOST_DEVICE
+    ConstIterator &operator+=(Index idx) {
+      idx_ += idx;
+      return *this;
+    }
+
+    CUTLASS_HOST_DEVICE
+    ConstIterator &operator--() {
+      --idx_;
+      return *this;
+    }
+
+    /// Advances to next TensorRef
+    CUTLASS_HOST_DEVICE
+    ConstIterator operator--(int) {
+      ConstIterator ret(*this);
+      --idx_;
+      return ret;
+    }
+
+    CUTLASS_HOST_DEVICE
+    ConstIterator &operator-=(Index idx) {
+      idx_ -= idx;
+      return *this;
+    }
+
+    CUTLASS_HOST_DEVICE
+    ConstIterator operator-(Index idx) {
+      return ConstIterator(ref_, idx_ + idx);
+    }
+  };
+
+  //
+  // Data members
+  //
+
+  /// Base addresses
+  Storage **pointers;
+
+  /// Array of strides
+  Index *strides[kStorageRank - 1];
+
+  //
+  // Methods
+  //
+
+  // Default ctor
+  CUTLASS_HOST_DEVICE
+  TensorArrayRef() { }
+
+  // Construct from pointers to arrays to strides
+  CUTLASS_HOST_DEVICE
+  TensorArrayRef(
+    Storage **_pointers,
+    Index _strides[kStorageRank - 1]): pointers(_pointers) { 
+
+    // Copy pointers to strides arrays
+    for (int i = 0; i < kStorageRank - 1; ++i) {
+      strides[i] = _strides[i];
+    }
+  }
+
+  // Returns a TensorRef at the given index in the collection
+  CUTLASS_HOST_DEVICE
+  TensorRef at(Index idx) const {
+    Coord<kStorageRank - 1, Index> stride;
+    CUTLASS_PRAGMA_UNROLL
+    for (int i = 0; i < kStorageRank - 1; ++i) {
+      stride[i] = stride_[idx][i];
+    }
+    return TensorRef(pointers[idx], stride);
+  }
+
+  /// Returns an TesnorRefIterator over the TensorRef objects in this collection
+  CUTLASS_HOST_DEVICE
+  ConstIterator begin() {
+    return ConstIterator(*this);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
diff --git a/cutlass/tensor_view.h b/cutlass/tensor_view.h
index 89c6bd5716..4ef99e027e 100644
--- a/cutlass/tensor_view.h
+++ b/cutlass/tensor_view.h
@@ -24,51 +24,110 @@
  **************************************************************************************************/
 /*! \file
     \brief Defines a structure containing strides and a pointer to tensor data.
+
+    TensorView is derived from TensorRef and contributes bounds to the tensor's index space. Thus,
+    it is a complete mathematical object and may be used in tensor algorithms. It is decoupled from
+    data storage and is therefore lightweight and may be embedded in larger tensor objects or
+    memory structures.
+
+    See cutlass/tensor_ref.h for more details about the mapping of the logical tensor index space to
+    linear memory.
 */
 
 #pragma once
 
 #include <cmath>
 
-#include <cutlass/cutlass.h>
-#include <cutlass/tensor_ref.h>
+#include "cutlass/cutlass.h"
+#include "cutlass/tensor_ref.h"
 
 namespace cutlass {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Host-side reference implementation of tensor operations
-template <typename T>
-class TensorView : public TensorRef<T, 4> {
+/// Defines a view into a logical tensor
+template <
+  /// Data type of element stored within tensor
+  typename Storage_,
+  /// Rank of logical tensor
+  int Rank_ = 4,
+  /// Maps a Coord<Rank_> in the logical tensor index space to the internal n-D array
+  typename MapFunc_ = IdentityTensorMapFunc<Rank_>,
+  /// Rank of internal n-D array
+  int StorageRank_ = MapFunc_::kStorageRank,
+  /// Index type used for coordinates
+  typename Index_ = int,
+  /// Index type used for offsets and pointer differences
+  typename LongIndex_ = long long
+>
+class TensorView : public TensorRef<Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_> {
  public:
-  /// Reference and stride
-  typedef TensorRef<T, 4> Base;
+  /// Base tensor reference
+  typedef TensorRef<Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_> Base;
+
+  /// Tensor reference to of constant value
+  typedef TensorRef<
+    typename platform::remove_const<Storage_>::type const,
+    Rank_,
+    MapFunc_,
+    StorageRank_,
+    Index_,
+    LongIndex_> ConstTensorRef;
+
+  /// Base tensor reference
+  typedef Base TensorRef;
+
+  /// Storage type
+  typedef typename Base::Storage Storage;
+
+  /// Index type
+  typedef typename Base::Index Index;
+
+  /// Coordinate in logical tensor space
+  typedef typename TensorRef::TensorCoord TensorCoord;
+
+  /// Coordinate in storage n-D array
+  typedef typename TensorRef::StorageCoord StorageCoord;
+
+  /// Stride vector in storage coordinate space
+  /// Least significant stride is = 1 and not stored
+  typedef typename TensorRef::StrideVector StrideVector;
+
+  /// TensorView of constant value
+  typedef TensorView<
+    typename platform::remove_const<Storage>::type const,
+    Rank_,
+    MapFunc_,
+    StorageRank_,
+    Index_,
+    LongIndex_> ConstTensorView;
 
-  /// Reference and stride
-  typedef Base TensorRef_t;
+  //
+  // Definitions included for backwards compatibility - to be removed in next major release
+  //
 
-  /// Reference to constant type
-  typedef TensorRef<T const, 4> ConstTensorRef_t;
+  /// Coordinate in logical tensor space
+  typedef TensorCoord Coord_t;
 
-  /// Rank of tensor
-  static int const Rank = TensorRef_t::Rank;
+  /// Logical rank of tensor index space
+  static int const Rank = Base::kRank;
 
   /// Type used to compute the offset of an element to the base of a tensor
-  typedef int Offset_t;
+  typedef typename Base::LongIndex Offset_t;
+
+  /// Base class
+  typedef TensorRef TensorRef_t;
 
-  /// Coordinate into tensor
-  typedef Coord<Rank> Coord_t;
+  /// TensorRef to const-valued type
+  typedef typename TensorRef::ConstTensorRef ConstTensorRef_t;
 
  private:
   //
   // Data members
   //
 
-  /// Pointer to pitch-linear memory
-  TensorRef_t ref_;
-
   /// Dimensions of coordinate (independent of stride)
-  Coord_t size_;
+  TensorCoord size_;
 
  public:
   //
@@ -79,91 +138,126 @@ class TensorView : public TensorRef<T, 4> {
   CUTLASS_HOST_DEVICE
   TensorView() {}
 
-  /// Constructs a Tensor_view from a TensorRef and size
+  /// Constructs a TensorView from a TensorRef and size
   CUTLASS_HOST_DEVICE
-  TensorView(TensorRef_t const& _ref, Coord_t const& _size) : Base(_ref), size_(_size) {}
+  TensorView(Base const& _ref, TensorCoord const& _size) : Base(_ref), size_(_size) {}
 
-  /// Returns true if the Tensor_view is bound to some memory
+  /// Constructs a TensorView from a pointer, a stride vector, and size
   CUTLASS_HOST_DEVICE
-  bool good() const { return ref().good(); }
-
-  /// Returns a pointer to data
+  TensorView(
+    Storage *ptr,
+    StrideVector const &stride,
+    TensorCoord const& size
+  ):
+    Base(ptr, stride), size_(size) {}
+
+  /// Constructs a TensorView from a pointer, a stride vector, and size
   CUTLASS_HOST_DEVICE
-  T* data() const { return ref().data(); }
+  TensorView(
+    Storage *ptr,
+    StorageCoord const &stride,
+    TensorCoord const& size
+  ):
+    Base(ptr, stride), size_(size) {}
 
   /// Updates the reference and size of a Tensor_view object
   CUTLASS_HOST_DEVICE
-  void reset(TensorRef_t const& _ref = TensorRef_t(0), Coord_t const& _size = Coord_t()) {
+  void reset(Base const& _ref = Base(), TensorCoord const& _size = TensorCoord()) {
     Base::operator=(_ref);
     size_ = _size;
   }
 
-  /// Accesses the tensor reference pointing to data
-  CUTLASS_HOST_DEVICE
-  TensorRef_t& ref() { return *this; }
-
-  ///
-  CUTLASS_HOST_DEVICE
-  ConstTensorRef_t const_ref() { return ConstTensorRef_t(data(), stride()); }
-
-  /// Accesses the tensor reference pointing to data
-  CUTLASS_HOST_DEVICE
-  TensorRef_t const& ref() const { return *this; }
-
   /// Accesses the size
   CUTLASS_HOST_DEVICE
-  Coord_t const& size() const { return size_; }
+  TensorCoord const& size() const { return size_; }
 
   /// Accesses the size
   CUTLASS_HOST_DEVICE
-  int size(int dim) const { return size_.at(dim); }
-
-  /// Accesses the stride
-  CUTLASS_HOST_DEVICE
-  Coord_t const& stride() const { return ref().stride(); }
-
-  /// Accesses the stride
-  CUTLASS_HOST_DEVICE
-  int const& stride(int dim) const { return ref().stride(dim); }
+  Index size(int dim) const { return size_.at(dim); }
 
   /// Assigns the Tensor_view
   CUTLASS_HOST_DEVICE
   TensorView& operator=(TensorView const& _tensor) {
-    Base::operator=(_tensor._ref);
+    Base::operator=(_tensor);
     size_ = _tensor.size_;
     return *this;
   }
 
-  /// Returns the index of an element
-  CUTLASS_HOST_DEVICE
-  Offset_t offset(Coord_t const& coord) const { return ref().offset(coord); }
-
   /// Determines whether a location is within a tensor
   CUTLASS_HOST_DEVICE
-  bool contains(Coord_t const& coord) const {
-    for (int dim = 0; dim < Rank; ++dim) {
-      if (coord.at(dim) >= size_.at(dim)) {
+  bool contains(TensorCoord const& coord) const {
+    CUTLASS_PRAGMA_UNROLL
+    for (int dim = 0; dim < Rank_; ++dim) {
+      if (coord[dim] >= size_[dim]) {
         return false;
       }
     }
     return true;
   }
 
-  /// Element-wise accessor
+  /// Returns a TensorRef pointing to the first element of the tensor.
   CUTLASS_HOST_DEVICE
-  T& at(Coord_t const& coord) const { return ref().at(coord); }
-
-  /// Element-wise accessor
-  T& operator[](Coord<Rank> const& coord) const { return at(coord); }
+  TensorRef ref() const {
+    return TensorRef(*this);
+  }
 
-  /// Element-wise accessor
+  /// Returns a TensorRef pointing to the first element of the tensor.
   CUTLASS_HOST_DEVICE
-  T& at(Offset_t idx) const { return ref().at(idx); }
+  ConstTensorRef const_ref() const {
+    return ConstTensorRef(*this);
+  }
 
   /// Returns a Tensor_view given location and size quantities
   CUTLASS_HOST_DEVICE
-  TensorView<T> subview(Coord_t const& location, Coord_t size) const {
-    return TensorView<T>(ref() + location, size.clamp(size_ - location));
+  TensorView subview(TensorCoord const& location, TensorCoord size) const {
+    return TensorView((*this) + location, size.clamp(size_ - location));
+  }
+
+  /// Returns the number of scalar elements needed to store tensor
+  CUTLASS_HOST_DEVICE
+  size_t capacity() const {
+    int max_rank = 0;
+
+    StorageCoord mapped_size(this->map(size()));
+
+    CUTLASS_PRAGMA_UNROLL
+    for (int i = 0; i < Base::kStorageRank; ++i) {
+      if (!i ||
+        this->stride(i) * mapped_size[i] > this->stride(max_rank) * mapped_size[max_rank]) {
+        max_rank = i;
+      }
+    }
+    return this->stride(max_rank) * mapped_size[max_rank];
+  }
+
+  /// Returns a TensorView offset by a given amount
+  CUTLASS_HOST_DEVICE
+  TensorView operator+(TensorCoord const& b) const {
+    TensorView result(*this);
+    result.add_pointer_offset(this->offset(b));
+    return result;
+  }
+
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  TensorView& operator+=(TensorCoord const& b) {
+    this->add_pointer_offset(this->offset(b));
+    return *this;
+  }
+
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  TensorView operator-(TensorCoord const& b) const {
+    TensorRef result(*this);
+    result.add_pointer_offset(-this->offset(b));
+    return result;
+  }
+
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  TensorView& operator-=(TensorCoord const& b) {
+    this->add_pointer_offset(-this->offset(b));
+    return *this;
   }
 };
 
diff --git a/cutlass/tile_allocation.h b/cutlass/tile_allocation.h
new file mode 100644
index 0000000000..81db797f9a
--- /dev/null
+++ b/cutlass/tile_allocation.h
@@ -0,0 +1,143 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Defines a fragment based on a Shape<> template.
+*/
+#pragma once
+
+#include "cutlass/shape.h"
+#include "cutlass/fragment.h"
+#include "cutlass/tensor_ref.h"
+#include "cutlass/zip_tensor_ref.h"
+
+namespace cutlass {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Class for storing a tile in memory and accessing it through a tensor ref
+template <typename Scalar_, typename Shape_>
+struct TileAllocation {
+  //
+  // Type definitions
+  //
+
+  /// Scalar element
+  typedef Scalar_ Scalar;
+
+  /// The actual storage (may differ from the scalar type)
+  typedef typename StorageType<sizeof(Scalar)>::Type Storage;
+
+  /// Size of the allocation in units of scalars
+  typedef Shape_ Shape;
+
+  /// Strides
+  typedef typename ShapeStrides<Shape, 1>::Shape Strides;
+
+  /// Defines the tensor reference for this allocation
+  typedef TensorRef<Scalar const, 4> ConstTensorRef;
+
+  /// Defines the tensor reference for this allocation
+  typedef TensorRef<Scalar, 4> TensorRef;
+
+  //
+  // Data members
+  //
+
+  /// Storage
+  Storage storage[Shape::kD][Shape::kH][Shape::kW][Shape::kC];
+
+  //
+  // Methods
+  //
+
+  /// Returns a pointer to the raw data
+  CUTLASS_DEVICE
+  Scalar *data() { return reinterpret_cast<Scalar *>(&storage[0][0][0][0]); }
+
+  /// Returns a const pointer to the raw data
+  CUTLASS_DEVICE
+  Scalar const *data() const { return reinterpret_cast<Scalar const *>(&storage[0][0][0][0]); }
+
+  /// Returns a TensorRef object pointing to the data
+  CUTLASS_DEVICE
+  TensorRef reference() {
+    return TensorRef(data(), make_Coord(Strides::kD, Strides::kH, Strides::kW, Strides::kC));
+  }
+
+  /// Returns a TensorRef object pointing to the data
+  CUTLASS_DEVICE
+  ConstTensorRef reference() const {
+    return ConstTensorRef(data(), make_Coord(Strides::kD, Strides::kH, Strides::kW, Strides::kC));
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Manages a pair of tile allocations as if they are one allocation
+template <typename First_, typename Second_>
+struct ZipTileAllocation {
+  //
+  // Type definitions
+  //
+
+  /// First tensor allocation
+  typedef First_ First;
+
+  /// Second tensor allocation
+  typedef Second_ Second;
+
+  /// Defines the tensor reference for this allocation
+  typedef ZipTensorRef<typename First::TensorRef, typename Second::TensorRef> TensorRef;
+
+  /// Defines the tensor reference for this allocation
+  typedef ZipTensorRef<typename First::ConstTensorRef, typename Second::ConstTensorRef>
+      ConstTensorRef;
+
+  //
+  // Data members
+  //
+
+  /// First tensor allocation
+  First first;
+
+  /// Second tensor allocation
+  Second second;
+
+  //
+  // Methods
+  //
+
+  /// Returns a TensorRef object pointing to the data
+  CUTLASS_DEVICE
+  TensorRef reference() { return TensorRef(first.reference(), second.reference()); }
+
+  /// Returns a TensorRef object pointing to the data
+  CUTLASS_DEVICE
+  ConstTensorRef reference() const { return ConstTensorRef(first.reference(), second.reference()); }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
diff --git a/cutlass/tile_coord.h b/cutlass/tile_coord.h
new file mode 100644
index 0000000000..b3d809bc36
--- /dev/null
+++ b/cutlass/tile_coord.h
@@ -0,0 +1,194 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Defines a coordinate used for the CUTLASS 4-D tile structure. 
+*/
+
+#pragma once
+
+#include "cutlass/coord.h"
+
+namespace cutlass {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// TileCoord wraps Coord<4, int> to provide a helper for accessing named dimensions. Classes
+/// expecting a coordinate in the rank=4 index space of a CUTLASS tile structure should use TileCoord. 
+template <typename Index_ = int>
+struct TileCoord : public Coord<4, Index_> {
+  
+  /// Index type
+  typedef Index_ Index;
+
+  /// Underlying Coord<4>
+  typedef Coord<4, Index> Base;
+
+  /// D dimension
+  static int kD = 0;
+
+  /// H dimension
+  static int kH = 1;
+
+  /// W dimension
+  static int kW = 2;
+
+  /// C dimension
+  static int kC = 3;
+
+  //
+  // Methods
+  //
+
+  /// Default ctor
+  CUTLASS_HOST_DEVICE
+  TileCoord() { }
+
+  /// Constructs from Coord<3> and infers coord[kC] = 0
+  CUTLASS_HOST_DEVICE
+  TileCoord(Coord<3, Index> const &coord): 
+    Base(make_Coord(coord[0], coord[1], coord[2], 0)) { }
+
+  /// Constructs from Coord<4>
+  CUTLASS_HOST_DEVICE
+  TileCoord(Coord<4, Index> const &coord): Base(coord) { }
+
+  /// Constructs from an array of coordinate elements
+  CUTLASS_HOST_DEVICE
+  TileCoord(Index coord[4]): Base(coord) { }
+  
+  /// Helper to construct from a row and column
+  CUTLASS_HOST_DEVICE
+  TileCoord(Index d, Index h, Index w, Index c): Base(make_Coord(d, h, w, c)) { }
+
+  /// Returns the D element of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index const & d() const { return this->at(kD); }
+
+  /// Returns the D element of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index & d() { return this->at(kD); }
+
+  /// Returns the H element of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index const & h() const { return this->at(kH); }
+
+  /// Returns the H element of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index & h() { return this->at(kH); }
+
+  /// Returns the W element of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index const & w() const { return this->at(kW); }
+
+  /// Returns the W element of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index & w() { return this->at(kW); }
+
+  /// Returns the Celement of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index const & c() const { return this->at(kC); }
+
+  /// Returns the C element of the coordinate
+  CUTLASS_HOST_DEVICE
+  Index & c() { return this->at(kC); }
+
+  /// Gets H and W dimensions as a Coord<2>
+  CUTLASS_HOST_DEVICE
+  Coord<2> hw() const {
+    return make_Coord(h(), w());
+  }
+
+  /// Gets H, W, and C dimensions as a Coord<3>
+  CUTLASS_HOST_DEVICE
+  Coord<3> hwc() const {
+    return make_Coord(h(), w(), c());
+  }
+
+  /// Gets D, H, and W dimensions as a Coord<3>
+  CUTLASS_HOST_DEVICE
+  Coord<3> dhw() const {
+    return make_Coord(d(), h(), w());
+  }
+
+  //
+  // Coord operators
+  //
+
+  /// Element-wise addition
+  CUTLASS_HOST_DEVICE
+  TileCoord operator+(Base const& b) const {
+    return TileCoord(Base::operator+(b));
+  }
+
+  /// Element-wise subtraction
+  CUTLASS_HOST_DEVICE
+  TileCoord operator-(Base const& b) const {
+    return TileCoord(Base::operator-(b));
+  }
+
+  /// Element-wise multiplication
+  CUTLASS_HOST_DEVICE
+  TileCoord operator*(Base const& b) const {
+    return TileCoord(Base::operator*(b));
+  }
+
+  /// Element-wise division
+  CUTLASS_HOST_DEVICE
+  TileCoord operator/(Base const& b) const {
+    return TileCoord(Base::operator/(b));
+  }
+
+  /// In-place addition
+  CUTLASS_HOST_DEVICE
+  TileCoord& operator+=(Base const& b) {
+    Base::operator+=(b);
+    return *this;
+  }
+
+  /// In-place subtraction
+  CUTLASS_HOST_DEVICE
+  TileCoord& operator-=(Base const& b) {
+    Base::operator-=(b);
+    return *this;
+  }
+
+  /// In-place multiplication
+  CUTLASS_HOST_DEVICE
+  TileCoord& operator*=(Base const& b) {
+    Base::operator*=(b);
+    return *this;
+  }
+
+  /// In-place division
+  CUTLASS_HOST_DEVICE
+  TileCoord& operator/=(Base const& b) {
+    Base::operator/=(b);
+    return *this;
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
diff --git a/cutlass/tile_iterator.h b/cutlass/tile_iterator.h
index 5d39c4f808..51e5779490 100644
--- a/cutlass/tile_iterator.h
+++ b/cutlass/tile_iterator.h
@@ -28,10 +28,13 @@
 */
 #pragma once
 
-#include <cutlass/fragment.h>
-#include <cutlass/load_store.h>
-#include <cutlass/predicate_vector.h>
-#include <cutlass/vector.h>
+#include "cutlass/coord.h"
+#include "cutlass/tensor_ref.h"
+#include "cutlass/fragment.h"
+#include "cutlass/load_store.h"
+#include "cutlass/predicate_vector.h"
+#include "cutlass/vector.h"
+#include <cstdio>
 
 namespace cutlass {
 
@@ -61,12 +64,6 @@ as a Coord<4>.
 struct IteratorAdvance {
   enum Kind { kD, kH, kW };
 };
-
-/// Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix
-struct IteratorFragment {
-  enum Kind { kScalar, kWmmaMatrix };
-};
-
 ///////////////////////////////////////////////////////////////////////////////////////////////////
 
 /**
@@ -77,7 +74,7 @@ template <typename Tile_,
           typename Delta_,
           typename Iterations_,
           typename ThreadOffset_,
-          int kAccessSize>
+          int AccessSize>
 struct TileTraits {
   /// Shape of the tile
   typedef Tile_ Tile;
@@ -89,11 +86,52 @@ struct TileTraits {
   typedef Iterations_ Iterations;
 
   /// Functor that returns the logical coordinate of each entity's initial offset in the tile
+  //
+  // ThreadOffset should be a functor defined like:
+  //
+  // struct ThreadOffsetExample {
+  //   CUTLASS_DEVICE
+  //   Coord<4> operator()() const {
+  //      return make_Coord(0, threadIdx.y, threadIdx.x, 0);
+  //   }
+  // };
+  //
   typedef ThreadOffset_ ThreadOffset;
+
+  /// Strides for immediate offset computation
+  typedef Shape<0, 0, 0, 0> ImmediateOffsetStrides;
+
+  /// Access size
+  static int const kAccessSize = AccessSize;
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Functor computing a predicate given the logical position of an access
+template <typename Delta_>
+struct RegularTilePredicateFunctor {
+  typedef Delta_ Delta;
+
+  /// Dimensions of the bounding volume
+  Coord<3> bounds;
+
+  /// Constructs a predicate functor given the bounds of a tensor
+  CUTLASS_HOST_DEVICE
+  RegularTilePredicateFunctor(Coord<3> _bounds) : bounds(_bounds) {}
+
+  /// Computes the predicate given the logical position of an access
+  CUTLASS_HOST_DEVICE
+  bool operator()(Coord<3> iteration, Coord<3> offset) const {
+    return (iteration[0] * Delta::kD + offset[0] < bounds[0]) &&
+           (iteration[1] * Delta::kH + offset[1] < bounds[1]) &&
+           (iteration[2] * Delta::kW + offset[2] < bounds[2]);
+  }
 };
 
 ///////////////////////////////////////////////////////////////////////////////////////////////////
 
+template <typename T>
+struct DumpType {};
 /// Iterator for accessing a stripmined tile in memory
 template <typename Traits_,
           typename Scalar_,
@@ -101,7 +139,7 @@ template <typename Traits_,
           MemorySpace::Kind MemorySpace = MemorySpace::kGeneric,
           typename Index_ = int,
           typename FragmentElement_ = Scalar_,
-          IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar,
+          FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar,
           typename Skew_ = Shape<0, 0, 0, 0> >
 struct TileIteratorBase {
   /// concept TileTraits
@@ -117,7 +155,7 @@ struct TileIteratorBase {
   static IteratorAdvance::Kind const kAdvance = Advance_;
 
   /// Specifies iterator storage fragment type (Scalar or WmmaMatrix)
-  static IteratorFragment::Kind const kIteratorFragment = IteratorFragment_;
+  static FragmentElementType::Kind const kFragmentElementType = FragmentElementType_;
 
   /// Source or destination memory space
   static MemorySpace::Kind const kMemorySpace = MemorySpace;
@@ -144,18 +182,19 @@ struct TileIteratorBase {
   typedef typename Traits::ThreadOffset ThreadOffset;
 
   /// The number of scalars accessed per load/store.
-  static int const kAccessSize = Tile::kC;
+  static int const kAccessSize = Traits::kAccessSize;
 
   /// The elements loaded/store by one instruction.
   typedef typename Vectorize<FragmentElement, kAccessSize>::Type AccessType;
 
   /// The size of storage needed per fragment
   static int const kFragmentSize =
-      (kIteratorFragment == IteratorFragment::kWmmaMatrix ? 16 : sizeof(AccessType));
+      (kFragmentElementType == FragmentElementType::kWmmaMatrix ? 16 : sizeof(AccessType));
   /// The storage.
   typedef Fragment<Scalar, ShapeCount<Tile>::kCount, kFragmentSize> Storage;
   /// The fragment.
   typedef Fragment<FragmentElement, ShapeCount<Iterations>::kCount * kAccessSize> Fragment;
+
   /// The fragment iterator.
   typedef FragmentIterator<Fragment, Iterations, AccessType> FragmentIterator;
   /// The fragment const iterator.
@@ -172,25 +211,61 @@ struct TileIteratorBase {
 
   /// Parameters to the iterator
   struct Params {
-    Index stride_d;
+
+    //
+    // Dat members
+    //
+
+    long long stride_d;
     Index stride_h;
     Index stride_w;
 
-    Index inc_d;
+    long long inc_d;
     Index inc_h;
     Index inc_w;
 
-    Index inc_advance;
+    long long inc_advance;
+
+    //
+    // Methods
+    //
+
+    /// Constructs params
+    CUTLASS_HOST_DEVICE
+    Params() : stride_d(0), stride_h(0), stride_w(0), inc_d(0), inc_h(0), inc_w(0) {}
+
+    /// Constructs params
+    CUTLASS_HOST_DEVICE
+    Params(long long _stride_d,
+           Index _stride_h,
+           Index _stride_w,
+           long long _inc_d,
+           Index _inc_h,
+           Index _inc_w,
+           long long _inc_advance)
+        : stride_d(_stride_d),
+          stride_h(_stride_h),
+          stride_w(_stride_w),
+          inc_d(_inc_d),
+          inc_h(_inc_h),
+          inc_w(_inc_w),
+          inc_advance(_inc_advance) {}
+
+    /// Constructs params with a stride vector
+    CUTLASS_HOST_DEVICE
+    Params(Coord<4> const &stride) {
+      initialize(stride);
+    }
 
     /// Initializes params
     CUTLASS_HOST_DEVICE
-    int initialize(Index _stride_d,
+    int initialize(long long _stride_d,
                    Index _stride_h,
                    Index _stride_w,
-                   Index _inc_d,
+                   long long _inc_d,
                    Index _inc_h,
                    Index _inc_w,
-                   Index _inc_advance) {
+                   long long _inc_advance) {
       stride_d = _stride_d;
       stride_h = _stride_h;
       stride_w = _stride_w;
@@ -203,61 +278,79 @@ struct TileIteratorBase {
       return 0;
     }
 
+    /// Initializes the parameters object from a vector of strides
+    CUTLASS_HOST_DEVICE
+    int initialize(Coord<4> const &stride) {
+      return initialize(stride[0], stride[1], stride[2]);
+    }
+
+    /// Initializes the parameters object from a vector of strides
     CUTLASS_HOST_DEVICE
-    int initialize(Index _stride_d, Index _stride_h, Index _stride_w) {
+    int initialize(long long _stride_d, Index _stride_h, Index _stride_w) {
       stride_d = _stride_d;
       stride_h = _stride_h;
       stride_w = _stride_w;
 
       inc_w = stride_w * Delta::kW;
       inc_h = stride_h * Delta::kH - stride_w * Delta::kW * (Iterations::kW - 1);
+      inc_d = stride_d * Delta::kD - stride_h * Delta::kH * (Iterations::kH - 1) -
+              stride_w * Delta::kW * (Iterations::kW - 1);
+
+      inc_advance = 0;
 
       if (kAdvance == IteratorAdvance::kH) {
         // Advance in the H dimension.
-        inc_d = 0;
+        inc_advance = Tile::kH * stride_h;
       } else if (kAdvance == IteratorAdvance::kW) {
         // Advance in the W dimension.
-        inc_d = stride_w * Tile::kW - stride_h * Tile::kH;
+        inc_advance = Tile::kW * stride_w;
+
       } else {
         // Advance in the D dimension.
-        inc_d = stride_d;
+        inc_advance = Tile::kD * stride_d;
       }
 
-      inc_advance = 0;
+      inc_advance -= stride_d * Delta::kD * (Iterations::kD - 1) +
+                     stride_h * Delta::kH * (Iterations::kH - 1) +
+                     stride_w * Delta::kW * (Iterations::kW - 1);
 
       return 0;
     }
 
+    /// Gotta have this
     CUTLASS_HOST_DEVICE int initialize() {
       stride_d = 0;
       stride_h = 0;
       stride_w = 1;
 
-      inc_d = inc_h = inc_w = inc_advance = 0;
+      inc_advance = 0;
+      inc_d = inc_h = inc_w = 0;
 
       return 0;
     }
   };
 
   /// Is the iterator valid?
-  CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const { return true; }
+  CUTLASS_HOST_DEVICE bool valid(int d, int h, int w, int c) const { return true; }
 
   //
   // Static function members
   //
 
   /// Initializes a predicate vector
-  template <typename PredicateIterator>
-  CUTLASS_DEVICE static void initialize_predicates(PredicateIterator predicate_it,
-                                                   Coord<3> const &bounds,
-                                                   Coord<3> const &offset = make_Coord(0, 0, 0)) {
+  template <typename PredicateIterator, typename PredicateFunctor>
+  CUTLASS_HOST_DEVICE static void initialize_predicates(PredicateIterator predicate_it,
+                                                   PredicateFunctor const &predicate_func,
+                                                   Coord<3> const &offset) {
+    CUTLASS_PRAGMA_UNROLL
     for (int d = 0; d < Iterations::kD; ++d) {
-      bool enable_d = (d * Delta::kD + offset[0] < bounds[0]);
+      CUTLASS_PRAGMA_UNROLL
       for (int h = 0; h < Iterations::kH; ++h) {
-        bool enable_h = (h * Delta::kH + offset[1] < bounds[1]);
+        CUTLASS_PRAGMA_UNROLL
         for (int w = 0; w < Iterations::kW; ++w) {
-          bool enable_w = (w * Tile::kC * Delta::kW + offset[2] < bounds[2]);
-          predicate_it.set(d, h, w, 0, enable_d && enable_h && enable_w);
+          bool enable = predicate_func(make_Coord(d, h, w), offset);
+          predicate_it.set(enable);
+          ++predicate_it;
         }
       }
     }
@@ -301,7 +394,7 @@ template <typename Traits_,
           MemorySpace::Kind MemorySpace = MemorySpace::kGeneric,
           typename Index_ = int,
           typename FragmentElement_ = Scalar_,
-          IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar,
+          FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar,
           typename Skew_ = Shape<0, 0, 0, 0> >
 struct TileLoadIterator : public TileIteratorBase<Traits_,
                                                   Scalar_,
@@ -309,7 +402,7 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
                                                   MemorySpace,
                                                   Index_,
                                                   FragmentElement_,
-                                                  IteratorFragment_,
+                                                  FragmentElementType_,
                                                   Skew_> {
   /// Base class
   typedef TileIteratorBase<Traits_,
@@ -318,7 +411,7 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
                            MemorySpace,
                            Index_,
                            FragmentElement_,
-                           IteratorFragment_,
+                           FragmentElementType_,
                            Skew_>
       Base;
 
@@ -329,13 +422,13 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
   typedef typename Base::Scalar Scalar;
 
   /// Fragment element
-  typedef typename Base::FragmentElement FragmentElement;
+  typedef FragmentElement_ FragmentElement;
 
   /// Specifies in which dimension post-increment accesses advance.
   static IteratorAdvance::Kind const kAdvance = Base::kAdvance;
 
   /// Specifies type of iterator fragment storage (Salar or WmmaMatrix)
-  static IteratorFragment::Kind const kIteratorFragment = Base::kIteratorFragment;
+  static FragmentElementType::Kind const kFragmentElementType = FragmentElementType_;
 
   /// Source or destination memory space
   static MemorySpace::Kind const kMemorySpace = Base::kMemorySpace;
@@ -364,6 +457,9 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
   /// Memory access type
   typedef typename Base::AccessType AccessType;
 
+  /// The number of scalars accessed per load/store.
+  static int const kAccessSize = Base::kAccessSize;
+
   /// Fragment definition
   typedef typename Base::Fragment Fragment;
 
@@ -388,21 +484,80 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
   /// The pointer type
   typedef Scalar const *Pointer;
 
+  /// Tensor reference for the load iterator
+  typedef TensorRef<Scalar const, 4> TensorRef;
+
   /// Parameters
   struct Params : public BaseParams {
     /// Pointer to memory
     Scalar const *pointer;
 
+    //
+    // Methods
+    //
+
+    /// Initialize params to access storage object
+    CUTLASS_HOST_DEVICE
+    Params() : pointer(0){ Base::Params::initialize(); }
+
+    /// Initialize params to access storage object
+    CUTLASS_HOST_DEVICE
+    Params(Scalar const *ptr) : pointer(ptr) { Base::Params::initialize(); }
+
+    /// Constructs with a CompactTensorRef<>
+    CUTLASS_HOST_DEVICE
+    Params(TensorRef const &ref): pointer(ref.data()) {
+      Base::Params::initialize(ref.stride());
+    }
+
+    /// Initialize params to access storage object
+    CUTLASS_HOST_DEVICE
+    Params(Scalar const *ptr,
+           long long _stride_d,
+           Index _stride_h,
+           Index _stride_w,
+           long long _inc_d,
+           Index _inc_h,
+           Index _inc_w,
+           Index _inc_advance)
+        : pointer(ptr) {
+      Base::Params::initialize(
+          _stride_d, _stride_h, _stride_w, _inc_d, _inc_h, _inc_w, _inc_advance);
+    }
+
+    /// Initialize params to access storage object
+    CUTLASS_HOST_DEVICE
+    Params(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)
+        : pointer(ptr) {
+      Base::Params::initialize(stride_d, stride_h, stride_w);
+    }
+
+    /// Initializes params to access a raw pointer
+    CUTLASS_HOST_DEVICE
+    int initialize(TensorRef const &ref) {
+      pointer = ref.data();
+      return Base::Params::initialize(ref.stride());
+    }
+
     /// Initialize params to access storage object
     CUTLASS_HOST_DEVICE
     int initialize(SharedStorage const &storage) {
       pointer = &storage[0];
+      Base::Params::initialize();
+      return 0;
+    }
+
+    /// Initialize params to access storage object
+    CUTLASS_HOST_DEVICE
+    int initialize(Scalar const *ptr) {
+      pointer = ptr;
+      Base::Params::initialize();
       return 0;
     }
 
     /// Initializes params to access a raw pointer
     CUTLASS_HOST_DEVICE
-    int initialize(Scalar const *ptr, Index stride_d, Index stride_h, Index stride_w) {
+    int initialize(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w) {
       Base::Params::initialize(stride_d, stride_h, stride_w);
       pointer = ptr;
       return 0;
@@ -411,10 +566,10 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
     /// Initializes params
     CUTLASS_HOST_DEVICE
     int initialize(Scalar const *ptr,
-                   Index _stride_d,
+                   long long _stride_d,
                    Index _stride_h,
                    Index _stride_w,
-                   Index _inc_d,
+                   long long _inc_d,
                    Index _inc_h,
                    Index _inc_w,
                    Index _inc_advance) {
@@ -443,11 +598,13 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
   int stage;
 
   //
-  // Static member functions
+  // Predicate initialization
   //
 
-  /// Initializes a predicate vector
-  template <typename PredicateIterator>
+  /// Initializes a predicate vector using a RegularTilePredicateFunctor
+  template <
+      /// Predicate iterator
+      typename PredicateIterator>
   CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it,
                                                  Coord<3> const &bounds,
                                                  Coord<3> const &block_offset = make_Coord(0,
@@ -455,8 +612,23 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
                                                                                            0)) {
     Base::initialize_predicates(
         predicate_it,
-        bounds,
-        block_offset + make_Coord(0, thread_offset[1], thread_offset[2] * Tile::kC));
+        RegularTilePredicateFunctor<typename Traits::Delta>(bounds),
+        block_offset + make_Coord(thread_offset[0], thread_offset[1], thread_offset[2]));
+  }
+
+  /// Initializes a predicate vector using an arbitrary predicate functor
+  template <
+      /// Predicate iterator
+      typename PredicateIterator,
+      /// Functor computing predicates
+      typename PredicateFunctor>
+  CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it,
+                                                 PredicateFunctor const &functor,
+                                                 Coord<3> const &block_offset) {
+    Base::initialize_predicates(
+        predicate_it,
+        functor,
+        block_offset + make_Coord(thread_offset[0], thread_offset[1], thread_offset[2]));
   }
 
   //
@@ -475,41 +647,27 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
       : params(_params), stage(0) {
     thread_offset = thread_offset_func();
 
-    Index block_offset_h = 0;
-    Index block_offset_w = 0;
-    if (kAdvance == IteratorAdvance::kH) {
-      block_offset_h = block_offset[1];
-      block_offset_w = block_offset[2];
-    } else {
-      block_offset_h = block_offset[2];
-      block_offset_w = block_offset[1];
-    }
+    Index pointer_offset = Index((block_offset[0] + thread_offset[0]) * params.stride_d) +
+                           Index((block_offset[1] + thread_offset[1]) * params.stride_h) +
+                           Index((block_offset[2] + thread_offset[2]) * params.stride_w);
 
-    params.pointer += block_offset[0] * params.stride_d +
-                      (block_offset_h + thread_offset[1]) * params.stride_h +
-                      (block_offset_w + thread_offset[2] * Tile::kC) / Tile::kC * params.stride_w;
+    params.pointer += pointer_offset;
   }
 
   /// Constructs a tile load iterator
   CUTLASS_HOST_DEVICE
   TileLoadIterator(Params const &,
-                   SharedStorage &shared_storage,
+                   Scalar const *ptr,
                    Coord<3> const &block_offset = make_Coord(0, 0, 0),
                    ThreadOffset thread_offset_func = ThreadOffset())
       : stage(0) {
-    int const offset = thread_offset_func()[2];
-    params.pointer = &shared_storage[offset];
-  }
+    params.pointer = ptr + thread_offset_func()[2];
 
-  /// Returns the current pointer
-  CUTLASS_HOST_DEVICE
-  Scalar const *data() const { return params.pointer; }
+    params.stride_d = 0;
+    params.stride_h = 0;
+    params.stride_w = 1;
 
-  /// The accessor.
-  CUTLASS_DEVICE void get(AccessType &value, int d, int h, int w, int c) const {
-    int const imm =
-        ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(d, h, w, c);
-    Load<Scalar, Base::kAccessSize, kMemorySpace>::load(value, params.pointer, imm);
+    params.inc_d = params.inc_h = params.inc_w = params.inc_advance = 0;
   }
 
   /// Increment in the D dimension
@@ -524,8 +682,21 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
   /// Increment in the next dimension
   CUTLASS_HOST_DEVICE void inc_advance() { params.pointer += params.inc_advance; }
 
+  /// Loads a single fragment element from memory
+  CUTLASS_HOST_DEVICE void load_element(AccessType &value, int d, int h, int w, int c) const {
+    int const offset =
+        ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(d, h, w, c);
+    Load<Scalar,
+         kAccessSize,
+         kMemorySpace,
+         kFragmentElementType,
+         FragmentElement,
+         Tile::kW,
+         sizeof(FragmentElement) * kAccessSize>::load(value, params.pointer, offset);
+  }
+
   /// Increment the stage.
-  CUTLASS_DEVICE void inc_stage() {
+  CUTLASS_HOST_DEVICE void inc_stage() {
     if (Tile::kD > 1) {
       int const kStageSize = Tile::kH * Tile::kW * Tile::kC;
       if (stage == Tile::kD - 1) {
@@ -538,7 +709,27 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
     }
   }
 
- public:
+  /// Adds a vector offset to the iterator
+  CUTLASS_HOST_DEVICE TileLoadIterator & operator+=(Coord<3> const &offset) {
+    long long _offset = offset.template dot<long long>(
+      make_Coord(params.stride_d, params.stride_h, params.stride_w)
+    );
+
+    params.pointer += _offset;
+    return *this;
+  }
+
+  /// Adds a raw offset to the pointer
+  CUTLASS_HOST_DEVICE void add_pointer_offset(Index offset) { params.pointer += offset; }
+
+  CUTLASS_HOST_DEVICE Index stride_advance(void) {
+    Index stride = params.stride_h;
+    if (kAdvance == IteratorAdvance::kW) {
+      stride = params.stride_w;
+    }
+    return stride;
+  }
+
   /// Loads a fragment and advances the iterator to the next tile.
   template <typename Fragment, typename PredicateIterator>
   CUTLASS_HOST_DEVICE void load_post_increment(Fragment &fragment, PredicateIterator pred_it) {
@@ -547,11 +738,12 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
     for (int d = 0; d < Iterations::kD; ++d) {
       for (int h = 0; h < Iterations::kH; ++h) {
         for (int w = 0; w < Iterations::kW; ++w, ++pred_it) {
-          if (*pred_it) {
-            Load<typename Fragment::Element, Tile::kC, kMemorySpace>::load(
-                reinterpret_cast<AccessType &>(frag_iterator.at(d, h, w, 0)), data(), 0);
+          for (int c = 0; c < Iterations::kC; ++c) {
+            if (*pred_it) {
+              load_element(
+                  reinterpret_cast<AccessType &>(frag_iterator.at(d, h, w, c)), d, h, w, c);
+            }
           }
-
           if (w < Iterations::kW - 1) {
             inc_w();
           }
@@ -587,6 +779,19 @@ struct TileLoadIterator : public TileIteratorBase<Traits_,
     typename PredicateVector::TrivialIterator pred_it;
     load(fragment, pred_it);
   }
+
+  /// Loads a fragment without advancing the iterator..
+  template <typename Fragment>
+  CUTLASS_HOST_DEVICE void load(Fragment &fragment, int d) {
+    FragmentIterator frag_iterator(fragment);
+    for (int h = 0; h < Iterations::kH; ++h) {
+      for (int w = 0; w < Iterations::kW; ++w) {
+        for (int c = 0; c < Iterations::kC; ++c) {
+          load_element(reinterpret_cast<AccessType &>(frag_iterator.at(0, h, w, c)), d, h, w, c);
+        }
+      }
+    }
+  }
 };
 
 ///////////////////////////////////////////////////////////////////////////////////////////////////
@@ -626,7 +831,7 @@ template <typename Traits_,
           MemorySpace::Kind MemorySpace = MemorySpace::kGeneric,
           typename Index_ = int,
           typename FragmentElement_ = Scalar_,
-          IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar,
+          FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar,
           typename Skew_ = Shape<0, 0, 0, 0> >
 struct TileStoreIterator : public TileIteratorBase<Traits_,
                                                    Scalar_,
@@ -634,7 +839,7 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
                                                    MemorySpace,
                                                    Index_,
                                                    FragmentElement_,
-                                                   IteratorFragment_,
+                                                   FragmentElementType_,
                                                    Skew_> {
   /// Base class
   typedef TileIteratorBase<Traits_,
@@ -643,7 +848,7 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
                            MemorySpace,
                            Index_,
                            FragmentElement_,
-                           IteratorFragment_,
+                           FragmentElementType_,
                            Skew_>
       Base;
 
@@ -660,11 +865,14 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
   static IteratorAdvance::Kind const kAdvance = Base::kAdvance;
 
   /// Specifies type of iterator fragment storage (Salar or WmmaMatrix)
-  static IteratorFragment::Kind const kIteratorFragment = Base::kIteratorFragment;
+  static FragmentElementType::Kind const kFragmentElementType = Base::kFragmentElementType;
 
   /// Source or destination memory space
   static MemorySpace::Kind const kMemorySpace = Base::kMemorySpace;
 
+  /// The number of scalars accessed per load/store.
+  static int const kAccessSize = Base::kAccessSize;
+
   /// Index type
   typedef typename Base::Index Index;
 
@@ -707,21 +915,71 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
   /// IteratorBase parameters
   typedef typename Base::Params BaseParams;
 
+  /// Pointer to underlying type
+  typedef Scalar *Pointer;
+
+  /// Tensor reference for the store iterator
+  typedef TensorRef<Scalar, 4> TensorRef;
+
   /// Parameters
   struct Params : public BaseParams {
     /// Pointer to memory
     Scalar *pointer;
 
+    //
+    // Methods
+    //
+
+    // Default constructor
+    CUTLASS_HOST_DEVICE
+    Params() : pointer(0) {}
+
+    // Default constructor
+    CUTLASS_HOST_DEVICE
+    Params(Scalar *ptr) : pointer(ptr) { Base::Params::initialize(); }
+
+    /// Constructs with a CompactTensorRef<>
+    CUTLASS_HOST_DEVICE
+    Params(TensorRef const &ref): pointer(ref.data()) {
+      Base::Params::initialize(ref.stride());
+    }
+
+    // Default constructor
+    CUTLASS_HOST_DEVICE
+    Params(Scalar *ptr, long long stride_d, Index stride_h, Index stride_w) {
+      initialize(ptr, stride_d, stride_h, stride_w);
+    }
+
+    // Default constructor
+    CUTLASS_HOST_DEVICE
+    Params(Scalar *ptr,
+           long long _stride_d,
+           Index _stride_h,
+           Index _stride_w,
+           long long _inc_d,
+           Index _inc_h,
+           Index _inc_w,
+           Index _inc_advance) {
+      initialize(ptr, _stride_d, _stride_h, _stride_w, _inc_d, _inc_h, _inc_w, _inc_advance);
+    }
+
     /// Initialize params to access storage object
     CUTLASS_HOST_DEVICE
     int initialize(SharedStorage &storage) {
       pointer = &storage[0];
-      return 0;
+      return Base::Params::initialize();
+    }
+
+    /// Initialize params to access storage object
+    CUTLASS_HOST_DEVICE
+    int initialize(Scalar *ptr) {
+      pointer = ptr;
+      return Base::Params::initialize();
     }
 
     /// Initializes params to access a raw pointer
     CUTLASS_HOST_DEVICE
-    int initialize(Scalar *ptr, Index stride_d, Index stride_h, Index stride_w) {
+    int initialize(Scalar *ptr, long long stride_d, Index stride_h, Index stride_w) {
       Base::Params::initialize(stride_d, stride_h, stride_w);
       pointer = ptr;
       return 0;
@@ -730,10 +988,10 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
     /// Initializes params
     CUTLASS_HOST_DEVICE
     int initialize(Scalar *ptr,
-                   Index _stride_d,
+                   long long _stride_d,
                    Index _stride_h,
                    Index _stride_w,
-                   Index _inc_d,
+                   long long _inc_d,
                    Index _inc_h,
                    Index _inc_w,
                    Index _inc_advance) {
@@ -762,11 +1020,13 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
   int stage;
 
   //
-  // Static member functions
+  // Predicate initialization
   //
 
-  /// Initializes a predicate vector
-  template <typename PredicateIterator>
+  /// Initializes a predicate vector using a RegularTilePredicateFunctor
+  template <
+      /// Predicate iterator
+      typename PredicateIterator>
   CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it,
                                                  Coord<3> const &bounds,
                                                  Coord<3> const &block_offset = make_Coord(0,
@@ -774,8 +1034,23 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
                                                                                            0)) {
     Base::initialize_predicates(
         predicate_it,
-        bounds,
-        block_offset + make_Coord(0, thread_offset[1], thread_offset[2] * Tile::kC));
+        RegularTilePredicateFunctor<typename Traits::Delta>(bounds),
+        block_offset + make_Coord(thread_offset[0], thread_offset[1], thread_offset[2]));
+  }
+
+  /// Initializes a predicate vector using an arbitrary predicate functor
+  template <
+      /// Predicate iterator
+      typename PredicateIterator,
+      /// Functor computing predicates
+      typename PredicateFunctor>
+  CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it,
+                                                 PredicateFunctor const &functor,
+                                                 Coord<3> const &block_offset) {
+    Base::initialize_predicates(
+        predicate_it,
+        functor,
+        block_offset + make_Coord(thread_offset[0], thread_offset[1], thread_offset[2]));
   }
 
   //
@@ -794,25 +1069,22 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
       : params(_params), stage(0) {
     thread_offset = thread_offset_func();
 
-    params.pointer += block_offset[0] * params.stride_d +
+    params.pointer += (block_offset[0] + thread_offset[0]) * params.stride_d +
                       (block_offset[1] + thread_offset[1]) * params.stride_h +
-                      (block_offset[2] + thread_offset[2] * Tile::kC) / Tile::kC * params.stride_w;
+                      (block_offset[2] + thread_offset[2]) * params.stride_w;
   }
 
   /// Constructs a tile store iterator
   CUTLASS_HOST_DEVICE
-  TileStoreIterator(Params const &,
-                    SharedStorage &shared_storage,
-                    Coord<3> const &block_offset = make_Coord(0, 0, 0),
-                    ThreadOffset thread_offset_func = ThreadOffset())
+  TileStoreIterator(Params const &, Scalar *ptr, ThreadOffset thread_offset_func = ThreadOffset())
       : stage(0) {
-    int const offset = thread_offset_func()[2];
-    params.pointer = &shared_storage[offset];
-  }
+    params.pointer = ptr + thread_offset_func()[2];
+    params.stride_d = 0;
+    params.stride_h = 0;
+    params.stride_w = 1;
 
-  /// Returns the current pointer
-  CUTLASS_HOST_DEVICE
-  Scalar *data() const { return params.pointer; }
+    params.inc_d = params.inc_h = params.inc_w = params.inc_advance = 0;
+  }
 
   /// Increment in the D dimension
   CUTLASS_HOST_DEVICE void inc_d() { params.pointer += params.inc_d; }
@@ -827,7 +1099,7 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
   CUTLASS_HOST_DEVICE void inc_advance() {}
 
   /// Increment the stage.
-  CUTLASS_DEVICE void inc_stage() {
+  CUTLASS_HOST_DEVICE void inc_stage() {
     if (Tile::kD > 1) {
       int const kStageSize = Tile::kH * Tile::kW * Tile::kC;
       if (stage == Tile::kD - 1) {
@@ -840,25 +1112,43 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
     }
   }
 
-  /// The accessor.
-  CUTLASS_DEVICE void set(AccessType const &value, int d, int h, int w, int c) {
-    int const imm =
+  /// Adds a vector offset to the iterator
+  CUTLASS_HOST_DEVICE TileStoreIterator & operator+=(Coord<3> const &offset) {
+    params.pointer += offset.template dot<long long>(
+      make_Coord(params.stride_d, params.stride_h, params.stride_w)
+    );
+    return *this;
+  }
+
+  /// Adds a raw offset to the pointer
+  CUTLASS_HOST_DEVICE void add_pointer_offset(Index offset) { params.pointer += offset; }
+
+  /// Stores a single fragment element into memory.
+  CUTLASS_HOST_DEVICE void store_element(AccessType const &value, int d, int h, int w, int c) {
+    int const offset =
         ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(d, h, w, c);
-    Store<Scalar, Base::kAccessSize, kMemorySpace>::store(value, params.pointer, imm);
+    Store<Scalar,
+          kAccessSize,
+          kMemorySpace,
+          kFragmentElementType,
+          FragmentElement,
+          Tile::kW,
+          sizeof(FragmentElement) * kAccessSize>::store(value, params.pointer, offset);
   }
 
- public:
   /// Stores a fragment and advances to the next tile.
   template <typename Fragment, typename PredicateIterator>
-  CUTLASS_HOST_DEVICE void store_post_increment(Fragment &fragment, PredicateIterator pred_it) {
-    FragmentIterator frag_iterator(fragment);
+  CUTLASS_HOST_DEVICE void store_post_increment(Fragment const &fragment, PredicateIterator pred_it) {
+    FragmentConstIterator frag_iterator(fragment);
 
     for (int d = 0; d < Iterations::kD; ++d) {
       for (int h = 0; h < Iterations::kH; ++h) {
         for (int w = 0; w < Iterations::kW; ++w, ++pred_it) {
-          if (*pred_it) {
-            Store<typename Fragment::Element, Tile::kC, kMemorySpace>::store(
-                reinterpret_cast<AccessType &>(frag_iterator.at(d, h, w, 0)), data(), 0);
+          for (int c = 0; c < Iterations::kC; ++c) {
+            if (*pred_it) {
+              store_element(
+                  reinterpret_cast<AccessType const &>(frag_iterator.at(d, h, w, c)), d, h, w, c);
+            }
           }
           if (w < Iterations::kW - 1) {
             inc_w();
@@ -877,23 +1167,103 @@ struct TileStoreIterator : public TileIteratorBase<Traits_,
 
   /// Stores a fragment and advances to the next tile.
   template <typename Fragment>
-  CUTLASS_HOST_DEVICE void store_post_increment(Fragment &fragment) {
+  CUTLASS_HOST_DEVICE void store_post_increment(Fragment const &fragment) {
     typename PredicateVector::TrivialIterator pred_it;
     store_post_increment(fragment, pred_it);
   }
 
   /// Stores a fragment without advancing the iterator.
   template <typename Fragment, typename PredicateIterator>
-  CUTLASS_HOST_DEVICE void store(Fragment &fragment, PredicateIterator pred_it) const {
+  CUTLASS_HOST_DEVICE void store(Fragment const &fragment, PredicateIterator pred_it) const {
     TileStoreIterator _store_it(*this);
     _store_it.store_post_increment(fragment, pred_it);
   }
 
   /// Stores a fragment without advancing the iterator.
   template <typename Fragment>
-  CUTLASS_HOST_DEVICE void store(Fragment &fragment) const {
+  CUTLASS_HOST_DEVICE void store(Fragment const &fragment) const {
     typename PredicateVector::TrivialIterator pred_it;
     store(fragment, pred_it);
   }
+
+  /// Loads a single fragment element from memory
+  CUTLASS_HOST_DEVICE void load_element(AccessType &value, int d, int h, int w, int c) const {
+    int const offset =
+        ComputeOffsetFromStrides<typename Base::ImmediateOffsetStrides>::get(d, h, w, c);
+
+    Load<Scalar,
+         kAccessSize,
+         kMemorySpace,
+         kFragmentElementType,
+         FragmentElement,
+         Tile::kW,
+         sizeof(FragmentElement) * kAccessSize>::load(value, params.pointer, offset);
+  }
+
+  /// Loads a fragment and advances the iterator to the next tile.
+  template <typename Fragment, typename PredicateIterator>
+  CUTLASS_HOST_DEVICE void load_post_increment(Fragment &fragment, PredicateIterator pred_it) {
+    FragmentIterator frag_iterator(fragment);
+
+    for (int d = 0; d < Iterations::kD; ++d) {
+      for (int h = 0; h < Iterations::kH; ++h) {
+        for (int w = 0; w < Iterations::kW; ++w, ++pred_it) {
+          for (int c = 0; c < Iterations::kC; ++c) {
+            if (*pred_it) {
+              load_element(
+                  reinterpret_cast<AccessType &>(frag_iterator.at(d, h, w, c)), d, h, w, c);
+            }
+          }
+          if (w < Iterations::kW - 1) {
+            inc_w();
+          }
+        }
+        if (h < Iterations::kH - 1) {
+          inc_h();
+        }
+      }
+      if (d < Iterations::kD - 1) {
+        inc_d();
+      }
+    }
+    inc_advance();
+  }
+
+  /// Loads a fragment and advances the iterator to the next tile.
+  template <typename Fragment>
+  CUTLASS_HOST_DEVICE void load_post_increment(Fragment &fragment) {
+    typename PredicateVector::TrivialIterator pred_it;
+    load_post_increment(fragment, pred_it);
+  }
+
+  /// Loads a fragment without advancing the iterator..
+  template <typename Fragment, typename PredicateIterator>
+  CUTLASS_HOST_DEVICE void load(Fragment &fragment, PredicateIterator pred_it) const {
+    TileStoreIterator _load_it(*this);
+    _load_it.load_post_increment(fragment, pred_it);
+  }
+
+  /// Loads a fragment without advancing the iterator..
+  template <typename Fragment>
+  CUTLASS_HOST_DEVICE void load(Fragment &fragment) const {
+    typename PredicateVector::TrivialIterator pred_it;
+    load(fragment, pred_it);
+  }
+
+  /// Loads a fragment without advancing the iterator..
+  template <typename Fragment>
+  CUTLASS_HOST_DEVICE void load(Fragment &fragment, int d) {
+    FragmentIterator frag_iterator(fragment);
+    for (int h = 0; h < Iterations::kH; ++h) {
+      for (int w = 0; w < Iterations::kW; ++w) {
+        for (int c = 0; c < Iterations::kC; ++c) {
+          load_element(reinterpret_cast<AccessType &>(frag_iterator.at(0, h, w, c)), d, h, w, c);
+        }
+      }
+    }
+  }
 };
-}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
diff --git a/cutlass/tile_stream.h b/cutlass/tile_stream.h
new file mode 100644
index 0000000000..7790605a05
--- /dev/null
+++ b/cutlass/tile_stream.h
@@ -0,0 +1,378 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Implements the tile stream concept, composing an iterator with a transformation. Offers
+      split-phase semantics, separating the initiation of an asynchronous memory operation with a
+      fence forcing it to complete.
+*/
+#pragma once
+
+// clang-format off
+
+#include "cutlass/convert.h"
+#include "cutlass/tile_iterator.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace cutlass {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Generic stream for loading and transforming fragments
+template <typename Iterator_, typename Transformer_ = Copy<typename Iterator_::Fragment> >
+struct TileLoadStream {
+  //
+  // Type definitions
+  //
+
+  /// TileLoadIterator
+  typedef Iterator_ Iterator;
+
+  /// Transformer
+  typedef Transformer_ Transformer;
+
+  /// Fragment fetched from source memory
+  typedef typename Iterator::Fragment Fragment;
+
+  /// Output fragment from transformer
+  typedef typename Transformer::OutputFragment TransformedFragment;
+
+  /// Tensor reference expected by the stream
+  typedef typename Iterator::TensorRef TensorRef;
+
+  /// Empty predicate vector struct
+  struct PredicateVector {};
+
+  /// Index type
+  typedef typename Iterator::Index Index;
+
+  /// Parameters object used to construct generic load stream
+  struct Params {
+    /// Parameters to the iterator
+    typename Iterator::Params iterator;
+
+    //
+    // Methods
+    //
+
+    /// Default constructor
+    CUTLASS_HOST_DEVICE
+    Params() {}
+
+    /// Constructor with iterator params
+    CUTLASS_HOST_DEVICE
+    Params(typename Iterator::Params const &_iterator) : iterator(_iterator) {}
+  };
+
+  //
+  // Data members
+  //
+
+  /// Iterator to load tiles
+  Iterator iterator;
+
+  /// Fragment loaded via iterator
+  Fragment fetched_fragment;
+
+  /// Transformation applied to fragments
+  Transformer transformer;
+
+  /// Transformed fragment from transformer
+  TransformedFragment transformed_fragment;
+
+  //
+  // Methods
+  //
+
+  /// Ctor
+  CUTLASS_DEVICE
+  TileLoadStream(Params const &_params, TensorRef const &_ref)
+      : iterator(_params.iterator, _ref) {}
+
+  /// Ctor
+  CUTLASS_DEVICE
+  TileLoadStream(Params const &_params,
+    Coord<3> const &threadblock_offset = make_Coord(0, 0, 0)
+  ): iterator(_params.iterator, threadblock_offset) { }
+
+  /// Loads a tile and increments the iterator
+  CUTLASS_DEVICE
+  void copy() { iterator.load_post_increment(fetched_fragment); }
+
+  /// Commits the fetched fragment and applies a transformation
+  CUTLASS_DEVICE
+  void commit() { transformer.transform(fetched_fragment, transformed_fragment); }
+
+  /// Accesses the loaded, transformed fragment
+  CUTLASS_DEVICE
+  Fragment &intermediate_fragment() { return fetched_fragment; }
+
+  /// Accesses the loaded, transformed fragment
+  CUTLASS_DEVICE
+  TransformedFragment &fragment() { return transformed_fragment; }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Generic stream for transforming and storing fragments
+template <typename Iterator_, typename Transformer_ = Copy<typename Iterator_::Fragment> >
+struct TileStoreStream {
+  //
+  // Type definitions
+  //
+
+  /// TileLoadIterator
+  typedef Iterator_ Iterator;
+
+  /// Transformer
+  typedef Transformer_ Transformer;
+
+  /// Source fragment
+  typedef typename Transformer::InputFragment Fragment;
+
+  /// Transformed fragment, compatible with Iterator::Fragment
+  typedef typename Transformer::OutputFragment TransformedFragment;
+
+  /// Tensor reference expected by the underlying iterator
+  typedef typename Iterator::TensorRef TensorRef;
+
+  /// Empty predicate vector struct
+  struct PredicateVector {};
+
+  /// Index type
+  typedef typename Iterator::Index Index;
+
+  /// Parameters used to construct the stream
+  struct Params {
+    /// Parameters to the iterator
+    typename Iterator::Params iterator;
+
+    //
+    // Methods
+    //
+
+    /// Default constructor
+    CUTLASS_HOST_DEVICE
+    Params() {}
+
+    /// Constructor with iterator params
+    CUTLASS_HOST_DEVICE
+    Params(typename Iterator::Params const &_iterator) : iterator(_iterator) {}
+  };
+
+  //
+  // Data members
+  //
+
+  /// Iterator to store tiles
+  Iterator iterator;
+
+  /// Transformation applied to inputs
+  Transformer transformer;
+
+  /// Source fragment
+  Fragment source_fragment;
+
+  /// Transformed fragment from transformer
+  TransformedFragment transformed_fragment;
+
+  //
+  // Methods
+  //
+
+  /// Ctor
+  CUTLASS_DEVICE
+  TileStoreStream(Params const &_params, TensorRef const &_ref)
+      : iterator(_params.iterator, _ref) {}
+
+  /// Ctor
+  CUTLASS_DEVICE
+  TileStoreStream(Params const &_params,
+                  Coord<3> const &threadblock_offset = make_Coord(0, 0, 0)
+  ): iterator(_params.iterator, threadblock_offset) { }
+
+  /// Stores a fragment and increments the iterator
+  CUTLASS_DEVICE
+  void copy() {
+
+    transformer.transform(source_fragment, transformed_fragment);
+    iterator.store_post_increment(transformed_fragment);
+  }
+
+  /// Stores a fragment and increments the iterator
+  CUTLASS_DEVICE
+  void copy(Fragment const &frag) {
+    source_fragment = frag;
+    copy();
+  }
+
+  /// Commits the store operation
+  CUTLASS_DEVICE
+  void commit() {}
+
+  /// Accesses the transformed fragment
+  CUTLASS_DEVICE
+  Fragment &fragment() { return source_fragment; }
+
+  /// Accesses the fragment after trasnforming
+  CUTLASS_DEVICE
+  TransformedFragment &intermediate_fragment() { return transformed_fragment; }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Generic stream for loading and transforming fragments
+template <typename Iterator_,
+          typename PredicateFunctor_ =
+              RegularTilePredicateFunctor<typename Iterator_::Traits::Delta>,
+          typename Transformer_ = Copy<typename Iterator_::Fragment> >
+struct PredicatedTileLoadStream : public TileLoadStream<Iterator_, Transformer_> {
+  //
+  // Type definitions
+  //
+
+  typedef TileLoadStream<Iterator_, Transformer_> Base;
+
+  /// TileLoadIterator
+  typedef Iterator_ Iterator;
+
+  /// Predicate functor
+  typedef PredicateFunctor_ PredicateFunctor;
+
+  /// Transformer
+  typedef Transformer_ Transformer;
+
+  /// Fragment fetched from source memory
+  typedef typename Base::Fragment Fragment;
+
+  /// Output fragment from transformer
+  typedef typename Base::TransformedFragment TransformedFragment;
+
+  /// Parameters object used to construct generic load stream
+  typedef typename Base::Params Params;
+
+  //
+  // Data members
+  //
+
+  /// Predicates
+  typename Iterator::PredicateVector predicates;
+
+  //
+  // Methods
+  //
+
+  /// Ctor
+  CUTLASS_DEVICE
+  PredicatedTileLoadStream(Params const &_params,
+                          Coord<3> const &bounds,
+                          Coord<3> const &threadblock_offset = make_Coord(0, 0, 0))
+      : Base(_params, threadblock_offset) {
+    this->iterator.initialize_predicates(
+        predicates.begin(), PredicateFunctor(bounds), threadblock_offset);
+  }
+
+  /// Loads a tile and increments the iterator
+  CUTLASS_DEVICE
+  void copy() { this->iterator.load_post_increment(this->fetched_fragment, predicates.begin()); }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Generic stream for transforming and storing fragments
+template <typename Iterator_,
+          typename PredicateFunctor_ =
+              RegularTilePredicateFunctor<typename Iterator_::Traits::Delta>,
+          typename Transformer_ = Copy<typename Iterator_::Fragment> >
+struct PredicatedTileStoreStream : public TileStoreStream<Iterator_, Transformer_> {
+  //
+  // Type definitions
+  //
+
+  typedef TileStoreStream<Iterator_, Transformer_> Base;
+
+  /// TileLoadIterator
+  typedef Iterator_ Iterator;
+
+  /// Predicate functor
+  typedef PredicateFunctor_ PredicateFunctor;
+
+  /// Transformer
+  typedef Transformer_ Transformer;
+
+  /// Fragment fetched from source memory
+  typedef typename Base::Fragment Fragment;
+
+  /// Output fragment from transformer
+  typedef typename Base::TransformedFragment TransformedFragment;
+
+  /// Parameters object used to construct generic load stream
+  typedef typename Base::Params Params;
+
+  //
+  // Data members
+  //
+
+  /// Predicates
+  typename Iterator::PredicateVector predicates;
+
+  //
+  // Methods
+  //
+
+  /// Ctor
+  CUTLASS_DEVICE
+  PredicatedTileStoreStream(Params const &_params,
+                           Coord<3> const &bounds,
+                           Coord<3> const &threadblock_offset = make_Coord(0, 0, 0))
+      : Base(_params, threadblock_offset) {
+    this->iterator.initialize_predicates(
+        predicates.begin(), PredicateFunctor(bounds), threadblock_offset);
+  }
+
+  /// Stores the fragment and increments the iterator
+  CUTLASS_DEVICE
+  void copy() {
+    this->transformer.transform(this->source_fragment, this->transformed_fragment);
+    this->iterator.store_post_increment(this->transformed_fragment, predicates.begin());
+  }
+
+  /// Stores the fragment and increments the iterator
+  CUTLASS_DEVICE
+  void copy(Fragment const &frag) {
+    this->source_fragment = frag;
+    copy();
+  }
+
+  /// Commits the store operation
+  CUTLASS_DEVICE
+  void commit() {}
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
+
+// clang-format on
diff --git a/cutlass/tile_traits_standard.h b/cutlass/tile_traits_standard.h
index 14ecd01abc..9145c5da92 100644
--- a/cutlass/tile_traits_standard.h
+++ b/cutlass/tile_traits_standard.h
@@ -28,7 +28,7 @@
 */
 #pragma once
 
-#include <cutlass/tile_iterator.h>
+#include "cutlass/tile_iterator.h"
 
 namespace cutlass {
 
@@ -204,6 +204,9 @@ struct TileTraitsStandard {
   /// Number of participating warps
   static int const kWarpCount = kThreads / kWarpSize;
 
+  /// By default, do not do scalar loads
+  static int const kAccessSize = 1;
+
   // Static assertions
   static_assert(!(ShapeCount<Tile>::kDhw % kThreads),
                 "Tiling undefined if elements not divisible by threads.");
@@ -223,8 +226,7 @@ struct TileTraitsStandard {
   typedef typename Traits::Delta Delta;
 
   /// Delta between each thread's access
-  /// TODO MTA this is wrong for sure, but Delta is used for stride computation at the moment
-  typedef Delta ImmediateOffsetStrides;
+  typedef Shape<0, 0, 0, 0> ImmediateOffsetStrides;
 
   /// Number of accesses
   typedef typename Traits::Iterations Iterations;
diff --git a/cutlass/util/complex.h b/cutlass/util/complex.h
new file mode 100644
index 0000000000..260a3abd2c
--- /dev/null
+++ b/cutlass/util/complex.h
@@ -0,0 +1,457 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#pragma once
+
+#include <cuComplex.h>
+#include "cutlass/cutlass.h"
+#include <iosfwd>
+
+namespace cutlass {
+namespace platform {
+
+//////////////////////////////////////////////////////////////////////////////////////////////////
+
+//
+// Accessors for CUDA complex types
+//
+
+/// Returns the real part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+CUTLASS_HOST_DEVICE
+float const &real(cuFloatComplex const &z) { return z.x; }
+
+/// Returns the real part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+CUTLASS_HOST_DEVICE
+float &real(cuFloatComplex &z) { return z.x; }
+
+/// Returns the real part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+CUTLASS_HOST_DEVICE
+double const &real(cuDoubleComplex const &z) { return z.x; }
+
+/// Returns the real part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+CUTLASS_HOST_DEVICE
+double &real(cuDoubleComplex &z) { return z.x; }
+
+/// Returns the imaginary part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+CUTLASS_HOST_DEVICE
+float const &imag(cuFloatComplex const &z) { return z.y; }
+
+/// Returns the imaginary part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+CUTLASS_HOST_DEVICE
+float &imag(cuFloatComplex &z) { return z.y; }
+
+/// Returns the imaginary part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+CUTLASS_HOST_DEVICE
+double const &imag(cuDoubleComplex const &z) { return z.y; }
+
+/// Returns the imaginary part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+CUTLASS_HOST_DEVICE
+double &imag(cuDoubleComplex &z) { return z.y; }
+
+//////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Class for representing and manipulating complex numbers with conversions from built-in CUDA
+/// complex types.
+template <typename T>
+class complex {
+ public:
+  /// Type alias for scalar type
+  typedef T value_type;
+
+ private:
+  //
+  // Data members
+  //
+
+  /// Real part
+  T _real;
+
+  /// Imaginary part
+  T _imag;
+
+ public:
+//
+// Methods
+//
+
+/// Constructor
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+  CUTLASS_HOST_DEVICE
+  complex(T r = T(0), T i = T(0)) : _real(r), _imag(i) {}
+
+/// Conversion from cuFloatComplex
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+  CUTLASS_HOST_DEVICE
+  complex(cuFloatComplex const &z) : _real(platform::real(z)), _imag(platform::imag(z)) {}
+
+/// Conversion from cuDoubleComplex
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+  CUTLASS_HOST_DEVICE
+  complex(cuDoubleComplex const &z) : _real(platform::real(z)), _imag(platform::imag(z)) {}
+
+/// Accesses the real part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+  CUTLASS_HOST_DEVICE
+  T const &real() const { return _real; }
+
+/// Accesses the real part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+  CUTLASS_HOST_DEVICE
+  T &real() { return _real; }
+
+/// Accesses the imaginary part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+  CUTLASS_HOST_DEVICE
+  T const &imag() const { return _imag; }
+
+/// Accesses the imaginary part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+  CUTLASS_HOST_DEVICE
+  T &imag() { return _imag; }
+
+/// Converts to cuFloatComplex
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+  CUTLASS_HOST_DEVICE
+  operator cuFloatComplex() const { return make_cuFloatComplex(real(), imag()); }
+
+/// Converts to cuDoubleComplex
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+  CUTLASS_HOST_DEVICE
+  operator cuDoubleComplex() const { return make_cuDoubleComplex(real(), imag()); }
+};
+
+//
+// Accessors for complex template
+//
+
+/// Returns the real part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE T const &real(complex<T> const &z) {
+  return z.real();
+}
+
+/// Returns the real part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE T &real(complex<T> &z) {
+  return z.real();
+}
+
+/// Returns the imaginary part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE T const &imag(complex<T> const &z) {
+  return z.imag();
+}
+
+/// Returns the imaginary part of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE T &imag(complex<T> &z) {
+  return z.imag();
+}
+
+//
+// Output operators
+//
+
+template <typename T>
+std::ostream &operator<<(std::ostream &out, complex<T> const &z) {
+  T _r = real(z);
+  T _i = imag(z);
+  return out << _r << "+i" << _i;
+}
+
+//
+// Non-member operators defined for complex types
+//
+
+/// Equality operator
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE bool operator==(complex<T> const &lhs, complex<T> const &rhs) {
+  return real(lhs) == (rhs) && imag(lhs) == imag(rhs);
+}
+
+/// Inequality operator
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE bool operator!=(complex<T> const &lhs, complex<T> const &rhs) {
+  return !(lhs == rhs);
+}
+
+/// Addition
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> operator+(complex<T> const &lhs, complex<T> const &rhs) {
+  return complex<T>(real(lhs) + real(rhs), imag(lhs) + imag(rhs));
+}
+
+/// Subtraction
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> operator-(complex<T> const &lhs, complex<T> const &rhs) {
+  return complex<T>(real(lhs) - real(rhs), imag(lhs) - imag(rhs));
+}
+
+/// Multiplication
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> operator*(complex<T> const &lhs, complex<T> const &rhs) {
+  return complex<T>(real(lhs) * real(rhs) - imag(lhs) * imag(rhs),
+                    real(lhs) * imag(rhs) + imag(lhs) * real(rhs));
+}
+
+/// Scalar Multiplication
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> operator*(complex<T> const &lhs, T const &s) {
+  return complex<T>(real(lhs) * s, imag(lhs) * s);
+}
+
+/// Scalar Multiplication
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> operator*(T const &s, complex<T> const &rhs) {
+  return complex<T>(s * real(rhs), s * imag(rhs));
+}
+
+/// Division
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> operator/(complex<T> const &lhs, complex<T> const &rhs) {
+  T d = (real(rhs) * (rhs) + imag(rhs) * imag(rhs));
+
+  return complex<T>((real(lhs) * (rhs) + imag(lhs) * imag(rhs)) / d,
+                    (imag(lhs) * (rhs)-real(lhs) * imag(rhs)) / d);
+}
+
+/// Scalar Division
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> operator/(complex<T> const &lhs, T const &s) {
+  return complex<T>(real(lhs) / s, imag(lhs) / s);
+}
+
+/// Scalar divided by complex
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> operator/(T const &s, complex<T> const &rhs) {
+  T d = (real(rhs) * (rhs) + imag(rhs) * imag(rhs));
+
+  return complex<T>((s * (rhs)) / d, -(s * imag(rhs)) / d);
+}
+
+/// Addition
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> &operator+=(complex<T> &lhs, complex<T> const &rhs) {
+  lhs = (lhs + rhs);
+  return lhs;
+}
+
+/// Subtraction
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> &operator-=(complex<T> &lhs, complex<T> const &rhs) {
+  lhs = (lhs - rhs);
+  return lhs;
+}
+
+/// Multiplication
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> &operator*=(complex<T> &lhs, complex<T> const &rhs) {
+  lhs = (lhs * rhs);
+  return lhs;
+}
+
+/// Scalar multiplication
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> &operator*=(complex<T> &lhs, T s) {
+  lhs = (lhs * s);
+  return lhs;
+}
+
+/// Division
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> &operator/=(complex<T> &lhs, complex<T> const &rhs) {
+  lhs = (lhs / rhs);
+  return lhs;
+}
+
+//
+// Non-member functions defined for complex numbers
+//
+
+/// Returns the magnitude of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE T abs(complex<T> const &z) {
+  return sqrt(norm(z));
+}
+
+/// Returns the magnitude of the complex number
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE T arg(complex<T> const &z) {
+  return atan2(imag(z), real(z));
+}
+
+/// Returns the squared magnitude
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE T norm(complex<T> const &z) {
+  return real(z) * real(z) + imag(z) * imag(z);
+}
+
+/// Returns the complex conjugate
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> conj(complex<T> const &z) {
+  return complex<T>(real(z), -imag(z));
+}
+
+/// Projects the complex number z onto the Riemann sphere
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> proj(complex<T> const &z) {
+  T d = real(z) * real(z) + imag(z) * imag(z) + T(1);
+  return complex<T>((T(2) * real(z)) / d, (T(2) * imag(z)) / d);
+}
+
+/// Returns a complex number with magnitude r and phase theta
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> polar(T const &r, T const &theta = T()) {
+  return complex<T>(r * cos(theta), r * sin(theta));
+}
+
+/// Computes the complex exponential of z.
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> exp(complex<T> const &z) {
+  return complex<T>(real(z) * cos(imag(z)), real(z) * sin(imag(z)));
+}
+
+/// Computes the complex exponential of z.
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> log(complex<T> const &z) {
+  return complex<T>(log(abs(z)), arg(z));
+}
+
+/// Computes the complex exponential of z.
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> log10(complex<T> const &z) {
+  return log(z) / T(log(T(10)));
+}
+
+/// Computes the square root of complex number z
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> sqrt(complex<T> const &z) {
+  return sqrt(T(2)) / T(2) *
+         complex<T>(sqrt(sqrt(norm(z)) + real(z)),
+                    (imag(z) < 0 ? T(-1) : T(1)) * sqrt(sqrt(norm(z)) - real(z)));
+}
+
+/// Computes the cosine of complex z.
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> cos(complex<T> const &z) {
+  return (exp(z) + exp(-z)) / T(2);
+}
+
+/// Computes the sin of complex z.
+#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex<T> with a
+                            // host-only type
+template <typename T>
+CUTLASS_HOST_DEVICE complex<T> sin(complex<T> const &z) {
+  return (exp(-z) - exp(z)) * complex<T>(T(0), T(1) / T(2));
+}
+
+//////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namespace platform
+}  // namespace cutlass
diff --git a/cutlass/util/cutlass_math.h b/cutlass/util/cutlass_math.h
index 0ecdc43829..e3b46ef35a 100644
--- a/cutlass/util/cutlass_math.h
+++ b/cutlass/util/cutlass_math.h
@@ -30,7 +30,7 @@
  * \brief Math utilities
  */
 
-#include <cutlass/util/platform.h>
+#include "cutlass/util/platform.h"
 
 namespace cutlass {
 
@@ -128,4 +128,38 @@ CUTLASS_HOST_DEVICE value_t lcm(value_t a, value_t b) {
   return temp ? (a / temp * b) : 0;
 }
 
+/**
+ * log2 computation, what's the
+ * difference between the below codes and
+ * log2_up/down codes?
+ */
+template <typename value_t>
+CUTLASS_HOST_DEVICE value_t clz(value_t x) {
+  for (int i = 31; i >= 0; --i) {
+    if ((1 << i) & x) return 31 - i;
+  }
+  return 32;
+}
+
+template <typename value_t>
+CUTLASS_HOST_DEVICE value_t find_log2(value_t x) {
+  int a = 31 - clz(x);
+  a += (x & (x - 1)) != 0;  // Round up, add 1 if not a power of 2.
+  return a;
+}
+
+/******************************************************************************
+ * Min/Max
+ ******************************************************************************/
+
+template <int A, int B>
+struct Min {
+  static int const kValue = (A < B) ? A : B;
+};
+
+template <int A, int B>
+struct Max {
+  static int const kValue = (A > B) ? A : B;
+};
+
 }  // namespace cutlass
diff --git a/cutlass/gemm/identity_block_swizzle.h b/cutlass/util/numeric_types.h
similarity index 79%
rename from cutlass/gemm/identity_block_swizzle.h
rename to cutlass/util/numeric_types.h
index e1bdb2e003..d8094a2567 100644
--- a/cutlass/gemm/identity_block_swizzle.h
+++ b/cutlass/util/numeric_types.h
@@ -1,5 +1,5 @@
 /***************************************************************************************************
- * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ * Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without modification, are permitted
  * provided that the following conditions are met:
@@ -22,27 +22,26 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-/*! \file
-    \brief Defies functors for mapping blockIdx to partitions of the GEMM computation.
-
-    Currently, we only implement an identity mapping.
+/*!
+    \file
+    \brief
 */
 #pragma once
 
 namespace cutlass {
-namespace gemm {
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+//
+// Definitions for 1-bit binary and 4-bit integer types
+//
+
+struct bin1_t {};  // 1-bit binary type
 
-struct IdentityBlockSwizzle {
-  /// Ctor.
-  CUTLASS_DEVICE IdentityBlockSwizzle() {}
+struct int4_t {};  // 4-bit signed integer type
 
-  /// Swizzle the block index.
-  CUTLASS_DEVICE dim3 swizzle() { return blockIdx; }
-};
+struct uint4_t {};  // 4-bit unsigned integer type
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
+///////////////////////////////////////////////////////////////////////////////////////////////////
 
-}  // namespace gemm
 }  // namespace cutlass
diff --git a/cutlass/util/platform.h b/cutlass/util/platform.h
index 2a44c10e62..3fd7c897d9 100644
--- a/cutlass/util/platform.h
+++ b/cutlass/util/platform.h
@@ -110,9 +110,17 @@
 #include <type_traits>  // For integral constants, conditional metaprogramming, and type traits
 #endif
 
-#include <cutlass/cutlass.h>
+#include "cutlass/cutlass.h"
 
 #endif
+
+//-----------------------------------------------------------------------------
+// OS
+//-----------------------------------------------------------------------------
+#if defined(WIN32) || defined(_WIN32) || defined(__WIN32) && !defined(__CYGWIN__)
+#define CUTLASS_OS_WINDOWS
+#endif
+
 /******************************************************************************
  * Macros
  ******************************************************************************/
diff --git a/cutlass/vector.h b/cutlass/vector.h
index a66dfdef7c..aeababb667 100644
--- a/cutlass/vector.h
+++ b/cutlass/vector.h
@@ -31,7 +31,8 @@
 #include <cuda_fp16.h>
 #endif
 
-#include <cutlass/util/platform.h>
+#include "cutlass/util/numeric_types.h"
+#include "cutlass/util/platform.h"
 
 namespace cutlass {
 
@@ -80,13 +81,43 @@ union Vector {
   uint32_t registers[kRegisters];
 
   /// Accessor to the ith lane.
-  CUTLASS_DEVICE Scalar const& operator[](uint32_t i) const { return scalars[i]; }
+  CUTLASS_HOST_DEVICE Scalar const& operator[](uint32_t i) const { return scalars[i]; }
   /// Accessor to the ith lane.
-  CUTLASS_DEVICE Scalar& operator[](uint32_t i) { return scalars[i]; }
+  CUTLASS_HOST_DEVICE Scalar& operator[](uint32_t i) { return scalars[i]; }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+template <>
+union Vector<half, 1> {
+  /// The scalar type.
+  typedef half Scalar;
+
+  /// The number of elements in the vector.
+  enum { kLanes = 1 };
+  /// The size of the vector.
+  enum { kVectorSize = kLanes * (int)sizeof(Scalar) };
+  /// The number of registers needed to store the vector.
+  enum { kRegisters = kVectorSize < 4 ? 1 : kVectorSize / 4 };
+
+  // Make sure that the vector type makes sense.
+  static_assert(kVectorSize <= 16, "Vector type is too large");
+
+  /// The aligned storage to make sure we have good alignment.
+  AlignedStruct<kVectorSize> aligned_;
+  /// The associated array of scalars.
+  uint16_t scalars[kLanes];
+
+  /// Accessor to the ith lane.
+  CUTLASS_HOST_DEVICE Scalar const& operator[](uint32_t i) const {
+    return reinterpret_cast<Scalar const&>(scalars[i]);
+  }
+  /// Accessor to the ith lane.
+  CUTLASS_HOST_DEVICE Scalar& operator[](uint32_t i) {
+      return reinterpret_cast<Scalar&>(scalars[i]);
+  }
+};
+
 #if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)
 
 template <int kLanes_>
@@ -112,19 +143,124 @@ union Vector<half, kLanes_> {
   uint32_t registers[kRegisters];
 
   /// Accessor to the ith lane.
-  CUTLASS_DEVICE Scalar const& operator[](uint32_t i) const {
+  CUTLASS_HOST_DEVICE Scalar const& operator[](uint32_t i) const {
     return reinterpret_cast<Scalar const&>(scalars[i]);
   }
   /// Accessor to the ith lane.
-  CUTLASS_DEVICE Scalar& operator[](uint32_t i) { return reinterpret_cast<Scalar&>(scalars[i]); }
+  CUTLASS_HOST_DEVICE Scalar& operator[](uint32_t i) {
+      return reinterpret_cast<Scalar&>(scalars[i]);
+  }
 };
 
 #endif
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+/// Vector definition for 1-bit binary datatype
+template <int kLanes_>
+union Vector<bin1_t, kLanes_> {
+  /// The scalar type.
+  typedef bin1_t Scalar;
+
+  /// The number of elements in the vector.
+  enum { kLanes = kLanes_ };
+  /// The size of the vector.
+  enum { kVectorSize = kLanes / 8 };
+  /// The number of registers needed to store the vector.
+  enum { kRegisters = kVectorSize < 4 ? 1 : kVectorSize / 4 };
+
+  static_assert((kLanes >= 8) && !(kLanes % 8),
+                "May only construct vectors of bin1_t that are multiples of 8 bits.");
+
+  /// The aligned storage to make sure we have good alignment.
+  AlignedStruct<kVectorSize> aligned_;
+  /// The data in registers.
+  uint32_t registers[kRegisters];
+
+  /// Default Constructor
+  CUTLASS_HOST_DEVICE
+  Vector() {}
+  /// Constructor to convert from uint32_t type
+  CUTLASS_HOST_DEVICE Vector(uint32_t value) { registers[0] = value; }
+  /// Accessor to the ith lane.
+  CUTLASS_HOST_DEVICE bool operator[](uint32_t i) const {
+    return ( (registers[i / 32] & (1 << (i % 32))) != 0 );
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Vector definition for 4-bit signed integer datatype
+template <int kLanes_>
+union Vector<int4_t, kLanes_> {
+  /// The scalar type.
+  typedef int4_t Scalar;
+
+  /// The number of elements in the vector.
+  enum { kLanes = kLanes_ };
+  /// The size of the vector.
+  enum { kVectorSize = kLanes / 2 };
+  /// The number of registers needed to store the vector.
+  enum { kRegisters = kVectorSize < 4 ? 1 : kVectorSize / 4 };
+
+  static_assert((kLanes >= 2) && !(kLanes % 2),
+   "May only construct vectors of int4_t that are multiples of 8 bits.");
+
+  /// The aligned storage to make sure we have good alignment.
+  AlignedStruct<kVectorSize> aligned_;
+  /// The data in registers.
+  uint32_t registers[kRegisters];
+
+  /// Default Constructor
+  CUTLASS_HOST_DEVICE
+  Vector() {}
+  /// Constructor to convert from uint32_t type
+  CUTLASS_HOST_DEVICE Vector(uint32_t value) { registers[0] = value; }
+  /// Accessor to the ith lane.
+  CUTLASS_HOST_DEVICE int operator[](uint32_t i) const {
+    return (registers[i / 8] >> (i % 8 * 4) & 0x0f)
+              - 16 * (registers[i / 8] >> (i % 8 * 4 + 3) & 0x01);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Vector definition for 4-bit unsigned integer datatype
+template <int kLanes_>
+union Vector<uint4_t, kLanes_> {
+  /// The scalar type.
+  typedef uint4_t Scalar;
+
+  /// The number of elements in the vector.
+  enum { kLanes = kLanes_ };
+  /// The size of the vector.
+  enum { kVectorSize = kLanes / 2 };
+  /// The number of registers needed to store the vector.
+  enum { kRegisters = kVectorSize < 4 ? 1 : kVectorSize / 4 };
+
+  static_assert((kLanes >= 2) && !(kLanes % 2),
+    "May only construct vectors of uint4_t that are multiples of 8 bits.");
+
+  /// The aligned storage to make sure we have good alignment.
+  AlignedStruct<kVectorSize> aligned_;
+  /// The data in registers.
+  uint32_t registers[kRegisters];
+
+  /// Default Constructor
+  CUTLASS_HOST_DEVICE
+  Vector() {}
+  /// Constructor to convert from uint32_t type
+  CUTLASS_HOST_DEVICE Vector(uint32_t value) { registers[0] = value; }
+  /// Accessor to the ith lane.
+  CUTLASS_HOST_DEVICE int operator[](uint32_t i) const {
+    return registers[i / 8] >> (i % 8 * 4) & 0x0f;
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 template <typename Scalar_>
-CUTLASS_DEVICE void make_zero(Scalar_& x) {
+CUTLASS_HOST_DEVICE void make_zero(Scalar_& x) {
   x = Scalar_(0);
 }
 
@@ -137,15 +273,29 @@ struct Vectorize {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename Element_>
-struct Vectorize<Element_, 1> {
-  typedef Element_ Type;
+template <int kLanes_>
+struct Vectorize<Vector<bin1_t, 32>, kLanes_> {
+  typedef Vector<bin1_t, kLanes_ * 32> Type;
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <int kLanes_>
+struct Vectorize<Vector<int4_t, 8>, kLanes_> {
+  typedef Vector<int4_t, kLanes_ * 8> Type;
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <int kLanes_>
+struct Vectorize<Vector<uint4_t, 8>, kLanes_> {
+  typedef Vector<uint4_t, kLanes_ * 8> Type;
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 template <typename Scalar_, int kLanes_>
-CUTLASS_DEVICE void make_zero(Vector<Scalar_, kLanes_>& vec) {
+CUTLASS_HOST_DEVICE void make_zero(Vector<Scalar_, kLanes_>& vec) {
   for (int i = 0; i < Vector<Scalar_, kLanes_>::kRegisters; ++i) {
     vec.registers[i] = 0;
   }
diff --git a/cutlass/wmma_matrix.h b/cutlass/wmma_matrix.h
index c4d8a0b54b..61c4ed2724 100644
--- a/cutlass/wmma_matrix.h
+++ b/cutlass/wmma_matrix.h
@@ -28,20 +28,23 @@
 #pragma once
 
 #if defined(__CUDACC__) && (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ >= 700)
-
-// Dependent header files should use the following macro to guard all code using
-// nvcuda::wmma:: to enable compilation for CUDA Compute Capabilities < sm_70.
-// Earlier shader models not support Tensor Cores.
 #define CUTLASS_USE_WMMA_API
 
+#if defined(__CUDACC__) && (__CUDACC_VER_MAJOR__ >= 10) && (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ >= 750)
+#define CUTLASS_USE_SUBBYTE_WMMA
+#endif
+
 #include "stdio.h"
 
+#if __CUDACC_VER_MAJOR__ >= 10
+#include <mma.h>
+#else
 #include <crt/mma.h>
-#include <cutlass/fragment.h>
-#include <cutlass/load_store.h>
-#include <cutlass/matrix_traits.h>
-#include <cutlass/shape.h>
-#include <cutlass/vector.h>
+#endif
+#include "cutlass/fragment.h"
+#include "cutlass/matrix_traits.h"
+#include "cutlass/shape.h"
+#include "cutlass/vector.h"
 
 namespace cutlass {
 
@@ -61,6 +64,34 @@ struct WmmaLayout<MatrixLayout::kRowMajor> {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+/// Statically maps cutlass types to nvcuda::wmma datatypes
+template <typename Type_>
+struct WmmaDataType{
+  typedef Type_ Type;
+};
+
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+/// Statically maps cutlass::Vector<bin1_t, 32> to nvcuda::wmma::experimental::precision::b1
+template<>
+struct WmmaDataType<Vector<bin1_t, 32> > {
+  typedef nvcuda::wmma::experimental::precision::b1 Type;
+};
+
+/// Statically maps cutlass::Vector<int4_t, 8> to nvcuda::wmma::experimental::precision::s4
+template<>
+struct WmmaDataType<Vector<int4_t, 8> > {
+  typedef nvcuda::wmma::experimental::precision::s4 Type;
+};
+
+/// Statically maps cutlass::Vector<uint4_t, 8> to nvcuda::wmma::experimental::precision::u4
+template<>
+struct WmmaDataType<Vector<uint4_t, 8> > {
+  typedef nvcuda::wmma::experimental::precision::u4 Type;
+};
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 /// Adapter to nvcuda::wmma fragment load and store operations
 template <GemmOperand::Kind kOperand_,
           MatrixLayout::Kind kLayout_,
@@ -81,7 +112,7 @@ struct WmmaMatrix<GemmOperand::kA, kLayout_, Scalar_, WmmaShape_>
           WmmaShape_::kH,
           WmmaShape_::kD,
           /// The scalar.
-          Scalar_,
+          typename WmmaDataType<Scalar_>::Type,
           /// The layout.
           typename WmmaLayout<kLayout_>::Layout> {
   /// This type.
@@ -117,7 +148,7 @@ struct WmmaMatrix<GemmOperand::kB, kLayout_, Scalar_, WmmaShape_>
           WmmaShape_::kH,
           WmmaShape_::kD,
           /// The scalar.
-          Scalar_,
+          typename WmmaDataType<Scalar_>::Type,
           /// The layout.
           typename WmmaLayout<kLayout_>::Layout> {
   /// This type.
@@ -188,6 +219,18 @@ struct WmmaMatrix<GemmOperand::kC, kLayout_, Scalar_, WmmaShape_>
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-}  // namespace cutlass
+// WmmaMatrix cannot be used in a Union and thus in cannot be used in our Vector implementation.
+// The only use of WmmaMatrix in in combination with Vectorize has kLanes == 1. Due to this it is
+// safe to keep the Vector->Scalar conversion for WmmaMatrix.
+template <GemmOperand::Kind kOperand_,
+          MatrixLayout::Kind kLayout_,
+          typename Scalar_,
+          typename WmmaShape_>
+struct Vectorize<WmmaMatrix<kOperand_, kLayout_, Scalar_, WmmaShape_>, 1> {
+  typedef WmmaMatrix<kOperand_, kLayout_, Scalar_, WmmaShape_> Type;
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+}
 
 #endif  // defined CUTLASS_USE_WMMA_API
diff --git a/cutlass/zip_fragment.h b/cutlass/zip_fragment.h
new file mode 100644
index 0000000000..37a788614a
--- /dev/null
+++ b/cutlass/zip_fragment.h
@@ -0,0 +1,150 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Models a pair of fragments
+*/
+#pragma once
+
+#include <assert.h>
+
+#include "cutlass/cutlass.h"
+#include "cutlass/shape.h"
+#include "cutlass/util/cutlass_math.h"
+#include "cutlass/vector.h"
+
+namespace cutlass {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/**
+* @brief A template defining \ref fragment_concept
+* @concept{fragment_concept}
+*/
+template <typename First_, typename Second_>
+struct ZipFragment {
+  /// First fragment object
+  typedef First_ First;
+
+  /// Second fragment object
+  typedef Second_ Second;
+
+  /// This class.
+  typedef ZipFragment<First, Second> This_;
+
+  //
+  // Data members
+  //
+
+  /// First fragment object
+  First first;
+
+  /// Second fragment object
+  Second second;
+
+  //
+  // Methods
+  //
+
+  /// Default ctor
+  CUTLASS_DEVICE
+  ZipFragment() { }
+
+  /// Copy ctor
+  CUTLASS_DEVICE
+  ZipFragment(First const &_first, Second const &_second): first(_first), second(_second) { }
+
+  /// Clear a fragment.
+  CUTLASS_DEVICE void clear() {
+    first.clear();
+    second.clear();
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to construct a ZipFragment object
+template <typename First, typename Second>
+CUTLASS_HOST_DEVICE
+ZipFragment<First, Second> make_ZipFragment(First const &first, Second const &second) {
+  return ZipFragment<First, Second>(first, second);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Zips two convert operations
+template <typename First_, typename Second_>
+struct ZipConvert {
+  /// First convert operator
+  typedef First_ First;
+
+  /// Second convert operator
+  typedef Second_ Second;
+
+  /// Defines the input zip fragment
+  typedef ZipFragment<typename First::InputFragment, typename Second::InputFragment> InputFragment;
+
+  /// Defines the output zip fragment
+  typedef ZipFragment<typename First::OutputFragment, typename Second::OutputFragment>
+      OutputFragment;
+
+  //
+  //
+  //
+
+  /// First transformer
+  First first;
+
+  /// Second transformer
+  Second second;
+
+  //
+  //
+  //
+
+  /// Ctor.
+  CUTLASS_DEVICE ZipConvert() {}
+
+  /// Ctor.
+  CUTLASS_DEVICE ZipConvert(First const &_first, Second const &_second): first(_first), second(_second) { }
+
+  /// Transform a fragment.
+  CUTLASS_DEVICE void transform(InputFragment const& src, OutputFragment& dst) {
+    first.transform(src.first, dst.first);
+    second.transform(src.second, dst.second);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to construct a ZipConvert object
+template <typename First, typename Second>
+CUTLASS_HOST_DEVICE
+ZipConvert<First, Second> make_ZipConvert(First const &first, Second const &second) {
+  return ZipConvert<First, Second>(first, second);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namespace cutlass
diff --git a/cutlass/zip_tensor_ref.h b/cutlass/zip_tensor_ref.h
new file mode 100644
index 0000000000..d2cff9e0c0
--- /dev/null
+++ b/cutlass/zip_tensor_ref.h
@@ -0,0 +1,77 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Defines a structure containing a pair of TensorRef-like objects
+*/
+#pragma once
+
+#include "cutlass/coord.h"
+#include "cutlass/tensor_ref.h"
+
+namespace cutlass {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename First_, typename Second_>
+struct ZipTensorRef {
+  /// First tensor ref
+  typedef First_ First;
+
+  /// Second tensor ref
+  typedef Second_ Second;
+
+  //
+  // Data members
+  //
+
+  /// First TensorRef
+  First first;
+
+  /// Second TensorRef
+  Second second;
+
+  //
+  // Methods
+  //
+
+  CUTLASS_HOST_DEVICE
+  ZipTensorRef() {}
+
+  CUTLASS_HOST_DEVICE
+  ZipTensorRef(First const& _first, Second const& _second) : first(_first), second(_second) {}
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Constructs a ZipTensorRef
+template <typename First, typename Second>
+CUTLASS_HOST_DEVICE
+ZipTensorRef<First, Second> make_ZipTensorRef(First const &first, Second const &second) {
+  return ZipTensorRef<First, Second>(first, second);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namespace cutlass
diff --git a/cutlass/zip_tile_iterator.h b/cutlass/zip_tile_iterator.h
new file mode 100644
index 0000000000..f8ba4eee3e
--- /dev/null
+++ b/cutlass/zip_tile_iterator.h
@@ -0,0 +1,287 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+/*! \file
+    \brief Constructs an iterator that owns two tile iterator instances
+*/
+
+#pragma once
+
+#include "cutlass/coord.h"
+#include "cutlass/zip_tensor_ref.h"
+#include "cutlass/zip_fragment.h"
+
+namespace cutlass {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Constructs an iterator from a pair of iterators
+template <typename First_, typename Second_>
+class ZipTileIterator {
+ public:
+  /// First iterator type
+  typedef First_ First;
+
+  /// Second iterator type
+  typedef Second_ Second;
+
+  /// Params object
+  struct Params {
+    /// Parameters of first iterator
+    typename First::Params first;
+
+    /// Parameters of second iterator
+    typename Second::Params second;
+
+    /// Constructs a parameters object
+    CUTLASS_HOST_DEVICE
+    Params() {}
+
+    /// Constructs a parameters object
+    CUTLASS_HOST_DEVICE
+    Params(typename First::Params const &_first, typename Second::Params const &_second)
+        : first(_first), second(_second) {}
+  };
+
+  /// Fragment type
+  typedef ZipFragment<typename First::Fragment, typename Second::Fragment> Fragment;
+
+  /// Predicate vector
+  typedef typename First::PredicateVector PredicateVector;
+
+  /// Index type
+  typedef typename First::Index Index;
+
+  /// Tensor reference
+  typedef ZipTensorRef<
+    typename First::TensorRef,
+    typename Second::TensorRef> TensorRef;
+
+  //
+  // Data members
+  //
+
+  /// First iterator
+  First first;
+
+  /// Second iterator
+  Second second;
+
+  //
+  // Methods
+  //
+
+  /// Default constructor
+  CUTLASS_DEVICE
+  ZipTileIterator() {}
+
+  /// Constructs a zip iterator from params
+  CUTLASS_DEVICE
+  ZipTileIterator(Params const &_params, Coord<3> const &threadblock_offset = make_Coord(0, 0, 0))
+      : first(_params.first, threadblock_offset), second(_params.second, threadblock_offset) {}
+
+  /// Constructs a zip iterator from iterator instances
+  CUTLASS_DEVICE
+  ZipTileIterator(First const &_first, Second const &_second) : first(_first), second(_second) {}
+
+  /// Constructs a zip iterator from iterator instances
+  CUTLASS_DEVICE
+  ZipTileIterator(TensorRef const &ref) : first(ref.first), second(ref.second) {}
+
+  /// Constructs a zip iterator from iterator instances
+  CUTLASS_DEVICE
+  ZipTileIterator(Params const &_params, TensorRef const &ref):
+    first(_params.first, ref.first), second(_params.second, ref.second) {}
+
+  //
+  // Predicate initialization
+  //
+
+  /// Initializes a predicate vector using a RegularTilePredicateFunctor
+  template <
+      /// Predicate iterator
+      typename PredicateIterator>
+  CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it,
+                                                 Coord<3> const &bounds,
+                                                 Coord<3> const &block_offset = make_Coord(0,
+                                                                                           0,
+                                                                                           0)) {
+    first.initialize_predicates(predicate_it, bounds, block_offset);
+  }
+
+  /// Initializes a predicate vector using an arbitrary predicate functor
+  template <
+      /// Predicate iterator
+      typename PredicateIterator,
+      /// Functor computing predicates
+      typename PredicateFunctor>
+  CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it,
+                                                 PredicateFunctor const &functor,
+                                                 Coord<3> const &block_offset) {
+    first.initialize_predicates(predicate_it, functor, block_offset);
+  }
+
+  //
+  // No predicates
+  //
+
+  /// Loads a fragment and increments without predicates
+  template <typename Fragment>
+  CUTLASS_DEVICE void load_post_increment(Fragment &fragment) {
+    first.load_post_increment(fragment.first);
+    second.load_post_increment(fragment.second);
+  }
+
+  /// Loads a fragment and increments without predicates
+  template <typename Fragment>
+  CUTLASS_DEVICE void load_post_increment(Fragment &fragment,
+                            Coord<4> const &offset) {
+    first.load_post_increment(fragment.first, offset);
+    second.load_post_increment(fragment.second, offset);
+  }
+
+  /// Loads a fragment without predicates
+  template <typename Fragment>
+  CUTLASS_DEVICE void load(Fragment &fragment) const {
+    first.load(fragment.first);
+    second.load(fragment.second);
+  }
+
+  /// Loads a fragment without predicates
+  template <typename Fragment>
+  CUTLASS_DEVICE void load(Fragment &fragment,
+                            Coord<4> const &offset) const {
+    first.load(fragment.first, offset);
+    second.load(fragment.second, offset);
+  }
+
+  /// Stores a fragment and increments without predicates
+  template <typename Fragment>
+  CUTLASS_DEVICE void store_post_increment(Fragment const &fragment) {
+    first.store_post_increment(fragment.first);
+    second.store_post_increment(fragment.second);
+  }
+
+  /// Stores a fragment and increments without predicates
+  template <typename Fragment>
+  CUTLASS_DEVICE void store_post_increment(Fragment const &fragment,
+                            Coord<4> const &offset) {
+    first.store_post_increment(fragment.first, offset);
+    second.store_post_increment(fragment.second, offset);
+  }
+
+  /// Stores a fragment without predicates
+  template <typename Fragment>
+  CUTLASS_DEVICE void store(Fragment const &fragment) const {
+    first.store(fragment.first);
+    second.store(fragment.second);
+  }
+
+  /// Stores a fragment without predicates
+  template <typename Fragment>
+  CUTLASS_DEVICE void store(Fragment const &fragment,
+                            Coord<4> const &offset) const {
+    first.store(fragment.first, offset);
+    second.store(fragment.second, offset);
+  }
+
+  //
+  // With predication
+  //
+
+  /// Loads a fragment and increments, using predicates
+  template <typename Fragment, typename PredicateIterator>
+  CUTLASS_DEVICE void load_post_increment(Fragment &fragment, PredicateIterator pred_it) {
+    first.load_post_increment(fragment.first, pred_it);
+    second.load_post_increment(fragment.second, pred_it);
+  }
+
+  /// Loads a fragment with predicates
+  template <typename Fragment, typename PredicateIterator>
+  CUTLASS_DEVICE void load(Fragment &fragment, PredicateIterator pred_it) const {
+    first.load(fragment.first, pred_it);
+    second.load(fragment.second, pred_it);
+  }
+
+  /// Loads a fragment and increments, using predicates
+  template <typename Fragment, typename PredicateIterator>
+  CUTLASS_DEVICE void store_post_increment(Fragment const &fragment, PredicateIterator pred_it) {
+    first.store_post_increment(fragment.first, pred_it);
+    second.store_post_increment(fragment.second, pred_it);
+  }
+
+  /// Loads a fragment with predicates
+  template <typename Fragment, typename PredicateIterator>
+  CUTLASS_DEVICE void store(Fragment const &fragment, PredicateIterator pred_it) const {
+    first.store(fragment.first, pred_it);
+    second.store(fragment.second, pred_it);
+  }
+
+  //
+  // Advances the iterators
+  //
+
+  /// Increments store iterator to next tile
+  CUTLASS_DEVICE ZipTileIterator &increment(int count = 1) {
+    first.increment(count);
+    second.increment(count);
+    return *this;
+  }
+
+  /// Increments to next tile
+  CUTLASS_DEVICE ZipTileIterator &operator++() { return increment(); }
+
+  CUTLASS_DEVICE ZipTileIterator &operator+=(int count) { return increment(count); }
+
+  /// Adds a vector offset to the underlying iterators
+  CUTLASS_DEVICE ZipTileIterator &operator+=(Coord<3> const &offset) {
+    first += offset;
+    second += offset;
+    return *this;
+  }
+
+  /// Increments store iterator to previous tile
+  CUTLASS_DEVICE ZipTileIterator &decrement(int count = 1) {
+    first.decrement(count);
+    second.decrement(count);
+    return *this;
+  }
+
+  /// Increments to subsequent tile
+  CUTLASS_DEVICE ZipTileIterator &operator--() { return decrement(); }
+
+  /// Decrements to previous tile
+  CUTLASS_DEVICE ZipTileIterator &operator-=(int count) { return decrement(count); }
+
+  /// Adds an offset to both iterators
+  CUTLASS_DEVICE void add_pointer_offset(Index offset) {
+    first.add_pointer_offset(offset);
+    second.add_pointer_offset(offset);
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namspace cutlass
diff --git a/docs/annotated.html b/docs/annotated.html
index e6c405d597..da54a8ee0a 100644
--- a/docs/annotated.html
+++ b/docs/annotated.html
@@ -74,303 +74,368 @@
 <div class="contents">
 <div class="textblock">Here are the classes, structs, unions and interfaces with brief descriptions:</div><div class="directory">
 <div class="levels">[detail level <span onclick="javascript:toggleLevel(1);">1</span><span onclick="javascript:toggleLevel(2);">2</span><span onclick="javascript:toggleLevel(3);">3</span><span onclick="javascript:toggleLevel(4);">4</span>]</div><table class="directory">
-<tr id="row_0_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_0_" class="arrow" onclick="toggleFolder('0_')">&#9660;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass.html" target="_self">cutlass</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_0_" class="arrow" onclick="toggleFolder('0_0_')">&#9654;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1gemm.html" target="_self">gemm</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_0_" class="arrow" onclick="toggleFolder('0_0_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html" target="_self">ClearAccumulators</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html" target="_self">SharedStorage</a></td><td class="desc">The shared storage </td></tr>
-<tr id="row_0_0_1_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html" target="_self">DgemmConfig</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_2_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html" target="_self">DgemmTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_3_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html" target="_self">FragmentMultiplyAdd</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_4_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html" target="_self">FragmentMultiplyAdd&lt; half &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_5_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_5_" class="arrow" onclick="toggleFolder('0_0_5_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html" target="_self">Gemm</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_5_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_0_0_6_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">GemmConfig</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_7_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html" target="_self">GemmDesc</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_8_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html" target="_self">GemmEpilogue</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_9_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_9_" class="arrow" onclick="toggleFolder('0_0_9_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" target="_self">GemmEpilogueTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_9_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_0_0_9_1_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html" target="_self">SharedStorage</a></td><td class="desc">The shared memory to swizzle the data in the epilogue </td></tr>
-<tr id="row_0_0_9_2_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html" target="_self">StreamSharedStorage</a></td><td class="desc">The shared memory storage to exchange data </td></tr>
-<tr id="row_0_0_10_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html" target="_self">GemmEpilogueTraitsHelper</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_11_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_11_" class="arrow" onclick="toggleFolder('0_0_11_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html" target="_self">GemmGlobalIteratorAb</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_11_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html" target="_self">Params</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_12_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_12_" class="arrow" onclick="toggleFolder('0_0_12_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html" target="_self">GemmGlobalIteratorCd</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_12_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_0_0_13_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_13_" class="arrow" onclick="toggleFolder('0_0_13_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html" target="_self">GemmGlobalTileCdTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_13_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_0_0_14_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_14_" class="arrow" onclick="toggleFolder('0_0_14_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html" target="_self">GemmGlobalTileTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_14_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_0_0_15_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html" target="_self">GemmMultiplicandTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_16_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html" target="_self">GemmOperandTraitsAb</a></td><td class="desc">Helper to describe attributes of GEMM matrix operands </td></tr>
-<tr id="row_0_0_17_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_17_" class="arrow" onclick="toggleFolder('0_0_17_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html" target="_self">GemmSharedLoadTileATraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_17_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_0_0_18_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_18_" class="arrow" onclick="toggleFolder('0_0_18_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html" target="_self">GemmSharedLoadTileBTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_18_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_0_0_19_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_19_" class="arrow" onclick="toggleFolder('0_0_19_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html" target="_self">GemmSharedLoadTileDTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_19_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_0_0_20_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_20_" class="arrow" onclick="toggleFolder('0_0_20_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html" target="_self">GemmSharedStoreTileAbTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_20_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_21_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_21_" class="arrow" onclick="toggleFolder('0_0_21_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html" target="_self">GemmSharedStoreTileDTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_21_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_0_0_22_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_22_" class="arrow" onclick="toggleFolder('0_0_22_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html" target="_self">GemmSharedStoreWithSkewTileAbTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_22_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_23_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html" target="_self">GemmTileTraitsHelperA</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_24_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_25_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_26_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html" target="_self">GemmTileTraitsHelperB</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_27_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_28_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_29_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_29_" class="arrow" onclick="toggleFolder('0_0_29_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html" target="_self">GemmTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_29_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html" target="_self">GlobalLoadStream</a></td><td class="desc">Assemble the global load streams for A/B </td></tr>
-<tr id="row_0_0_29_1_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html" target="_self">MainLoopSharedStorage</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_29_2_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_0_0_29_3_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html" target="_self">SharedLoadStream</a></td><td class="desc">Assemble the shared load stream for A/B </td></tr>
-<tr id="row_0_0_29_4_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html" target="_self">SharedStorage</a></td><td class="desc">The storage in shared memory </td></tr>
-<tr id="row_0_0_29_5_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html" target="_self">StreamSharedStorage</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_30_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent.html" target="_self">GetExtent</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_31_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html" target="_self">GetExtent&lt; GemmOperand::kA, Tile_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_32_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html" target="_self">GetExtent&lt; GemmOperand::kB, Tile_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_33_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html" target="_self">GlobalLoadStream</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_34_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_34_" class="arrow" onclick="toggleFolder('0_0_34_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html" target="_self">GlobalLoadStreamBase</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_34_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_0_0_34_1_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html" target="_self">SharedStorage</a></td><td class="desc">The storage in shared memory needed by that stream </td></tr>
-<tr id="row_0_0_35_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html" target="_self">HgemmConfig</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_36_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_36_" class="arrow" onclick="toggleFolder('0_0_36_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html" target="_self">HgemmCrosswiseGlobalTileTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_36_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_0_0_37_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html" target="_self">HgemmSwizzle</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_38_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html" target="_self">HgemmTileTraitsHelperA</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_39_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_40_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html" target="_self">HgemmTileTraitsHelperB</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_41_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_42_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraits.html" target="_self">HgemmTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_43_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html" target="_self">HgemmTraitsHelper</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_44_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html" target="_self">HgemmTransformerA</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_45_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_46_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_47_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html" target="_self">HgemmTransformerB</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_48_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_49_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_50_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html" target="_self">IdentityBlockSwizzle</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_51_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html" target="_self">IgemmConfig</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_52_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01AccumulatorsPerThread___01_4.html" target="_self">IgemmConfig&lt; OutputTile_, int8_t, AccumulatorsPerThread_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_53_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_53_" class="arrow" onclick="toggleFolder('0_0_53_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html" target="_self">IgemmContiguousGlobalTileTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_53_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_0_0_54_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html" target="_self">IgemmEpilogue</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_55_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html" target="_self">IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_56_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html" target="_self">IgemmEpilogueScalar</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_57_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html" target="_self">IgemmEpilogueScalar&lt; int &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_58_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html" target="_self">IgemmEpilogueTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_59_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html" target="_self">IgemmEpilogueTraitsHelper</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_60_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html" target="_self">IgemmFloatToInt8Converter</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_61_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html" target="_self">IgemmGlobalLoadTransformer</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_62_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html" target="_self">IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_63_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html" target="_self">IgemmGlobalStoreTransformer</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_64_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html" target="_self">IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_65_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html" target="_self">IgemmInt8ToFloatConverter</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_66_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html" target="_self">IgemmSharedStoreTransformer</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_67_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html" target="_self">IgemmSwizzle</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_68_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html" target="_self">IgemmTileTraitsHelperA</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_69_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_70_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html" target="_self">IgemmTileTraitsHelperB</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_71_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_72_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html" target="_self">IgemmTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_73_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html" target="_self">IgemmTraitsHelper</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_74_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html" target="_self">IgemmTransformerA</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_75_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_76_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_77_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html" target="_self">IgemmTransformerB</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_78_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_79_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_80_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_80_" class="arrow" onclick="toggleFolder('0_0_80_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html" target="_self">LinearScaling</a></td><td class="desc">Functor to compute linear combination of fragments </td></tr>
-<tr id="row_0_0_80_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html" target="_self">Params</a></td><td class="desc">The parameters </td></tr>
-<tr id="row_0_0_81_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand.html" target="_self">ProjectOperand</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_82_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html" target="_self">ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;</a></td><td class="desc">Project A operand - (0, K, M) </td></tr>
-<tr id="row_0_0_83_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html" target="_self">ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;</a></td><td class="desc">Project B operand - (0, K, N) </td></tr>
-<tr id="row_0_0_84_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html" target="_self">ProjectOperand&lt; GemmOperand::kC, true &gt;</a></td><td class="desc">Project C operand - (0, N, M) </td></tr>
-<tr id="row_0_0_85_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html" target="_self">ProjectOperand&lt; GemmOperand::kD, true &gt;</a></td><td class="desc">Project D operand - (0, N, M) </td></tr>
-<tr id="row_0_0_86_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html" target="_self">ReshapeThreads</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_87_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html" target="_self">ReshapeThreads&lt; Tile_, Threads_, true &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_88_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html" target="_self">SgemmConfig</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_89_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html" target="_self">SgemmTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_90_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_90_" class="arrow" onclick="toggleFolder('0_0_90_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html" target="_self">SharedLoadStream</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_90_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_0_0_91_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html" target="_self">SimplifiedGemmEpilogueTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_92_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html" target="_self">SimplifiedGemmTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_93_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html" target="_self">SimplifiedGemmTraitsHelper</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_94_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html" target="_self">ThreadMultiplyAdd</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
-<tr id="row_0_0_95_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html" target="_self">ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
-<tr id="row_0_0_96_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html" target="_self">ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
-<tr id="row_0_0_97_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_97_" class="arrow" onclick="toggleFolder('0_0_97_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html" target="_self">WmmaGemmGlobalIteratorCd</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_97_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_0_0_98_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_0_98_" class="arrow" onclick="toggleFolder('0_0_98_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html" target="_self">WmmaGemmGlobalIteratorCdTraits</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_98_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_0_1_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_1_" class="arrow" onclick="toggleFolder('0_1_')">&#9654;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1platform.html" target="_self">platform</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1aligned__chunk.html" target="_self">aligned_chunk</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1aligned__storage.html" target="_self">aligned_storage</a></td><td class="desc">Std::aligned_storage </td></tr>
-<tr id="row_0_1_2_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_2_" class="arrow" onclick="toggleFolder('0_1_2_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of.html" target="_self">alignment_of</a></td><td class="desc">Std::alignment_of </td></tr>
-<tr id="row_0_1_2_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html" target="_self">pad</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_3_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4.html" target="_self">alignment_of&lt; const value_t &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_4_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4.html" target="_self">alignment_of&lt; const volatile value_t &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_5_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html" target="_self">alignment_of&lt; double2 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_6_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html" target="_self">alignment_of&lt; double4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_7_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html" target="_self">alignment_of&lt; float4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_8_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html" target="_self">alignment_of&lt; int4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_9_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html" target="_self">alignment_of&lt; long4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_10_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html" target="_self">alignment_of&lt; longlong2 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_11_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html" target="_self">alignment_of&lt; longlong4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_12_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html" target="_self">alignment_of&lt; uint4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_13_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html" target="_self">alignment_of&lt; ulong4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_14_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html" target="_self">alignment_of&lt; ulonglong2 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_15_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html" target="_self">alignment_of&lt; ulonglong4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_16_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html" target="_self">alignment_of&lt; volatile value_t &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_17_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1bool__constant.html" target="_self">bool_constant</a></td><td class="desc">Std::bool_constant </td></tr>
-<tr id="row_0_1_18_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1conditional.html" target="_self">conditional</a></td><td class="desc">Std::conditional (true specialization) </td></tr>
-<tr id="row_0_1_19_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html" target="_self">conditional&lt; false, T, F &gt;</a></td><td class="desc">Std::conditional (false specialization) </td></tr>
-<tr id="row_0_1_20_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1default__delete.html" target="_self">default_delete</a></td><td class="desc">Default deleter </td></tr>
-<tr id="row_0_1_21_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html" target="_self">default_delete&lt; T[]&gt;</a></td><td class="desc">Partial specialization for deleting array types </td></tr>
-<tr id="row_0_1_22_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1enable__if.html" target="_self">enable_if</a></td><td class="desc">Std::enable_if (true specialization) </td></tr>
-<tr id="row_0_1_23_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html" target="_self">enable_if&lt; false, T &gt;</a></td><td class="desc">Std::enable_if (false specialization) </td></tr>
-<tr id="row_0_1_24_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1greater.html" target="_self">greater</a></td><td class="desc">Std::greater </td></tr>
-<tr id="row_0_1_25_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">integral_constant</a></td><td class="desc">Std::integral_constant </td></tr>
-<tr id="row_0_1_26_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__arithmetic.html" target="_self">is_arithmetic</a></td><td class="desc">Std::is_arithmetic </td></tr>
-<tr id="row_0_1_27_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of.html" target="_self">is_base_of</a></td><td class="desc">Std::is_base_of </td></tr>
-<tr id="row_0_1_28_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_28_" class="arrow" onclick="toggleFolder('0_1_28_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html" target="_self">is_base_of_helper</a></td><td class="desc">Helper for std::is_base_of </td></tr>
-<tr id="row_0_1_28_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html" target="_self">dummy</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_29_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__floating__point.html" target="_self">is_floating_point</a></td><td class="desc">Std::is_floating_point </td></tr>
-<tr id="row_0_1_30_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__fundamental.html" target="_self">is_fundamental</a></td><td class="desc">Std::is_fundamental </td></tr>
-<tr id="row_0_1_31_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral.html" target="_self">is_integral</a></td><td class="desc">Std::is_integral </td></tr>
-<tr id="row_0_1_32_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html" target="_self">is_integral&lt; char &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_33_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html" target="_self">is_integral&lt; const T &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_34_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html" target="_self">is_integral&lt; const volatile T &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_35_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html" target="_self">is_integral&lt; int &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_36_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html" target="_self">is_integral&lt; long &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_37_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html" target="_self">is_integral&lt; long long &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_38_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html" target="_self">is_integral&lt; short &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_39_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html" target="_self">is_integral&lt; signed char &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_40_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html" target="_self">is_integral&lt; unsigned char &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_41_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html" target="_self">is_integral&lt; unsigned int &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_42_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html" target="_self">is_integral&lt; unsigned long &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_43_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html" target="_self">is_integral&lt; unsigned long long &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_44_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html" target="_self">is_integral&lt; unsigned short &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_45_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html" target="_self">is_integral&lt; volatile T &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_46_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer.html" target="_self">is_pointer</a></td><td class="desc">Std::is_pointer </td></tr>
-<tr id="row_0_1_47_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper.html" target="_self">is_pointer_helper</a></td><td class="desc">Helper for std::is_pointer (false specialization) </td></tr>
-<tr id="row_0_1_48_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html" target="_self">is_pointer_helper&lt; T * &gt;</a></td><td class="desc">Helper for std::is_pointer (true specialization) </td></tr>
-<tr id="row_0_1_49_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__same.html" target="_self">is_same</a></td><td class="desc">Std::is_same (false specialization) </td></tr>
-<tr id="row_0_1_50_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html" target="_self">is_same&lt; A, A &gt;</a></td><td class="desc">Std::is_same (true specialization) </td></tr>
-<tr id="row_0_1_51_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__trivially__copyable.html" target="_self">is_trivially_copyable</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_52_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__void.html" target="_self">is_void</a></td><td class="desc">Std::is_void </td></tr>
-<tr id="row_0_1_53_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__volatile.html" target="_self">is_volatile</a></td><td class="desc">Std::is_volatile </td></tr>
-<tr id="row_0_1_54_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html" target="_self">is_volatile&lt; volatile T &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_55_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1less.html" target="_self">less</a></td><td class="desc">Std::less </td></tr>
-<tr id="row_0_1_56_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1nullptr__t.html" target="_self">nullptr_t</a></td><td class="desc">Std::nullptr_t </td></tr>
-<tr id="row_0_1_57_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1plus.html" target="_self">plus</a></td><td class="desc">Platform::plus </td></tr>
-<tr id="row_0_1_58_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__const.html" target="_self">remove_const</a></td><td class="desc">Std::remove_const (non-const specialization) </td></tr>
-<tr id="row_0_1_59_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html" target="_self">remove_const&lt; const T &gt;</a></td><td class="desc">Std::remove_const (const specialization) </td></tr>
-<tr id="row_0_1_60_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__cv.html" target="_self">remove_cv</a></td><td class="desc">Std::remove_cv </td></tr>
-<tr id="row_0_1_61_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__volatile.html" target="_self">remove_volatile</a></td><td class="desc">Std::remove_volatile (non-volatile specialization) </td></tr>
-<tr id="row_0_1_62_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html" target="_self">remove_volatile&lt; volatile T &gt;</a></td><td class="desc">Std::remove_volatile (volatile specialization) </td></tr>
-<tr id="row_0_1_63_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html" target="_self">unique_ptr</a></td><td class="desc">Std::unique_ptr </td></tr>
-<tr id="row_0_2_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1AlignedStruct.html" target="_self">AlignedStruct</a></td><td class="desc"></td></tr>
-<tr id="row_0_3_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html" target="_self">ComputeOffsetFromShape</a></td><td class="desc">Compute the offset for the given coordinates in a cube </td></tr>
-<tr id="row_0_4_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html" target="_self">ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube with one channel and a depth of 1 </td></tr>
-<tr id="row_0_5_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html" target="_self">ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube with a depth of 1 </td></tr>
-<tr id="row_0_6_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html" target="_self">ComputeOffsetFromStrides</a></td><td class="desc">Compute the offset for the given coordinates in a cube </td></tr>
-<tr id="row_0_7_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html" target="_self">ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube with one channel and a depth of 1 </td></tr>
-<tr id="row_0_8_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html" target="_self">ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube with a depth of 1 </td></tr>
-<tr id="row_0_9_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html" target="_self">ComputeThreadOffsetFromStrides</a></td><td class="desc">Decompose threadId.x into coordinate of a cube whose dimensions are specified by Threads_. Afterwards compute the offset of those coordinates using Strides_ </td></tr>
-<tr id="row_0_10_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html" target="_self">ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a></td><td class="desc">Specialization for D=1 and C=1 </td></tr>
-<tr id="row_0_11_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html" target="_self">ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a></td><td class="desc">Specialization for D=1 </td></tr>
-<tr id="row_0_12_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html" target="_self">ConstPredicateTileAdapter</a></td><td class="desc">Adapter to enable random access to predicates via logical coordinate within a tile </td></tr>
-<tr id="row_0_13_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Convert.html" target="_self">Convert</a></td><td class="desc"></td></tr>
-<tr id="row_0_14_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html" target="_self">Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_15_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">Coord</a></td><td class="desc">Statically-sized array specifying Coords within a tensor </td></tr>
-<tr id="row_0_16_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Copy.html" target="_self">Copy</a></td><td class="desc"></td></tr>
-<tr id="row_0_17_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1divide__assert.html" target="_self">divide_assert</a></td><td class="desc"></td></tr>
-<tr id="row_0_18_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent.html" target="_self">Extent</a></td><td class="desc">Returns the extent of a scalar or vector </td></tr>
-<tr id="row_0_19_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html" target="_self">Extent&lt; Vector&lt; T, Lanes &gt; &gt;</a></td><td class="desc">Returns the number of lanes of a vector if need be </td></tr>
-<tr id="row_0_20_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html" target="_self">Extent&lt; Vector&lt; T, Lanes &gt; const &gt;</a></td><td class="desc">Returns the number of lanes of a vector if need be </td></tr>
-<tr id="row_0_21_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Fragment.html" target="_self">Fragment</a></td><td class="desc">A template defining <a class="el" href="group__fragment__concept.html">Fragment Concept</a> </td></tr>
-<tr id="row_0_22_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentConstIterator.html" target="_self">FragmentConstIterator</a></td><td class="desc"></td></tr>
-<tr id="row_0_23_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentIterator.html" target="_self">FragmentIterator</a></td><td class="desc">A template defining <a class="el" href="group__fragment__iterator__concept.html">Fragment Iterator Concept</a> </td></tr>
-<tr id="row_0_24_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentLoad.html" target="_self">FragmentLoad</a></td><td class="desc"></td></tr>
-<tr id="row_0_25_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html" target="_self">FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_26_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html" target="_self">FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_27_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentStore.html" target="_self">FragmentStore</a></td><td class="desc"></td></tr>
-<tr id="row_0_28_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html" target="_self">FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_29_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html" target="_self">FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_30_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1GemmOperand.html" target="_self">GemmOperand</a></td><td class="desc">Gemm operand - D = A * B + C </td></tr>
-<tr id="row_0_31_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Identity.html" target="_self">Identity</a></td><td class="desc">Describes identity elements </td></tr>
-<tr id="row_0_32_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1is__pow2.html" target="_self">is_pow2</a></td><td class="desc"></td></tr>
-<tr id="row_0_33_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1IteratorAdvance.html" target="_self">IteratorAdvance</a></td><td class="desc">Specifies dimension in which post-increment accesses advance </td></tr>
-<tr id="row_0_34_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1IteratorFragment.html" target="_self">IteratorFragment</a></td><td class="desc">Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix </td></tr>
-<tr id="row_0_35_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load.html" target="_self">Load</a></td><td class="desc"></td></tr>
-<tr id="row_0_36_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html" target="_self">Load&lt; double, 2, Memory_, true, 16 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_37_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html" target="_self">Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_38_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html" target="_self">Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_39_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html" target="_self">Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_40_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__down.html" target="_self">log2_down</a></td><td class="desc"></td></tr>
-<tr id="row_0_41_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html" target="_self">log2_down&lt; N, 1, Count &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_42_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__up.html" target="_self">log2_up</a></td><td class="desc"></td></tr>
-<tr id="row_0_43_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html" target="_self">log2_up&lt; N, 1, Count &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_44_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout.html" target="_self">MatrixLayout</a></td><td class="desc">Describes layouts of matrices </td></tr>
-<tr id="row_0_45_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MemorySpace.html" target="_self">MemorySpace</a></td><td class="desc">Enum to specify which memory space data resides in </td></tr>
-<tr id="row_0_46_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateTileAdapter.html" target="_self">PredicateTileAdapter</a></td><td class="desc">Adapter to enable random access to predicates via logical coordinate within a tile </td></tr>
-<tr id="row_0_47_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_47_" class="arrow" onclick="toggleFolder('0_47_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector.html" target="_self">PredicateVector</a></td><td class="desc">Statically sized array of bits implementing </td></tr>
-<tr id="row_0_47_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html" target="_self">ConstIterator</a></td><td class="desc">A const iterator implementing <a class="el" href="group__predicate__iterator__concept.html">Predicate Iterator Concept</a> enabling sequential read-only access to prediactes </td></tr>
-<tr id="row_0_47_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html" target="_self">Iterator</a></td><td class="desc">An iterator implementing <a class="el" href="group__predicate__iterator__concept.html">Predicate Iterator Concept</a> enabling sequential read and write access to predicates </td></tr>
-<tr id="row_0_47_2_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html" target="_self">TrivialIterator</a></td><td class="desc"><a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html" title="An iterator implementing Predicate Iterator Concept enabling sequential read and write access to pred...">Iterator</a> that always returns true </td></tr>
-<tr id="row_0_48_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ReshapeTile.html" target="_self">ReshapeTile</a></td><td class="desc"></td></tr>
-<tr id="row_0_49_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html" target="_self">ReshapeTile&lt; Tile_, kAccessSize_, true &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_50_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Shape.html" target="_self">Shape</a></td><td class="desc">A <a class="el" href="structcutlass_1_1Shape.html" title="A Shape implementing Layout Concept describing the dimensions of a cube. ">Shape</a> implementing <a class="el" href="group__layout__concept.html">Layout Concept</a> describing the dimensions of a cube </td></tr>
-<tr id="row_0_51_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeAdd.html" target="_self">ShapeAdd</a></td><td class="desc"></td></tr>
-<tr id="row_0_52_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeCount.html" target="_self">ShapeCount</a></td><td class="desc">Compute derived counted of a <a class="el" href="group__layout__concept.html">Layout Concept</a> based class </td></tr>
-<tr id="row_0_53_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeDiv.html" target="_self">ShapeDiv</a></td><td class="desc"></td></tr>
-<tr id="row_0_54_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMax.html" target="_self">ShapeMax</a></td><td class="desc"></td></tr>
-<tr id="row_0_55_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMin.html" target="_self">ShapeMin</a></td><td class="desc"></td></tr>
-<tr id="row_0_56_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMul.html" target="_self">ShapeMul</a></td><td class="desc"></td></tr>
-<tr id="row_0_57_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeScale.html" target="_self">ShapeScale</a></td><td class="desc"></td></tr>
-<tr id="row_0_58_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeStrides.html" target="_self">ShapeStrides</a></td><td class="desc"></td></tr>
-<tr id="row_0_59_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeSub.html" target="_self">ShapeSub</a></td><td class="desc"></td></tr>
-<tr id="row_0_60_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1sqrt__est.html" target="_self">sqrt_est</a></td><td class="desc"></td></tr>
-<tr id="row_0_61_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType.html" target="_self">StorageType</a></td><td class="desc"></td></tr>
-<tr id="row_0_62_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_011_01_4.html" target="_self">StorageType&lt; 1 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_63_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_012_01_4.html" target="_self">StorageType&lt; 2 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_64_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_014_01_4.html" target="_self">StorageType&lt; 4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_65_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store.html" target="_self">Store</a></td><td class="desc"></td></tr>
-<tr id="row_0_66_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html" target="_self">Store&lt; double, 2, Memory_, true, 16 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_67_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html" target="_self">Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_68_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html" target="_self">Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_69_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html" target="_self">Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_70_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef.html" target="_self">TensorRef</a></td><td class="desc">Structure modeling a pointer and stride into a tensor </td></tr>
-<tr id="row_0_71_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorView.html" target="_self">TensorView</a></td><td class="desc">Host-side reference implementation of tensor operations </td></tr>
-<tr id="row_0_72_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TiledThreadOffset.html" target="_self">TiledThreadOffset</a></td><td class="desc">Basic thread offset function computed from a thread shape </td></tr>
-<tr id="row_0_73_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_73_" class="arrow" onclick="toggleFolder('0_73_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase.html" target="_self">TileIteratorBase</a></td><td class="desc">Iterator for accessing a stripmined tile in memory </td></tr>
-<tr id="row_0_73_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters to the iterator </td></tr>
-<tr id="row_0_74_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_74_" class="arrow" onclick="toggleFolder('0_74_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadIterator.html" target="_self">TileLoadIterator</a></td><td class="desc">An iterator implementing <a class="el" href="group__tile__load__iterator__concept.html">Tile Load Iterator Concept</a> for loading a tile from memory </td></tr>
-<tr id="row_0_74_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters </td></tr>
-<tr id="row_0_75_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_75_" class="arrow" onclick="toggleFolder('0_75_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreIterator.html" target="_self">TileStoreIterator</a></td><td class="desc">An iterator implementing <a class="el" href="group__tile__store__iterator__concept.html">Tile Store Iterator Concept</a> for storing a tile to memory </td></tr>
-<tr id="row_0_75_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters </td></tr>
-<tr id="row_0_76_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraits.html" target="_self">TileTraits</a></td><td class="desc">A template defining <a class="el" href="group__tile__traits__concept.html">Tile Traits Concept</a> </td></tr>
-<tr id="row_0_77_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html" target="_self">TileTraitsContiguousMajor</a></td><td class="desc"></td></tr>
-<tr id="row_0_78_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsStandard.html" target="_self">TileTraitsStandard</a></td><td class="desc">Chooses 'best' shape to enable warp raking along contiguous dimension if possible </td></tr>
-<tr id="row_0_79_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html" target="_self">TileTraitsStrideMajor</a></td><td class="desc"></td></tr>
-<tr id="row_0_80_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_80_" class="arrow" onclick="toggleFolder('0_80_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsWarpRake.html" target="_self">TileTraitsWarpRake</a></td><td class="desc">Tiling in which warps rake across the contiguous dimension </td></tr>
-<tr id="row_0_80_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_0_81_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TrivialPredicateTileAdapter.html" target="_self">TrivialPredicateTileAdapter</a></td><td class="desc">Always returns true predicate </td></tr>
-<tr id="row_0_82_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector.html" target="_self">Vector</a></td><td class="desc"></td></tr>
-<tr id="row_0_83_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html" target="_self">Vector&lt; half, kLanes_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_84_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize.html" target="_self">Vectorize</a></td><td class="desc"></td></tr>
-<tr id="row_0_85_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html" target="_self">Vectorize&lt; Element_, 1 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_0_86_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits.html" target="_self">VectorTraits</a></td><td class="desc">Traits describing properties of vectors and scalar-as-vectors </td></tr>
-<tr id="row_0_87_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html" target="_self">VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a></td><td class="desc">Partial specialization for actual <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a> </td></tr>
-<tr id="row_0_88_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html" target="_self">VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a></td><td class="desc">Partial specialization for actual <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a> </td></tr>
+<tr id="row_0_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_0_" class="arrow" onclick="toggleFolder('0_')">&#9654;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass.html" target="_self">cutlass</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_0_" class="arrow" onclick="toggleFolder('0_0_')">&#9654;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1detail.html" target="_self">detail</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html" target="_self">ScalarOrPointer</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_1_" class="arrow" onclick="toggleFolder('0_1_')">&#9654;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1gemm.html" target="_self">gemm</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_0_" class="arrow" onclick="toggleFolder('0_1_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html" target="_self">ClearAccumulators</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_0_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html" target="_self">SharedStorage</a></td><td class="desc">The shared storage </td></tr>
+<tr id="row_0_1_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html" target="_self">ColumnMajorBlockSwizzle</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_2_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html" target="_self">DgemmConfig</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_3_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html" target="_self">DgemmTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_4_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html" target="_self">Fp16SgemmConfig</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_5_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html" target="_self">Fp16SgemmSgemmTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_6_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html" target="_self">FragmentMultiplyAdd</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_7_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html" target="_self">FragmentMultiplyAdd&lt; half, half, true &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_8_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html" target="_self">Gemm</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_9_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">GemmConfig</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_10_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html" target="_self">GemmCoord</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_11_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html" target="_self">GemmDesc</a></td><td class="desc">GEMM problem description </td></tr>
+<tr id="row_0_1_12_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html" target="_self">GemmEpilogue</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_13_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_13_" class="arrow" onclick="toggleFolder('0_1_13_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" target="_self">GemmEpilogueTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_13_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
+<tr id="row_0_1_13_1_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html" target="_self">SharedStorage</a></td><td class="desc">The shared memory to swizzle the data in the epilogue </td></tr>
+<tr id="row_0_1_13_2_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html" target="_self">StreamSharedStorage</a></td><td class="desc">The shared memory storage to exchange data </td></tr>
+<tr id="row_0_1_14_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html" target="_self">GemmEpilogueTraitsHelper</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_15_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_15_" class="arrow" onclick="toggleFolder('0_1_15_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html" target="_self">GemmGlobalIteratorAb</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_15_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html" target="_self">Params</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_16_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_16_" class="arrow" onclick="toggleFolder('0_1_16_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html" target="_self">GemmGlobalIteratorCd</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_16_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
+<tr id="row_0_1_17_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_17_" class="arrow" onclick="toggleFolder('0_1_17_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html" target="_self">GemmGlobalTileCdTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_17_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_0_1_18_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_18_" class="arrow" onclick="toggleFolder('0_1_18_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html" target="_self">GemmGlobalTileTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_18_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_0_1_19_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html" target="_self">GemmMultiplicandTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_20_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html" target="_self">GemmOperandTraitsAb</a></td><td class="desc">Helper to describe attributes of GEMM matrix operands </td></tr>
+<tr id="row_0_1_21_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_21_" class="arrow" onclick="toggleFolder('0_1_21_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html" target="_self">GemmSharedLoadTileATraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_21_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_0_1_22_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_22_" class="arrow" onclick="toggleFolder('0_1_22_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html" target="_self">GemmSharedLoadTileBTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_22_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_0_1_23_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_23_" class="arrow" onclick="toggleFolder('0_1_23_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html" target="_self">GemmSharedLoadTileDTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_23_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_0_1_24_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_24_" class="arrow" onclick="toggleFolder('0_1_24_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html" target="_self">GemmSharedStoreTileAbTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_24_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_25_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_25_" class="arrow" onclick="toggleFolder('0_1_25_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html" target="_self">GemmSharedStoreTileDTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_25_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_0_1_26_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_26_" class="arrow" onclick="toggleFolder('0_1_26_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html" target="_self">GemmSharedStoreWithSkewTileAbTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_26_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_27_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html" target="_self">GemmTileTraitsHelperA</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_28_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_29_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_30_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html" target="_self">GemmTileTraitsHelperB</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_31_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_32_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_33_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_33_" class="arrow" onclick="toggleFolder('0_1_33_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html" target="_self">GemmTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_33_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html" target="_self">MainLoopSharedStorage</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_33_1_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters object constructable on the host </td></tr>
+<tr id="row_0_1_33_2_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html" target="_self">SharedStorage</a></td><td class="desc">The storage in shared memory </td></tr>
+<tr id="row_0_1_34_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent.html" target="_self">GetExtent</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_35_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html" target="_self">GetExtent&lt; GemmOperand::kA, Tile_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_36_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html" target="_self">GetExtent&lt; GemmOperand::kB, Tile_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_37_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_37_" class="arrow" onclick="toggleFolder('0_1_37_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html" target="_self">GlobalLoadStream</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_37_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
+<tr id="row_0_1_37_1_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html" target="_self">SharedStorage</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_38_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_38_" class="arrow" onclick="toggleFolder('0_1_38_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html" target="_self">GlobalLoadStreamPair</a></td><td class="desc">Collect the global load streams for multiplicands </td></tr>
+<tr id="row_0_1_38_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters object </td></tr>
+<tr id="row_0_1_38_1_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html" target="_self">SharedStorage</a></td><td class="desc">Defines a structure containing shared storage for each pair </td></tr>
+<tr id="row_0_1_39_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html" target="_self">HgemmConfig</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_40_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_40_" class="arrow" onclick="toggleFolder('0_1_40_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html" target="_self">HgemmCrosswiseGlobalTileTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_40_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_0_1_41_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html" target="_self">HgemmSwizzle</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_42_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html" target="_self">HgemmTileTraitsHelperA</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_43_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_44_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html" target="_self">HgemmTileTraitsHelperB</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_45_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_46_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraits.html" target="_self">HgemmTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_47_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html" target="_self">HgemmTraitsHelper</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_48_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html" target="_self">HgemmTransformerA</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_49_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_50_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_51_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html" target="_self">HgemmTransformerB</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_52_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_53_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_54_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html" target="_self">IdentityBlockSwizzle</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_55_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html" target="_self">IgemmConfig</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_56_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html" target="_self">IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_57_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html" target="_self">IgemmEpilogue</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_58_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html" target="_self">IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_59_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html" target="_self">IgemmEpilogueScalar</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_60_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html" target="_self">IgemmEpilogueScalar&lt; int &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_61_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html" target="_self">IgemmEpilogueTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_62_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html" target="_self">IgemmEpilogueTraitsHelper</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_63_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html" target="_self">IgemmFloatToInt8Converter</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_64_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html" target="_self">IgemmGlobalIteratorAb</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_65_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html" target="_self">IgemmGlobalLoadTransformer</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_66_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html" target="_self">IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_67_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html" target="_self">IgemmGlobalStoreTransformer</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_68_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html" target="_self">IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_69_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_69_" class="arrow" onclick="toggleFolder('0_1_69_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html" target="_self">IgemmGlobalTileTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_69_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_0_1_70_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html" target="_self">IgemmInt8ToFloatConverter</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_71_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html" target="_self">IgemmSharedStoreTransformer</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_72_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html" target="_self">IgemmSwizzle</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_73_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html" target="_self">IgemmTileTraitsHelperA</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_74_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html" target="_self">IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_75_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html" target="_self">IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_76_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html" target="_self">IgemmTileTraitsHelperB</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_77_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html" target="_self">IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_78_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html" target="_self">IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_79_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html" target="_self">IgemmTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_80_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html" target="_self">IgemmTraitsHelper</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_81_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html" target="_self">IgemmTransformerA</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_82_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_83_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_84_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html" target="_self">IgemmTransformerB</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_85_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_86_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_87_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Launch.html" target="_self">Launch</a></td><td class="desc">Partial specialization for launching the GEMM kernel with or without launch bounds </td></tr>
+<tr id="row_0_1_88_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html" target="_self">Launch&lt; Gemm, false &gt;</a></td><td class="desc">Partial specialization for launching the GEMM kernel with or without launch bounds </td></tr>
+<tr id="row_0_1_89_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_89_" class="arrow" onclick="toggleFolder('0_1_89_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html" target="_self">LinearScaling</a></td><td class="desc">Functor to compute linear combination of fragments </td></tr>
+<tr id="row_0_1_89_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html" target="_self">Params</a></td><td class="desc">The parameters </td></tr>
+<tr id="row_0_1_90_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_90_" class="arrow" onclick="toggleFolder('0_1_90_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html" target="_self">LinearScalingDevicePtr</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_90_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html" target="_self">Params</a></td><td class="desc">The parameters </td></tr>
+<tr id="row_0_1_91_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand.html" target="_self">ProjectOperand</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_92_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html" target="_self">ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;</a></td><td class="desc">Project A operand - (0, K, M) </td></tr>
+<tr id="row_0_1_93_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html" target="_self">ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;</a></td><td class="desc">Project B operand - (0, K, N) </td></tr>
+<tr id="row_0_1_94_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html" target="_self">ProjectOperand&lt; GemmOperand::kC, true &gt;</a></td><td class="desc">Project C operand - (0, N, M) </td></tr>
+<tr id="row_0_1_95_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html" target="_self">ProjectOperand&lt; GemmOperand::kD, true &gt;</a></td><td class="desc">Project D operand - (0, N, M) </td></tr>
+<tr id="row_0_1_96_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html" target="_self">ReshapeThreads</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_97_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html" target="_self">ReshapeThreads&lt; Tile_, Threads_, true &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_98_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html" target="_self">RowMajorBlockSwizzle</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_99_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html" target="_self">SgemmConfig</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_100_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SgemmLBTraits.html" target="_self">SgemmLBTraits</a></td><td class="desc">Helper to define SGEMM traits using <a class="el" href="structcutlass_1_1gemm_1_1Launch.html" title="Partial specialization for launching the GEMM kernel with or without launch bounds. ">Launch</a> Bounds </td></tr>
+<tr id="row_0_1_101_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html" target="_self">SgemmTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_102_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_102_" class="arrow" onclick="toggleFolder('0_1_102_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html" target="_self">SharedLoadStream</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_102_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
+<tr id="row_0_1_103_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_103_" class="arrow" onclick="toggleFolder('0_1_103_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html" target="_self">SharedStreamPair</a></td><td class="desc">Collect the global load streams for multiplicands </td></tr>
+<tr id="row_0_1_103_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters object passed to load iterators </td></tr>
+<tr id="row_0_1_104_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html" target="_self">SimplifiedGemmEpilogueTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_105_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html" target="_self">SimplifiedGemmTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_106_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html" target="_self">SimplifiedGemmTraitsHelper</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_107_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html" target="_self">swizzleDirection</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_108_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html" target="_self">ThreadMultiplyAdd</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
+<tr id="row_0_1_109_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html" target="_self">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
+<tr id="row_0_1_110_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html" target="_self">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
+<tr id="row_0_1_111_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html" target="_self">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
+<tr id="row_0_1_112_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_112_" class="arrow" onclick="toggleFolder('0_1_112_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html" target="_self">WmmaGemmGlobalIteratorCd</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_112_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html" target="_self">Params</a></td><td class="desc">The params </td></tr>
+<tr id="row_0_1_113_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_1_113_" class="arrow" onclick="toggleFolder('0_1_113_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html" target="_self">WmmaGemmGlobalIteratorCdTraits</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_113_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_0_2_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_2_" class="arrow" onclick="toggleFolder('0_2_')">&#9654;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1platform.html" target="_self">platform</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1aligned__chunk.html" target="_self">aligned_chunk</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1aligned__storage.html" target="_self">aligned_storage</a></td><td class="desc">Std::aligned_storage </td></tr>
+<tr id="row_0_2_2_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_2_2_" class="arrow" onclick="toggleFolder('0_2_2_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of.html" target="_self">alignment_of</a></td><td class="desc">Std::alignment_of </td></tr>
+<tr id="row_0_2_2_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html" target="_self">pad</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_3_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4.html" target="_self">alignment_of&lt; const value_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_4_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4.html" target="_self">alignment_of&lt; const volatile value_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_5_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html" target="_self">alignment_of&lt; double2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_6_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html" target="_self">alignment_of&lt; double4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_7_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html" target="_self">alignment_of&lt; float4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_8_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html" target="_self">alignment_of&lt; int4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_9_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html" target="_self">alignment_of&lt; long4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_10_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html" target="_self">alignment_of&lt; longlong2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_11_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html" target="_self">alignment_of&lt; longlong4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_12_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html" target="_self">alignment_of&lt; uint4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_13_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html" target="_self">alignment_of&lt; ulong4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_14_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html" target="_self">alignment_of&lt; ulonglong2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_15_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html" target="_self">alignment_of&lt; ulonglong4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_16_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html" target="_self">alignment_of&lt; volatile value_t &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_17_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1bool__constant.html" target="_self">bool_constant</a></td><td class="desc">Std::bool_constant </td></tr>
+<tr id="row_0_2_18_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1platform_1_1complex.html" target="_self">complex</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_19_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1conditional.html" target="_self">conditional</a></td><td class="desc">Std::conditional (true specialization) </td></tr>
+<tr id="row_0_2_20_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html" target="_self">conditional&lt; false, T, F &gt;</a></td><td class="desc">Std::conditional (false specialization) </td></tr>
+<tr id="row_0_2_21_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1default__delete.html" target="_self">default_delete</a></td><td class="desc">Default deleter </td></tr>
+<tr id="row_0_2_22_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html" target="_self">default_delete&lt; T[]&gt;</a></td><td class="desc">Partial specialization for deleting array types </td></tr>
+<tr id="row_0_2_23_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1enable__if.html" target="_self">enable_if</a></td><td class="desc">Std::enable_if (true specialization) </td></tr>
+<tr id="row_0_2_24_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html" target="_self">enable_if&lt; false, T &gt;</a></td><td class="desc">Std::enable_if (false specialization) </td></tr>
+<tr id="row_0_2_25_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1greater.html" target="_self">greater</a></td><td class="desc">Std::greater </td></tr>
+<tr id="row_0_2_26_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">integral_constant</a></td><td class="desc">Std::integral_constant </td></tr>
+<tr id="row_0_2_27_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__arithmetic.html" target="_self">is_arithmetic</a></td><td class="desc">Std::is_arithmetic </td></tr>
+<tr id="row_0_2_28_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of.html" target="_self">is_base_of</a></td><td class="desc">Std::is_base_of </td></tr>
+<tr id="row_0_2_29_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_0_2_29_" class="arrow" onclick="toggleFolder('0_2_29_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html" target="_self">is_base_of_helper</a></td><td class="desc">Helper for std::is_base_of </td></tr>
+<tr id="row_0_2_29_0_" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html" target="_self">dummy</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_30_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__floating__point.html" target="_self">is_floating_point</a></td><td class="desc">Std::is_floating_point </td></tr>
+<tr id="row_0_2_31_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__fundamental.html" target="_self">is_fundamental</a></td><td class="desc">Std::is_fundamental </td></tr>
+<tr id="row_0_2_32_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral.html" target="_self">is_integral</a></td><td class="desc">Std::is_integral </td></tr>
+<tr id="row_0_2_33_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html" target="_self">is_integral&lt; char &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_34_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html" target="_self">is_integral&lt; const T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_35_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html" target="_self">is_integral&lt; const volatile T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_36_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html" target="_self">is_integral&lt; int &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_37_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html" target="_self">is_integral&lt; long &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_38_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html" target="_self">is_integral&lt; long long &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_39_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html" target="_self">is_integral&lt; short &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_40_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html" target="_self">is_integral&lt; signed char &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_41_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html" target="_self">is_integral&lt; unsigned char &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_42_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html" target="_self">is_integral&lt; unsigned int &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_43_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html" target="_self">is_integral&lt; unsigned long &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_44_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html" target="_self">is_integral&lt; unsigned long long &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_45_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html" target="_self">is_integral&lt; unsigned short &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_46_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html" target="_self">is_integral&lt; volatile T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_47_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer.html" target="_self">is_pointer</a></td><td class="desc">Std::is_pointer </td></tr>
+<tr id="row_0_2_48_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper.html" target="_self">is_pointer_helper</a></td><td class="desc">Helper for std::is_pointer (false specialization) </td></tr>
+<tr id="row_0_2_49_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html" target="_self">is_pointer_helper&lt; T * &gt;</a></td><td class="desc">Helper for std::is_pointer (true specialization) </td></tr>
+<tr id="row_0_2_50_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__same.html" target="_self">is_same</a></td><td class="desc">Std::is_same (false specialization) </td></tr>
+<tr id="row_0_2_51_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html" target="_self">is_same&lt; A, A &gt;</a></td><td class="desc">Std::is_same (true specialization) </td></tr>
+<tr id="row_0_2_52_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__trivially__copyable.html" target="_self">is_trivially_copyable</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_53_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__void.html" target="_self">is_void</a></td><td class="desc">Std::is_void </td></tr>
+<tr id="row_0_2_54_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__volatile.html" target="_self">is_volatile</a></td><td class="desc">Std::is_volatile </td></tr>
+<tr id="row_0_2_55_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html" target="_self">is_volatile&lt; volatile T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_56_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1less.html" target="_self">less</a></td><td class="desc">Std::less </td></tr>
+<tr id="row_0_2_57_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1nullptr__t.html" target="_self">nullptr_t</a></td><td class="desc">Std::nullptr_t </td></tr>
+<tr id="row_0_2_58_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1plus.html" target="_self">plus</a></td><td class="desc">Platform::plus </td></tr>
+<tr id="row_0_2_59_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__const.html" target="_self">remove_const</a></td><td class="desc">Std::remove_const (non-const specialization) </td></tr>
+<tr id="row_0_2_60_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html" target="_self">remove_const&lt; const T &gt;</a></td><td class="desc">Std::remove_const (const specialization) </td></tr>
+<tr id="row_0_2_61_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__cv.html" target="_self">remove_cv</a></td><td class="desc">Std::remove_cv </td></tr>
+<tr id="row_0_2_62_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__volatile.html" target="_self">remove_volatile</a></td><td class="desc">Std::remove_volatile (non-volatile specialization) </td></tr>
+<tr id="row_0_2_63_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html" target="_self">remove_volatile&lt; volatile T &gt;</a></td><td class="desc">Std::remove_volatile (volatile specialization) </td></tr>
+<tr id="row_0_2_64_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html" target="_self">unique_ptr</a></td><td class="desc">Std::unique_ptr </td></tr>
+<tr id="row_0_3_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1AlignedStruct.html" target="_self">AlignedStruct</a></td><td class="desc"></td></tr>
+<tr id="row_0_4_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1bin1__t.html" target="_self">bin1_t</a></td><td class="desc"></td></tr>
+<tr id="row_0_5_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html" target="_self">ComputeOffsetFromShape</a></td><td class="desc">Compute the offset for the given coordinates in a cube </td></tr>
+<tr id="row_0_6_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html" target="_self">ComputeOffsetFromStrides</a></td><td class="desc">Compute the offset for the given coordinates in a cube </td></tr>
+<tr id="row_0_7_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html" target="_self">ComputeThreadOffsetFromStrides</a></td><td class="desc">Decompose threadId.x into coordinate of a cube whose dimensions are specified by Threads_. Afterwards compute the offset of those coordinates using Strides_ </td></tr>
+<tr id="row_0_8_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html" target="_self">ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a></td><td class="desc">Specialization for D=1 and C=1 </td></tr>
+<tr id="row_0_9_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html" target="_self">ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a></td><td class="desc">Specialization for D=1 </td></tr>
+<tr id="row_0_10_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html" target="_self">ConstPredicateTileAdapter</a></td><td class="desc">Adapter to enable random access to predicates via logical coordinate within a tile </td></tr>
+<tr id="row_0_11_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Convert.html" target="_self">Convert</a></td><td class="desc"></td></tr>
+<tr id="row_0_12_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html" target="_self">Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_13_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">Coord</a></td><td class="desc">Statically-sized array specifying Coords within a tensor </td></tr>
+<tr id="row_0_14_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Copy.html" target="_self">Copy</a></td><td class="desc"></td></tr>
+<tr id="row_0_15_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1divide__assert.html" target="_self">divide_assert</a></td><td class="desc"></td></tr>
+<tr id="row_0_16_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1DumpType.html" target="_self">DumpType</a></td><td class="desc"></td></tr>
+<tr id="row_0_17_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent.html" target="_self">Extent</a></td><td class="desc">Returns the extent of a scalar or vector </td></tr>
+<tr id="row_0_18_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html" target="_self">Extent&lt; Vector&lt; T, Lanes &gt; &gt;</a></td><td class="desc">Returns the number of lanes of a vector if need be </td></tr>
+<tr id="row_0_19_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html" target="_self">Extent&lt; Vector&lt; T, Lanes &gt; const &gt;</a></td><td class="desc">Returns the number of lanes of a vector if need be </td></tr>
+<tr id="row_0_20_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Fragment.html" target="_self">Fragment</a></td><td class="desc">A template defining <a class="el" href="group__fragment__concept.html">Fragment Concept</a> </td></tr>
+<tr id="row_0_21_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentConstIterator.html" target="_self">FragmentConstIterator</a></td><td class="desc"></td></tr>
+<tr id="row_0_22_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentElementType.html" target="_self">FragmentElementType</a></td><td class="desc">Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix </td></tr>
+<tr id="row_0_23_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentIterator.html" target="_self">FragmentIterator</a></td><td class="desc">A template defining <a class="el" href="group__fragment__iterator__concept.html">Fragment Iterator Concept</a> </td></tr>
+<tr id="row_0_24_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1GemmOperand.html" target="_self">GemmOperand</a></td><td class="desc">Gemm operand - D = A * B + C </td></tr>
+<tr id="row_0_25_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Identity.html" target="_self">Identity</a></td><td class="desc">Describes identity elements </td></tr>
+<tr id="row_0_26_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html" target="_self">IdentityTensorMapFunc</a></td><td class="desc"></td></tr>
+<tr id="row_0_27_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1int4__t.html" target="_self">int4_t</a></td><td class="desc"></td></tr>
+<tr id="row_0_28_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1is__pow2.html" target="_self">is_pow2</a></td><td class="desc"></td></tr>
+<tr id="row_0_29_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1IteratorAdvance.html" target="_self">IteratorAdvance</a></td><td class="desc">Specifies dimension in which post-increment accesses advance </td></tr>
+<tr id="row_0_30_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html" target="_self">KernelLaunchConfiguration</a></td><td class="desc">Structure containing the basic launch configuration of a CUDA kernel </td></tr>
+<tr id="row_0_31_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load.html" target="_self">Load</a></td><td class="desc"></td></tr>
+<tr id="row_0_32_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html" target="_self">Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_33_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html" target="_self">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td><td class="desc">Partial specialization for 16b loads </td></tr>
+<tr id="row_0_34_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html" target="_self">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_35_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html" target="_self">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_36_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html" target="_self">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_37_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html" target="_self">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_38_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html" target="_self">Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_39_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html" target="_self">Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_40_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html" target="_self">Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_41_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__down.html" target="_self">log2_down</a></td><td class="desc"></td></tr>
+<tr id="row_0_42_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html" target="_self">log2_down&lt; N, 1, Count &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_43_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__up.html" target="_self">log2_up</a></td><td class="desc"></td></tr>
+<tr id="row_0_44_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html" target="_self">log2_up&lt; N, 1, Count &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_45_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixCoord.html" target="_self">MatrixCoord</a></td><td class="desc"></td></tr>
+<tr id="row_0_46_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_46_" class="arrow" onclick="toggleFolder('0_46_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout.html" target="_self">MatrixLayout</a></td><td class="desc">Defines data layouts of various matrix formats usable by <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> and other classes </td></tr>
+<tr id="row_0_46_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html" target="_self">ColumnMajor</a></td><td class="desc">Mapping function for column-major matrices </td></tr>
+<tr id="row_0_46_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html" target="_self">ColumnMajorBlockLinear</a></td><td class="desc"></td></tr>
+<tr id="row_0_46_2_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html" target="_self">ColumnMajorInterleaved</a></td><td class="desc"></td></tr>
+<tr id="row_0_46_3_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html" target="_self">ContiguousLayout</a></td><td class="desc"></td></tr>
+<tr id="row_0_46_4_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html" target="_self">RowMajor</a></td><td class="desc">Mapping function for row-major matrices </td></tr>
+<tr id="row_0_46_5_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html" target="_self">RowMajorBlockLinear</a></td><td class="desc"></td></tr>
+<tr id="row_0_46_6_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html" target="_self">RowMajorInterleaved</a></td><td class="desc"></td></tr>
+<tr id="row_0_47_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixTransform.html" target="_self">MatrixTransform</a></td><td class="desc">Transformation applied to matrix operands </td></tr>
+<tr id="row_0_48_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Max.html" target="_self">Max</a></td><td class="desc"></td></tr>
+<tr id="row_0_49_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MemorySpace.html" target="_self">MemorySpace</a></td><td class="desc">Enum to specify which memory space data resides in </td></tr>
+<tr id="row_0_50_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Min.html" target="_self">Min</a></td><td class="desc"></td></tr>
+<tr id="row_0_51_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html" target="_self">PredicatedTileLoadStream</a></td><td class="desc">Generic stream for loading and transforming fragments </td></tr>
+<tr id="row_0_52_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html" target="_self">PredicatedTileStoreStream</a></td><td class="desc">Generic stream for transforming and storing fragments </td></tr>
+<tr id="row_0_53_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateTileAdapter.html" target="_self">PredicateTileAdapter</a></td><td class="desc">Adapter to enable random access to predicates via logical coordinate within a tile </td></tr>
+<tr id="row_0_54_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_54_" class="arrow" onclick="toggleFolder('0_54_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector.html" target="_self">PredicateVector</a></td><td class="desc">Statically sized array of bits implementing </td></tr>
+<tr id="row_0_54_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html" target="_self">ConstIterator</a></td><td class="desc">A const iterator implementing <a class="el" href="group__predicate__iterator__concept.html">Predicate Iterator Concept</a> enabling sequential read-only access to prediactes </td></tr>
+<tr id="row_0_54_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html" target="_self">Iterator</a></td><td class="desc">An iterator implementing <a class="el" href="group__predicate__iterator__concept.html">Predicate Iterator Concept</a> enabling sequential read and write access to predicates </td></tr>
+<tr id="row_0_54_2_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html" target="_self">TrivialIterator</a></td><td class="desc"><a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html" title="An iterator implementing Predicate Iterator Concept enabling sequential read and write access to pred...">Iterator</a> that always returns true </td></tr>
+<tr id="row_0_55_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html" target="_self">RegularTilePredicateFunctor</a></td><td class="desc">Functor computing a predicate given the logical position of an access </td></tr>
+<tr id="row_0_56_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ReshapeTile.html" target="_self">ReshapeTile</a></td><td class="desc"></td></tr>
+<tr id="row_0_57_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html" target="_self">ReshapeTile&lt; Tile_, kAccessSize_, true &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_58_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ScalarIO.html" target="_self">ScalarIO</a></td><td class="desc">Helper to enable formatted printing of CUTLASS scalar types to an ostream </td></tr>
+<tr id="row_0_59_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Shape.html" target="_self">Shape</a></td><td class="desc">A <a class="el" href="structcutlass_1_1Shape.html" title="A Shape implementing Layout Concept describing the dimensions of a cube. ">Shape</a> implementing <a class="el" href="group__layout__concept.html">Layout Concept</a> describing the dimensions of a cube </td></tr>
+<tr id="row_0_60_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeAdd.html" target="_self">ShapeAdd</a></td><td class="desc"></td></tr>
+<tr id="row_0_61_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeCount.html" target="_self">ShapeCount</a></td><td class="desc">Compute derived counted of a <a class="el" href="group__layout__concept.html">Layout Concept</a> based class </td></tr>
+<tr id="row_0_62_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeDiv.html" target="_self">ShapeDiv</a></td><td class="desc"></td></tr>
+<tr id="row_0_63_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeDivCeiling.html" target="_self">ShapeDivCeiling</a></td><td class="desc"></td></tr>
+<tr id="row_0_64_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMax.html" target="_self">ShapeMax</a></td><td class="desc"></td></tr>
+<tr id="row_0_65_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMin.html" target="_self">ShapeMin</a></td><td class="desc"></td></tr>
+<tr id="row_0_66_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMul.html" target="_self">ShapeMul</a></td><td class="desc"></td></tr>
+<tr id="row_0_67_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeScale.html" target="_self">ShapeScale</a></td><td class="desc"></td></tr>
+<tr id="row_0_68_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeStrides.html" target="_self">ShapeStrides</a></td><td class="desc"></td></tr>
+<tr id="row_0_69_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeSub.html" target="_self">ShapeSub</a></td><td class="desc"></td></tr>
+<tr id="row_0_70_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1sqrt__est.html" target="_self">sqrt_est</a></td><td class="desc"></td></tr>
+<tr id="row_0_71_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType.html" target="_self">StorageType</a></td><td class="desc"></td></tr>
+<tr id="row_0_72_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_011_01_4.html" target="_self">StorageType&lt; 1 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_73_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_012_01_4.html" target="_self">StorageType&lt; 2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_74_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_014_01_4.html" target="_self">StorageType&lt; 4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_75_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store.html" target="_self">Store</a></td><td class="desc"></td></tr>
+<tr id="row_0_76_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html" target="_self">Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_77_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html" target="_self">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_78_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html" target="_self">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_79_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html" target="_self">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_80_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html" target="_self">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_81_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html" target="_self">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_82_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef.html" target="_self">TensorRef</a></td><td class="desc"></td></tr>
+<tr id="row_0_83_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_83_" class="arrow" onclick="toggleFolder('0_83_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html" target="_self">TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="desc">Specialization for rank=1 case with no internal <a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html">StrideVector</a> </td></tr>
+<tr id="row_0_83_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html" target="_self">StrideVector</a></td><td class="desc"></td></tr>
+<tr id="row_0_84_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_84_" class="arrow" onclick="toggleFolder('0_84_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TensorRefArray.html" target="_self">TensorRefArray</a></td><td class="desc"></td></tr>
+<tr id="row_0_84_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html" target="_self">ConstIterator</a></td><td class="desc">TensorRefIterator over <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> objects in <a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a> </td></tr>
+<tr id="row_0_85_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_85_" class="arrow" onclick="toggleFolder('0_85_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html" target="_self">TensorRefBatchStrided</a></td><td class="desc"></td></tr>
+<tr id="row_0_85_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html" target="_self">ConstIterator</a></td><td class="desc">Constant iterator over tensors implied by <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a> </td></tr>
+<tr id="row_0_86_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorView.html" target="_self">TensorView</a></td><td class="desc">Defines a view into a logical tensor </td></tr>
+<tr id="row_0_87_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileAllocation.html" target="_self">TileAllocation</a></td><td class="desc">Class for storing a tile in memory and accessing it through a tensor ref </td></tr>
+<tr id="row_0_88_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileCoord.html" target="_self">TileCoord</a></td><td class="desc"></td></tr>
+<tr id="row_0_89_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TiledThreadOffset.html" target="_self">TiledThreadOffset</a></td><td class="desc">Basic thread offset function computed from a thread shape </td></tr>
+<tr id="row_0_90_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_90_" class="arrow" onclick="toggleFolder('0_90_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase.html" target="_self">TileIteratorBase</a></td><td class="desc">Iterator for accessing a stripmined tile in memory </td></tr>
+<tr id="row_0_90_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters to the iterator </td></tr>
+<tr id="row_0_91_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_91_" class="arrow" onclick="toggleFolder('0_91_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadIterator.html" target="_self">TileLoadIterator</a></td><td class="desc">An iterator implementing <a class="el" href="group__tile__load__iterator__concept.html">Tile Load Iterator Concept</a> for loading a tile from memory </td></tr>
+<tr id="row_0_91_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters </td></tr>
+<tr id="row_0_92_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_92_" class="arrow" onclick="toggleFolder('0_92_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadStream.html" target="_self">TileLoadStream</a></td><td class="desc">Generic stream for loading and transforming fragments </td></tr>
+<tr id="row_0_92_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters object used to construct generic load stream </td></tr>
+<tr id="row_0_92_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html" target="_self">PredicateVector</a></td><td class="desc">Empty predicate vector struct </td></tr>
+<tr id="row_0_93_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_93_" class="arrow" onclick="toggleFolder('0_93_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreIterator.html" target="_self">TileStoreIterator</a></td><td class="desc">An iterator implementing <a class="el" href="group__tile__store__iterator__concept.html">Tile Store Iterator Concept</a> for storing a tile to memory </td></tr>
+<tr id="row_0_93_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters </td></tr>
+<tr id="row_0_94_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_94_" class="arrow" onclick="toggleFolder('0_94_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreStream.html" target="_self">TileStoreStream</a></td><td class="desc">Generic stream for transforming and storing fragments </td></tr>
+<tr id="row_0_94_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html" target="_self">Params</a></td><td class="desc">Parameters used to construct the stream </td></tr>
+<tr id="row_0_94_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html" target="_self">PredicateVector</a></td><td class="desc">Empty predicate vector struct </td></tr>
+<tr id="row_0_95_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraits.html" target="_self">TileTraits</a></td><td class="desc">A template defining <a class="el" href="group__tile__traits__concept.html">Tile Traits Concept</a> </td></tr>
+<tr id="row_0_96_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html" target="_self">TileTraitsContiguousMajor</a></td><td class="desc"></td></tr>
+<tr id="row_0_97_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsStandard.html" target="_self">TileTraitsStandard</a></td><td class="desc">Chooses 'best' shape to enable warp raking along contiguous dimension if possible </td></tr>
+<tr id="row_0_98_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html" target="_self">TileTraitsStrideMajor</a></td><td class="desc"></td></tr>
+<tr id="row_0_99_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_99_" class="arrow" onclick="toggleFolder('0_99_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsWarpRake.html" target="_self">TileTraitsWarpRake</a></td><td class="desc">Tiling in which warps rake across the contiguous dimension </td></tr>
+<tr id="row_0_99_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html" target="_self">ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_0_100_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TrivialPredicateTileAdapter.html" target="_self">TrivialPredicateTileAdapter</a></td><td class="desc">Always returns true predicate </td></tr>
+<tr id="row_0_101_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1uint4__t.html" target="_self">uint4_t</a></td><td class="desc"></td></tr>
+<tr id="row_0_102_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector.html" target="_self">Vector</a></td><td class="desc"></td></tr>
+<tr id="row_0_103_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html" target="_self">Vector&lt; bin1_t, kLanes_ &gt;</a></td><td class="desc"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 1-bit binary datatype </td></tr>
+<tr id="row_0_104_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html" target="_self">Vector&lt; half, 1 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_105_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html" target="_self">Vector&lt; half, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_106_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html" target="_self">Vector&lt; int4_t, kLanes_ &gt;</a></td><td class="desc"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 4-bit signed integer datatype </td></tr>
+<tr id="row_0_107_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html" target="_self">Vector&lt; uint4_t, kLanes_ &gt;</a></td><td class="desc"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 4-bit unsigned integer datatype </td></tr>
+<tr id="row_0_108_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize.html" target="_self">Vectorize</a></td><td class="desc"></td></tr>
+<tr id="row_0_109_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html" target="_self">Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_110_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html" target="_self">Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_111_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html" target="_self">Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_0_112_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits.html" target="_self">VectorTraits</a></td><td class="desc">Traits describing properties of vectors and scalar-as-vectors </td></tr>
+<tr id="row_0_113_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html" target="_self">VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a></td><td class="desc">Partial specialization for actual <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a> </td></tr>
+<tr id="row_0_114_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html" target="_self">VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a></td><td class="desc">Partial specialization for actual <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a> </td></tr>
+<tr id="row_0_115_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ZipConvert.html" target="_self">ZipConvert</a></td><td class="desc">Zips two convert operations </td></tr>
+<tr id="row_0_116_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ZipFragment.html" target="_self">ZipFragment</a></td><td class="desc">A template defining <a class="el" href="group__fragment__concept.html">Fragment Concept</a> </td></tr>
+<tr id="row_0_117_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ZipTensorRef.html" target="_self">ZipTensorRef</a></td><td class="desc"></td></tr>
+<tr id="row_0_118_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ZipTileAllocation.html" target="_self">ZipTileAllocation</a></td><td class="desc">Manages a pair of tile allocations as if they are one allocation </td></tr>
+<tr id="row_0_119_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_0_119_" class="arrow" onclick="toggleFolder('0_119_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1ZipTileIterator.html" target="_self">ZipTileIterator</a></td><td class="desc">Constructs an iterator from a pair of iterators </td></tr>
+<tr id="row_0_119_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html" target="_self">Params</a></td><td class="desc"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html" title="Params object. ">Params</a> object </td></tr>
+<tr id="row_1_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structDebugType.html" target="_self">DebugType</a></td><td class="desc"></td></tr>
+<tr id="row_2_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structDebugValue.html" target="_self">DebugValue</a></td><td class="desc"></td></tr>
 </table>
 </div><!-- directory -->
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classcutlass_1_1PredicateVector_1_1ConstIterator-members.html b/docs/classcutlass_1_1PredicateVector_1_1ConstIterator-members.html
index 860cd05cbf..18f59fc0ce 100644
--- a/docs/classcutlass_1_1PredicateVector_1_1ConstIterator-members.html
+++ b/docs/classcutlass_1_1PredicateVector_1_1ConstIterator-members.html
@@ -91,7 +91,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classcutlass_1_1PredicateVector_1_1ConstIterator.html b/docs/classcutlass_1_1PredicateVector_1_1ConstIterator.html
index 1fbdc759c7..7e7089a067 100644
--- a/docs/classcutlass_1_1PredicateVector_1_1ConstIterator.html
+++ b/docs/classcutlass_1_1PredicateVector_1_1ConstIterator.html
@@ -381,7 +381,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa2d03d88ac23051803d010f7
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classcutlass_1_1PredicateVector_1_1Iterator-members.html b/docs/classcutlass_1_1PredicateVector_1_1Iterator-members.html
index ca3ff04aa1..73d0ebcaa1 100644
--- a/docs/classcutlass_1_1PredicateVector_1_1Iterator-members.html
+++ b/docs/classcutlass_1_1PredicateVector_1_1Iterator-members.html
@@ -93,7 +93,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classcutlass_1_1PredicateVector_1_1Iterator.html b/docs/classcutlass_1_1PredicateVector_1_1Iterator.html
index 42a0693823..2cbc797d80 100644
--- a/docs/classcutlass_1_1PredicateVector_1_1Iterator.html
+++ b/docs/classcutlass_1_1PredicateVector_1_1Iterator.html
@@ -443,7 +443,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aadfd039b5622098c9e46706a
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classcutlass_1_1TensorRef-members.html b/docs/classcutlass_1_1TensorRef-members.html
index 4bf37ad133..202c9ab424 100644
--- a/docs/classcutlass_1_1TensorRef-members.html
+++ b/docs/classcutlass_1_1TensorRef-members.html
@@ -73,35 +73,52 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::TensorRef&lt; Storage_, Rank_ &gt; Member List</div>  </div>
+<div class="title">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478">advance</a>(Coord&lt; Rank &gt; const &amp;b)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">at</a>(Coord&lt; Rank &gt; const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215">at</a>(int idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c">convert</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">data</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">good</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77">leading_dim</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">offset</a>(Coord&lt; Rank &gt; const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842">operator+</a>(Coord&lt; Rank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938">operator-</a>(Coord&lt; Rank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a6a2aa88ed77557c089a165da0df1e974">operator[]</a>(Coord&lt; Rank &gt; const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c">operator[]</a>(int idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674">reset</a>(Storage *ptr=nullptr, Coord&lt; Rank &gt; stride=Coord&lt; Rank &gt;(0))</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31">stride</a>(int dim) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">TensorRef</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ae48325312183ff61dbd312c64f31fcb8">TensorRef</a>(Storage *ptr, Coord&lt; Rank &gt; stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(LongIndex delta)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">at</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">at</a>(LongIndex idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">const_ref</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">Coord_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">data</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">good</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">leading_dim</a>(int idx=0) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">map</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">operator+</a>(TensorCoord const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">operator+=</a>(TensorCoord const &amp;b)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">operator-</a>(TensorCoord const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">operator-=</a>(TensorCoord const &amp;b)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">operator[]</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">operator[]</a>(LongIndex idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">Rank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">reset</a>(Storage *ptr=nullptr)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">reset</a>(Storage *ptr, StorageCoord const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">stride</a>(int dim) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">TensorRef</a>(Storage *ptr=nullptr)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">TensorRef</a>(Storage *ptr, Index ldm)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">TensorRef</a>(Storage *ptr, StrideVector const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0">TensorRef</a>(Storage *ptr, StorageCoord const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">TensorRef</a>(TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type, kRank, MapFunc, kStorageRank, Index, LongIndex &gt; const &amp;ref)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classcutlass_1_1TensorRef.html b/docs/classcutlass_1_1TensorRef.html
index 05a9b3dd52..1053ca0a91 100644
--- a/docs/classcutlass_1_1TensorRef.html
+++ b/docs/classcutlass_1_1TensorRef.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::TensorRef&lt; Storage_, Rank_ &gt; Class Template Reference</title>
+<title>Cutlass: cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Class Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -78,93 +78,278 @@
 <a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="classcutlass_1_1TensorRef-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::TensorRef&lt; Storage_, Rank_ &gt; Class Template Reference</div>  </div>
+<div class="title">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Class Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>Structure modeling a pointer and stride into a tensor.  
-</p>
-
 <p><code>#include &lt;<a class="el" href="tensor__ref_8h_source.html">tensor_ref.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="classcutlass_1_1TensorRef.png" usemap="#cutlass::TensorRef_3C_20Storage_5F_2C_20Rank_5F_2C_20MapFunc_5F_2C_20StorageRank_5F_2C_20Index_5F_2C_20LongIndex_5F_20_3E_map" alt=""/>
+  <map id="cutlass::TensorRef_3C_20Storage_5F_2C_20Rank_5F_2C_20MapFunc_5F_2C_20StorageRank_5F_2C_20Index_5F_2C_20LongIndex_5F_20_3E_map" name="cutlass::TensorRef_3C_20Storage_5F_2C_20Rank_5F_2C_20MapFunc_5F_2C_20StorageRank_5F_2C_20Index_5F_2C_20LongIndex_5F_20_3E_map">
+<area href="structcutlass_1_1TensorRefBatchStrided.html" alt="cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;" shape="rect" coords="0,56,584,80"/>
+<area href="classcutlass_1_1TensorView.html" title="Defines a view into a logical tensor. " alt="cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;" shape="rect" coords="594,56,1178,80"/>
+</map>
+ </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:a604921388cb7ee18ddb8127b8ca2f7fd"><td class="memItemLeft" align="right" valign="top">typedef Storage_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a></td></tr>
-<tr class="memdesc:a604921388cb7ee18ddb8127b8ca2f7fd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Data type of individual access.  <a href="#a604921388cb7ee18ddb8127b8ca2f7fd">More...</a><br /></td></tr>
-<tr class="separator:a604921388cb7ee18ddb8127b8ca2f7fd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad327edfe1f8085632ff682d354922009"><td class="memItemLeft" align="right" valign="top">typedef Storage_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a></td></tr>
+<tr class="memdesc:ad327edfe1f8085632ff682d354922009"><td class="mdescLeft">&#160;</td><td class="mdescRight">Data type of individual access.  <a href="#ad327edfe1f8085632ff682d354922009">More...</a><br /></td></tr>
+<tr class="separator:ad327edfe1f8085632ff682d354922009"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad0273300d26125278b6930b1e463ff29"><td class="memItemLeft" align="right" valign="top">typedef MapFunc_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a></td></tr>
+<tr class="memdesc:ad0273300d26125278b6930b1e463ff29"><td class="mdescLeft">&#160;</td><td class="mdescRight">Mapping function from logical coordinate to internal n-D array.  <a href="#ad0273300d26125278b6930b1e463ff29">More...</a><br /></td></tr>
+<tr class="separator:ad0273300d26125278b6930b1e463ff29"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2beda7a1946bde2858e730bece21b890"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a></td></tr>
+<tr class="memdesc:a2beda7a1946bde2858e730bece21b890"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#a2beda7a1946bde2858e730bece21b890">More...</a><br /></td></tr>
+<tr class="separator:a2beda7a1946bde2858e730bece21b890"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a42ca6a39ab0e44296fed71a77c57b7b1"><td class="memItemLeft" align="right" valign="top">typedef LongIndex_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a></td></tr>
+<tr class="memdesc:a42ca6a39ab0e44296fed71a77c57b7b1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Typically, strides in memory can be very large.  <a href="#a42ca6a39ab0e44296fed71a77c57b7b1">More...</a><br /></td></tr>
+<tr class="separator:a42ca6a39ab0e44296fed71a77c57b7b1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a35b7e1fc59298e0f06f484652d62fd65"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a></td></tr>
+<tr class="memdesc:a35b7e1fc59298e0f06f484652d62fd65"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="#a35b7e1fc59298e0f06f484652d62fd65">More...</a><br /></td></tr>
+<tr class="separator:a35b7e1fc59298e0f06f484652d62fd65"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a455a2df539b53086699c210d06df1c5d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a></td></tr>
+<tr class="memdesc:a455a2df539b53086699c210d06df1c5d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in storage n-D array.  <a href="#a455a2df539b53086699c210d06df1c5d">More...</a><br /></td></tr>
+<tr class="separator:a455a2df539b53086699c210d06df1c5d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07c4b1ace7c8799537553b54cfe0a059"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a></td></tr>
+<tr class="separator:a07c4b1ace7c8799537553b54cfe0a059"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8281d11677512d6e229504ab4babad17"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a></td></tr>
+<tr class="memdesc:a8281d11677512d6e229504ab4babad17"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference to of constant value.  <a href="#a8281d11677512d6e229504ab4babad17">More...</a><br /></td></tr>
+<tr class="separator:a8281d11677512d6e229504ab4babad17"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a758f24783e36ffc393b360d0b8640bc6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">Coord_t</a></td></tr>
+<tr class="memdesc:a758f24783e36ffc393b360d0b8640bc6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="#a758f24783e36ffc393b360d0b8640bc6">More...</a><br /></td></tr>
+<tr class="separator:a758f24783e36ffc393b360d0b8640bc6"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a54f6edc293b0b8ac97f02e8ab951c478"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">TensorRef</a> ()</td></tr>
-<tr class="memdesc:a54f6edc293b0b8ac97f02e8ab951c478"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor.  <a href="#a54f6edc293b0b8ac97f02e8ab951c478">More...</a><br /></td></tr>
-<tr class="separator:a54f6edc293b0b8ac97f02e8ab951c478"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae48325312183ff61dbd312c64f31fcb8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ae48325312183ff61dbd312c64f31fcb8">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> *ptr, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; <a class="el" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>)</td></tr>
-<tr class="memdesc:ae48325312183ff61dbd312c64f31fcb8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from a pointer, size, and stride.  <a href="#ae48325312183ff61dbd312c64f31fcb8">More...</a><br /></td></tr>
-<tr class="separator:ae48325312183ff61dbd312c64f31fcb8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abefe392e81da2c09cb127f963ae90674"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674">reset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> *ptr=<a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; <a class="el" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>=<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt;(0))</td></tr>
-<tr class="memdesc:abefe392e81da2c09cb127f963ae90674"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates the pointer, stride, and location within a <a class="el" href="classcutlass_1_1TensorRef.html" title="Structure modeling a pointer and stride into a tensor. ">TensorRef</a>.  <a href="#abefe392e81da2c09cb127f963ae90674">More...</a><br /></td></tr>
-<tr class="separator:abefe392e81da2c09cb127f963ae90674"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7eb4444e2b3fce5a5ccde65a75df633c"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
-<tr class="memitem:a7eb4444e2b3fce5a5ccde65a75df633c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; T, <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c">convert</a> ()</td></tr>
-<tr class="memdesc:a7eb4444e2b3fce5a5ccde65a75df633c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Conversion function.  <a href="#a7eb4444e2b3fce5a5ccde65a75df633c">More...</a><br /></td></tr>
-<tr class="separator:a7eb4444e2b3fce5a5ccde65a75df633c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0c049e523ee0fc98769ed8cd2d026780"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">good</a> () const</td></tr>
-<tr class="memdesc:a0c049e523ee0fc98769ed8cd2d026780"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if the <a class="el" href="classcutlass_1_1TensorRef.html" title="Structure modeling a pointer and stride into a tensor. ">TensorRef</a> may be safely accessed.  <a href="#a0c049e523ee0fc98769ed8cd2d026780">More...</a><br /></td></tr>
-<tr class="separator:a0c049e523ee0fc98769ed8cd2d026780"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8e23c78658f45c6f197a1774cc85c5b7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">data</a> () const</td></tr>
-<tr class="memdesc:a8e23c78658f45c6f197a1774cc85c5b7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the pointer to referenced data.  <a href="#a8e23c78658f45c6f197a1774cc85c5b7">More...</a><br /></td></tr>
-<tr class="separator:a8e23c78658f45c6f197a1774cc85c5b7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a89380141d25528c4c7ba6c365b96a878"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a> () const</td></tr>
-<tr class="memdesc:a89380141d25528c4c7ba6c365b96a878"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor.  <a href="#a89380141d25528c4c7ba6c365b96a878">More...</a><br /></td></tr>
-<tr class="separator:a89380141d25528c4c7ba6c365b96a878"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af47f192552544272774a29d7a0829a31"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31">stride</a> (int dim) const</td></tr>
-<tr class="memdesc:af47f192552544272774a29d7a0829a31"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor in the given dimension.  <a href="#af47f192552544272774a29d7a0829a31">More...</a><br /></td></tr>
-<tr class="separator:af47f192552544272774a29d7a0829a31"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8e1c61910ffb49ec64930f66dd342b77"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77">leading_dim</a> () const</td></tr>
-<tr class="memdesc:a8e1c61910ffb49ec64930f66dd342b77"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the maximum stride element as the 'leading dimension'.  <a href="#a8e1c61910ffb49ec64930f66dd342b77">More...</a><br /></td></tr>
-<tr class="separator:a8e1c61910ffb49ec64930f66dd342b77"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a02ee5d16ed4ce4705a99bb16b2ae1ae8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">offset</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;coord) const</td></tr>
-<tr class="memdesc:a02ee5d16ed4ce4705a99bb16b2ae1ae8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the offset of an index from the origin of the tensor.  <a href="#a02ee5d16ed4ce4705a99bb16b2ae1ae8">More...</a><br /></td></tr>
-<tr class="separator:a02ee5d16ed4ce4705a99bb16b2ae1ae8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7eff42a37e4dbee488bfa726f3f0df4f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">at</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;coord) const</td></tr>
-<tr class="memdesc:a7eff42a37e4dbee488bfa726f3f0df4f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="#a7eff42a37e4dbee488bfa726f3f0df4f">More...</a><br /></td></tr>
-<tr class="separator:a7eff42a37e4dbee488bfa726f3f0df4f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6a2aa88ed77557c089a165da0df1e974"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a6a2aa88ed77557c089a165da0df1e974">operator[]</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;coord) const</td></tr>
-<tr class="memdesc:a6a2aa88ed77557c089a165da0df1e974"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise accessor.  <a href="#a6a2aa88ed77557c089a165da0df1e974">More...</a><br /></td></tr>
-<tr class="separator:a6a2aa88ed77557c089a165da0df1e974"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5702dea703104ab431c098c7b039c215"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215">at</a> (int idx) const</td></tr>
-<tr class="memdesc:a5702dea703104ab431c098c7b039c215"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="#a5702dea703104ab431c098c7b039c215">More...</a><br /></td></tr>
-<tr class="separator:a5702dea703104ab431c098c7b039c215"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a34e97ab2190b4681d1c1199186d66f1c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c">operator[]</a> (int idx) const</td></tr>
-<tr class="memdesc:a34e97ab2190b4681d1c1199186d66f1c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise accessor.  <a href="#a34e97ab2190b4681d1c1199186d66f1c">More...</a><br /></td></tr>
-<tr class="separator:a34e97ab2190b4681d1c1199186d66f1c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aab0dafb81a462320e55e0dc4a5886478"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478">advance</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;b)</td></tr>
-<tr class="memdesc:aab0dafb81a462320e55e0dc4a5886478"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds an offset to the pointer.  <a href="#aab0dafb81a462320e55e0dc4a5886478">More...</a><br /></td></tr>
-<tr class="separator:aab0dafb81a462320e55e0dc4a5886478"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa7b80d225c01c9dc12aafc515cf15842"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842">operator+</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;b) const</td></tr>
-<tr class="memdesc:aa7b80d225c01c9dc12aafc515cf15842"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html" title="Structure modeling a pointer and stride into a tensor. ">TensorRef</a> offset by a given amount.  <a href="#aa7b80d225c01c9dc12aafc515cf15842">More...</a><br /></td></tr>
-<tr class="separator:aa7b80d225c01c9dc12aafc515cf15842"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3843ccfd1d097f25eff45dc159709938"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938">operator-</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;b) const</td></tr>
-<tr class="memdesc:a3843ccfd1d097f25eff45dc159709938"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html" title="Structure modeling a pointer and stride into a tensor. ">TensorRef</a> offset by a given amount.  <a href="#a3843ccfd1d097f25eff45dc159709938">More...</a><br /></td></tr>
-<tr class="separator:a3843ccfd1d097f25eff45dc159709938"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5a667a48c64fb916c31802b73b769765"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr=<a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>)</td></tr>
+<tr class="memdesc:a5a667a48c64fb916c31802b73b769765"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper for 1-D memory. All higher ranks are projected onto the fastest changing rank.  <a href="#a5a667a48c64fb916c31802b73b769765">More...</a><br /></td></tr>
+<tr class="separator:a5a667a48c64fb916c31802b73b769765"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a48b9b4ad9034f6cf2b7c2ee479aea135"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> ldm)</td></tr>
+<tr class="memdesc:a48b9b4ad9034f6cf2b7c2ee479aea135"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct from a pointer and single stride element for 2-D pitch linear memory.  <a href="#a48b9b4ad9034f6cf2b7c2ee479aea135">More...</a><br /></td></tr>
+<tr class="separator:a48b9b4ad9034f6cf2b7c2ee479aea135"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afe4fc6fa539f36b2764707d50351905c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>)</td></tr>
+<tr class="memdesc:afe4fc6fa539f36b2764707d50351905c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from a single pointer and stride vector.  <a href="#afe4fc6fa539f36b2764707d50351905c">More...</a><br /></td></tr>
+<tr class="separator:afe4fc6fa539f36b2764707d50351905c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeca439296c8446741ba84b78f5a601e0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>)</td></tr>
+<tr class="separator:aeca439296c8446741ba84b78f5a601e0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afe92be0a61fb8fc84426f4907faca6c1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &gt;::type, <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a>, <a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> &gt; const &amp;ref)</td></tr>
+<tr class="memdesc:afe92be0a61fb8fc84426f4907faca6c1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Enables conversion from <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> of non-const type.  <a href="#afe92be0a61fb8fc84426f4907faca6c1">More...</a><br /></td></tr>
+<tr class="separator:afe92be0a61fb8fc84426f4907faca6c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6ab468e38773f5a971a8428673fb5e47"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">const_ref</a> () const</td></tr>
+<tr class="memdesc:a6ab468e38773f5a971a8428673fb5e47"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to constant-valued tensor.  <a href="#a6ab468e38773f5a971a8428673fb5e47">More...</a><br /></td></tr>
+<tr class="separator:a6ab468e38773f5a971a8428673fb5e47"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ec815838aed4e02dd96acb1000614c0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">reset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr=<a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>)</td></tr>
+<tr class="memdesc:a7ec815838aed4e02dd96acb1000614c0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates only the pointer.  <a href="#a7ec815838aed4e02dd96acb1000614c0">More...</a><br /></td></tr>
+<tr class="separator:a7ec815838aed4e02dd96acb1000614c0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7a1da27a46883eb68e3f8983670b784b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">reset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>)</td></tr>
+<tr class="memdesc:a7a1da27a46883eb68e3f8983670b784b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates the pointer, stride, and location within a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>.  <a href="#a7a1da27a46883eb68e3f8983670b784b">More...</a><br /></td></tr>
+<tr class="separator:a7a1da27a46883eb68e3f8983670b784b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2dbee889626b4764d30e9058ef3a7ae8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">good</a> () const</td></tr>
+<tr class="memdesc:a2dbee889626b4764d30e9058ef3a7ae8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if the <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> may be safely accessed.  <a href="#a2dbee889626b4764d30e9058ef3a7ae8">More...</a><br /></td></tr>
+<tr class="separator:a2dbee889626b4764d30e9058ef3a7ae8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae1c80b524cd9491e2d499d703e1459f7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">data</a> () const</td></tr>
+<tr class="memdesc:ae1c80b524cd9491e2d499d703e1459f7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the pointer to referenced data.  <a href="#ae1c80b524cd9491e2d499d703e1459f7">More...</a><br /></td></tr>
+<tr class="separator:ae1c80b524cd9491e2d499d703e1459f7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adb52dd6f9f68e7b8b67b8ddfb5c0021c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a> () const</td></tr>
+<tr class="memdesc:adb52dd6f9f68e7b8b67b8ddfb5c0021c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor.  <a href="#adb52dd6f9f68e7b8b67b8ddfb5c0021c">More...</a><br /></td></tr>
+<tr class="separator:adb52dd6f9f68e7b8b67b8ddfb5c0021c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa6956072f1231b79fe8925a78c4760b7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">stride</a> (int dim) const</td></tr>
+<tr class="memdesc:aa6956072f1231b79fe8925a78c4760b7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor in the given dimension.  <a href="#aa6956072f1231b79fe8925a78c4760b7">More...</a><br /></td></tr>
+<tr class="separator:aa6956072f1231b79fe8925a78c4760b7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa60b92372db1da1d2aa997d6a03e01ca"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">leading_dim</a> (int idx=0) const</td></tr>
+<tr class="memdesc:aa60b92372db1da1d2aa997d6a03e01ca"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the maximum stride element as the 'leading dimension'.  <a href="#aa60b92372db1da1d2aa997d6a03e01ca">More...</a><br /></td></tr>
+<tr class="separator:aa60b92372db1da1d2aa997d6a03e01ca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07dfe328d4a8316e79e9acde50582360"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">map</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a07dfe328d4a8316e79e9acde50582360"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps a logical coordinate to an n-D array in memory.  <a href="#a07dfe328d4a8316e79e9acde50582360">More...</a><br /></td></tr>
+<tr class="separator:a07dfe328d4a8316e79e9acde50582360"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4da903ecbeaaf80c35084e8779e920a1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a4da903ecbeaaf80c35084e8779e920a1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the offset of an index from the origin of the tensor.  <a href="#a4da903ecbeaaf80c35084e8779e920a1">More...</a><br /></td></tr>
+<tr class="separator:a4da903ecbeaaf80c35084e8779e920a1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4169a1344897c2c87822ee49d5e0002f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">at</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a4169a1344897c2c87822ee49d5e0002f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="#a4169a1344897c2c87822ee49d5e0002f">More...</a><br /></td></tr>
+<tr class="separator:a4169a1344897c2c87822ee49d5e0002f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab0cf071be50423dece4e931878573a1c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">at</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> idx) const</td></tr>
+<tr class="memdesc:ab0cf071be50423dece4e931878573a1c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given linear index.  <a href="#ab0cf071be50423dece4e931878573a1c">More...</a><br /></td></tr>
+<tr class="separator:ab0cf071be50423dece4e931878573a1c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada832ce3a57aaf4919b1ed89192f1fa6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">operator[]</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:ada832ce3a57aaf4919b1ed89192f1fa6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="#ada832ce3a57aaf4919b1ed89192f1fa6">More...</a><br /></td></tr>
+<tr class="separator:ada832ce3a57aaf4919b1ed89192f1fa6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a207a0dabf6c368fa1edcb32baa2110e3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">operator[]</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> idx) const</td></tr>
+<tr class="memdesc:a207a0dabf6c368fa1edcb32baa2110e3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given linear index.  <a href="#a207a0dabf6c368fa1edcb32baa2110e3">More...</a><br /></td></tr>
+<tr class="separator:a207a0dabf6c368fa1edcb32baa2110e3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5f0363da1e0544f256438e066d3cc143"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> delta)</td></tr>
+<tr class="memdesc:a5f0363da1e0544f256438e066d3cc143"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds an offset to each pointer.  <a href="#a5f0363da1e0544f256438e066d3cc143">More...</a><br /></td></tr>
+<tr class="separator:a5f0363da1e0544f256438e066d3cc143"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0a4fd9ace579b46bc9d575b8adc6882f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">operator+</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a0a4fd9ace579b46bc9d575b8adc6882f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#a0a4fd9ace579b46bc9d575b8adc6882f">More...</a><br /></td></tr>
+<tr class="separator:a0a4fd9ace579b46bc9d575b8adc6882f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a727d9c25d6df0aa9e795123b638b9306"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">operator+=</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a727d9c25d6df0aa9e795123b638b9306"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#a727d9c25d6df0aa9e795123b638b9306">More...</a><br /></td></tr>
+<tr class="separator:a727d9c25d6df0aa9e795123b638b9306"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4a56b323aed2a3b2c843c276b68378fa"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">operator-</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a4a56b323aed2a3b2c843c276b68378fa"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#a4a56b323aed2a3b2c843c276b68378fa">More...</a><br /></td></tr>
+<tr class="separator:a4a56b323aed2a3b2c843c276b68378fa"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5b5af26da32278d19c27c0d5a4a18890"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">operator-=</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a5b5af26da32278d19c27c0d5a4a18890"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#a5b5af26da32278d19c27c0d5a4a18890">More...</a><br /></td></tr>
+<tr class="separator:a5b5af26da32278d19c27c0d5a4a18890"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
-<tr class="memitem:a22ac53a60e63a743613e732586ad0c66"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> = Rank_</td></tr>
-<tr class="memdesc:a22ac53a60e63a743613e732586ad0c66"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of tensor.  <a href="#a22ac53a60e63a743613e732586ad0c66">More...</a><br /></td></tr>
-<tr class="separator:a22ac53a60e63a743613e732586ad0c66"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a429692d4ac03a3427fbd8fdfaac4ae31"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a> = Rank_</td></tr>
+<tr class="memdesc:a429692d4ac03a3427fbd8fdfaac4ae31"><td class="mdescLeft">&#160;</td><td class="mdescRight">Logical rank of tensor index space.  <a href="#a429692d4ac03a3427fbd8fdfaac4ae31">More...</a><br /></td></tr>
+<tr class="separator:a429692d4ac03a3427fbd8fdfaac4ae31"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a425ff3d894ed1153eee79b1944fa5ed2"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> = StorageRank_</td></tr>
+<tr class="memdesc:a425ff3d894ed1153eee79b1944fa5ed2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of internal storage.  <a href="#a425ff3d894ed1153eee79b1944fa5ed2">More...</a><br /></td></tr>
+<tr class="separator:a425ff3d894ed1153eee79b1944fa5ed2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2088b39881deef375af08511bca1e90a"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">Rank</a> = <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a></td></tr>
+<tr class="memdesc:a2088b39881deef375af08511bca1e90a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Logical rank of tensor index space.  <a href="#a2088b39881deef375af08511bca1e90a">More...</a><br /></td></tr>
+<tr class="separator:a2088b39881deef375af08511bca1e90a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a604921388cb7ee18ddb8127b8ca2f7fd"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a604921388cb7ee18ddb8127b8ca2f7fd">&#9670;&nbsp;</a></span>Storage</h2>
+<a id="a8281d11677512d6e229504ab4babad17"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8281d11677512d6e229504ab4babad17">&#9670;&nbsp;</a></span>ConstTensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt;<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>&gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a758f24783e36ffc393b360d0b8640bc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a758f24783e36ffc393b360d0b8640bc6">&#9670;&nbsp;</a></span>Coord_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">Coord_t</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Require at least rank=1. Mathematically, a rank=0 tensor would be considered to be a scalar, but degenerate cases such as these are difficult to accommodate without extensive C++ metaprogramming or support for zero-length arrays. </p>
+
+</div>
+</div>
+<a id="a2beda7a1946bde2858e730bece21b890"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2beda7a1946bde2858e730bece21b890">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Index_ <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a42ca6a39ab0e44296fed71a77c57b7b1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a42ca6a39ab0e44296fed71a77c57b7b1">&#9670;&nbsp;</a></span>LongIndex</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef LongIndex_ <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad0273300d26125278b6930b1e463ff29"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0273300d26125278b6930b1e463ff29">&#9670;&nbsp;</a></span>MapFunc</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef MapFunc_ <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad327edfe1f8085632ff682d354922009"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad327edfe1f8085632ff682d354922009">&#9670;&nbsp;</a></span>Storage</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Storage_ <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a455a2df539b53086699c210d06df1c5d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a455a2df539b53086699c210d06df1c5d">&#9670;&nbsp;</a></span>StorageCoord</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a>&gt; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07c4b1ace7c8799537553b54cfe0a059"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07c4b1ace7c8799537553b54cfe0a059">&#9670;&nbsp;</a></span>StrideVector</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Storage_ <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1&gt; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Stride vector in storage coordinage space - assumes least significant stride is 1 and does not store it. </p>
+
+</div>
+</div>
+<a id="a35b7e1fc59298e0f06f484652d62fd65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a35b7e1fc59298e0f06f484652d62fd65">&#9670;&nbsp;</a></span>TensorCoord</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a>&gt; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -172,21 +357,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a604921388cb7ee18ddb8127b
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="a54f6edc293b0b8ac97f02e8ab951c478"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a54f6edc293b0b8ac97f02e8ab951c478">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[1/2]</span></h2>
+<a id="a5a667a48c64fb916c31802b73b769765"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a667a48c64fb916c31802b73b769765">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[1/5]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em> = <code><a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a></code></td><td>)</td>
           <td></td>
         </tr>
       </table>
@@ -199,27 +385,103 @@ <h2 class="memtitle"><span class="permalink"><a href="#a54f6edc293b0b8ac97f02e8a
 
 </div>
 </div>
-<a id="ae48325312183ff61dbd312c64f31fcb8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae48325312183ff61dbd312c64f31fcb8">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[2/2]</span></h2>
+<a id="a48b9b4ad9034f6cf2b7c2ee479aea135"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a48b9b4ad9034f6cf2b7c2ee479aea135">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[2/5]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> *&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td>
           <td class="paramname"><em>ptr</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt;&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td>
+          <td class="paramname"><em>ldm</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afe4fc6fa539f36b2764707d50351905c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe4fc6fa539f36b2764707d50351905c">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a> const &amp;&#160;</td>
+          <td class="paramname"><em>stride</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeca439296c8446741ba84b78f5a601e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeca439296c8446741ba84b78f5a601e0">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> const &amp;&#160;</td>
           <td class="paramname"><em>stride</em>&#160;</td>
         </tr>
         <tr>
@@ -234,26 +496,55 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae48325312183ff61dbd312c6
   </tr>
 </table>
 </div><div class="memdoc">
+<p>Constructs from a pointer and a stride vector of size kRank. If fastest changing stride is not 1, construction fails and subsequent calls to <a class="el" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8" title="Returns true if the TensorRef may be safely accessed. ">good()</a> will return false. </p>
+
+</div>
+</div>
+<a id="afe92be0a61fb8fc84426f4907faca6c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe92be0a61fb8fc84426f4907faca6c1">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &gt;::type, <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a>, <a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
 
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="aab0dafb81a462320e55e0dc4a5886478"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aab0dafb81a462320e55e0dc4a5886478">&#9670;&nbsp;</a></span>advance()</h2>
+<a id="a5f0363da1e0544f256438e066d3cc143"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5f0363da1e0544f256438e066d3cc143">&#9670;&nbsp;</a></span>add_pointer_offset()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::advance </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::add_pointer_offset </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>b</em></td><td>)</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&#160;</td>
+          <td class="paramname"><em>delta</em></td><td>)</td>
           <td></td>
         </tr>
       </table>
@@ -266,21 +557,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#aab0dafb81a462320e55e0dc4
 
 </div>
 </div>
-<a id="a7eff42a37e4dbee488bfa726f3f0df4f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7eff42a37e4dbee488bfa726f3f0df4f">&#9670;&nbsp;</a></span>at() <span class="overload">[1/2]</span></h2>
+<a id="a4169a1344897c2c87822ee49d5e0002f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4169a1344897c2c87822ee49d5e0002f">&#9670;&nbsp;</a></span>at() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::at </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
           <td class="paramname"><em>coord</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -294,21 +585,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7eff42a37e4dbee488bfa726
 
 </div>
 </div>
-<a id="a5702dea703104ab431c098c7b039c215"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5702dea703104ab431c098c7b039c215">&#9670;&nbsp;</a></span>at() <span class="overload">[2/2]</span></h2>
+<a id="ab0cf071be50423dece4e931878573a1c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab0cf071be50423dece4e931878573a1c">&#9670;&nbsp;</a></span>at() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::at </td>
           <td>(</td>
-          <td class="paramtype">int&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&#160;</td>
           <td class="paramname"><em>idx</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -322,24 +613,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5702dea703104ab431c098c7
 
 </div>
 </div>
-<a id="a7eb4444e2b3fce5a5ccde65a75df633c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7eb4444e2b3fce5a5ccde65a75df633c">&#9670;&nbsp;</a></span>convert()</h2>
+<a id="a6ab468e38773f5a971a8428673fb5e47"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6ab468e38773f5a971a8428673fb5e47">&#9670;&nbsp;</a></span>const_ref()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
-<div class="memtemplate">
-template&lt;typename T &gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;T, <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a>&gt; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::convert </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::const_ref </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
-          <td></td>
+          <td> const</td>
         </tr>
       </table>
   </td>
@@ -351,19 +640,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7eb4444e2b3fce5a5ccde65a
 
 </div>
 </div>
-<a id="a8e23c78658f45c6f197a1774cc85c5b7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8e23c78658f45c6f197a1774cc85c5b7">&#9670;&nbsp;</a></span>data()</h2>
+<a id="ae1c80b524cd9491e2d499d703e1459f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae1c80b524cd9491e2d499d703e1459f7">&#9670;&nbsp;</a></span>data()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>* <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::data </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>* <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::data </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td> const</td>
@@ -378,19 +667,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8e23c78658f45c6f197a1774
 
 </div>
 </div>
-<a id="a0c049e523ee0fc98769ed8cd2d026780"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0c049e523ee0fc98769ed8cd2d026780">&#9670;&nbsp;</a></span>good()</h2>
+<a id="a2dbee889626b4764d30e9058ef3a7ae8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2dbee889626b4764d30e9058ef3a7ae8">&#9670;&nbsp;</a></span>good()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::good </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::good </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td> const</td>
@@ -405,21 +694,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0c049e523ee0fc98769ed8cd
 
 </div>
 </div>
-<a id="a8e1c61910ffb49ec64930f66dd342b77"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8e1c61910ffb49ec64930f66dd342b77">&#9670;&nbsp;</a></span>leading_dim()</h2>
+<a id="aa60b92372db1da1d2aa997d6a03e01ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa60b92372db1da1d2aa997d6a03e01ca">&#9670;&nbsp;</a></span>leading_dim()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::leading_dim </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::leading_dim </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>idx</em> = <code>0</code></td><td>)</td>
           <td> const</td>
         </tr>
       </table>
@@ -432,21 +722,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8e1c61910ffb49ec64930f66
 
 </div>
 </div>
-<a id="a02ee5d16ed4ce4705a99bb16b2ae1ae8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a02ee5d16ed4ce4705a99bb16b2ae1ae8">&#9670;&nbsp;</a></span>offset()</h2>
+<a id="a07dfe328d4a8316e79e9acde50582360"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07dfe328d4a8316e79e9acde50582360">&#9670;&nbsp;</a></span>map()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> long long <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::offset </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::map </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
           <td class="paramname"><em>coord</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -460,21 +750,49 @@ <h2 class="memtitle"><span class="permalink"><a href="#a02ee5d16ed4ce4705a99bb16
 
 </div>
 </div>
-<a id="aa7b80d225c01c9dc12aafc515cf15842"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa7b80d225c01c9dc12aafc515cf15842">&#9670;&nbsp;</a></span>operator+()</h2>
+<a id="a4da903ecbeaaf80c35084e8779e920a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4da903ecbeaaf80c35084e8779e920a1">&#9670;&nbsp;</a></span>offset()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::operator+ </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::offset </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0a4fd9ace579b46bc9d575b8adc6882f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0a4fd9ace579b46bc9d575b8adc6882f">&#9670;&nbsp;</a></span>operator+()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator+ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -488,21 +806,49 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa7b80d225c01c9dc12aafc51
 
 </div>
 </div>
-<a id="a3843ccfd1d097f25eff45dc159709938"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3843ccfd1d097f25eff45dc159709938">&#9670;&nbsp;</a></span>operator-()</h2>
+<a id="a727d9c25d6df0aa9e795123b638b9306"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a727d9c25d6df0aa9e795123b638b9306">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4a56b323aed2a3b2c843c276b68378fa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4a56b323aed2a3b2c843c276b68378fa">&#9670;&nbsp;</a></span>operator-()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::operator- </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator- </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -516,21 +862,49 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3843ccfd1d097f25eff45dc1
 
 </div>
 </div>
-<a id="a6a2aa88ed77557c089a165da0df1e974"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6a2aa88ed77557c089a165da0df1e974">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+<a id="a5b5af26da32278d19c27c0d5a4a18890"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5b5af26da32278d19c27c0d5a4a18890">&#9670;&nbsp;</a></span>operator-=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator-= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ada832ce3a57aaf4919b1ed89192f1fa6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada832ce3a57aaf4919b1ed89192f1fa6">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator[] </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
           <td class="paramname"><em>coord</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -544,21 +918,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6a2aa88ed77557c089a165da
 
 </div>
 </div>
-<a id="a34e97ab2190b4681d1c1199186d66f1c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a34e97ab2190b4681d1c1199186d66f1c">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+<a id="a207a0dabf6c368fa1edcb32baa2110e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a207a0dabf6c368fa1edcb32baa2110e3">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator[] </td>
           <td>(</td>
-          <td class="paramtype">int&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&#160;</td>
           <td class="paramname"><em>idx</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -572,28 +946,56 @@ <h2 class="memtitle"><span class="permalink"><a href="#a34e97ab2190b4681d1c11991
 
 </div>
 </div>
-<a id="abefe392e81da2c09cb127f963ae90674"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abefe392e81da2c09cb127f963ae90674">&#9670;&nbsp;</a></span>reset()</h2>
+<a id="a7ec815838aed4e02dd96acb1000614c0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7ec815838aed4e02dd96acb1000614c0">&#9670;&nbsp;</a></span>reset() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::reset </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::reset </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> *&#160;</td>
-          <td class="paramname"><em>ptr</em> = <code><a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a></code>, </td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em> = <code><a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a></code></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7a1da27a46883eb68e3f8983670b784b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7a1da27a46883eb68e3f8983670b784b">&#9670;&nbsp;</a></span>reset() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::reset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt;&#160;</td>
-          <td class="paramname"><em>stride</em> = <code><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a>&gt;(0)</code>&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>stride</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -610,19 +1012,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#abefe392e81da2c09cb127f96
 
 </div>
 </div>
-<a id="a89380141d25528c4c7ba6c365b96a878"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a89380141d25528c4c7ba6c365b96a878">&#9670;&nbsp;</a></span>stride() <span class="overload">[1/2]</span></h2>
+<a id="adb52dd6f9f68e7b8b67b8ddfb5c0021c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adb52dd6f9f68e7b8b67b8ddfb5c0021c">&#9670;&nbsp;</a></span>stride() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a>&gt; const&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::stride </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::stride </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td> const</td>
@@ -637,19 +1039,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a89380141d25528c4c7ba6c36
 
 </div>
 </div>
-<a id="af47f192552544272774a29d7a0829a31"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af47f192552544272774a29d7a0829a31">&#9670;&nbsp;</a></span>stride() <span class="overload">[2/2]</span></h2>
+<a id="aa6956072f1231b79fe8925a78c4760b7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6956072f1231b79fe8925a78c4760b7">&#9670;&nbsp;</a></span>stride() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::stride </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::stride </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>dim</em></td><td>)</td>
@@ -666,19 +1068,67 @@ <h2 class="memtitle"><span class="permalink"><a href="#af47f192552544272774a29d7
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="a22ac53a60e63a743613e732586ad0c66"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a22ac53a60e63a743613e732586ad0c66">&#9670;&nbsp;</a></span>Rank</h2>
+<a id="a429692d4ac03a3427fbd8fdfaac4ae31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a429692d4ac03a3427fbd8fdfaac4ae31">&#9670;&nbsp;</a></span>kRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::kRank = Rank_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a425ff3d894ed1153eee79b1944fa5ed2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a425ff3d894ed1153eee79b1944fa5ed2">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::kStorageRank = StorageRank_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2088b39881deef375af08511bca1e90a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2088b39881deef375af08511bca1e90a">&#9670;&nbsp;</a></span>Rank</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Storage_, int Rank_&gt; </div>
+template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_ &gt;::Rank = Rank_</td>
+          <td class="memname">int const <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::Rank = <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a></td>
         </tr>
       </table>
   </td>
@@ -696,7 +1146,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a22ac53a60e63a743613e7325
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classcutlass_1_1TensorRef.png b/docs/classcutlass_1_1TensorRef.png
new file mode 100644
index 0000000000..f8caaa61d0
Binary files /dev/null and b/docs/classcutlass_1_1TensorRef.png differ
diff --git a/docs/classcutlass_1_1TensorRefArray_1_1ConstIterator-members.html b/docs/classcutlass_1_1TensorRefArray_1_1ConstIterator-members.html
new file mode 100644
index 0000000000..44c118956d
--- /dev/null
+++ b/docs/classcutlass_1_1TensorRefArray_1_1ConstIterator-members.html
@@ -0,0 +1,101 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a></li><li class="navelem"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541">ConstIterator</a>(TensorArrayRef const &amp;ref, int idx=0)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">operator</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a9fcd43018e60f12cb328859c76ec7891">operator+</a>(Index idx)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a8ce80124ab0f4ab9981f1a4d64d976a5">operator++</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a051f34d90c0680dc5f4e4e1c4d79e929">operator++</a>(int)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a22b87d281057c8e03b80db7046c54dd8">operator+=</a>(Index idx)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a143ec893406d930aa4c5aa860052197e">operator-</a>(Index idx)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a0f395558e2c589ac48179447a23b59d8">operator--</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ac9019febbc8b6bfea06ac4d23d253d57">operator--</a>(int)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ae3561f863072cd7be7dcdee2cb5cc1f0">operator-=</a>(Index idx)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">TensorRef</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1TensorRefArray_1_1ConstIterator.html b/docs/classcutlass_1_1TensorRefArray_1_1ConstIterator.html
new file mode 100644
index 0000000000..aa40085cb9
--- /dev/null
+++ b/docs/classcutlass_1_1TensorRefArray_1_1ConstIterator.html
@@ -0,0 +1,440 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator Class Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a></li><li class="navelem"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="classcutlass_1_1TensorRefArray_1_1ConstIterator-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator Class Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>TensorRefIterator over <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> objects in <a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a>.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tensor__ref__collection_8h_source.html">tensor_ref_collection.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ad19f348ecb951eae63a3ef2c47d34f4f"><td class="memItemLeft" align="right" valign="top">typedef Base&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">TensorRef</a></td></tr>
+<tr class="memdesc:ad19f348ecb951eae63a3ef2c47d34f4f"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> returned by the iterator.  <a href="#ad19f348ecb951eae63a3ef2c47d34f4f">More...</a><br /></td></tr>
+<tr class="separator:ad19f348ecb951eae63a3ef2c47d34f4f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a45331031771aeb9f71d5c1abdf42e541"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541">ConstIterator</a> (<a class="el" href="structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109">TensorArrayRef</a> const &amp;ref, int idx=0)</td></tr>
+<tr class="memdesc:a45331031771aeb9f71d5c1abdf42e541"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html" title="TensorRefIterator over TensorRef objects in TensorRefArray. ">ConstIterator</a> over the <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> objects.  <a href="#a45331031771aeb9f71d5c1abdf42e541">More...</a><br /></td></tr>
+<tr class="separator:a45331031771aeb9f71d5c1abdf42e541"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa6e59a5ecb15c9842c5ee80cc168f679"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">TensorRef</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">operator</a> () const</td></tr>
+<tr class="memdesc:aa6e59a5ecb15c9842c5ee80cc168f679"><td class="mdescLeft">&#160;</td><td class="mdescRight">Obtains a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> pointed to by this iterator.  <a href="#aa6e59a5ecb15c9842c5ee80cc168f679">More...</a><br /></td></tr>
+<tr class="separator:aa6e59a5ecb15c9842c5ee80cc168f679"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8ce80124ab0f4ab9981f1a4d64d976a5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a8ce80124ab0f4ab9981f1a4d64d976a5">operator++</a> ()</td></tr>
+<tr class="memdesc:a8ce80124ab0f4ab9981f1a4d64d976a5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Advances to next <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>.  <a href="#a8ce80124ab0f4ab9981f1a4d64d976a5">More...</a><br /></td></tr>
+<tr class="separator:a8ce80124ab0f4ab9981f1a4d64d976a5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a051f34d90c0680dc5f4e4e1c4d79e929"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a051f34d90c0680dc5f4e4e1c4d79e929">operator++</a> (int)</td></tr>
+<tr class="memdesc:a051f34d90c0680dc5f4e4e1c4d79e929"><td class="mdescLeft">&#160;</td><td class="mdescRight">Advances to next <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>.  <a href="#a051f34d90c0680dc5f4e4e1c4d79e929">More...</a><br /></td></tr>
+<tr class="separator:a051f34d90c0680dc5f4e4e1c4d79e929"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9fcd43018e60f12cb328859c76ec7891"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a9fcd43018e60f12cb328859c76ec7891">operator+</a> (<a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> idx)</td></tr>
+<tr class="separator:a9fcd43018e60f12cb328859c76ec7891"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a22b87d281057c8e03b80db7046c54dd8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a22b87d281057c8e03b80db7046c54dd8">operator+=</a> (<a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> idx)</td></tr>
+<tr class="separator:a22b87d281057c8e03b80db7046c54dd8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0f395558e2c589ac48179447a23b59d8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a0f395558e2c589ac48179447a23b59d8">operator--</a> ()</td></tr>
+<tr class="separator:a0f395558e2c589ac48179447a23b59d8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac9019febbc8b6bfea06ac4d23d253d57"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ac9019febbc8b6bfea06ac4d23d253d57">operator--</a> (int)</td></tr>
+<tr class="memdesc:ac9019febbc8b6bfea06ac4d23d253d57"><td class="mdescLeft">&#160;</td><td class="mdescRight">Advances to next <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>.  <a href="#ac9019febbc8b6bfea06ac4d23d253d57">More...</a><br /></td></tr>
+<tr class="separator:ac9019febbc8b6bfea06ac4d23d253d57"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae3561f863072cd7be7dcdee2cb5cc1f0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ae3561f863072cd7be7dcdee2cb5cc1f0">operator-=</a> (<a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> idx)</td></tr>
+<tr class="separator:ae3561f863072cd7be7dcdee2cb5cc1f0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a143ec893406d930aa4c5aa860052197e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a143ec893406d930aa4c5aa860052197e">operator-</a> (<a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> idx)</td></tr>
+<tr class="separator:a143ec893406d930aa4c5aa860052197e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ad19f348ecb951eae63a3ef2c47d34f4f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad19f348ecb951eae63a3ef2c47d34f4f">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Base <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">ConstIterator::TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a45331031771aeb9f71d5c1abdf42e541"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a45331031771aeb9f71d5c1abdf42e541">&#9670;&nbsp;</a></span>ConstIterator()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator::ConstIterator </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109">TensorArrayRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>idx</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="aa6e59a5ecb15c9842c5ee80cc168f679"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6e59a5ecb15c9842c5ee80cc168f679">&#9670;&nbsp;</a></span>operator()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">TensorRef</a>* <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator::operator </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9fcd43018e60f12cb328859c76ec7891"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9fcd43018e60f12cb328859c76ec7891">&#9670;&nbsp;</a></span>operator+()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">ConstIterator::operator</a>+ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8ce80124ab0f4ab9981f1a4d64d976a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ce80124ab0f4ab9981f1a4d64d976a5">&#9670;&nbsp;</a></span>operator++() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a>&amp; <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">ConstIterator::operator</a>++ </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a051f34d90c0680dc5f4e4e1c4d79e929"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a051f34d90c0680dc5f4e4e1c4d79e929">&#9670;&nbsp;</a></span>operator++() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">ConstIterator::operator</a>++ </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a22b87d281057c8e03b80db7046c54dd8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a22b87d281057c8e03b80db7046c54dd8">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a>&amp; <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">ConstIterator::operator</a>+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a143ec893406d930aa4c5aa860052197e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a143ec893406d930aa4c5aa860052197e">&#9670;&nbsp;</a></span>operator-()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">ConstIterator::operator</a>- </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f395558e2c589ac48179447a23b59d8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f395558e2c589ac48179447a23b59d8">&#9670;&nbsp;</a></span>operator--() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a>&amp; <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">ConstIterator::operator</a>-- </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac9019febbc8b6bfea06ac4d23d253d57"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac9019febbc8b6bfea06ac4d23d253d57">&#9670;&nbsp;</a></span>operator--() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">ConstIterator::operator</a>-- </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae3561f863072cd7be7dcdee2cb5cc1f0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae3561f863072cd7be7dcdee2cb5cc1f0">&#9670;&nbsp;</a></span>operator-=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a>&amp; <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">ConstIterator::operator</a>-= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li><a class="el" href="tensor__ref__collection_8h_source.html">tensor_ref_collection.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator-members.html b/docs/classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator-members.html
new file mode 100644
index 0000000000..bb3876187e
--- /dev/null
+++ b/docs/classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator-members.html
@@ -0,0 +1,102 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a></li><li class="navelem"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed">ConstIterator</a>(TensorRefBatchStrided const &amp;ref, LongIndex offset=0)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">operator</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a1d48f4fea3fa85a7bf1b26b421387afd">operator+</a>(Index idx)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a3481d6f41defd25ab574bb19ee5fe424">operator++</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#aca860ff7f125e02f35c7dc174e84708d">operator++</a>(int)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab07a5d1a4ec6d96ec53e868b3a6d7cae">operator+=</a>(Index idx)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad1d8099e8d63b6d88c53738ec68a7589">operator-</a>(Index idx)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab92bc090d6753ff5e17676ba85a1e478">operator-</a>(ConstIterator const &amp;it)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad5290f0e7814892cb4fff55e9518562b">operator--</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a09909fbe2e4365b5f34ddb61658f27b3">operator--</a>(int)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ac4018b51e78842fb252d6917738fa571">operator-=</a>(Index idx)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">TensorRef</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html b/docs/classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html
new file mode 100644
index 0000000000..c3dbd9dfc8
--- /dev/null
+++ b/docs/classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html
@@ -0,0 +1,476 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator Class Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a></li><li class="navelem"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator Class Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Constant iterator over tensors implied by <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a>.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tensor__ref__collection_8h_source.html">tensor_ref_collection.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a5557f98c75b51751f834c4a7d6385efc"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">Base</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">TensorRef</a></td></tr>
+<tr class="memdesc:a5557f98c75b51751f834c4a7d6385efc"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> returned by the iterator.  <a href="#a5557f98c75b51751f834c4a7d6385efc">More...</a><br /></td></tr>
+<tr class="separator:a5557f98c75b51751f834c4a7d6385efc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a28da80c1ba56e354ddb9352b54b231ed"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed">ConstIterator</a> (<a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a> const &amp;ref, <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> <a class="el" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>=0)</td></tr>
+<tr class="memdesc:a28da80c1ba56e354ddb9352b54b231ed"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html" title="Constant iterator over tensors implied by TensorRefBatchStrided. ">ConstIterator</a> from a parent <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a>.  <a href="#a28da80c1ba56e354ddb9352b54b231ed">More...</a><br /></td></tr>
+<tr class="separator:a28da80c1ba56e354ddb9352b54b231ed"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab0ea61995928c0935ec03c260463ef15"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">TensorRef</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">operator</a> () const</td></tr>
+<tr class="memdesc:ab0ea61995928c0935ec03c260463ef15"><td class="mdescLeft">&#160;</td><td class="mdescRight">Obtains a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> pointed to by the iterator.  <a href="#ab0ea61995928c0935ec03c260463ef15">More...</a><br /></td></tr>
+<tr class="separator:ab0ea61995928c0935ec03c260463ef15"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3481d6f41defd25ab574bb19ee5fe424"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a3481d6f41defd25ab574bb19ee5fe424">operator++</a> ()</td></tr>
+<tr class="memdesc:a3481d6f41defd25ab574bb19ee5fe424"><td class="mdescLeft">&#160;</td><td class="mdescRight">Advances the iterator to point to the next tensor.  <a href="#a3481d6f41defd25ab574bb19ee5fe424">More...</a><br /></td></tr>
+<tr class="separator:a3481d6f41defd25ab574bb19ee5fe424"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aca860ff7f125e02f35c7dc174e84708d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#aca860ff7f125e02f35c7dc174e84708d">operator++</a> (int)</td></tr>
+<tr class="memdesc:aca860ff7f125e02f35c7dc174e84708d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Advances the iterator to point to the next tensor.  <a href="#aca860ff7f125e02f35c7dc174e84708d">More...</a><br /></td></tr>
+<tr class="separator:aca860ff7f125e02f35c7dc174e84708d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1d48f4fea3fa85a7bf1b26b421387afd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a1d48f4fea3fa85a7bf1b26b421387afd">operator+</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx)</td></tr>
+<tr class="memdesc:a1d48f4fea3fa85a7bf1b26b421387afd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns an iterator advanced by (idx) amount.  <a href="#a1d48f4fea3fa85a7bf1b26b421387afd">More...</a><br /></td></tr>
+<tr class="separator:a1d48f4fea3fa85a7bf1b26b421387afd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab07a5d1a4ec6d96ec53e868b3a6d7cae"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab07a5d1a4ec6d96ec53e868b3a6d7cae">operator+=</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx)</td></tr>
+<tr class="memdesc:ab07a5d1a4ec6d96ec53e868b3a6d7cae"><td class="mdescLeft">&#160;</td><td class="mdescRight">Advances this iterator by (idx) and returns a reference to self.  <a href="#ab07a5d1a4ec6d96ec53e868b3a6d7cae">More...</a><br /></td></tr>
+<tr class="separator:ab07a5d1a4ec6d96ec53e868b3a6d7cae"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad5290f0e7814892cb4fff55e9518562b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad5290f0e7814892cb4fff55e9518562b">operator--</a> ()</td></tr>
+<tr class="memdesc:ad5290f0e7814892cb4fff55e9518562b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Moves to the previous tensor.  <a href="#ad5290f0e7814892cb4fff55e9518562b">More...</a><br /></td></tr>
+<tr class="separator:ad5290f0e7814892cb4fff55e9518562b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a09909fbe2e4365b5f34ddb61658f27b3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a09909fbe2e4365b5f34ddb61658f27b3">operator--</a> (int)</td></tr>
+<tr class="memdesc:a09909fbe2e4365b5f34ddb61658f27b3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Moves to the previous tensor.  <a href="#a09909fbe2e4365b5f34ddb61658f27b3">More...</a><br /></td></tr>
+<tr class="separator:a09909fbe2e4365b5f34ddb61658f27b3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad1d8099e8d63b6d88c53738ec68a7589"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad1d8099e8d63b6d88c53738ec68a7589">operator-</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx)</td></tr>
+<tr class="memdesc:ad1d8099e8d63b6d88c53738ec68a7589"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns an iterator moved forward by (idx) amount.  <a href="#ad1d8099e8d63b6d88c53738ec68a7589">More...</a><br /></td></tr>
+<tr class="separator:ad1d8099e8d63b6d88c53738ec68a7589"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac4018b51e78842fb252d6917738fa571"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ac4018b51e78842fb252d6917738fa571">operator-=</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx)</td></tr>
+<tr class="memdesc:ac4018b51e78842fb252d6917738fa571"><td class="mdescLeft">&#160;</td><td class="mdescRight">Moves this iterator by (idx) and returns a reference to self.  <a href="#ac4018b51e78842fb252d6917738fa571">More...</a><br /></td></tr>
+<tr class="separator:ac4018b51e78842fb252d6917738fa571"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab92bc090d6753ff5e17676ba85a1e478"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> Stride&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab92bc090d6753ff5e17676ba85a1e478">operator-</a> (<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> const &amp;it)</td></tr>
+<tr class="memdesc:ab92bc090d6753ff5e17676ba85a1e478"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the difference in offset between two iterators.  <a href="#ab92bc090d6753ff5e17676ba85a1e478">More...</a><br /></td></tr>
+<tr class="separator:ab92bc090d6753ff5e17676ba85a1e478"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a5557f98c75b51751f834c4a7d6385efc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5557f98c75b51751f834c4a7d6385efc">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">Base</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">ConstIterator::TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a28da80c1ba56e354ddb9352b54b231ed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a28da80c1ba56e354ddb9352b54b231ed">&#9670;&nbsp;</a></span>ConstIterator()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator::ConstIterator </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a> const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&#160;</td>
+          <td class="paramname"><em>offset</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ab0ea61995928c0935ec03c260463ef15"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab0ea61995928c0935ec03c260463ef15">&#9670;&nbsp;</a></span>operator()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">TensorRef</a>* <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator::operator </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1d48f4fea3fa85a7bf1b26b421387afd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1d48f4fea3fa85a7bf1b26b421387afd">&#9670;&nbsp;</a></span>operator+()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">ConstIterator::operator</a>+ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3481d6f41defd25ab574bb19ee5fe424"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3481d6f41defd25ab574bb19ee5fe424">&#9670;&nbsp;</a></span>operator++() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a>&amp; <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">ConstIterator::operator</a>++ </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aca860ff7f125e02f35c7dc174e84708d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aca860ff7f125e02f35c7dc174e84708d">&#9670;&nbsp;</a></span>operator++() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">ConstIterator::operator</a>++ </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab07a5d1a4ec6d96ec53e868b3a6d7cae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab07a5d1a4ec6d96ec53e868b3a6d7cae">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a>&amp; <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">ConstIterator::operator</a>+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1d8099e8d63b6d88c53738ec68a7589"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1d8099e8d63b6d88c53738ec68a7589">&#9670;&nbsp;</a></span>operator-() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">ConstIterator::operator</a>- </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab92bc090d6753ff5e17676ba85a1e478"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab92bc090d6753ff5e17676ba85a1e478">&#9670;&nbsp;</a></span>operator-() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> Stride <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">ConstIterator::operator</a>- </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> const &amp;&#160;</td>
+          <td class="paramname"><em>it</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad5290f0e7814892cb4fff55e9518562b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad5290f0e7814892cb4fff55e9518562b">&#9670;&nbsp;</a></span>operator--() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a>&amp; <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">ConstIterator::operator</a>-- </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a09909fbe2e4365b5f34ddb61658f27b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a09909fbe2e4365b5f34ddb61658f27b3">&#9670;&nbsp;</a></span>operator--() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">ConstIterator::operator</a>-- </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4018b51e78842fb252d6917738fa571"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4018b51e78842fb252d6917738fa571">&#9670;&nbsp;</a></span>operator-=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a>&amp; <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">ConstIterator::operator</a>-= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li><a class="el" href="tensor__ref__collection_8h_source.html">tensor_ref_collection.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4-members.html b/docs/classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4-members.html
new file mode 100644
index 0000000000..8af74ab9ba
--- /dev/null
+++ b/docs/classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4-members.html
@@ -0,0 +1,124 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a93ff0a9fda3e136a1674aeb82de050db">add_pointer_offset</a>(LongIndex delta)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a597bb02594c918c50f0bdb0cb4ce74c8">at</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a92371a586e756734522a853bef74324d">at</a>(LongIndex idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0a48de201c35cbc9d5e3b94fa597a617">const_ref</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496">ConstTensorRef</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a705c22cb328c4dc9365c2f370ece2031">Coord_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a67b25cc51ce867b073feead7b94e6aa3">data</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a8e1cfab3a220175dad58239c764a5d98">good</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">kRank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">kStorageRank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6c580a451a36143d1eb0e409e7b13e33">leading_dim</a>(int idx=0) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a215f63b5a1b3799654c5670ef108fcfb">map</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">MapFunc</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a07c7f56e724cfbc844777e8ee9f616b5">offset</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ad054f14b5580c9480d671b8fc8ef016a">operator+</a>(TensorCoord const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0753aeb57365a976bc0a88481af504cb">operator+=</a>(TensorCoord const &amp;b)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#afde28cda18918d3e177d3e5024ed3dd4">operator-</a>(TensorCoord const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a11964d045ac8e41c80026515adb03008">operator-=</a>(TensorCoord const &amp;b)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a64a5e91e01555b8bfd22875543573d22">operator[]</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a57f132816e51bbdb4c807d57c067b619">operator[]</a>(LongIndex idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a233fba9abdbbd0fe3a2cc7465ea76a41">Rank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a1043f0ef382179b8ecd9f4e710f6e106">reset</a>(Storage *ptr=nullptr)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6339a8ac88f9172acf0337d149b98cb4">reset</a>(Storage *ptr, StorageCoord const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9">stride</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af83380ffc0e5949d40d1a5039a5ddc00">stride</a>(int dim) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa091e497277d0ba8a98c4ebf73c0cdba">TensorRef</a>(Storage *ptr=nullptr)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a3464537a35ef7fbfc9349e5ce2233f1c">TensorRef</a>(Storage *ptr, StrideVector const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeacb444d31783eafe27a9e8d8cab98f8">TensorRef</a>(Storage *ptr, StorageCoord const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af815dd66739801b10d43acc097e23636">TensorRef</a>(TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type, kRank, MapFunc, kStorageRank, Index, LongIndex &gt; const &amp;ref)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html b/docs/classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html
new file mode 100644
index 0000000000..2dfd10c99a
--- /dev/null
+++ b/docs/classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html
@@ -0,0 +1,1092 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt; Class Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Specialization for rank=1 case with no internal <a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html">StrideVector</a>.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tensor__ref_8h_source.html">tensor_ref.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html">StrideVector</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ab5dbedeff1ae3d2936b6ce76023a18f7"><td class="memItemLeft" align="right" valign="top">typedef Storage_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a></td></tr>
+<tr class="memdesc:ab5dbedeff1ae3d2936b6ce76023a18f7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Data type of individual access.  <a href="#ab5dbedeff1ae3d2936b6ce76023a18f7">More...</a><br /></td></tr>
+<tr class="separator:ab5dbedeff1ae3d2936b6ce76023a18f7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac19ed34103d115d99e835ad9c1164a2f"><td class="memItemLeft" align="right" valign="top">typedef MapFunc_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">MapFunc</a></td></tr>
+<tr class="memdesc:ac19ed34103d115d99e835ad9c1164a2f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Mapping function from logical coordinate to internal n-D array.  <a href="#ac19ed34103d115d99e835ad9c1164a2f">More...</a><br /></td></tr>
+<tr class="separator:ac19ed34103d115d99e835ad9c1164a2f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa72857a51fafb4764ef338aea16ddfa3"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a></td></tr>
+<tr class="memdesc:aa72857a51fafb4764ef338aea16ddfa3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#aa72857a51fafb4764ef338aea16ddfa3">More...</a><br /></td></tr>
+<tr class="separator:aa72857a51fafb4764ef338aea16ddfa3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ad2f8da5e7e6b616dd05f792032699b"><td class="memItemLeft" align="right" valign="top">typedef LongIndex_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a></td></tr>
+<tr class="memdesc:a9ad2f8da5e7e6b616dd05f792032699b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Typically, strides in memory can be very large.  <a href="#a9ad2f8da5e7e6b616dd05f792032699b">More...</a><br /></td></tr>
+<tr class="separator:a9ad2f8da5e7e6b616dd05f792032699b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeca2ec193d8a07dc9073c6b199215c88"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">kRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a></td></tr>
+<tr class="memdesc:aeca2ec193d8a07dc9073c6b199215c88"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="#aeca2ec193d8a07dc9073c6b199215c88">More...</a><br /></td></tr>
+<tr class="separator:aeca2ec193d8a07dc9073c6b199215c88"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6893c1a9057713560b46a9062b29b116"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a></td></tr>
+<tr class="memdesc:a6893c1a9057713560b46a9062b29b116"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in storage n-D array.  <a href="#a6893c1a9057713560b46a9062b29b116">More...</a><br /></td></tr>
+<tr class="separator:a6893c1a9057713560b46a9062b29b116"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0c95903f2b959003534cd2d78d4b9496"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> &gt;::type const, Rank_, MapFunc_, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">kStorageRank</a>, Index_, LongIndex_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496">ConstTensorRef</a></td></tr>
+<tr class="memdesc:a0c95903f2b959003534cd2d78d4b9496"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference to of constant value.  <a href="#a0c95903f2b959003534cd2d78d4b9496">More...</a><br /></td></tr>
+<tr class="separator:a0c95903f2b959003534cd2d78d4b9496"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a705c22cb328c4dc9365c2f370ece2031"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a705c22cb328c4dc9365c2f370ece2031">Coord_t</a></td></tr>
+<tr class="memdesc:a705c22cb328c4dc9365c2f370ece2031"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="#a705c22cb328c4dc9365c2f370ece2031">More...</a><br /></td></tr>
+<tr class="separator:a705c22cb328c4dc9365c2f370ece2031"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:aa091e497277d0ba8a98c4ebf73c0cdba"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa091e497277d0ba8a98c4ebf73c0cdba">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *ptr=<a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>)</td></tr>
+<tr class="memdesc:aa091e497277d0ba8a98c4ebf73c0cdba"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper for 1-D memory. All higher ranks are projected onto the fastest changing rank.  <a href="#aa091e497277d0ba8a98c4ebf73c0cdba">More...</a><br /></td></tr>
+<tr class="separator:aa091e497277d0ba8a98c4ebf73c0cdba"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3464537a35ef7fbfc9349e5ce2233f1c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a3464537a35ef7fbfc9349e5ce2233f1c">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *ptr, StrideVector const &amp;<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9">stride</a>)</td></tr>
+<tr class="memdesc:a3464537a35ef7fbfc9349e5ce2233f1c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from a single pointer and stride vector.  <a href="#a3464537a35ef7fbfc9349e5ce2233f1c">More...</a><br /></td></tr>
+<tr class="separator:a3464537a35ef7fbfc9349e5ce2233f1c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeacb444d31783eafe27a9e8d8cab98f8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeacb444d31783eafe27a9e8d8cab98f8">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9">stride</a>)</td></tr>
+<tr class="separator:aeacb444d31783eafe27a9e8d8cab98f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af815dd66739801b10d43acc097e23636"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af815dd66739801b10d43acc097e23636">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> &gt;::type, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">kRank</a>, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">MapFunc</a>, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">kStorageRank</a>, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a>, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> &gt; const &amp;ref)</td></tr>
+<tr class="memdesc:af815dd66739801b10d43acc097e23636"><td class="mdescLeft">&#160;</td><td class="mdescRight">Enables conversion from <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> of non-const type.  <a href="#af815dd66739801b10d43acc097e23636">More...</a><br /></td></tr>
+<tr class="separator:af815dd66739801b10d43acc097e23636"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0a48de201c35cbc9d5e3b94fa597a617"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496">ConstTensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0a48de201c35cbc9d5e3b94fa597a617">const_ref</a> () const</td></tr>
+<tr class="memdesc:a0a48de201c35cbc9d5e3b94fa597a617"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to constant-valued tensor.  <a href="#a0a48de201c35cbc9d5e3b94fa597a617">More...</a><br /></td></tr>
+<tr class="separator:a0a48de201c35cbc9d5e3b94fa597a617"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1043f0ef382179b8ecd9f4e710f6e106"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a1043f0ef382179b8ecd9f4e710f6e106">reset</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *ptr=<a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>)</td></tr>
+<tr class="memdesc:a1043f0ef382179b8ecd9f4e710f6e106"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates only the pointer.  <a href="#a1043f0ef382179b8ecd9f4e710f6e106">More...</a><br /></td></tr>
+<tr class="separator:a1043f0ef382179b8ecd9f4e710f6e106"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6339a8ac88f9172acf0337d149b98cb4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6339a8ac88f9172acf0337d149b98cb4">reset</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9">stride</a>)</td></tr>
+<tr class="memdesc:a6339a8ac88f9172acf0337d149b98cb4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates the pointer, stride, and location within a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>.  <a href="#a6339a8ac88f9172acf0337d149b98cb4">More...</a><br /></td></tr>
+<tr class="separator:a6339a8ac88f9172acf0337d149b98cb4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8e1cfab3a220175dad58239c764a5d98"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a8e1cfab3a220175dad58239c764a5d98">good</a> () const</td></tr>
+<tr class="memdesc:a8e1cfab3a220175dad58239c764a5d98"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if the <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> may be safely accessed.  <a href="#a8e1cfab3a220175dad58239c764a5d98">More...</a><br /></td></tr>
+<tr class="separator:a8e1cfab3a220175dad58239c764a5d98"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a67b25cc51ce867b073feead7b94e6aa3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a67b25cc51ce867b073feead7b94e6aa3">data</a> () const</td></tr>
+<tr class="memdesc:a67b25cc51ce867b073feead7b94e6aa3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the pointer to referenced data.  <a href="#a67b25cc51ce867b073feead7b94e6aa3">More...</a><br /></td></tr>
+<tr class="separator:a67b25cc51ce867b073feead7b94e6aa3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af5615a41f73259e579a122c86e08d6f9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9">stride</a> () const</td></tr>
+<tr class="memdesc:af5615a41f73259e579a122c86e08d6f9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor.  <a href="#af5615a41f73259e579a122c86e08d6f9">More...</a><br /></td></tr>
+<tr class="separator:af5615a41f73259e579a122c86e08d6f9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af83380ffc0e5949d40d1a5039a5ddc00"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af83380ffc0e5949d40d1a5039a5ddc00">stride</a> (int dim) const</td></tr>
+<tr class="memdesc:af83380ffc0e5949d40d1a5039a5ddc00"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor in the given dimension.  <a href="#af83380ffc0e5949d40d1a5039a5ddc00">More...</a><br /></td></tr>
+<tr class="separator:af83380ffc0e5949d40d1a5039a5ddc00"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6c580a451a36143d1eb0e409e7b13e33"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6c580a451a36143d1eb0e409e7b13e33">leading_dim</a> (int idx=0) const</td></tr>
+<tr class="memdesc:a6c580a451a36143d1eb0e409e7b13e33"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the maximum stride element as the 'leading dimension'.  <a href="#a6c580a451a36143d1eb0e409e7b13e33">More...</a><br /></td></tr>
+<tr class="separator:a6c580a451a36143d1eb0e409e7b13e33"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a215f63b5a1b3799654c5670ef108fcfb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a215f63b5a1b3799654c5670ef108fcfb">map</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a215f63b5a1b3799654c5670ef108fcfb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps a logical coordinate to an n-D array in memory.  <a href="#a215f63b5a1b3799654c5670ef108fcfb">More...</a><br /></td></tr>
+<tr class="separator:a215f63b5a1b3799654c5670ef108fcfb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07c7f56e724cfbc844777e8ee9f616b5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a07c7f56e724cfbc844777e8ee9f616b5">offset</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a07c7f56e724cfbc844777e8ee9f616b5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the offset of an index from the origin of the tensor.  <a href="#a07c7f56e724cfbc844777e8ee9f616b5">More...</a><br /></td></tr>
+<tr class="separator:a07c7f56e724cfbc844777e8ee9f616b5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a597bb02594c918c50f0bdb0cb4ce74c8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a597bb02594c918c50f0bdb0cb4ce74c8">at</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a597bb02594c918c50f0bdb0cb4ce74c8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="#a597bb02594c918c50f0bdb0cb4ce74c8">More...</a><br /></td></tr>
+<tr class="separator:a597bb02594c918c50f0bdb0cb4ce74c8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a92371a586e756734522a853bef74324d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a92371a586e756734522a853bef74324d">at</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> idx) const</td></tr>
+<tr class="memdesc:a92371a586e756734522a853bef74324d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given linear index.  <a href="#a92371a586e756734522a853bef74324d">More...</a><br /></td></tr>
+<tr class="separator:a92371a586e756734522a853bef74324d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64a5e91e01555b8bfd22875543573d22"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a64a5e91e01555b8bfd22875543573d22">operator[]</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a64a5e91e01555b8bfd22875543573d22"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="#a64a5e91e01555b8bfd22875543573d22">More...</a><br /></td></tr>
+<tr class="separator:a64a5e91e01555b8bfd22875543573d22"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a57f132816e51bbdb4c807d57c067b619"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a57f132816e51bbdb4c807d57c067b619">operator[]</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> idx) const</td></tr>
+<tr class="memdesc:a57f132816e51bbdb4c807d57c067b619"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given linear index.  <a href="#a57f132816e51bbdb4c807d57c067b619">More...</a><br /></td></tr>
+<tr class="separator:a57f132816e51bbdb4c807d57c067b619"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a93ff0a9fda3e136a1674aeb82de050db"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a93ff0a9fda3e136a1674aeb82de050db">add_pointer_offset</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> delta)</td></tr>
+<tr class="memdesc:a93ff0a9fda3e136a1674aeb82de050db"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds an offset to each pointer.  <a href="#a93ff0a9fda3e136a1674aeb82de050db">More...</a><br /></td></tr>
+<tr class="separator:a93ff0a9fda3e136a1674aeb82de050db"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad054f14b5580c9480d671b8fc8ef016a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ad054f14b5580c9480d671b8fc8ef016a">operator+</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:ad054f14b5580c9480d671b8fc8ef016a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#ad054f14b5580c9480d671b8fc8ef016a">More...</a><br /></td></tr>
+<tr class="separator:ad054f14b5580c9480d671b8fc8ef016a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0753aeb57365a976bc0a88481af504cb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0753aeb57365a976bc0a88481af504cb">operator+=</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a0753aeb57365a976bc0a88481af504cb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#a0753aeb57365a976bc0a88481af504cb">More...</a><br /></td></tr>
+<tr class="separator:a0753aeb57365a976bc0a88481af504cb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afde28cda18918d3e177d3e5024ed3dd4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#afde28cda18918d3e177d3e5024ed3dd4">operator-</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:afde28cda18918d3e177d3e5024ed3dd4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#afde28cda18918d3e177d3e5024ed3dd4">More...</a><br /></td></tr>
+<tr class="separator:afde28cda18918d3e177d3e5024ed3dd4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a11964d045ac8e41c80026515adb03008"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a11964d045ac8e41c80026515adb03008">operator-=</a> (<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a11964d045ac8e41c80026515adb03008"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#a11964d045ac8e41c80026515adb03008">More...</a><br /></td></tr>
+<tr class="separator:a11964d045ac8e41c80026515adb03008"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:abff03af38d99413315824c476e9a7d78"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">kRank</a> = Rank_</td></tr>
+<tr class="memdesc:abff03af38d99413315824c476e9a7d78"><td class="mdescLeft">&#160;</td><td class="mdescRight">Logical rank of tensor index space.  <a href="#abff03af38d99413315824c476e9a7d78">More...</a><br /></td></tr>
+<tr class="separator:abff03af38d99413315824c476e9a7d78"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9bae6c2fd5ac6c97c97786c89862c298"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">kStorageRank</a> = 1</td></tr>
+<tr class="memdesc:a9bae6c2fd5ac6c97c97786c89862c298"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of internal storage.  <a href="#a9bae6c2fd5ac6c97c97786c89862c298">More...</a><br /></td></tr>
+<tr class="separator:a9bae6c2fd5ac6c97c97786c89862c298"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a233fba9abdbbd0fe3a2cc7465ea76a41"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a233fba9abdbbd0fe3a2cc7465ea76a41">Rank</a> = <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">kRank</a></td></tr>
+<tr class="memdesc:a233fba9abdbbd0fe3a2cc7465ea76a41"><td class="mdescLeft">&#160;</td><td class="mdescRight">Logical rank of tensor index space.  <a href="#a233fba9abdbbd0fe3a2cc7465ea76a41">More...</a><br /></td></tr>
+<tr class="separator:a233fba9abdbbd0fe3a2cc7465ea76a41"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a0c95903f2b959003534cd2d78d4b9496"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c95903f2b959003534cd2d78d4b9496">&#9670;&nbsp;</a></span>ConstTensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt;<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>&gt;::type const, Rank_, MapFunc_, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">kStorageRank</a>, Index_, LongIndex_&gt; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496">ConstTensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a705c22cb328c4dc9365c2f370ece2031"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a705c22cb328c4dc9365c2f370ece2031">&#9670;&nbsp;</a></span>Coord_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a705c22cb328c4dc9365c2f370ece2031">Coord_t</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa72857a51fafb4764ef338aea16ddfa3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa72857a51fafb4764ef338aea16ddfa3">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Index_ <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9ad2f8da5e7e6b616dd05f792032699b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ad2f8da5e7e6b616dd05f792032699b">&#9670;&nbsp;</a></span>LongIndex</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef LongIndex_ <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac19ed34103d115d99e835ad9c1164a2f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac19ed34103d115d99e835ad9c1164a2f">&#9670;&nbsp;</a></span>MapFunc</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef MapFunc_ <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">MapFunc</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab5dbedeff1ae3d2936b6ce76023a18f7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab5dbedeff1ae3d2936b6ce76023a18f7">&#9670;&nbsp;</a></span>Storage</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Storage_ <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6893c1a9057713560b46a9062b29b116"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6893c1a9057713560b46a9062b29b116">&#9670;&nbsp;</a></span>StorageCoord</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">kStorageRank</a>&gt; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeca2ec193d8a07dc9073c6b199215c88"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeca2ec193d8a07dc9073c6b199215c88">&#9670;&nbsp;</a></span>TensorCoord</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">kRank</a>&gt; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="aa091e497277d0ba8a98c4ebf73c0cdba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa091e497277d0ba8a98c4ebf73c0cdba">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em> = <code><a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a></code></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3464537a35ef7fbfc9349e5ce2233f1c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3464537a35ef7fbfc9349e5ce2233f1c">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">StrideVector const &amp;&#160;</td>
+          <td class="paramname"><em>stride</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeacb444d31783eafe27a9e8d8cab98f8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeacb444d31783eafe27a9e8d8cab98f8">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>stride</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<p>Constructs from a pointer and a stride vector of size kRank. If fastest changing stride is not 1, construction fails and subsequent calls to <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a8e1cfab3a220175dad58239c764a5d98" title="Returns true if the TensorRef may be safely accessed. ">good()</a> will return false. </p>
+
+</div>
+</div>
+<a id="af815dd66739801b10d43acc097e23636"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af815dd66739801b10d43acc097e23636">&#9670;&nbsp;</a></span>TensorRef() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> &gt;::type, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">kRank</a>, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">MapFunc</a>, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">kStorageRank</a>, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a>, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a93ff0a9fda3e136a1674aeb82de050db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a93ff0a9fda3e136a1674aeb82de050db">&#9670;&nbsp;</a></span>add_pointer_offset()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::add_pointer_offset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a>&#160;</td>
+          <td class="paramname"><em>delta</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a597bb02594c918c50f0bdb0cb4ce74c8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a597bb02594c918c50f0bdb0cb4ce74c8">&#9670;&nbsp;</a></span>at() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::at </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a92371a586e756734522a853bef74324d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a92371a586e756734522a853bef74324d">&#9670;&nbsp;</a></span>at() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::at </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0a48de201c35cbc9d5e3b94fa597a617"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0a48de201c35cbc9d5e3b94fa597a617">&#9670;&nbsp;</a></span>const_ref()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496">ConstTensorRef</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::const_ref </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a67b25cc51ce867b073feead7b94e6aa3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a67b25cc51ce867b073feead7b94e6aa3">&#9670;&nbsp;</a></span>data()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>* <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::data </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8e1cfab3a220175dad58239c764a5d98"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8e1cfab3a220175dad58239c764a5d98">&#9670;&nbsp;</a></span>good()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::good </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c580a451a36143d1eb0e409e7b13e33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c580a451a36143d1eb0e409e7b13e33">&#9670;&nbsp;</a></span>leading_dim()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::leading_dim </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>idx</em> = <code>0</code></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a215f63b5a1b3799654c5670ef108fcfb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a215f63b5a1b3799654c5670ef108fcfb">&#9670;&nbsp;</a></span>map()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::map </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07c7f56e724cfbc844777e8ee9f616b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07c7f56e724cfbc844777e8ee9f616b5">&#9670;&nbsp;</a></span>offset()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::offset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad054f14b5580c9480d671b8fc8ef016a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad054f14b5580c9480d671b8fc8ef016a">&#9670;&nbsp;</a></span>operator+()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator+ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0753aeb57365a976bc0a88481af504cb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0753aeb57365a976bc0a88481af504cb">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afde28cda18918d3e177d3e5024ed3dd4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afde28cda18918d3e177d3e5024ed3dd4">&#9670;&nbsp;</a></span>operator-()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator- </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a11964d045ac8e41c80026515adb03008"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11964d045ac8e41c80026515adb03008">&#9670;&nbsp;</a></span>operator-=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator-= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a64a5e91e01555b8bfd22875543573d22"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64a5e91e01555b8bfd22875543573d22">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator[] </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a57f132816e51bbdb4c807d57c067b619"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57f132816e51bbdb4c807d57c067b619">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>&amp; <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator[] </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1043f0ef382179b8ecd9f4e710f6e106"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1043f0ef382179b8ecd9f4e710f6e106">&#9670;&nbsp;</a></span>reset() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::reset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em> = <code><a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a></code></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6339a8ac88f9172acf0337d149b98cb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6339a8ac88f9172acf0337d149b98cb4">&#9670;&nbsp;</a></span>reset() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::reset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>stride</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af5615a41f73259e579a122c86e08d6f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af5615a41f73259e579a122c86e08d6f9">&#9670;&nbsp;</a></span>stride() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::stride </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af83380ffc0e5949d40d1a5039a5ddc00"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af83380ffc0e5949d40d1a5039a5ddc00">&#9670;&nbsp;</a></span>stride() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a> <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::stride </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>dim</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="abff03af38d99413315824c476e9a7d78"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abff03af38d99413315824c476e9a7d78">&#9670;&nbsp;</a></span>kRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::kRank = Rank_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9bae6c2fd5ac6c97c97786c89862c298"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9bae6c2fd5ac6c97c97786c89862c298">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::kStorageRank = 1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a233fba9abdbbd0fe3a2cc7465ea76a41"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a233fba9abdbbd0fe3a2cc7465ea76a41">&#9670;&nbsp;</a></span>Rank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_ , typename Index_ , typename LongIndex_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a>&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Rank = <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">kRank</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li><a class="el" href="tensor__ref_8h_source.html">tensor_ref.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1TensorView-members.html b/docs/classcutlass_1_1TensorView-members.html
index e9401f9cc9..9f5c325352 100644
--- a/docs/classcutlass_1_1TensorView-members.html
+++ b/docs/classcutlass_1_1TensorView-members.html
@@ -73,51 +73,70 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::TensorView&lt; T &gt; Member List</div>  </div>
+<div class="title">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478">advance</a>(Coord&lt; Rank &gt; const &amp;b)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#ad894a8b373c413d308cb1b7c7ba545ce">at</a>(Coord_t const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#acc55581896fae8c0449b44b56d750155">at</a>(Offset_t idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4">Base</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a23564f1d333bb16343ed3a885f894285">const_ref</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">ConstTensorRef_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#aa94063d9a9c6e599d3f53e22433274be">contains</a>(Coord_t const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c">convert</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a248e4240ccf96c976254464710a73fc8">data</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a837881bc82704491accf54aad2b9def9">good</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77">leading_dim</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a064f3630e69798e7915f910c4ee99ab7">offset</a>(Coord_t const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">Offset_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842">operator+</a>(Coord&lt; Rank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938">operator-</a>(Coord&lt; Rank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#aa9e9e19f35ce3111f64b763ca49b51ef">operator=</a>(TensorView const &amp;_tensor)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a7fe7e44e15fd1ac58fb55edf72e8fb23">operator[]</a>(Coord&lt; Rank &gt; const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c">TensorRef&lt; T, 4 &gt;::operator[]</a>(int idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">Rank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a5cbff89d3d8dc71d27a4d6c1d7abb58a">ref</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a8b1785a1ea5d7aa7eba8e45297d539d3">reset</a>(TensorRef_t const &amp;_ref=TensorRef_t(0), Coord_t const &amp;_size=Coord_t())</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674">TensorRef&lt; T, 4 &gt;::reset</a>(Storage *ptr=nullptr, Coord&lt; Rank &gt; stride=Coord&lt; Rank &gt;(0))</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027">size</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a6218d8555679966eab784a6bb1fa4ed1">size</a>(int dim) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a3ac125a25199fd91f73d2cfe9fc3d09b">stride</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a522630bb0df977282a9bff17e6fee843">stride</a>(int dim) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#aee43c516397d7c06eb8012711d8d7c15">subview</a>(Coord_t const &amp;location, Coord_t size) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">TensorRef</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ae48325312183ff61dbd312c64f31fcb8">TensorRef</a>(Storage *ptr, Coord&lt; Rank &gt; stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a22401348796d603546e44d6c196018dc">TensorView</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a80480aa986a488a106a9b0aea331c317">TensorView</a>(TensorRef_t const &amp;_ref, Coord_t const &amp;_size)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(LongIndex delta)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">at</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">at</a>(LongIndex idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#ad870c366ffe904d3363df1dfb0d5f04c">capacity</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a559f7210b445c77a167ab1f41c8d0827">const_ref</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a3861f7f09da0b8153d0e3686f2c7cf57">ConstTensorRef</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a162c4cb4f4e866892d63cd37f7f72165">ConstTensorRef_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#ab879a7b6552c879a81c49cbc0946d719">ConstTensorView</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a3f448bcf6e664c244f472e2659215628">contains</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#ab16a0244199ca2800ea5460ed8ed6ae2">Coord_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">data</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">good</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a5a3f096a01e6a2dfe984d7e605380599">Index</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">leading_dim</a>(int idx=0) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">map</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a408d9a8026115bdaf70a37c86dc720b1">Offset_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#aa2390d8e127a51df239affd2ca36e97a">operator+</a>(TensorCoord const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a4fa8fa35d00eb4d0097da492c738cddc">operator+=</a>(TensorCoord const &amp;b)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a1e4b2bb02c5843898f72f62787403add">operator-</a>(TensorCoord const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#abc088fad6debb6a0ceb04c5d2767e81b">operator-=</a>(TensorCoord const &amp;b)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#acf0c156efb9197bc7538f7e9057d8a68">operator=</a>(TensorView const &amp;_tensor)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">operator[]</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">operator[]</a>(LongIndex idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a8dbb7043546fae133547d2c3e46dddab">Rank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a7e2beb56a3bc2d58c9ec65467b78c4f3">ref</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#ae142eb93cf91e000b635d32fcacf1db3">reset</a>(Base const &amp;_ref=Base(), TensorCoord const &amp;_size=TensorCoord())</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">cutlass::TensorRef::reset</a>(Storage *ptr=nullptr)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">cutlass::TensorRef::reset</a>(Storage *ptr, StorageCoord const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a3778dc1c62a27ed811f1bb82a420096e">size</a>(int dim) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a52fb77744c7c7ecf0f8a3a725556293d">Storage</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#abaf7ec0e96bc99cf0ce243e703b8711c">StorageCoord</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">stride</a>(int dim) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a625892aa9063eebf769bb2ed0cba7684">StrideVector</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#ad4b3faa318699b786f94cf8735a11dbb">subview</a>(TensorCoord const &amp;location, TensorCoord size) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#ada8a241b6b2c5439183b0d6c456c934e">TensorCoord</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">cutlass::TensorRef::TensorRef</a>(Storage *ptr=nullptr)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">cutlass::TensorRef::TensorRef</a>(Storage *ptr, Index ldm)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">cutlass::TensorRef::TensorRef</a>(Storage *ptr, StrideVector const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0">cutlass::TensorRef::TensorRef</a>(Storage *ptr, StorageCoord const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">cutlass::TensorRef::TensorRef</a>(TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type, kRank, MapFunc, kStorageRank, Index, LongIndex &gt; const &amp;ref)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a25eb8c0fe380114ddaabb37453be4606">TensorRef_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a36d48227f65ad482a7bded99d6a3d0c1">TensorView</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#aad06edac0f43c358c5644dffb5fe9ad7">TensorView</a>(Base const &amp;_ref, TensorCoord const &amp;_size)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#a73f049694ca1ea4825b5a651852827f5">TensorView</a>(Storage *ptr, StrideVector const &amp;stride, TensorCoord const &amp;size)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html#af64d4195fd6ba2cba53179e1ae678737">TensorView</a>(Storage *ptr, StorageCoord const &amp;stride, TensorCoord const &amp;size)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classcutlass_1_1TensorView.html b/docs/classcutlass_1_1TensorView.html
index 7dba23228c..276d1077d5 100644
--- a/docs/classcutlass_1_1TensorView.html
+++ b/docs/classcutlass_1_1TensorView.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::TensorView&lt; T &gt; Class Template Reference</title>
+<title>Cutlass: cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Class Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -78,332 +78,461 @@
 <a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="classcutlass_1_1TensorView-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::TensorView&lt; T &gt; Class Template Reference</div>  </div>
+<div class="title">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Class Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>Host-side reference implementation of tensor operations.  
+<p>Defines a view into a logical tensor.  
 </p>
 
 <p><code>#include &lt;<a class="el" href="tensor__view_8h_source.html">tensor_view.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::TensorView&lt; T &gt;:</div>
+Inheritance diagram for cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="classcutlass_1_1TensorView.png" usemap="#cutlass::TensorView_3C_20T_20_3E_map" alt=""/>
-  <map id="cutlass::TensorView_3C_20T_20_3E_map" name="cutlass::TensorView_3C_20T_20_3E_map">
-<area href="classcutlass_1_1TensorRef.html" alt="cutlass::TensorRef&lt; T, 4 &gt;" shape="rect" coords="0,0,162,24"/>
+  <img src="classcutlass_1_1TensorView.png" usemap="#cutlass::TensorView_3C_20Storage_5F_2C_20Rank_5F_2C_20MapFunc_5F_2C_20StorageRank_5F_2C_20Index_5F_2C_20LongIndex_5F_20_3E_map" alt=""/>
+  <map id="cutlass::TensorView_3C_20Storage_5F_2C_20Rank_5F_2C_20MapFunc_5F_2C_20StorageRank_5F_2C_20Index_5F_2C_20LongIndex_5F_20_3E_map" name="cutlass::TensorView_3C_20Storage_5F_2C_20Rank_5F_2C_20MapFunc_5F_2C_20StorageRank_5F_2C_20Index_5F_2C_20LongIndex_5F_20_3E_map">
+<area href="classcutlass_1_1TensorRef.html" alt="cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;" shape="rect" coords="0,0,521,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:a27f09c55f879410cceb75eb25fe542d4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; T, 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4">Base</a></td></tr>
-<tr class="memdesc:a27f09c55f879410cceb75eb25fe542d4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Reference and stride.  <a href="#a27f09c55f879410cceb75eb25fe542d4">More...</a><br /></td></tr>
-<tr class="separator:a27f09c55f879410cceb75eb25fe542d4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a762fc3d887ab14f4c7bcde85f0af16ab"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4">Base</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a></td></tr>
-<tr class="memdesc:a762fc3d887ab14f4c7bcde85f0af16ab"><td class="mdescLeft">&#160;</td><td class="mdescRight">Reference and stride.  <a href="#a762fc3d887ab14f4c7bcde85f0af16ab">More...</a><br /></td></tr>
-<tr class="separator:a762fc3d887ab14f4c7bcde85f0af16ab"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8ef76170bc5ba832dc01339133021830"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; T const, 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">ConstTensorRef_t</a></td></tr>
-<tr class="memdesc:a8ef76170bc5ba832dc01339133021830"><td class="mdescLeft">&#160;</td><td class="mdescRight">Reference to constant type.  <a href="#a8ef76170bc5ba832dc01339133021830">More...</a><br /></td></tr>
-<tr class="separator:a8ef76170bc5ba832dc01339133021830"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a215946fb080a5253815feb1f639c8f6f"><td class="memItemLeft" align="right" valign="top">typedef int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">Offset_t</a></td></tr>
-<tr class="memdesc:a215946fb080a5253815feb1f639c8f6f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Type used to compute the offset of an element to the base of a tensor.  <a href="#a215946fb080a5253815feb1f639c8f6f">More...</a><br /></td></tr>
-<tr class="separator:a215946fb080a5253815feb1f639c8f6f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4037baf5069138ec3967810d2e185017"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">Rank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a></td></tr>
-<tr class="memdesc:a4037baf5069138ec3967810d2e185017"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate into tensor.  <a href="#a4037baf5069138ec3967810d2e185017">More...</a><br /></td></tr>
-<tr class="separator:a4037baf5069138ec3967810d2e185017"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_types_classcutlass_1_1TensorRef"><td colspan="2" onclick="javascript:toggleInherit('pub_types_classcutlass_1_1TensorRef')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td></tr>
-<tr class="memitem:a604921388cb7ee18ddb8127b8ca2f7fd inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a></td></tr>
-<tr class="memdesc:a604921388cb7ee18ddb8127b8ca2f7fd inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Data type of individual access.  <a href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">More...</a><br /></td></tr>
-<tr class="separator:a604921388cb7ee18ddb8127b8ca2f7fd inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2d0d8ed1c19485318e84db99b8b4e9e6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a></td></tr>
+<tr class="memdesc:a2d0d8ed1c19485318e84db99b8b4e9e6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base tensor reference.  <a href="#a2d0d8ed1c19485318e84db99b8b4e9e6">More...</a><br /></td></tr>
+<tr class="separator:a2d0d8ed1c19485318e84db99b8b4e9e6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3861f7f09da0b8153d0e3686f2c7cf57"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; Storage_ &gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a3861f7f09da0b8153d0e3686f2c7cf57">ConstTensorRef</a></td></tr>
+<tr class="memdesc:a3861f7f09da0b8153d0e3686f2c7cf57"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference to of constant value.  <a href="#a3861f7f09da0b8153d0e3686f2c7cf57">More...</a><br /></td></tr>
+<tr class="separator:a3861f7f09da0b8153d0e3686f2c7cf57"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af0237fca8d8df1cf4f17d9cb43eae507"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a></td></tr>
+<tr class="memdesc:af0237fca8d8df1cf4f17d9cb43eae507"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base tensor reference.  <a href="#af0237fca8d8df1cf4f17d9cb43eae507">More...</a><br /></td></tr>
+<tr class="separator:af0237fca8d8df1cf4f17d9cb43eae507"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a52fb77744c7c7ecf0f8a3a725556293d"><td class="memItemLeft" align="right" valign="top">typedef Base::Storage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a52fb77744c7c7ecf0f8a3a725556293d">Storage</a></td></tr>
+<tr class="memdesc:a52fb77744c7c7ecf0f8a3a725556293d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage type.  <a href="#a52fb77744c7c7ecf0f8a3a725556293d">More...</a><br /></td></tr>
+<tr class="separator:a52fb77744c7c7ecf0f8a3a725556293d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5a3f096a01e6a2dfe984d7e605380599"><td class="memItemLeft" align="right" valign="top">typedef Base::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a5a3f096a01e6a2dfe984d7e605380599">Index</a></td></tr>
+<tr class="memdesc:a5a3f096a01e6a2dfe984d7e605380599"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#a5a3f096a01e6a2dfe984d7e605380599">More...</a><br /></td></tr>
+<tr class="separator:a5a3f096a01e6a2dfe984d7e605380599"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada8a241b6b2c5439183b0d6c456c934e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorRef::TensorCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#ada8a241b6b2c5439183b0d6c456c934e">TensorCoord</a></td></tr>
+<tr class="memdesc:ada8a241b6b2c5439183b0d6c456c934e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="#ada8a241b6b2c5439183b0d6c456c934e">More...</a><br /></td></tr>
+<tr class="separator:ada8a241b6b2c5439183b0d6c456c934e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abaf7ec0e96bc99cf0ce243e703b8711c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">TensorRef::StorageCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#abaf7ec0e96bc99cf0ce243e703b8711c">StorageCoord</a></td></tr>
+<tr class="memdesc:abaf7ec0e96bc99cf0ce243e703b8711c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in storage n-D array.  <a href="#abaf7ec0e96bc99cf0ce243e703b8711c">More...</a><br /></td></tr>
+<tr class="separator:abaf7ec0e96bc99cf0ce243e703b8711c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a625892aa9063eebf769bb2ed0cba7684"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">TensorRef::StrideVector</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a625892aa9063eebf769bb2ed0cba7684">StrideVector</a></td></tr>
+<tr class="separator:a625892aa9063eebf769bb2ed0cba7684"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab879a7b6552c879a81c49cbc0946d719"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#ab879a7b6552c879a81c49cbc0946d719">ConstTensorView</a></td></tr>
+<tr class="memdesc:ab879a7b6552c879a81c49cbc0946d719"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="classcutlass_1_1TensorView.html" title="Defines a view into a logical tensor. ">TensorView</a> of constant value.  <a href="#ab879a7b6552c879a81c49cbc0946d719">More...</a><br /></td></tr>
+<tr class="separator:ab879a7b6552c879a81c49cbc0946d719"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab16a0244199ca2800ea5460ed8ed6ae2"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#ab16a0244199ca2800ea5460ed8ed6ae2">Coord_t</a></td></tr>
+<tr class="memdesc:ab16a0244199ca2800ea5460ed8ed6ae2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="#ab16a0244199ca2800ea5460ed8ed6ae2">More...</a><br /></td></tr>
+<tr class="separator:ab16a0244199ca2800ea5460ed8ed6ae2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a408d9a8026115bdaf70a37c86dc720b1"><td class="memItemLeft" align="right" valign="top">typedef Base::LongIndex&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a408d9a8026115bdaf70a37c86dc720b1">Offset_t</a></td></tr>
+<tr class="memdesc:a408d9a8026115bdaf70a37c86dc720b1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Type used to compute the offset of an element to the base of a tensor.  <a href="#a408d9a8026115bdaf70a37c86dc720b1">More...</a><br /></td></tr>
+<tr class="separator:a408d9a8026115bdaf70a37c86dc720b1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a25eb8c0fe380114ddaabb37453be4606"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a25eb8c0fe380114ddaabb37453be4606">TensorRef_t</a></td></tr>
+<tr class="memdesc:a25eb8c0fe380114ddaabb37453be4606"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base class.  <a href="#a25eb8c0fe380114ddaabb37453be4606">More...</a><br /></td></tr>
+<tr class="separator:a25eb8c0fe380114ddaabb37453be4606"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a162c4cb4f4e866892d63cd37f7f72165"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">TensorRef::ConstTensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a162c4cb4f4e866892d63cd37f7f72165">ConstTensorRef_t</a></td></tr>
+<tr class="memdesc:a162c4cb4f4e866892d63cd37f7f72165"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> to const-valued type.  <a href="#a162c4cb4f4e866892d63cd37f7f72165">More...</a><br /></td></tr>
+<tr class="separator:a162c4cb4f4e866892d63cd37f7f72165"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_classcutlass_1_1TensorRef"><td colspan="2" onclick="javascript:toggleInherit('pub_types_classcutlass_1_1TensorRef')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="memitem:ad327edfe1f8085632ff682d354922009 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef Storage_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a></td></tr>
+<tr class="memdesc:ad327edfe1f8085632ff682d354922009 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Data type of individual access.  <a href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">More...</a><br /></td></tr>
+<tr class="separator:ad327edfe1f8085632ff682d354922009 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad0273300d26125278b6930b1e463ff29 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef MapFunc_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a></td></tr>
+<tr class="memdesc:ad0273300d26125278b6930b1e463ff29 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Mapping function from logical coordinate to internal n-D array.  <a href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">More...</a><br /></td></tr>
+<tr class="separator:ad0273300d26125278b6930b1e463ff29 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2beda7a1946bde2858e730bece21b890 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a></td></tr>
+<tr class="memdesc:a2beda7a1946bde2858e730bece21b890 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">More...</a><br /></td></tr>
+<tr class="separator:a2beda7a1946bde2858e730bece21b890 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a42ca6a39ab0e44296fed71a77c57b7b1 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef LongIndex_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a></td></tr>
+<tr class="memdesc:a42ca6a39ab0e44296fed71a77c57b7b1 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Typically, strides in memory can be very large.  <a href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">More...</a><br /></td></tr>
+<tr class="separator:a42ca6a39ab0e44296fed71a77c57b7b1 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a35b7e1fc59298e0f06f484652d62fd65 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a></td></tr>
+<tr class="memdesc:a35b7e1fc59298e0f06f484652d62fd65 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">More...</a><br /></td></tr>
+<tr class="separator:a35b7e1fc59298e0f06f484652d62fd65 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a455a2df539b53086699c210d06df1c5d inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a></td></tr>
+<tr class="memdesc:a455a2df539b53086699c210d06df1c5d inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in storage n-D array.  <a href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">More...</a><br /></td></tr>
+<tr class="separator:a455a2df539b53086699c210d06df1c5d inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07c4b1ace7c8799537553b54cfe0a059 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a></td></tr>
+<tr class="separator:a07c4b1ace7c8799537553b54cfe0a059 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8281d11677512d6e229504ab4babad17 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a></td></tr>
+<tr class="memdesc:a8281d11677512d6e229504ab4babad17 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference to of constant value.  <a href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">More...</a><br /></td></tr>
+<tr class="separator:a8281d11677512d6e229504ab4babad17 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a758f24783e36ffc393b360d0b8640bc6 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">Coord_t</a></td></tr>
+<tr class="memdesc:a758f24783e36ffc393b360d0b8640bc6 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">More...</a><br /></td></tr>
+<tr class="separator:a758f24783e36ffc393b360d0b8640bc6 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a22401348796d603546e44d6c196018dc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a22401348796d603546e44d6c196018dc">TensorView</a> ()</td></tr>
-<tr class="memdesc:a22401348796d603546e44d6c196018dc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="#a22401348796d603546e44d6c196018dc">More...</a><br /></td></tr>
-<tr class="separator:a22401348796d603546e44d6c196018dc"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a80480aa986a488a106a9b0aea331c317"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a80480aa986a488a106a9b0aea331c317">TensorView</a> (<a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a> const &amp;_ref, <a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;_size)</td></tr>
-<tr class="memdesc:a80480aa986a488a106a9b0aea331c317"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a Tensor_view from a <a class="el" href="classcutlass_1_1TensorRef.html" title="Structure modeling a pointer and stride into a tensor. ">TensorRef</a> and size.  <a href="#a80480aa986a488a106a9b0aea331c317">More...</a><br /></td></tr>
-<tr class="separator:a80480aa986a488a106a9b0aea331c317"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a837881bc82704491accf54aad2b9def9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a837881bc82704491accf54aad2b9def9">good</a> () const</td></tr>
-<tr class="memdesc:a837881bc82704491accf54aad2b9def9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if the Tensor_view is bound to some memory.  <a href="#a837881bc82704491accf54aad2b9def9">More...</a><br /></td></tr>
-<tr class="separator:a837881bc82704491accf54aad2b9def9"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a248e4240ccf96c976254464710a73fc8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a248e4240ccf96c976254464710a73fc8">data</a> () const</td></tr>
-<tr class="memdesc:a248e4240ccf96c976254464710a73fc8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a pointer to data.  <a href="#a248e4240ccf96c976254464710a73fc8">More...</a><br /></td></tr>
-<tr class="separator:a248e4240ccf96c976254464710a73fc8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8b1785a1ea5d7aa7eba8e45297d539d3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a8b1785a1ea5d7aa7eba8e45297d539d3">reset</a> (<a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a> const &amp;_ref=<a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a>(0), <a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;_size=<a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a>())</td></tr>
-<tr class="memdesc:a8b1785a1ea5d7aa7eba8e45297d539d3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates the reference and size of a Tensor_view object.  <a href="#a8b1785a1ea5d7aa7eba8e45297d539d3">More...</a><br /></td></tr>
-<tr class="separator:a8b1785a1ea5d7aa7eba8e45297d539d3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8650860460ea24944c803a671095be09"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a> ()</td></tr>
-<tr class="memdesc:a8650860460ea24944c803a671095be09"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the tensor reference pointing to data.  <a href="#a8650860460ea24944c803a671095be09">More...</a><br /></td></tr>
-<tr class="separator:a8650860460ea24944c803a671095be09"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a23564f1d333bb16343ed3a885f894285"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">ConstTensorRef_t</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a23564f1d333bb16343ed3a885f894285">const_ref</a> ()</td></tr>
-<tr class="separator:a23564f1d333bb16343ed3a885f894285"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5cbff89d3d8dc71d27a4d6c1d7abb58a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a5cbff89d3d8dc71d27a4d6c1d7abb58a">ref</a> () const</td></tr>
-<tr class="memdesc:a5cbff89d3d8dc71d27a4d6c1d7abb58a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the tensor reference pointing to data.  <a href="#a5cbff89d3d8dc71d27a4d6c1d7abb58a">More...</a><br /></td></tr>
-<tr class="separator:a5cbff89d3d8dc71d27a4d6c1d7abb58a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a541a7c22e7109d4059044f146fe69027"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027">size</a> () const</td></tr>
-<tr class="memdesc:a541a7c22e7109d4059044f146fe69027"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the size.  <a href="#a541a7c22e7109d4059044f146fe69027">More...</a><br /></td></tr>
-<tr class="separator:a541a7c22e7109d4059044f146fe69027"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6218d8555679966eab784a6bb1fa4ed1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a6218d8555679966eab784a6bb1fa4ed1">size</a> (int dim) const</td></tr>
-<tr class="memdesc:a6218d8555679966eab784a6bb1fa4ed1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the size.  <a href="#a6218d8555679966eab784a6bb1fa4ed1">More...</a><br /></td></tr>
-<tr class="separator:a6218d8555679966eab784a6bb1fa4ed1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3ac125a25199fd91f73d2cfe9fc3d09b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a3ac125a25199fd91f73d2cfe9fc3d09b">stride</a> () const</td></tr>
-<tr class="memdesc:a3ac125a25199fd91f73d2cfe9fc3d09b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the stride.  <a href="#a3ac125a25199fd91f73d2cfe9fc3d09b">More...</a><br /></td></tr>
-<tr class="separator:a3ac125a25199fd91f73d2cfe9fc3d09b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a522630bb0df977282a9bff17e6fee843"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a522630bb0df977282a9bff17e6fee843">stride</a> (int dim) const</td></tr>
-<tr class="memdesc:a522630bb0df977282a9bff17e6fee843"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the stride.  <a href="#a522630bb0df977282a9bff17e6fee843">More...</a><br /></td></tr>
-<tr class="separator:a522630bb0df977282a9bff17e6fee843"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa9e9e19f35ce3111f64b763ca49b51ef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#aa9e9e19f35ce3111f64b763ca49b51ef">operator=</a> (<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> const &amp;_tensor)</td></tr>
-<tr class="memdesc:aa9e9e19f35ce3111f64b763ca49b51ef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assigns the Tensor_view.  <a href="#aa9e9e19f35ce3111f64b763ca49b51ef">More...</a><br /></td></tr>
-<tr class="separator:aa9e9e19f35ce3111f64b763ca49b51ef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a064f3630e69798e7915f910c4ee99ab7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">Offset_t</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a064f3630e69798e7915f910c4ee99ab7">offset</a> (<a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;coord) const</td></tr>
-<tr class="memdesc:a064f3630e69798e7915f910c4ee99ab7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the index of an element.  <a href="#a064f3630e69798e7915f910c4ee99ab7">More...</a><br /></td></tr>
-<tr class="separator:a064f3630e69798e7915f910c4ee99ab7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa94063d9a9c6e599d3f53e22433274be"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#aa94063d9a9c6e599d3f53e22433274be">contains</a> (<a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;coord) const</td></tr>
-<tr class="memdesc:aa94063d9a9c6e599d3f53e22433274be"><td class="mdescLeft">&#160;</td><td class="mdescRight">Determines whether a location is within a tensor.  <a href="#aa94063d9a9c6e599d3f53e22433274be">More...</a><br /></td></tr>
-<tr class="separator:aa94063d9a9c6e599d3f53e22433274be"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad894a8b373c413d308cb1b7c7ba545ce"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#ad894a8b373c413d308cb1b7c7ba545ce">at</a> (<a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;coord) const</td></tr>
-<tr class="memdesc:ad894a8b373c413d308cb1b7c7ba545ce"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise accessor.  <a href="#ad894a8b373c413d308cb1b7c7ba545ce">More...</a><br /></td></tr>
-<tr class="separator:ad894a8b373c413d308cb1b7c7ba545ce"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7fe7e44e15fd1ac58fb55edf72e8fb23"><td class="memItemLeft" align="right" valign="top">T &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a7fe7e44e15fd1ac58fb55edf72e8fb23">operator[]</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">Rank</a> &gt; const &amp;coord) const</td></tr>
-<tr class="memdesc:a7fe7e44e15fd1ac58fb55edf72e8fb23"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise accessor.  <a href="#a7fe7e44e15fd1ac58fb55edf72e8fb23">More...</a><br /></td></tr>
-<tr class="separator:a7fe7e44e15fd1ac58fb55edf72e8fb23"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:acc55581896fae8c0449b44b56d750155"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#acc55581896fae8c0449b44b56d750155">at</a> (<a class="el" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">Offset_t</a> idx) const</td></tr>
-<tr class="memdesc:acc55581896fae8c0449b44b56d750155"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise accessor.  <a href="#acc55581896fae8c0449b44b56d750155">More...</a><br /></td></tr>
-<tr class="separator:acc55581896fae8c0449b44b56d750155"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aee43c516397d7c06eb8012711d8d7c15"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&lt; T &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#aee43c516397d7c06eb8012711d8d7c15">subview</a> (<a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;location, <a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> <a class="el" href="classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027">size</a>) const</td></tr>
-<tr class="memdesc:aee43c516397d7c06eb8012711d8d7c15"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a Tensor_view given location and size quantities.  <a href="#aee43c516397d7c06eb8012711d8d7c15">More...</a><br /></td></tr>
-<tr class="separator:aee43c516397d7c06eb8012711d8d7c15"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_methods_classcutlass_1_1TensorRef"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_classcutlass_1_1TensorRef')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td></tr>
-<tr class="memitem:a54f6edc293b0b8ac97f02e8ab951c478 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">TensorRef</a> ()</td></tr>
-<tr class="memdesc:a54f6edc293b0b8ac97f02e8ab951c478 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor.  <a href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">More...</a><br /></td></tr>
-<tr class="separator:a54f6edc293b0b8ac97f02e8ab951c478 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae48325312183ff61dbd312c64f31fcb8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ae48325312183ff61dbd312c64f31fcb8">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> *ptr, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; <a class="el" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>)</td></tr>
-<tr class="memdesc:ae48325312183ff61dbd312c64f31fcb8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from a pointer, size, and stride.  <a href="classcutlass_1_1TensorRef.html#ae48325312183ff61dbd312c64f31fcb8">More...</a><br /></td></tr>
-<tr class="separator:ae48325312183ff61dbd312c64f31fcb8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abefe392e81da2c09cb127f963ae90674 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674">reset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> *ptr=<a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; <a class="el" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>=<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt;(0))</td></tr>
-<tr class="memdesc:abefe392e81da2c09cb127f963ae90674 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates the pointer, stride, and location within a TensorRef.  <a href="classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674">More...</a><br /></td></tr>
-<tr class="separator:abefe392e81da2c09cb127f963ae90674 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7eb4444e2b3fce5a5ccde65a75df633c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; T, <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c">convert</a> ()</td></tr>
-<tr class="memdesc:a7eb4444e2b3fce5a5ccde65a75df633c inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Conversion function.  <a href="classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c">More...</a><br /></td></tr>
-<tr class="separator:a7eb4444e2b3fce5a5ccde65a75df633c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0c049e523ee0fc98769ed8cd2d026780 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">good</a> () const</td></tr>
-<tr class="memdesc:a0c049e523ee0fc98769ed8cd2d026780 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if the TensorRef may be safely accessed.  <a href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">More...</a><br /></td></tr>
-<tr class="separator:a0c049e523ee0fc98769ed8cd2d026780 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8e23c78658f45c6f197a1774cc85c5b7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">data</a> () const</td></tr>
-<tr class="memdesc:a8e23c78658f45c6f197a1774cc85c5b7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the pointer to referenced data.  <a href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">More...</a><br /></td></tr>
-<tr class="separator:a8e23c78658f45c6f197a1774cc85c5b7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a89380141d25528c4c7ba6c365b96a878 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a> () const</td></tr>
-<tr class="memdesc:a89380141d25528c4c7ba6c365b96a878 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor.  <a href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">More...</a><br /></td></tr>
-<tr class="separator:a89380141d25528c4c7ba6c365b96a878 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af47f192552544272774a29d7a0829a31 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31">stride</a> (int dim) const</td></tr>
-<tr class="memdesc:af47f192552544272774a29d7a0829a31 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor in the given dimension.  <a href="classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31">More...</a><br /></td></tr>
-<tr class="separator:af47f192552544272774a29d7a0829a31 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8e1c61910ffb49ec64930f66dd342b77 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77">leading_dim</a> () const</td></tr>
-<tr class="memdesc:a8e1c61910ffb49ec64930f66dd342b77 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the maximum stride element as the 'leading dimension'.  <a href="classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77">More...</a><br /></td></tr>
-<tr class="separator:a8e1c61910ffb49ec64930f66dd342b77 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a02ee5d16ed4ce4705a99bb16b2ae1ae8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">offset</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;coord) const</td></tr>
-<tr class="memdesc:a02ee5d16ed4ce4705a99bb16b2ae1ae8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the offset of an index from the origin of the tensor.  <a href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">More...</a><br /></td></tr>
-<tr class="separator:a02ee5d16ed4ce4705a99bb16b2ae1ae8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7eff42a37e4dbee488bfa726f3f0df4f inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">at</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;coord) const</td></tr>
-<tr class="memdesc:a7eff42a37e4dbee488bfa726f3f0df4f inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given Coord.  <a href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">More...</a><br /></td></tr>
-<tr class="separator:a7eff42a37e4dbee488bfa726f3f0df4f inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5702dea703104ab431c098c7b039c215 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215">at</a> (int idx) const</td></tr>
-<tr class="memdesc:a5702dea703104ab431c098c7b039c215 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given Coord.  <a href="classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215">More...</a><br /></td></tr>
-<tr class="separator:a5702dea703104ab431c098c7b039c215 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6a2aa88ed77557c089a165da0df1e974 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a6a2aa88ed77557c089a165da0df1e974">operator[]</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;coord) const</td></tr>
-<tr class="memdesc:a6a2aa88ed77557c089a165da0df1e974 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise accessor.  <a href="classcutlass_1_1TensorRef.html#a6a2aa88ed77557c089a165da0df1e974">More...</a><br /></td></tr>
-<tr class="separator:a6a2aa88ed77557c089a165da0df1e974 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a34e97ab2190b4681d1c1199186d66f1c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c">operator[]</a> (int idx) const</td></tr>
-<tr class="memdesc:a34e97ab2190b4681d1c1199186d66f1c inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise accessor.  <a href="classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c">More...</a><br /></td></tr>
-<tr class="separator:a34e97ab2190b4681d1c1199186d66f1c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aab0dafb81a462320e55e0dc4a5886478 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478">advance</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;b)</td></tr>
-<tr class="memdesc:aab0dafb81a462320e55e0dc4a5886478 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds an offset to the pointer.  <a href="classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478">More...</a><br /></td></tr>
-<tr class="separator:aab0dafb81a462320e55e0dc4a5886478 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa7b80d225c01c9dc12aafc515cf15842 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842">operator+</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;b) const</td></tr>
-<tr class="memdesc:aa7b80d225c01c9dc12aafc515cf15842 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a TensorRef offset by a given amount.  <a href="classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842">More...</a><br /></td></tr>
-<tr class="separator:aa7b80d225c01c9dc12aafc515cf15842 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3843ccfd1d097f25eff45dc159709938 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938">operator-</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> &gt; const &amp;b) const</td></tr>
-<tr class="memdesc:a3843ccfd1d097f25eff45dc159709938 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a TensorRef offset by a given amount.  <a href="classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938">More...</a><br /></td></tr>
-<tr class="separator:a3843ccfd1d097f25eff45dc159709938 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a36d48227f65ad482a7bded99d6a3d0c1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a36d48227f65ad482a7bded99d6a3d0c1">TensorView</a> ()</td></tr>
+<tr class="memdesc:a36d48227f65ad482a7bded99d6a3d0c1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="#a36d48227f65ad482a7bded99d6a3d0c1">More...</a><br /></td></tr>
+<tr class="separator:a36d48227f65ad482a7bded99d6a3d0c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aad06edac0f43c358c5644dffb5fe9ad7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#aad06edac0f43c358c5644dffb5fe9ad7">TensorView</a> (<a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a> const &amp;_ref, <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;_size)</td></tr>
+<tr class="memdesc:aad06edac0f43c358c5644dffb5fe9ad7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a <a class="el" href="classcutlass_1_1TensorView.html" title="Defines a view into a logical tensor. ">TensorView</a> from a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> and size.  <a href="#aad06edac0f43c358c5644dffb5fe9ad7">More...</a><br /></td></tr>
+<tr class="separator:aad06edac0f43c358c5644dffb5fe9ad7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a73f049694ca1ea4825b5a651852827f5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a73f049694ca1ea4825b5a651852827f5">TensorView</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a>)</td></tr>
+<tr class="memdesc:a73f049694ca1ea4825b5a651852827f5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a <a class="el" href="classcutlass_1_1TensorView.html" title="Defines a view into a logical tensor. ">TensorView</a> from a pointer, a stride vector, and size.  <a href="#a73f049694ca1ea4825b5a651852827f5">More...</a><br /></td></tr>
+<tr class="separator:a73f049694ca1ea4825b5a651852827f5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af64d4195fd6ba2cba53179e1ae678737"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#af64d4195fd6ba2cba53179e1ae678737">TensorView</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a>)</td></tr>
+<tr class="memdesc:af64d4195fd6ba2cba53179e1ae678737"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a <a class="el" href="classcutlass_1_1TensorView.html" title="Defines a view into a logical tensor. ">TensorView</a> from a pointer, a stride vector, and size.  <a href="#af64d4195fd6ba2cba53179e1ae678737">More...</a><br /></td></tr>
+<tr class="separator:af64d4195fd6ba2cba53179e1ae678737"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae142eb93cf91e000b635d32fcacf1db3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#ae142eb93cf91e000b635d32fcacf1db3">reset</a> (<a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a> const &amp;_ref=<a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a>(), <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;_size=<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a>())</td></tr>
+<tr class="memdesc:ae142eb93cf91e000b635d32fcacf1db3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates the reference and size of a Tensor_view object.  <a href="#ae142eb93cf91e000b635d32fcacf1db3">More...</a><br /></td></tr>
+<tr class="separator:ae142eb93cf91e000b635d32fcacf1db3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad116076aa4ec7dc2d4b23b62e5dfbb7a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a> () const</td></tr>
+<tr class="memdesc:ad116076aa4ec7dc2d4b23b62e5dfbb7a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the size.  <a href="#ad116076aa4ec7dc2d4b23b62e5dfbb7a">More...</a><br /></td></tr>
+<tr class="separator:ad116076aa4ec7dc2d4b23b62e5dfbb7a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3778dc1c62a27ed811f1bb82a420096e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a3778dc1c62a27ed811f1bb82a420096e">size</a> (int dim) const</td></tr>
+<tr class="memdesc:a3778dc1c62a27ed811f1bb82a420096e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the size.  <a href="#a3778dc1c62a27ed811f1bb82a420096e">More...</a><br /></td></tr>
+<tr class="separator:a3778dc1c62a27ed811f1bb82a420096e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acf0c156efb9197bc7538f7e9057d8a68"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#acf0c156efb9197bc7538f7e9057d8a68">operator=</a> (<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> const &amp;_tensor)</td></tr>
+<tr class="memdesc:acf0c156efb9197bc7538f7e9057d8a68"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assigns the Tensor_view.  <a href="#acf0c156efb9197bc7538f7e9057d8a68">More...</a><br /></td></tr>
+<tr class="separator:acf0c156efb9197bc7538f7e9057d8a68"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3f448bcf6e664c244f472e2659215628"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a3f448bcf6e664c244f472e2659215628">contains</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a3f448bcf6e664c244f472e2659215628"><td class="mdescLeft">&#160;</td><td class="mdescRight">Determines whether a location is within a tensor.  <a href="#a3f448bcf6e664c244f472e2659215628">More...</a><br /></td></tr>
+<tr class="separator:a3f448bcf6e664c244f472e2659215628"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7e2beb56a3bc2d58c9ec65467b78c4f3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a7e2beb56a3bc2d58c9ec65467b78c4f3">ref</a> () const</td></tr>
+<tr class="memdesc:a7e2beb56a3bc2d58c9ec65467b78c4f3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> pointing to the first element of the tensor.  <a href="#a7e2beb56a3bc2d58c9ec65467b78c4f3">More...</a><br /></td></tr>
+<tr class="separator:a7e2beb56a3bc2d58c9ec65467b78c4f3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a559f7210b445c77a167ab1f41c8d0827"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a559f7210b445c77a167ab1f41c8d0827">const_ref</a> () const</td></tr>
+<tr class="memdesc:a559f7210b445c77a167ab1f41c8d0827"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> pointing to the first element of the tensor.  <a href="#a559f7210b445c77a167ab1f41c8d0827">More...</a><br /></td></tr>
+<tr class="separator:a559f7210b445c77a167ab1f41c8d0827"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad4b3faa318699b786f94cf8735a11dbb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#ad4b3faa318699b786f94cf8735a11dbb">subview</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;location, <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> <a class="el" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a>) const</td></tr>
+<tr class="memdesc:ad4b3faa318699b786f94cf8735a11dbb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a Tensor_view given location and size quantities.  <a href="#ad4b3faa318699b786f94cf8735a11dbb">More...</a><br /></td></tr>
+<tr class="separator:ad4b3faa318699b786f94cf8735a11dbb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad870c366ffe904d3363df1dfb0d5f04c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> size_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#ad870c366ffe904d3363df1dfb0d5f04c">capacity</a> () const</td></tr>
+<tr class="memdesc:ad870c366ffe904d3363df1dfb0d5f04c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the number of scalar elements needed to store tensor.  <a href="#ad870c366ffe904d3363df1dfb0d5f04c">More...</a><br /></td></tr>
+<tr class="separator:ad870c366ffe904d3363df1dfb0d5f04c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa2390d8e127a51df239affd2ca36e97a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#aa2390d8e127a51df239affd2ca36e97a">operator+</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:aa2390d8e127a51df239affd2ca36e97a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorView.html" title="Defines a view into a logical tensor. ">TensorView</a> offset by a given amount.  <a href="#aa2390d8e127a51df239affd2ca36e97a">More...</a><br /></td></tr>
+<tr class="separator:aa2390d8e127a51df239affd2ca36e97a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4fa8fa35d00eb4d0097da492c738cddc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a4fa8fa35d00eb4d0097da492c738cddc">operator+=</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a4fa8fa35d00eb4d0097da492c738cddc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#a4fa8fa35d00eb4d0097da492c738cddc">More...</a><br /></td></tr>
+<tr class="separator:a4fa8fa35d00eb4d0097da492c738cddc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e4b2bb02c5843898f72f62787403add"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a1e4b2bb02c5843898f72f62787403add">operator-</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a1e4b2bb02c5843898f72f62787403add"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#a1e4b2bb02c5843898f72f62787403add">More...</a><br /></td></tr>
+<tr class="separator:a1e4b2bb02c5843898f72f62787403add"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abc088fad6debb6a0ceb04c5d2767e81b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#abc088fad6debb6a0ceb04c5d2767e81b">operator-=</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b)</td></tr>
+<tr class="memdesc:abc088fad6debb6a0ceb04c5d2767e81b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="#abc088fad6debb6a0ceb04c5d2767e81b">More...</a><br /></td></tr>
+<tr class="separator:abc088fad6debb6a0ceb04c5d2767e81b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_classcutlass_1_1TensorRef"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_classcutlass_1_1TensorRef')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="memitem:a5a667a48c64fb916c31802b73b769765 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr=<a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>)</td></tr>
+<tr class="memdesc:a5a667a48c64fb916c31802b73b769765 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper for 1-D memory. All higher ranks are projected onto the fastest changing rank.  <a href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">More...</a><br /></td></tr>
+<tr class="separator:a5a667a48c64fb916c31802b73b769765 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a48b9b4ad9034f6cf2b7c2ee479aea135 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> ldm)</td></tr>
+<tr class="memdesc:a48b9b4ad9034f6cf2b7c2ee479aea135 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct from a pointer and single stride element for 2-D pitch linear memory.  <a href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">More...</a><br /></td></tr>
+<tr class="separator:a48b9b4ad9034f6cf2b7c2ee479aea135 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afe4fc6fa539f36b2764707d50351905c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>)</td></tr>
+<tr class="memdesc:afe4fc6fa539f36b2764707d50351905c inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from a single pointer and stride vector.  <a href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">More...</a><br /></td></tr>
+<tr class="separator:afe4fc6fa539f36b2764707d50351905c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeca439296c8446741ba84b78f5a601e0 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>)</td></tr>
+<tr class="separator:aeca439296c8446741ba84b78f5a601e0 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afe92be0a61fb8fc84426f4907faca6c1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &gt;::type, <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a>, <a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> &gt; const &amp;ref)</td></tr>
+<tr class="memdesc:afe92be0a61fb8fc84426f4907faca6c1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Enables conversion from <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> of non-const type.  <a href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">More...</a><br /></td></tr>
+<tr class="separator:afe92be0a61fb8fc84426f4907faca6c1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6ab468e38773f5a971a8428673fb5e47 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">const_ref</a> () const</td></tr>
+<tr class="memdesc:a6ab468e38773f5a971a8428673fb5e47 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to constant-valued tensor.  <a href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">More...</a><br /></td></tr>
+<tr class="separator:a6ab468e38773f5a971a8428673fb5e47 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ec815838aed4e02dd96acb1000614c0 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">reset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr=<a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>)</td></tr>
+<tr class="memdesc:a7ec815838aed4e02dd96acb1000614c0 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates only the pointer.  <a href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">More...</a><br /></td></tr>
+<tr class="separator:a7ec815838aed4e02dd96acb1000614c0 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7a1da27a46883eb68e3f8983670b784b inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">reset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>)</td></tr>
+<tr class="memdesc:a7a1da27a46883eb68e3f8983670b784b inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates the pointer, stride, and location within a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>.  <a href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">More...</a><br /></td></tr>
+<tr class="separator:a7a1da27a46883eb68e3f8983670b784b inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2dbee889626b4764d30e9058ef3a7ae8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">good</a> () const</td></tr>
+<tr class="memdesc:a2dbee889626b4764d30e9058ef3a7ae8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if the <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> may be safely accessed.  <a href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">More...</a><br /></td></tr>
+<tr class="separator:a2dbee889626b4764d30e9058ef3a7ae8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae1c80b524cd9491e2d499d703e1459f7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">data</a> () const</td></tr>
+<tr class="memdesc:ae1c80b524cd9491e2d499d703e1459f7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the pointer to referenced data.  <a href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">More...</a><br /></td></tr>
+<tr class="separator:ae1c80b524cd9491e2d499d703e1459f7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adb52dd6f9f68e7b8b67b8ddfb5c0021c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a> () const</td></tr>
+<tr class="memdesc:adb52dd6f9f68e7b8b67b8ddfb5c0021c inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor.  <a href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">More...</a><br /></td></tr>
+<tr class="separator:adb52dd6f9f68e7b8b67b8ddfb5c0021c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa6956072f1231b79fe8925a78c4760b7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">stride</a> (int dim) const</td></tr>
+<tr class="memdesc:aa6956072f1231b79fe8925a78c4760b7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor in the given dimension.  <a href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">More...</a><br /></td></tr>
+<tr class="separator:aa6956072f1231b79fe8925a78c4760b7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa60b92372db1da1d2aa997d6a03e01ca inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">leading_dim</a> (int idx=0) const</td></tr>
+<tr class="memdesc:aa60b92372db1da1d2aa997d6a03e01ca inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the maximum stride element as the 'leading dimension'.  <a href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">More...</a><br /></td></tr>
+<tr class="separator:aa60b92372db1da1d2aa997d6a03e01ca inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07dfe328d4a8316e79e9acde50582360 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">map</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a07dfe328d4a8316e79e9acde50582360 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps a logical coordinate to an n-D array in memory.  <a href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">More...</a><br /></td></tr>
+<tr class="separator:a07dfe328d4a8316e79e9acde50582360 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4da903ecbeaaf80c35084e8779e920a1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a4da903ecbeaaf80c35084e8779e920a1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the offset of an index from the origin of the tensor.  <a href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">More...</a><br /></td></tr>
+<tr class="separator:a4da903ecbeaaf80c35084e8779e920a1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4169a1344897c2c87822ee49d5e0002f inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">at</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a4169a1344897c2c87822ee49d5e0002f inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">More...</a><br /></td></tr>
+<tr class="separator:a4169a1344897c2c87822ee49d5e0002f inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab0cf071be50423dece4e931878573a1c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">at</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> idx) const</td></tr>
+<tr class="memdesc:ab0cf071be50423dece4e931878573a1c inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given linear index.  <a href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">More...</a><br /></td></tr>
+<tr class="separator:ab0cf071be50423dece4e931878573a1c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada832ce3a57aaf4919b1ed89192f1fa6 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">operator[]</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:ada832ce3a57aaf4919b1ed89192f1fa6 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">More...</a><br /></td></tr>
+<tr class="separator:ada832ce3a57aaf4919b1ed89192f1fa6 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a207a0dabf6c368fa1edcb32baa2110e3 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">operator[]</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> idx) const</td></tr>
+<tr class="memdesc:a207a0dabf6c368fa1edcb32baa2110e3 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given linear index.  <a href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">More...</a><br /></td></tr>
+<tr class="separator:a207a0dabf6c368fa1edcb32baa2110e3 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5f0363da1e0544f256438e066d3cc143 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> delta)</td></tr>
+<tr class="memdesc:a5f0363da1e0544f256438e066d3cc143 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds an offset to each pointer.  <a href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">More...</a><br /></td></tr>
+<tr class="separator:a5f0363da1e0544f256438e066d3cc143 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0a4fd9ace579b46bc9d575b8adc6882f inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">operator+</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a0a4fd9ace579b46bc9d575b8adc6882f inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">More...</a><br /></td></tr>
+<tr class="separator:a0a4fd9ace579b46bc9d575b8adc6882f inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a727d9c25d6df0aa9e795123b638b9306 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">operator+=</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a727d9c25d6df0aa9e795123b638b9306 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">More...</a><br /></td></tr>
+<tr class="separator:a727d9c25d6df0aa9e795123b638b9306 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4a56b323aed2a3b2c843c276b68378fa inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">operator-</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a4a56b323aed2a3b2c843c276b68378fa inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">More...</a><br /></td></tr>
+<tr class="separator:a4a56b323aed2a3b2c843c276b68378fa inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5b5af26da32278d19c27c0d5a4a18890 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">operator-=</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a5b5af26da32278d19c27c0d5a4a18890 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">More...</a><br /></td></tr>
+<tr class="separator:a5b5af26da32278d19c27c0d5a4a18890 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
-<tr class="memitem:a22c39e8cf314884c5d523914cf4cac90"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">Rank</a> = TensorRef_t::Rank</td></tr>
-<tr class="memdesc:a22c39e8cf314884c5d523914cf4cac90"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of tensor.  <a href="#a22c39e8cf314884c5d523914cf4cac90">More...</a><br /></td></tr>
-<tr class="separator:a22c39e8cf314884c5d523914cf4cac90"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_static_attribs_classcutlass_1_1TensorRef"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_classcutlass_1_1TensorRef')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; T, 4 &gt;</a></td></tr>
-<tr class="memitem:a22ac53a60e63a743613e732586ad0c66 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a></td></tr>
-<tr class="memdesc:a22ac53a60e63a743613e732586ad0c66 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of tensor.  <a href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">More...</a><br /></td></tr>
-<tr class="separator:a22ac53a60e63a743613e732586ad0c66 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8dbb7043546fae133547d2c3e46dddab"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html#a8dbb7043546fae133547d2c3e46dddab">Rank</a> = Base::kRank</td></tr>
+<tr class="memdesc:a8dbb7043546fae133547d2c3e46dddab"><td class="mdescLeft">&#160;</td><td class="mdescRight">Logical rank of tensor index space.  <a href="#a8dbb7043546fae133547d2c3e46dddab">More...</a><br /></td></tr>
+<tr class="separator:a8dbb7043546fae133547d2c3e46dddab"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_classcutlass_1_1TensorRef"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_classcutlass_1_1TensorRef')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="memitem:a429692d4ac03a3427fbd8fdfaac4ae31 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a> = Rank_</td></tr>
+<tr class="memdesc:a429692d4ac03a3427fbd8fdfaac4ae31 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Logical rank of tensor index space.  <a href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">More...</a><br /></td></tr>
+<tr class="separator:a429692d4ac03a3427fbd8fdfaac4ae31 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a425ff3d894ed1153eee79b1944fa5ed2 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> = StorageRank_</td></tr>
+<tr class="memdesc:a425ff3d894ed1153eee79b1944fa5ed2 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of internal storage.  <a href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">More...</a><br /></td></tr>
+<tr class="separator:a425ff3d894ed1153eee79b1944fa5ed2 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2088b39881deef375af08511bca1e90a inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">Rank</a> = <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a></td></tr>
+<tr class="memdesc:a2088b39881deef375af08511bca1e90a inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Logical rank of tensor index space.  <a href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">More...</a><br /></td></tr>
+<tr class="separator:a2088b39881deef375af08511bca1e90a inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a27f09c55f879410cceb75eb25fe542d4"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a27f09c55f879410cceb75eb25fe542d4">&#9670;&nbsp;</a></span>Base</h2>
+<a id="a2d0d8ed1c19485318e84db99b8b4e9e6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2d0d8ed1c19485318e84db99b8b4e9e6">&#9670;&nbsp;</a></span>Base</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;T, 4&gt; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4">Base</a></td>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a>&lt;Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a8ef76170bc5ba832dc01339133021830"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8ef76170bc5ba832dc01339133021830">&#9670;&nbsp;</a></span>ConstTensorRef_t</h2>
+<a id="a3861f7f09da0b8153d0e3686f2c7cf57"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3861f7f09da0b8153d0e3686f2c7cf57">&#9670;&nbsp;</a></span>ConstTensorRef</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;T const, 4&gt; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">ConstTensorRef_t</a></td>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt;Storage_&gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a4037baf5069138ec3967810d2e185017"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4037baf5069138ec3967810d2e185017">&#9670;&nbsp;</a></span>Coord_t</h2>
+<a id="a162c4cb4f4e866892d63cd37f7f72165"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a162c4cb4f4e866892d63cd37f7f72165">&#9670;&nbsp;</a></span>ConstTensorRef_t</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">Rank</a>&gt; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a></td>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">TensorRef::ConstTensorRef</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorView.html#a162c4cb4f4e866892d63cd37f7f72165">ConstTensorRef_t</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a215946fb080a5253815feb1f639c8f6f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a215946fb080a5253815feb1f639c8f6f">&#9670;&nbsp;</a></span>Offset_t</h2>
+<a id="ab879a7b6552c879a81c49cbc0946d719"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab879a7b6552c879a81c49cbc0946d719">&#9670;&nbsp;</a></span>ConstTensorView</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef int <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">Offset_t</a></td>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt;<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>&gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorView.html#ab879a7b6552c879a81c49cbc0946d719">ConstTensorView</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a762fc3d887ab14f4c7bcde85f0af16ab"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a762fc3d887ab14f4c7bcde85f0af16ab">&#9670;&nbsp;</a></span>TensorRef_t</h2>
+<a id="ab16a0244199ca2800ea5460ed8ed6ae2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab16a0244199ca2800ea5460ed8ed6ae2">&#9670;&nbsp;</a></span>Coord_t</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4">Base</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a></td>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">Coord_t</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="a22401348796d603546e44d6c196018dc"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a22401348796d603546e44d6c196018dc">&#9670;&nbsp;</a></span>TensorView() <span class="overload">[1/2]</span></h2>
+<a id="a5a3f096a01e6a2dfe984d7e605380599"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a3f096a01e6a2dfe984d7e605380599">&#9670;&nbsp;</a></span>Index</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
-<table class="mlabels">
-  <tr>
-  <td class="mlabels-left">
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> </td>
-          <td>(</td>
-          <td class="paramname"></td><td>)</td>
-          <td></td>
+          <td class="memname">typedef Base::Index <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a></td>
         </tr>
       </table>
-  </td>
-  <td class="mlabels-right">
-<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
-  </tr>
-</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a80480aa986a488a106a9b0aea331c317"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a80480aa986a488a106a9b0aea331c317">&#9670;&nbsp;</a></span>TensorView() <span class="overload">[2/2]</span></h2>
+<a id="a408d9a8026115bdaf70a37c86dc720b1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a408d9a8026115bdaf70a37c86dc720b1">&#9670;&nbsp;</a></span>Offset_t</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
-<table class="mlabels">
-  <tr>
-  <td class="mlabels-left">
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> </td>
-          <td>(</td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a> const &amp;&#160;</td>
-          <td class="paramname"><em>_ref</em>, </td>
+          <td class="memname">typedef Base::LongIndex <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorView.html#a408d9a8026115bdaf70a37c86dc720b1">Offset_t</a></td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a52fb77744c7c7ecf0f8a3a725556293d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a52fb77744c7c7ecf0f8a3a725556293d">&#9670;&nbsp;</a></span>Storage</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
         <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;&#160;</td>
-          <td class="paramname"><em>_size</em>&#160;</td>
+          <td class="memname">typedef Base::Storage <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a></td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abaf7ec0e96bc99cf0ce243e703b8711c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abaf7ec0e96bc99cf0ce243e703b8711c">&#9670;&nbsp;</a></span>StorageCoord</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
         <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">TensorRef::StorageCoord</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a></td>
         </tr>
       </table>
-  </td>
-  <td class="mlabels-right">
-<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
-  </tr>
-</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<h2 class="groupheader">Member Function Documentation</h2>
-<a id="ad894a8b373c413d308cb1b7c7ba545ce"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad894a8b373c413d308cb1b7c7ba545ce">&#9670;&nbsp;</a></span>at() <span class="overload">[1/2]</span></h2>
+<a id="a625892aa9063eebf769bb2ed0cba7684"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a625892aa9063eebf769bb2ed0cba7684">&#9670;&nbsp;</a></span>StrideVector</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">TensorRef::StrideVector</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>Stride vector in storage coordinate space Least significant stride is = 1 and not stored </p>
+
+</div>
+</div>
+<a id="ada8a241b6b2c5439183b0d6c456c934e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada8a241b6b2c5439183b0d6c456c934e">&#9670;&nbsp;</a></span>TensorCoord</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorRef::TensorCoord</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af0237fca8d8df1cf4f17d9cb43eae507"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0237fca8d8df1cf4f17d9cb43eae507">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25eb8c0fe380114ddaabb37453be4606"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25eb8c0fe380114ddaabb37453be4606">&#9670;&nbsp;</a></span>TensorRef_t</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorView.html#a25eb8c0fe380114ddaabb37453be4606">TensorRef_t</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a36d48227f65ad482a7bded99d6a3d0c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a36d48227f65ad482a7bded99d6a3d0c1">&#9670;&nbsp;</a></span>TensorView() <span class="overload">[1/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;&#160;</td>
-          <td class="paramname"><em>coord</em></td><td>)</td>
-          <td> const</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
         </tr>
       </table>
   </td>
@@ -415,23 +544,33 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad894a8b373c413d308cb1b7c
 
 </div>
 </div>
-<a id="acc55581896fae8c0449b44b56d750155"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#acc55581896fae8c0449b44b56d750155">&#9670;&nbsp;</a></span>at() <span class="overload">[2/2]</span></h2>
+<a id="aad06edac0f43c358c5644dffb5fe9ad7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad06edac0f43c358c5644dffb5fe9ad7">&#9670;&nbsp;</a></span>TensorView() <span class="overload">[2/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">Offset_t</a>&#160;</td>
-          <td class="paramname"><em>idx</em></td><td>)</td>
-          <td> const</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_ref</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_size</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
         </tr>
       </table>
   </td>
@@ -443,22 +582,39 @@ <h2 class="memtitle"><span class="permalink"><a href="#acc55581896fae8c0449b44b5
 
 </div>
 </div>
-<a id="a23564f1d333bb16343ed3a885f894285"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a23564f1d333bb16343ed3a885f894285">&#9670;&nbsp;</a></span>const_ref()</h2>
+<a id="a73f049694ca1ea4825b5a651852827f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a73f049694ca1ea4825b5a651852827f5">&#9670;&nbsp;</a></span>TensorView() <span class="overload">[3/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">ConstTensorRef_t</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::const_ref </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a> const &amp;&#160;</td>
+          <td class="paramname"><em>stride</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>size</em>&#160;</td>
+        </tr>
+        <tr>
           <td></td>
+          <td>)</td>
+          <td></td><td></td>
         </tr>
       </table>
   </td>
@@ -470,23 +626,39 @@ <h2 class="memtitle"><span class="permalink"><a href="#a23564f1d333bb16343ed3a88
 
 </div>
 </div>
-<a id="aa94063d9a9c6e599d3f53e22433274be"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa94063d9a9c6e599d3f53e22433274be">&#9670;&nbsp;</a></span>contains()</h2>
+<a id="af64d4195fd6ba2cba53179e1ae678737"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af64d4195fd6ba2cba53179e1ae678737">&#9670;&nbsp;</a></span>TensorView() <span class="overload">[4/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::contains </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;&#160;</td>
-          <td class="paramname"><em>coord</em></td><td>)</td>
-          <td> const</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>stride</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>size</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
         </tr>
       </table>
   </td>
@@ -498,19 +670,20 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa94063d9a9c6e599d3f53e22
 
 </div>
 </div>
-<a id="a248e4240ccf96c976254464710a73fc8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a248e4240ccf96c976254464710a73fc8">&#9670;&nbsp;</a></span>data()</h2>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ad870c366ffe904d3363df1dfb0d5f04c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad870c366ffe904d3363df1dfb0d5f04c">&#9670;&nbsp;</a></span>capacity()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T* <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::data </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> size_t <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::capacity </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td> const</td>
@@ -525,19 +698,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a248e4240ccf96c9762544647
 
 </div>
 </div>
-<a id="a837881bc82704491accf54aad2b9def9"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a837881bc82704491accf54aad2b9def9">&#9670;&nbsp;</a></span>good()</h2>
+<a id="a559f7210b445c77a167ab1f41c8d0827"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a559f7210b445c77a167ab1f41c8d0827">&#9670;&nbsp;</a></span>const_ref()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::good </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::const_ref </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td> const</td>
@@ -552,21 +725,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a837881bc82704491accf54aa
 
 </div>
 </div>
-<a id="a064f3630e69798e7915f910c4ee99ab7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a064f3630e69798e7915f910c4ee99ab7">&#9670;&nbsp;</a></span>offset()</h2>
+<a id="a3f448bcf6e664c244f472e2659215628"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f448bcf6e664c244f472e2659215628">&#9670;&nbsp;</a></span>contains()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">Offset_t</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::offset </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::contains </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
           <td class="paramname"><em>coord</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -580,23 +753,23 @@ <h2 class="memtitle"><span class="permalink"><a href="#a064f3630e69798e7915f910c
 
 </div>
 </div>
-<a id="aa9e9e19f35ce3111f64b763ca49b51ef"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa9e9e19f35ce3111f64b763ca49b51ef">&#9670;&nbsp;</a></span>operator=()</h2>
+<a id="aa2390d8e127a51df239affd2ca36e97a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa2390d8e127a51df239affd2ca36e97a">&#9670;&nbsp;</a></span>operator+()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::operator= </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator+ </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&lt; T &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>_tensor</em></td><td>)</td>
-          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
         </tr>
       </table>
   </td>
@@ -608,23 +781,23 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa9e9e19f35ce3111f64b763c
 
 </div>
 </div>
-<a id="a7fe7e44e15fd1ac58fb55edf72e8fb23"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7fe7e44e15fd1ac58fb55edf72e8fb23">&#9670;&nbsp;</a></span>operator[]()</h2>
+<a id="a4fa8fa35d00eb4d0097da492c738cddc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4fa8fa35d00eb4d0097da492c738cddc">&#9670;&nbsp;</a></span>operator+=()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">T&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator+= </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">Rank</a> &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>coord</em></td><td>)</td>
-          <td> const</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
         </tr>
       </table>
   </td>
@@ -636,22 +809,23 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7fe7e44e15fd1ac58fb55edf
 
 </div>
 </div>
-<a id="a8650860460ea24944c803a671095be09"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8650860460ea24944c803a671095be09">&#9670;&nbsp;</a></span>ref() <span class="overload">[1/2]</span></h2>
+<a id="a1e4b2bb02c5843898f72f62787403add"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e4b2bb02c5843898f72f62787403add">&#9670;&nbsp;</a></span>operator-()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a>&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::ref </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator- </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
-          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
         </tr>
       </table>
   </td>
@@ -663,22 +837,23 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8650860460ea24944c803a67
 
 </div>
 </div>
-<a id="a5cbff89d3d8dc71d27a4d6c1d7abb58a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5cbff89d3d8dc71d27a4d6c1d7abb58a">&#9670;&nbsp;</a></span>ref() <span class="overload">[2/2]</span></h2>
+<a id="abc088fad6debb6a0ceb04c5d2767e81b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc088fad6debb6a0ceb04c5d2767e81b">&#9670;&nbsp;</a></span>operator-=()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a> const&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::ref </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator-= </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
-          <td> const</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
         </tr>
       </table>
   </td>
@@ -690,33 +865,23 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5cbff89d3d8dc71d27a4d6c1
 
 </div>
 </div>
-<a id="a8b1785a1ea5d7aa7eba8e45297d539d3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8b1785a1ea5d7aa7eba8e45297d539d3">&#9670;&nbsp;</a></span>reset()</h2>
+<a id="acf0c156efb9197bc7538f7e9057d8a68"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acf0c156efb9197bc7538f7e9057d8a68">&#9670;&nbsp;</a></span>operator=()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::reset </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::operator= </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a> const &amp;&#160;</td>
-          <td class="paramname"><em>_ref</em> = <code><a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a>(0)</code>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;&#160;</td>
-          <td class="paramname"><em>_size</em> = <code><a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a>()</code>&#160;</td>
-        </tr>
-        <tr>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>_tensor</em></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
   </td>
@@ -728,19 +893,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8b1785a1ea5d7aa7eba8e452
 
 </div>
 </div>
-<a id="a541a7c22e7109d4059044f146fe69027"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a541a7c22e7109d4059044f146fe69027">&#9670;&nbsp;</a></span>size() <span class="overload">[1/2]</span></h2>
+<a id="a7e2beb56a3bc2d58c9ec65467b78c4f3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7e2beb56a3bc2d58c9ec65467b78c4f3">&#9670;&nbsp;</a></span>ref()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::size </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ref </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td> const</td>
@@ -755,23 +920,33 @@ <h2 class="memtitle"><span class="permalink"><a href="#a541a7c22e7109d4059044f14
 
 </div>
 </div>
-<a id="a6218d8555679966eab784a6bb1fa4ed1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6218d8555679966eab784a6bb1fa4ed1">&#9670;&nbsp;</a></span>size() <span class="overload">[2/2]</span></h2>
+<a id="ae142eb93cf91e000b635d32fcacf1db3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae142eb93cf91e000b635d32fcacf1db3">&#9670;&nbsp;</a></span>reset()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::size </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::reset </td>
           <td>(</td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>dim</em></td><td>)</td>
-          <td> const</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_ref</em> = <code><a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a>()</code>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_size</em> = <code><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a>()</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
         </tr>
       </table>
   </td>
@@ -783,19 +958,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6218d8555679966eab784a6b
 
 </div>
 </div>
-<a id="a3ac125a25199fd91f73d2cfe9fc3d09b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3ac125a25199fd91f73d2cfe9fc3d09b">&#9670;&nbsp;</a></span>stride() <span class="overload">[1/2]</span></h2>
+<a id="ad116076aa4ec7dc2d4b23b62e5dfbb7a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad116076aa4ec7dc2d4b23b62e5dfbb7a">&#9670;&nbsp;</a></span>size() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::stride </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::size </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td> const</td>
@@ -810,19 +985,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3ac125a25199fd91f73d2cfe
 
 </div>
 </div>
-<a id="a522630bb0df977282a9bff17e6fee843"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a522630bb0df977282a9bff17e6fee843">&#9670;&nbsp;</a></span>stride() <span class="overload">[2/2]</span></h2>
+<a id="a3778dc1c62a27ed811f1bb82a420096e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3778dc1c62a27ed811f1bb82a420096e">&#9670;&nbsp;</a></span>size() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const&amp; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::stride </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::size </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>dim</em></td><td>)</td>
@@ -838,27 +1013,27 @@ <h2 class="memtitle"><span class="permalink"><a href="#a522630bb0df977282a9bff17
 
 </div>
 </div>
-<a id="aee43c516397d7c06eb8012711d8d7c15"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aee43c516397d7c06eb8012711d8d7c15">&#9670;&nbsp;</a></span>subview()</h2>
+<a id="ad4b3faa318699b786f94cf8735a11dbb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad4b3faa318699b786f94cf8735a11dbb">&#9670;&nbsp;</a></span>subview()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a>&lt;T&gt; <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::subview </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::subview </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a> const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;&#160;</td>
           <td class="paramname"><em>location</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a>&#160;</td>
           <td class="paramname"><em>size</em>&#160;</td>
         </tr>
         <tr>
@@ -877,19 +1052,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#aee43c516397d7c06eb801271
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="a22c39e8cf314884c5d523914cf4cac90"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a22c39e8cf314884c5d523914cf4cac90">&#9670;&nbsp;</a></span>Rank</h2>
+<a id="a8dbb7043546fae133547d2c3e46dddab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8dbb7043546fae133547d2c3e46dddab">&#9670;&nbsp;</a></span>Rank</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename T&gt; </div>
+template&lt;typename Storage_ , int Rank_ = 4, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; T &gt;::Rank = TensorRef_t::Rank</td>
+          <td class="memname">int const <a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::Rank = Base::kRank</td>
         </tr>
       </table>
   </td>
@@ -907,7 +1082,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a22c39e8cf314884c5d523914
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classcutlass_1_1TensorView.png b/docs/classcutlass_1_1TensorView.png
index 40500e8a3a..46861ac917 100644
Binary files a/docs/classcutlass_1_1TensorView.png and b/docs/classcutlass_1_1TensorView.png differ
diff --git a/docs/classcutlass_1_1ZipTileIterator-members.html b/docs/classcutlass_1_1ZipTileIterator-members.html
new file mode 100644
index 0000000000..6de74a4943
--- /dev/null
+++ b/docs/classcutlass_1_1ZipTileIterator-members.html
@@ -0,0 +1,125 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::ZipTileIterator&lt; First_, Second_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a0752af296e110d9104a45ae24bd0a104">add_pointer_offset</a>(Index offset)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6">decrement</a>(int count=1)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">First</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a></td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808">increment</a>(int count=1)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">Index</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a8f334010614b50d962e4769904d7b76f">initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ab0f93878bbe5aac072450f9bf1dd8b64">initialize_predicates</a>(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a23b72b086f350dfe07cff22ac010c45c">load</a>(Fragment &amp;fragment) const</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a9a3f2f913ee73f0c04e74ec89c6c5cbb">load</a>(Fragment &amp;fragment, Coord&lt; 4 &gt; const &amp;offset) const</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a4c9997488be2f09b9653d8ef8ac06c2b">load</a>(Fragment &amp;fragment, PredicateIterator pred_it) const</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a95b8db4af9228beed273669b3b0b12fe">load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a3020bcd0a49efad674ca5539ea1c96c0">load_post_increment</a>(Fragment &amp;fragment, Coord&lt; 4 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a53045f40d203a805af9c92fa0b5bc684">load_post_increment</a>(Fragment &amp;fragment, PredicateIterator pred_it)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a47d270fc4a119d7b95b2d5dd3ee5b87b">operator++</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a60ba516d7382cb7788d5430023f7fc44">operator+=</a>(int count)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a200a4e88ee6d23dcc80e974c77f8fa1f">operator+=</a>(Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a3d22dab34b2abd0d05c00668f8591151">operator--</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a7bae0f9b789e75bb154c5f37db50e14c">operator-=</a>(int count)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#aa853fa2a2e73397d8950567f3f5b7a15">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a></td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">Second</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a884983cd1df81739fc971b46697b851c">store</a>(Fragment const &amp;fragment) const</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a425b4a4f2e66f3ff5960742d19d06bc2">store</a>(Fragment const &amp;fragment, Coord&lt; 4 &gt; const &amp;offset) const</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#aa617653e75535fe13aafa80bc4cc9cc4">store</a>(Fragment const &amp;fragment, PredicateIterator pred_it) const</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a961a340f902542f3000dc80e852958f2">store_post_increment</a>(Fragment const &amp;fragment)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a18ed76e6be1a02d0229cdf1d6528e34f">store_post_increment</a>(Fragment const &amp;fragment, Coord&lt; 4 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a3a2cae47533c1122eb8ec404473a0d9e">store_post_increment</a>(Fragment const &amp;fragment, PredicateIterator pred_it)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">TensorRef</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a09eab0c5218fc122848b623462c18149">ZipTileIterator</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a45a8ba275f8d4f71deb102ad46712b3e">ZipTileIterator</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a31553842afd1cfd5a18a2fd6c39e17b5">ZipTileIterator</a>(First const &amp;_first, Second const &amp;_second)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a808e06560609aa5b7bb693ec79a3aa57">ZipTileIterator</a>(TensorRef const &amp;ref)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a9d70b24bf38122c0fea49558c6f6b344">ZipTileIterator</a>(Params const &amp;_params, TensorRef const &amp;ref)</td><td class="entry"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1ZipTileIterator.html b/docs/classcutlass_1_1ZipTileIterator.html
new file mode 100644
index 0000000000..7cf7a392b5
--- /dev/null
+++ b/docs/classcutlass_1_1ZipTileIterator.html
@@ -0,0 +1,1290 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::ZipTileIterator&lt; First_, Second_ &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="classcutlass_1_1ZipTileIterator-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::ZipTileIterator&lt; First_, Second_ &gt; Class Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Constructs an iterator from a pair of iterators.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="zip__tile__iterator_8h_source.html">zip_tile_iterator.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html" title="Params object. ">Params</a> object.  <a href="structcutlass_1_1ZipTileIterator_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a0c3046a077ef69a9325d7df817865bf7"><td class="memItemLeft" align="right" valign="top">typedef First_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">First</a></td></tr>
+<tr class="memdesc:a0c3046a077ef69a9325d7df817865bf7"><td class="mdescLeft">&#160;</td><td class="mdescRight">First iterator type.  <a href="#a0c3046a077ef69a9325d7df817865bf7">More...</a><br /></td></tr>
+<tr class="separator:a0c3046a077ef69a9325d7df817865bf7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae34d88ee2878174707dcfdda4f3fa76c"><td class="memItemLeft" align="right" valign="top">typedef Second_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">Second</a></td></tr>
+<tr class="memdesc:ae34d88ee2878174707dcfdda4f3fa76c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Second iterator type.  <a href="#ae34d88ee2878174707dcfdda4f3fa76c">More...</a><br /></td></tr>
+<tr class="separator:ae34d88ee2878174707dcfdda4f3fa76c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae239840776fe7c3bd679b798188d9d06"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a>&lt; typename First::Fragment, typename Second::Fragment &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a></td></tr>
+<tr class="memdesc:ae239840776fe7c3bd679b798188d9d06"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> type.  <a href="#ae239840776fe7c3bd679b798188d9d06">More...</a><br /></td></tr>
+<tr class="separator:ae239840776fe7c3bd679b798188d9d06"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa853fa2a2e73397d8950567f3f5b7a15"><td class="memItemLeft" align="right" valign="top">typedef First::PredicateVector&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#aa853fa2a2e73397d8950567f3f5b7a15">PredicateVector</a></td></tr>
+<tr class="memdesc:aa853fa2a2e73397d8950567f3f5b7a15"><td class="mdescLeft">&#160;</td><td class="mdescRight">Predicate vector.  <a href="#aa853fa2a2e73397d8950567f3f5b7a15">More...</a><br /></td></tr>
+<tr class="separator:aa853fa2a2e73397d8950567f3f5b7a15"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab48ad3cf2ffeec356d8592d94f6b81f0"><td class="memItemLeft" align="right" valign="top">typedef First::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">Index</a></td></tr>
+<tr class="memdesc:ab48ad3cf2ffeec356d8592d94f6b81f0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#ab48ad3cf2ffeec356d8592d94f6b81f0">More...</a><br /></td></tr>
+<tr class="separator:ab48ad3cf2ffeec356d8592d94f6b81f0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1dea96f5cf56aade14bd815aee91d09c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt; typename First::TensorRef, typename Second::TensorRef &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">TensorRef</a></td></tr>
+<tr class="memdesc:a1dea96f5cf56aade14bd815aee91d09c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference.  <a href="#a1dea96f5cf56aade14bd815aee91d09c">More...</a><br /></td></tr>
+<tr class="separator:a1dea96f5cf56aade14bd815aee91d09c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a09eab0c5218fc122848b623462c18149"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a09eab0c5218fc122848b623462c18149">ZipTileIterator</a> ()</td></tr>
+<tr class="memdesc:a09eab0c5218fc122848b623462c18149"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="#a09eab0c5218fc122848b623462c18149">More...</a><br /></td></tr>
+<tr class="separator:a09eab0c5218fc122848b623462c18149"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a45a8ba275f8d4f71deb102ad46712b3e"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a45a8ba275f8d4f71deb102ad46712b3e">ZipTileIterator</a> (<a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;threadblock_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:a45a8ba275f8d4f71deb102ad46712b3e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a zip iterator from params.  <a href="#a45a8ba275f8d4f71deb102ad46712b3e">More...</a><br /></td></tr>
+<tr class="separator:a45a8ba275f8d4f71deb102ad46712b3e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a31553842afd1cfd5a18a2fd6c39e17b5"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a31553842afd1cfd5a18a2fd6c39e17b5">ZipTileIterator</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">First</a> const &amp;_first, <a class="el" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">Second</a> const &amp;_second)</td></tr>
+<tr class="memdesc:a31553842afd1cfd5a18a2fd6c39e17b5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a zip iterator from iterator instances.  <a href="#a31553842afd1cfd5a18a2fd6c39e17b5">More...</a><br /></td></tr>
+<tr class="separator:a31553842afd1cfd5a18a2fd6c39e17b5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a808e06560609aa5b7bb693ec79a3aa57"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a808e06560609aa5b7bb693ec79a3aa57">ZipTileIterator</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">TensorRef</a> const &amp;ref)</td></tr>
+<tr class="memdesc:a808e06560609aa5b7bb693ec79a3aa57"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a zip iterator from iterator instances.  <a href="#a808e06560609aa5b7bb693ec79a3aa57">More...</a><br /></td></tr>
+<tr class="separator:a808e06560609aa5b7bb693ec79a3aa57"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9d70b24bf38122c0fea49558c6f6b344"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a9d70b24bf38122c0fea49558c6f6b344">ZipTileIterator</a> (<a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">TensorRef</a> const &amp;ref)</td></tr>
+<tr class="memdesc:a9d70b24bf38122c0fea49558c6f6b344"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a zip iterator from iterator instances.  <a href="#a9d70b24bf38122c0fea49558c6f6b344">More...</a><br /></td></tr>
+<tr class="separator:a9d70b24bf38122c0fea49558c6f6b344"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f334010614b50d962e4769904d7b76f"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:a8f334010614b50d962e4769904d7b76f"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a8f334010614b50d962e4769904d7b76f">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:a8f334010614b50d962e4769904d7b76f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector using a <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html" title="Functor computing a predicate given the logical position of an access. ">RegularTilePredicateFunctor</a>.  <a href="#a8f334010614b50d962e4769904d7b76f">More...</a><br /></td></tr>
+<tr class="separator:a8f334010614b50d962e4769904d7b76f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab0f93878bbe5aac072450f9bf1dd8b64"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator , typename PredicateFunctor &gt; </td></tr>
+<tr class="memitem:ab0f93878bbe5aac072450f9bf1dd8b64"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ab0f93878bbe5aac072450f9bf1dd8b64">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;functor, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset)</td></tr>
+<tr class="memdesc:ab0f93878bbe5aac072450f9bf1dd8b64"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector using an arbitrary predicate functor.  <a href="#ab0f93878bbe5aac072450f9bf1dd8b64">More...</a><br /></td></tr>
+<tr class="separator:ab0f93878bbe5aac072450f9bf1dd8b64"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a95b8db4af9228beed273669b3b0b12fe"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a95b8db4af9228beed273669b3b0b12fe"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a95b8db4af9228beed273669b3b0b12fe">load_post_increment</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;fragment)</td></tr>
+<tr class="memdesc:a95b8db4af9228beed273669b3b0b12fe"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and increments without predicates.  <a href="#a95b8db4af9228beed273669b3b0b12fe">More...</a><br /></td></tr>
+<tr class="separator:a95b8db4af9228beed273669b3b0b12fe"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3020bcd0a49efad674ca5539ea1c96c0"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a3020bcd0a49efad674ca5539ea1c96c0"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a3020bcd0a49efad674ca5539ea1c96c0">load_post_increment</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;fragment, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:a3020bcd0a49efad674ca5539ea1c96c0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and increments without predicates.  <a href="#a3020bcd0a49efad674ca5539ea1c96c0">More...</a><br /></td></tr>
+<tr class="separator:a3020bcd0a49efad674ca5539ea1c96c0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a23b72b086f350dfe07cff22ac010c45c"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a23b72b086f350dfe07cff22ac010c45c"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a23b72b086f350dfe07cff22ac010c45c">load</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;fragment) const</td></tr>
+<tr class="memdesc:a23b72b086f350dfe07cff22ac010c45c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without predicates.  <a href="#a23b72b086f350dfe07cff22ac010c45c">More...</a><br /></td></tr>
+<tr class="separator:a23b72b086f350dfe07cff22ac010c45c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9a3f2f913ee73f0c04e74ec89c6c5cbb"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a9a3f2f913ee73f0c04e74ec89c6c5cbb"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a9a3f2f913ee73f0c04e74ec89c6c5cbb">load</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;fragment, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;offset) const</td></tr>
+<tr class="memdesc:a9a3f2f913ee73f0c04e74ec89c6c5cbb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without predicates.  <a href="#a9a3f2f913ee73f0c04e74ec89c6c5cbb">More...</a><br /></td></tr>
+<tr class="separator:a9a3f2f913ee73f0c04e74ec89c6c5cbb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a961a340f902542f3000dc80e852958f2"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a961a340f902542f3000dc80e852958f2"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a961a340f902542f3000dc80e852958f2">store_post_increment</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;fragment)</td></tr>
+<tr class="memdesc:a961a340f902542f3000dc80e852958f2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment and increments without predicates.  <a href="#a961a340f902542f3000dc80e852958f2">More...</a><br /></td></tr>
+<tr class="separator:a961a340f902542f3000dc80e852958f2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a18ed76e6be1a02d0229cdf1d6528e34f"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a18ed76e6be1a02d0229cdf1d6528e34f"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a18ed76e6be1a02d0229cdf1d6528e34f">store_post_increment</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;fragment, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:a18ed76e6be1a02d0229cdf1d6528e34f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment and increments without predicates.  <a href="#a18ed76e6be1a02d0229cdf1d6528e34f">More...</a><br /></td></tr>
+<tr class="separator:a18ed76e6be1a02d0229cdf1d6528e34f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a884983cd1df81739fc971b46697b851c"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a884983cd1df81739fc971b46697b851c"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a884983cd1df81739fc971b46697b851c">store</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;fragment) const</td></tr>
+<tr class="memdesc:a884983cd1df81739fc971b46697b851c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment without predicates.  <a href="#a884983cd1df81739fc971b46697b851c">More...</a><br /></td></tr>
+<tr class="separator:a884983cd1df81739fc971b46697b851c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a425b4a4f2e66f3ff5960742d19d06bc2"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a425b4a4f2e66f3ff5960742d19d06bc2"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a425b4a4f2e66f3ff5960742d19d06bc2">store</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;fragment, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;offset) const</td></tr>
+<tr class="memdesc:a425b4a4f2e66f3ff5960742d19d06bc2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment without predicates.  <a href="#a425b4a4f2e66f3ff5960742d19d06bc2">More...</a><br /></td></tr>
+<tr class="separator:a425b4a4f2e66f3ff5960742d19d06bc2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a53045f40d203a805af9c92fa0b5bc684"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:a53045f40d203a805af9c92fa0b5bc684"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a53045f40d203a805af9c92fa0b5bc684">load_post_increment</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;fragment, PredicateIterator pred_it)</td></tr>
+<tr class="memdesc:a53045f40d203a805af9c92fa0b5bc684"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and increments, using predicates.  <a href="#a53045f40d203a805af9c92fa0b5bc684">More...</a><br /></td></tr>
+<tr class="separator:a53045f40d203a805af9c92fa0b5bc684"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4c9997488be2f09b9653d8ef8ac06c2b"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:a4c9997488be2f09b9653d8ef8ac06c2b"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a4c9997488be2f09b9653d8ef8ac06c2b">load</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;fragment, PredicateIterator pred_it) const</td></tr>
+<tr class="memdesc:a4c9997488be2f09b9653d8ef8ac06c2b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment with predicates.  <a href="#a4c9997488be2f09b9653d8ef8ac06c2b">More...</a><br /></td></tr>
+<tr class="separator:a4c9997488be2f09b9653d8ef8ac06c2b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3a2cae47533c1122eb8ec404473a0d9e"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:a3a2cae47533c1122eb8ec404473a0d9e"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a3a2cae47533c1122eb8ec404473a0d9e">store_post_increment</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;fragment, PredicateIterator pred_it)</td></tr>
+<tr class="memdesc:a3a2cae47533c1122eb8ec404473a0d9e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and increments, using predicates.  <a href="#a3a2cae47533c1122eb8ec404473a0d9e">More...</a><br /></td></tr>
+<tr class="separator:a3a2cae47533c1122eb8ec404473a0d9e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa617653e75535fe13aafa80bc4cc9cc4"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:aa617653e75535fe13aafa80bc4cc9cc4"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#aa617653e75535fe13aafa80bc4cc9cc4">store</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;fragment, PredicateIterator pred_it) const</td></tr>
+<tr class="memdesc:aa617653e75535fe13aafa80bc4cc9cc4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment with predicates.  <a href="#aa617653e75535fe13aafa80bc4cc9cc4">More...</a><br /></td></tr>
+<tr class="separator:aa617653e75535fe13aafa80bc4cc9cc4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a738f23c02f4a7437981d9e3e22470808"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808">increment</a> (int count=1)</td></tr>
+<tr class="memdesc:a738f23c02f4a7437981d9e3e22470808"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increments store iterator to next tile.  <a href="#a738f23c02f4a7437981d9e3e22470808">More...</a><br /></td></tr>
+<tr class="separator:a738f23c02f4a7437981d9e3e22470808"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a47d270fc4a119d7b95b2d5dd3ee5b87b"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a47d270fc4a119d7b95b2d5dd3ee5b87b">operator++</a> ()</td></tr>
+<tr class="memdesc:a47d270fc4a119d7b95b2d5dd3ee5b87b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increments to next tile.  <a href="#a47d270fc4a119d7b95b2d5dd3ee5b87b">More...</a><br /></td></tr>
+<tr class="separator:a47d270fc4a119d7b95b2d5dd3ee5b87b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60ba516d7382cb7788d5430023f7fc44"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a60ba516d7382cb7788d5430023f7fc44">operator+=</a> (int count)</td></tr>
+<tr class="separator:a60ba516d7382cb7788d5430023f7fc44"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a200a4e88ee6d23dcc80e974c77f8fa1f"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a200a4e88ee6d23dcc80e974c77f8fa1f">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:a200a4e88ee6d23dcc80e974c77f8fa1f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a vector offset to the underlying iterators.  <a href="#a200a4e88ee6d23dcc80e974c77f8fa1f">More...</a><br /></td></tr>
+<tr class="separator:a200a4e88ee6d23dcc80e974c77f8fa1f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6f2f86a1d23ccbaed285550a1d1f92e6"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6">decrement</a> (int count=1)</td></tr>
+<tr class="memdesc:a6f2f86a1d23ccbaed285550a1d1f92e6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increments store iterator to previous tile.  <a href="#a6f2f86a1d23ccbaed285550a1d1f92e6">More...</a><br /></td></tr>
+<tr class="separator:a6f2f86a1d23ccbaed285550a1d1f92e6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3d22dab34b2abd0d05c00668f8591151"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a3d22dab34b2abd0d05c00668f8591151">operator--</a> ()</td></tr>
+<tr class="memdesc:a3d22dab34b2abd0d05c00668f8591151"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increments to subsequent tile.  <a href="#a3d22dab34b2abd0d05c00668f8591151">More...</a><br /></td></tr>
+<tr class="separator:a3d22dab34b2abd0d05c00668f8591151"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7bae0f9b789e75bb154c5f37db50e14c"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a7bae0f9b789e75bb154c5f37db50e14c">operator-=</a> (int count)</td></tr>
+<tr class="memdesc:a7bae0f9b789e75bb154c5f37db50e14c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Decrements to previous tile.  <a href="#a7bae0f9b789e75bb154c5f37db50e14c">More...</a><br /></td></tr>
+<tr class="separator:a7bae0f9b789e75bb154c5f37db50e14c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0752af296e110d9104a45ae24bd0a104"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a0752af296e110d9104a45ae24bd0a104">add_pointer_offset</a> (<a class="el" href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">Index</a> offset)</td></tr>
+<tr class="memdesc:a0752af296e110d9104a45ae24bd0a104"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds an offset to both iterators.  <a href="#a0752af296e110d9104a45ae24bd0a104">More...</a><br /></td></tr>
+<tr class="separator:a0752af296e110d9104a45ae24bd0a104"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:af961a2621c6b42f2b3ba645afcb250a9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">First</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a></td></tr>
+<tr class="memdesc:af961a2621c6b42f2b3ba645afcb250a9"><td class="mdescLeft">&#160;</td><td class="mdescRight">First iterator.  <a href="#af961a2621c6b42f2b3ba645afcb250a9">More...</a><br /></td></tr>
+<tr class="separator:af961a2621c6b42f2b3ba645afcb250a9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab88ce07b3012ae2e6a92ad784c8067f0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">Second</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a></td></tr>
+<tr class="memdesc:ab88ce07b3012ae2e6a92ad784c8067f0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Second iterator.  <a href="#ab88ce07b3012ae2e6a92ad784c8067f0">More...</a><br /></td></tr>
+<tr class="separator:ab88ce07b3012ae2e6a92ad784c8067f0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a0c3046a077ef69a9325d7df817865bf7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c3046a077ef69a9325d7df817865bf7">&#9670;&nbsp;</a></span>First</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef First_ <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">First</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae239840776fe7c3bd679b798188d9d06"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae239840776fe7c3bd679b798188d9d06">&#9670;&nbsp;</a></span>Fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a>&lt;typename First::Fragment, typename Second::Fragment&gt; <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab48ad3cf2ffeec356d8592d94f6b81f0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab48ad3cf2ffeec356d8592d94f6b81f0">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef First::Index <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa853fa2a2e73397d8950567f3f5b7a15"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa853fa2a2e73397d8950567f3f5b7a15">&#9670;&nbsp;</a></span>PredicateVector</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef First::PredicateVector <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html#aa853fa2a2e73397d8950567f3f5b7a15">PredicateVector</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae34d88ee2878174707dcfdda4f3fa76c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae34d88ee2878174707dcfdda4f3fa76c">&#9670;&nbsp;</a></span>Second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Second_ <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">Second</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1dea96f5cf56aade14bd815aee91d09c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1dea96f5cf56aade14bd815aee91d09c">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt; typename First::TensorRef, typename Second::TensorRef&gt; <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a09eab0c5218fc122848b623462c18149"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a09eab0c5218fc122848b623462c18149">&#9670;&nbsp;</a></span>ZipTileIterator() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a45a8ba275f8d4f71deb102ad46712b3e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a45a8ba275f8d4f71deb102ad46712b3e">&#9670;&nbsp;</a></span>ZipTileIterator() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>threadblock_offset</em> = <code><a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,&#160;0,&#160;0)</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a31553842afd1cfd5a18a2fd6c39e17b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a31553842afd1cfd5a18a2fd6c39e17b5">&#9670;&nbsp;</a></span>ZipTileIterator() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">First</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_first</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">Second</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_second</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a808e06560609aa5b7bb693ec79a3aa57"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a808e06560609aa5b7bb693ec79a3aa57">&#9670;&nbsp;</a></span>ZipTileIterator() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">TensorRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9d70b24bf38122c0fea49558c6f6b344"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d70b24bf38122c0fea49558c6f6b344">&#9670;&nbsp;</a></span>ZipTileIterator() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::<a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">TensorRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a0752af296e110d9104a45ae24bd0a104"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0752af296e110d9104a45ae24bd0a104">&#9670;&nbsp;</a></span>add_pointer_offset()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::add_pointer_offset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">Index</a>&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6f2f86a1d23ccbaed285550a1d1f92e6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6f2f86a1d23ccbaed285550a1d1f92e6">&#9670;&nbsp;</a></span>decrement()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a>&amp; <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::decrement </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>count</em> = <code>1</code></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a738f23c02f4a7437981d9e3e22470808"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a738f23c02f4a7437981d9e3e22470808">&#9670;&nbsp;</a></span>increment()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a>&amp; <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::increment </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>count</em> = <code>1</code></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8f334010614b50d962e4769904d7b76f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f334010614b50d962e4769904d7b76f">&#9670;&nbsp;</a></span>initialize_predicates() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename PredicateIterator &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::initialize_predicates </td>
+          <td>(</td>
+          <td class="paramtype">PredicateIterator&#160;</td>
+          <td class="paramname"><em>predicate_it</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>bounds</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>block_offset</em> = <code><a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;0,&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;0)</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab0f93878bbe5aac072450f9bf1dd8b64"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab0f93878bbe5aac072450f9bf1dd8b64">&#9670;&nbsp;</a></span>initialize_predicates() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename PredicateIterator , typename PredicateFunctor &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::initialize_predicates </td>
+          <td>(</td>
+          <td class="paramtype">PredicateIterator&#160;</td>
+          <td class="paramname"><em>predicate_it</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">PredicateFunctor const &amp;&#160;</td>
+          <td class="paramname"><em>functor</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>block_offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a23b72b086f350dfe07cff22ac010c45c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a23b72b086f350dfe07cff22ac010c45c">&#9670;&nbsp;</a></span>load() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9a3f2f913ee73f0c04e74ec89c6c5cbb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a3f2f913ee73f0c04e74ec89c6c5cbb">&#9670;&nbsp;</a></span>load() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4c9997488be2f09b9653d8ef8ac06c2b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4c9997488be2f09b9653d8ef8ac06c2b">&#9670;&nbsp;</a></span>load() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment , typename PredicateIterator &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">PredicateIterator&#160;</td>
+          <td class="paramname"><em>pred_it</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a95b8db4af9228beed273669b3b0b12fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a95b8db4af9228beed273669b3b0b12fe">&#9670;&nbsp;</a></span>load_post_increment() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::load_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3020bcd0a49efad674ca5539ea1c96c0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3020bcd0a49efad674ca5539ea1c96c0">&#9670;&nbsp;</a></span>load_post_increment() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::load_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53045f40d203a805af9c92fa0b5bc684"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53045f40d203a805af9c92fa0b5bc684">&#9670;&nbsp;</a></span>load_post_increment() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment , typename PredicateIterator &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::load_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">PredicateIterator&#160;</td>
+          <td class="paramname"><em>pred_it</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a47d270fc4a119d7b95b2d5dd3ee5b87b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a47d270fc4a119d7b95b2d5dd3ee5b87b">&#9670;&nbsp;</a></span>operator++()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a>&amp; <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::operator++ </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a60ba516d7382cb7788d5430023f7fc44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60ba516d7382cb7788d5430023f7fc44">&#9670;&nbsp;</a></span>operator+=() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a>&amp; <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>count</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a200a4e88ee6d23dcc80e974c77f8fa1f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a200a4e88ee6d23dcc80e974c77f8fa1f">&#9670;&nbsp;</a></span>operator+=() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a>&amp; <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3d22dab34b2abd0d05c00668f8591151"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3d22dab34b2abd0d05c00668f8591151">&#9670;&nbsp;</a></span>operator--()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a>&amp; <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::operator-- </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7bae0f9b789e75bb154c5f37db50e14c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7bae0f9b789e75bb154c5f37db50e14c">&#9670;&nbsp;</a></span>operator-=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a>&amp; <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::operator-= </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>count</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a884983cd1df81739fc971b46697b851c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a884983cd1df81739fc971b46697b851c">&#9670;&nbsp;</a></span>store() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a425b4a4f2e66f3ff5960742d19d06bc2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a425b4a4f2e66f3ff5960742d19d06bc2">&#9670;&nbsp;</a></span>store() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa617653e75535fe13aafa80bc4cc9cc4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa617653e75535fe13aafa80bc4cc9cc4">&#9670;&nbsp;</a></span>store() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment , typename PredicateIterator &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">PredicateIterator&#160;</td>
+          <td class="paramname"><em>pred_it</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a961a340f902542f3000dc80e852958f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a961a340f902542f3000dc80e852958f2">&#9670;&nbsp;</a></span>store_post_increment() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::store_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a18ed76e6be1a02d0229cdf1d6528e34f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a18ed76e6be1a02d0229cdf1d6528e34f">&#9670;&nbsp;</a></span>store_post_increment() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::store_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3a2cae47533c1122eb8ec404473a0d9e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3a2cae47533c1122eb8ec404473a0d9e">&#9670;&nbsp;</a></span>store_post_increment() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment , typename PredicateIterator &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::store_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">PredicateIterator&#160;</td>
+          <td class="paramname"><em>pred_it</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="af961a2621c6b42f2b3ba645afcb250a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af961a2621c6b42f2b3ba645afcb250a9">&#9670;&nbsp;</a></span>first</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">First</a> <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::first</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab88ce07b3012ae2e6a92ad784c8067f0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab88ce07b3012ae2e6a92ad784c8067f0">&#9670;&nbsp;</a></span>second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">Second</a> <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::second</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li><a class="el" href="zip__tile__iterator_8h_source.html">zip_tile_iterator.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1detail_1_1ScalarOrPointer-members.html b/docs/classcutlass_1_1detail_1_1ScalarOrPointer-members.html
new file mode 100644
index 0000000000..8da7146658
--- /dev/null
+++ b/docs/classcutlass_1_1detail_1_1ScalarOrPointer-members.html
@@ -0,0 +1,101 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1detail.html">detail</a></li><li class="navelem"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a1661baed19b4aa4eea725a6f6e6b26a3">get</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a6b066568947df37094e4125b0347faf1">get_ptr</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a81bd7b4f50b8d7c5effe5291ad920380">get_scalar</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a95373f3d1b286c61cb204ba6a1282ce0">is_pointer</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a896f35e776c1291ceda0f432cc3da654">operator Scalar</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b29491782c3a129355fa4ef159cb970">operator=</a>(Scalar const &amp;scalar_)</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a54357e2f1d52aa8355b2ae7796740ea3">operator=</a>(Scalar const *ptr_)</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a45cf72b3f0e3408a4b51990b648b71ee">ScalarOrPointer</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b85e1940149922942c7d495f9d12134">ScalarOrPointer</a>(Scalar const &amp;val)</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a03a54e9150c2cccb26d9fa688ea03f96">ScalarOrPointer</a>(Scalar const *ptr_)</td><td class="entry"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1detail_1_1ScalarOrPointer.html b/docs/classcutlass_1_1detail_1_1ScalarOrPointer.html
new file mode 100644
index 0000000000..6a28c38f84
--- /dev/null
+++ b/docs/classcutlass_1_1detail_1_1ScalarOrPointer.html
@@ -0,0 +1,434 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1detail.html">detail</a></li><li class="navelem"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="classcutlass_1_1detail_1_1ScalarOrPointer-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt; Class Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="scalar__or__pointer_8h_source.html">scalar_or_pointer.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a9d3006fc0c8bd98b9262606858b26cad"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a></td></tr>
+<tr class="memdesc:a9d3006fc0c8bd98b9262606858b26cad"><td class="mdescLeft">&#160;</td><td class="mdescRight">Underlying scalar type.  <a href="#a9d3006fc0c8bd98b9262606858b26cad">More...</a><br /></td></tr>
+<tr class="separator:a9d3006fc0c8bd98b9262606858b26cad"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a45cf72b3f0e3408a4b51990b648b71ee"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a45cf72b3f0e3408a4b51990b648b71ee">ScalarOrPointer</a> ()</td></tr>
+<tr class="memdesc:a45cf72b3f0e3408a4b51990b648b71ee"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor.  <a href="#a45cf72b3f0e3408a4b51990b648b71ee">More...</a><br /></td></tr>
+<tr class="separator:a45cf72b3f0e3408a4b51990b648b71ee"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3b85e1940149922942c7d495f9d12134"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b85e1940149922942c7d495f9d12134">ScalarOrPointer</a> (<a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> const &amp;val)</td></tr>
+<tr class="memdesc:a3b85e1940149922942c7d495f9d12134"><td class="mdescLeft">&#160;</td><td class="mdescRight">Object behaves as a scalar.  <a href="#a3b85e1940149922942c7d495f9d12134">More...</a><br /></td></tr>
+<tr class="separator:a3b85e1940149922942c7d495f9d12134"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a03a54e9150c2cccb26d9fa688ea03f96"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a03a54e9150c2cccb26d9fa688ea03f96">ScalarOrPointer</a> (<a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> const *ptr_)</td></tr>
+<tr class="memdesc:a03a54e9150c2cccb26d9fa688ea03f96"><td class="mdescLeft">&#160;</td><td class="mdescRight">Object behaves as a scalar.  <a href="#a03a54e9150c2cccb26d9fa688ea03f96">More...</a><br /></td></tr>
+<tr class="separator:a03a54e9150c2cccb26d9fa688ea03f96"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a95373f3d1b286c61cb204ba6a1282ce0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a95373f3d1b286c61cb204ba6a1282ce0">is_pointer</a> () const</td></tr>
+<tr class="memdesc:a95373f3d1b286c61cb204ba6a1282ce0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if is pointer.  <a href="#a95373f3d1b286c61cb204ba6a1282ce0">More...</a><br /></td></tr>
+<tr class="separator:a95373f3d1b286c61cb204ba6a1282ce0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6b066568947df37094e4125b0347faf1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a6b066568947df37094e4125b0347faf1">get_ptr</a> () const</td></tr>
+<tr class="memdesc:a6b066568947df37094e4125b0347faf1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the pointer value.  <a href="#a6b066568947df37094e4125b0347faf1">More...</a><br /></td></tr>
+<tr class="separator:a6b066568947df37094e4125b0347faf1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a81bd7b4f50b8d7c5effe5291ad920380"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a81bd7b4f50b8d7c5effe5291ad920380">get_scalar</a> () const</td></tr>
+<tr class="memdesc:a81bd7b4f50b8d7c5effe5291ad920380"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the pointer value.  <a href="#a81bd7b4f50b8d7c5effe5291ad920380">More...</a><br /></td></tr>
+<tr class="separator:a81bd7b4f50b8d7c5effe5291ad920380"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3b29491782c3a129355fa4ef159cb970"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b29491782c3a129355fa4ef159cb970">operator=</a> (<a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> const &amp;scalar_)</td></tr>
+<tr class="memdesc:a3b29491782c3a129355fa4ef159cb970"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assigns to a scalar and sets pointer to nullptr.  <a href="#a3b29491782c3a129355fa4ef159cb970">More...</a><br /></td></tr>
+<tr class="separator:a3b29491782c3a129355fa4ef159cb970"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54357e2f1d52aa8355b2ae7796740ea3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a54357e2f1d52aa8355b2ae7796740ea3">operator=</a> (<a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> const *ptr_)</td></tr>
+<tr class="memdesc:a54357e2f1d52aa8355b2ae7796740ea3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assigns to a pointer value.  <a href="#a54357e2f1d52aa8355b2ae7796740ea3">More...</a><br /></td></tr>
+<tr class="separator:a54357e2f1d52aa8355b2ae7796740ea3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1661baed19b4aa4eea725a6f6e6b26a3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a1661baed19b4aa4eea725a6f6e6b26a3">get</a> () const</td></tr>
+<tr class="memdesc:a1661baed19b4aa4eea725a6f6e6b26a3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access the element.  <a href="#a1661baed19b4aa4eea725a6f6e6b26a3">More...</a><br /></td></tr>
+<tr class="separator:a1661baed19b4aa4eea725a6f6e6b26a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a896f35e776c1291ceda0f432cc3da654"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a896f35e776c1291ceda0f432cc3da654">operator Scalar</a> () const</td></tr>
+<tr class="memdesc:a896f35e776c1291ceda0f432cc3da654"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the element.  <a href="#a896f35e776c1291ceda0f432cc3da654">More...</a><br /></td></tr>
+<tr class="separator:a896f35e776c1291ceda0f432cc3da654"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;typename Scalar_&gt;<br />
+class cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</h3>
+
+<p>Helper class defines an object which operates as either a scalar or a pointer. If the pointer is non-null, it is dereferenced when the object is accessed. </p>
+</div><h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a9d3006fc0c8bd98b9262606858b26cad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d3006fc0c8bd98b9262606858b26cad">&#9670;&nbsp;</a></span>Scalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Scalar_ <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::<a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a45cf72b3f0e3408a4b51990b648b71ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a45cf72b3f0e3408a4b51990b648b71ee">&#9670;&nbsp;</a></span>ScalarOrPointer() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::<a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3b85e1940149922942c7d495f9d12134"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3b85e1940149922942c7d495f9d12134">&#9670;&nbsp;</a></span>ScalarOrPointer() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::<a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> const &amp;&#160;</td>
+          <td class="paramname"><em>val</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a03a54e9150c2cccb26d9fa688ea03f96"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a03a54e9150c2cccb26d9fa688ea03f96">&#9670;&nbsp;</a></span>ScalarOrPointer() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::<a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>ptr_</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a1661baed19b4aa4eea725a6f6e6b26a3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1661baed19b4aa4eea725a6f6e6b26a3">&#9670;&nbsp;</a></span>get()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::get </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6b066568947df37094e4125b0347faf1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b066568947df37094e4125b0347faf1">&#9670;&nbsp;</a></span>get_ptr()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> const* <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::get_ptr </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a81bd7b4f50b8d7c5effe5291ad920380"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a81bd7b4f50b8d7c5effe5291ad920380">&#9670;&nbsp;</a></span>get_scalar()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::get_scalar </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a95373f3d1b286c61cb204ba6a1282ce0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a95373f3d1b286c61cb204ba6a1282ce0">&#9670;&nbsp;</a></span>is_pointer()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::is_pointer </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a896f35e776c1291ceda0f432cc3da654"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a896f35e776c1291ceda0f432cc3da654">&#9670;&nbsp;</a></span>operator Scalar()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::operator <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3b29491782c3a129355fa4ef159cb970"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3b29491782c3a129355fa4ef159cb970">&#9670;&nbsp;</a></span>operator=() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a>&amp; <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::operator= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> const &amp;&#160;</td>
+          <td class="paramname"><em>scalar_</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a54357e2f1d52aa8355b2ae7796740ea3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54357e2f1d52aa8355b2ae7796740ea3">&#9670;&nbsp;</a></span>operator=() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a>&amp; <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a>&lt; Scalar_ &gt;::operator= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>ptr_</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li><a class="el" href="scalar__or__pointer_8h_source.html">scalar_or_pointer.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params-members.html b/docs/classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params-members.html
new file mode 100644
index 0000000000..323b1406c9
--- /dev/null
+++ b/docs/classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params-members.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">LinearScalingDevicePtr</a></li><li class="navelem"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ad1b2291b898091ee1966b73bd1ad56fa">initialize</a>(Scalar alpha, Scalar beta)</td><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ab4dbffb32daffb64d2033e3091963507">initialize</a>(Scalar const *alpha, Scalar const *beta)</td><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a491496037bf6613e128e667f87fda696">initialize</a>(GemmDesc_ const &amp;desc)</td><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae28323819fc8950bc0fee3a34b2184ff">Params</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a26b04702140a550f3ab598132a74cd93">Params</a>(Scalar alpha, Scalar beta)</td><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a38aa3e6beb09c7c4bea952094a2ea682">Params</a>(Scalar const *alpha_ptr, Scalar const *beta_ptr)</td><td class="entry"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html b/docs/classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html
new file mode 100644
index 0000000000..5fc5d05e3d
--- /dev/null
+++ b/docs/classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html
@@ -0,0 +1,389 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params Class Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">LinearScalingDevicePtr</a></li><li class="navelem"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params Class Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>The parameters.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="linear__scaling__device__ptr_8h_source.html">linear_scaling_device_ptr.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:ae28323819fc8950bc0fee3a34b2184ff"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae28323819fc8950bc0fee3a34b2184ff">Params</a> ()</td></tr>
+<tr class="separator:ae28323819fc8950bc0fee3a34b2184ff"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a26b04702140a550f3ab598132a74cd93"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a26b04702140a550f3ab598132a74cd93">Params</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>, <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>)</td></tr>
+<tr class="separator:a26b04702140a550f3ab598132a74cd93"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a38aa3e6beb09c7c4bea952094a2ea682"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a38aa3e6beb09c7c4bea952094a2ea682">Params</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> const *alpha_ptr, <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> const *beta_ptr)</td></tr>
+<tr class="separator:a38aa3e6beb09c7c4bea952094a2ea682"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad1b2291b898091ee1966b73bd1ad56fa"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ad1b2291b898091ee1966b73bd1ad56fa">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>, <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>)</td></tr>
+<tr class="memdesc:ad1b2291b898091ee1966b73bd1ad56fa"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize the parameters.  <a href="#ad1b2291b898091ee1966b73bd1ad56fa">More...</a><br /></td></tr>
+<tr class="separator:ad1b2291b898091ee1966b73bd1ad56fa"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab4dbffb32daffb64d2033e3091963507"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ab4dbffb32daffb64d2033e3091963507">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> const *<a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>, <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> const *<a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>)</td></tr>
+<tr class="memdesc:ab4dbffb32daffb64d2033e3091963507"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize the parameters.  <a href="#ab4dbffb32daffb64d2033e3091963507">More...</a><br /></td></tr>
+<tr class="separator:ab4dbffb32daffb64d2033e3091963507"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a491496037bf6613e128e667f87fda696"><td class="memTemplParams" colspan="2">template&lt;typename GemmDesc_ &gt; </td></tr>
+<tr class="memitem:a491496037bf6613e128e667f87fda696"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a491496037bf6613e128e667f87fda696">initialize</a> (GemmDesc_ const &amp;desc)</td></tr>
+<tr class="memdesc:a491496037bf6613e128e667f87fda696"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize the parameters.  <a href="#a491496037bf6613e128e667f87fda696">More...</a><br /></td></tr>
+<tr class="separator:a491496037bf6613e128e667f87fda696"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae4038a59658c87d52cee3330bee59662"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a> () const</td></tr>
+<tr class="memdesc:ae4038a59658c87d52cee3330bee59662"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the alpha scalar.  <a href="#ae4038a59658c87d52cee3330bee59662">More...</a><br /></td></tr>
+<tr class="separator:ae4038a59658c87d52cee3330bee59662"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0938bcb61d2572d5cf6cf2de95d11816"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a> () const</td></tr>
+<tr class="memdesc:a0938bcb61d2572d5cf6cf2de95d11816"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the beta scalar.  <a href="#a0938bcb61d2572d5cf6cf2de95d11816">More...</a><br /></td></tr>
+<tr class="separator:a0938bcb61d2572d5cf6cf2de95d11816"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ae28323819fc8950bc0fee3a34b2184ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae28323819fc8950bc0fee3a34b2184ff">&#9670;&nbsp;</a></span>Params() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a26b04702140a550f3ab598132a74cd93"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a26b04702140a550f3ab598132a74cd93">&#9670;&nbsp;</a></span>Params() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a>&#160;</td>
+          <td class="paramname"><em>alpha</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a>&#160;</td>
+          <td class="paramname"><em>beta</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a38aa3e6beb09c7c4bea952094a2ea682"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a38aa3e6beb09c7c4bea952094a2ea682">&#9670;&nbsp;</a></span>Params() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>alpha_ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>beta_ptr</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ae4038a59658c87d52cee3330bee59662"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae4038a59658c87d52cee3330bee59662">&#9670;&nbsp;</a></span>alpha()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::alpha </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0938bcb61d2572d5cf6cf2de95d11816"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0938bcb61d2572d5cf6cf2de95d11816">&#9670;&nbsp;</a></span>beta()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::beta </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad1b2291b898091ee1966b73bd1ad56fa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1b2291b898091ee1966b73bd1ad56fa">&#9670;&nbsp;</a></span>initialize() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a>&#160;</td>
+          <td class="paramname"><em>alpha</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a>&#160;</td>
+          <td class="paramname"><em>beta</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab4dbffb32daffb64d2033e3091963507"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab4dbffb32daffb64d2033e3091963507">&#9670;&nbsp;</a></span>initialize() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>alpha</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>beta</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a491496037bf6613e128e667f87fda696"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a491496037bf6613e128e667f87fda696">&#9670;&nbsp;</a></span>initialize() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename GemmDesc_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype">GemmDesc_ const &amp;&#160;</td>
+          <td class="paramname"><em>desc</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li><a class="el" href="linear__scaling__device__ptr_8h_source.html">linear_scaling_device_ptr.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1platform_1_1complex-members.html b/docs/classcutlass_1_1platform_1_1complex-members.html
new file mode 100644
index 0000000000..3e19742e03
--- /dev/null
+++ b/docs/classcutlass_1_1platform_1_1complex-members.html
@@ -0,0 +1,100 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1platform.html">platform</a></li><li class="navelem"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::platform::complex&lt; T &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html#a2e852c886e61a39e884026d6f4c32c1e">complex</a>(T r=T(0), T i=T(0))</td><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html#a71ee9d620f72fbcd54f6e3049707eb99">complex</a>(cuFloatComplex const &amp;z)</td><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html#af40324ec4d1d35a0ceda676c8de968f8">complex</a>(cuDoubleComplex const &amp;z)</td><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">imag</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html#a835363f62c6a079496c22074ab428651">imag</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html#a3b92e54de1c4262c7e481218162be7ec">operator cuDoubleComplex</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html#ac5a3a0dc9815dadbe539312eb6fe36c4">operator cuFloatComplex</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">real</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html#acda3e2050b2fefb1aca1fa8aa2063f8b">real</a>()</td><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html#aa7c319b0c67f8ffeee3d1bb4b83ea0d6">value_type</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1platform_1_1complex.html b/docs/classcutlass_1_1platform_1_1complex.html
new file mode 100644
index 0000000000..672fef7e9a
--- /dev/null
+++ b/docs/classcutlass_1_1platform_1_1complex.html
@@ -0,0 +1,413 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::platform::complex&lt; T &gt; Class Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1platform.html">platform</a></li><li class="navelem"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="classcutlass_1_1platform_1_1complex-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::platform::complex&lt; T &gt; Class Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="complex_8h_source.html">complex.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:aa7c319b0c67f8ffeee3d1bb4b83ea0d6"><td class="memItemLeft" align="right" valign="top">typedef T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html#aa7c319b0c67f8ffeee3d1bb4b83ea0d6">value_type</a></td></tr>
+<tr class="memdesc:aa7c319b0c67f8ffeee3d1bb4b83ea0d6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Type alias for scalar type.  <a href="#aa7c319b0c67f8ffeee3d1bb4b83ea0d6">More...</a><br /></td></tr>
+<tr class="separator:aa7c319b0c67f8ffeee3d1bb4b83ea0d6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a2e852c886e61a39e884026d6f4c32c1e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html#a2e852c886e61a39e884026d6f4c32c1e">complex</a> (T r=T(0), T i=T(0))</td></tr>
+<tr class="memdesc:a2e852c886e61a39e884026d6f4c32c1e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor.  <a href="#a2e852c886e61a39e884026d6f4c32c1e">More...</a><br /></td></tr>
+<tr class="separator:a2e852c886e61a39e884026d6f4c32c1e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a71ee9d620f72fbcd54f6e3049707eb99"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html#a71ee9d620f72fbcd54f6e3049707eb99">complex</a> (cuFloatComplex const &amp;z)</td></tr>
+<tr class="memdesc:a71ee9d620f72fbcd54f6e3049707eb99"><td class="mdescLeft">&#160;</td><td class="mdescRight">Conversion from cuFloatComplex.  <a href="#a71ee9d620f72fbcd54f6e3049707eb99">More...</a><br /></td></tr>
+<tr class="separator:a71ee9d620f72fbcd54f6e3049707eb99"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af40324ec4d1d35a0ceda676c8de968f8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html#af40324ec4d1d35a0ceda676c8de968f8">complex</a> (cuDoubleComplex const &amp;z)</td></tr>
+<tr class="memdesc:af40324ec4d1d35a0ceda676c8de968f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Conversion from cuDoubleComplex.  <a href="#af40324ec4d1d35a0ceda676c8de968f8">More...</a><br /></td></tr>
+<tr class="separator:af40324ec4d1d35a0ceda676c8de968f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab06cbc1eefd47df3d3748d42d6d95974"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">real</a> () const</td></tr>
+<tr class="memdesc:ab06cbc1eefd47df3d3748d42d6d95974"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the real part of the complex number.  <a href="#ab06cbc1eefd47df3d3748d42d6d95974">More...</a><br /></td></tr>
+<tr class="separator:ab06cbc1eefd47df3d3748d42d6d95974"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acda3e2050b2fefb1aca1fa8aa2063f8b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html#acda3e2050b2fefb1aca1fa8aa2063f8b">real</a> ()</td></tr>
+<tr class="memdesc:acda3e2050b2fefb1aca1fa8aa2063f8b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the real part of the complex number.  <a href="#acda3e2050b2fefb1aca1fa8aa2063f8b">More...</a><br /></td></tr>
+<tr class="separator:acda3e2050b2fefb1aca1fa8aa2063f8b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a57360dbcada12083ecb92fba32fae801"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">imag</a> () const</td></tr>
+<tr class="memdesc:a57360dbcada12083ecb92fba32fae801"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the imaginary part of the complex number.  <a href="#a57360dbcada12083ecb92fba32fae801">More...</a><br /></td></tr>
+<tr class="separator:a57360dbcada12083ecb92fba32fae801"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a835363f62c6a079496c22074ab428651"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html#a835363f62c6a079496c22074ab428651">imag</a> ()</td></tr>
+<tr class="memdesc:a835363f62c6a079496c22074ab428651"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the imaginary part of the complex number.  <a href="#a835363f62c6a079496c22074ab428651">More...</a><br /></td></tr>
+<tr class="separator:a835363f62c6a079496c22074ab428651"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac5a3a0dc9815dadbe539312eb6fe36c4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html#ac5a3a0dc9815dadbe539312eb6fe36c4">operator cuFloatComplex</a> () const</td></tr>
+<tr class="memdesc:ac5a3a0dc9815dadbe539312eb6fe36c4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Converts to cuFloatComplex.  <a href="#ac5a3a0dc9815dadbe539312eb6fe36c4">More...</a><br /></td></tr>
+<tr class="separator:ac5a3a0dc9815dadbe539312eb6fe36c4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3b92e54de1c4262c7e481218162be7ec"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html#a3b92e54de1c4262c7e481218162be7ec">operator cuDoubleComplex</a> () const</td></tr>
+<tr class="memdesc:a3b92e54de1c4262c7e481218162be7ec"><td class="mdescLeft">&#160;</td><td class="mdescRight">Converts to cuDoubleComplex.  <a href="#a3b92e54de1c4262c7e481218162be7ec">More...</a><br /></td></tr>
+<tr class="separator:a3b92e54de1c4262c7e481218162be7ec"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;typename T&gt;<br />
+class cutlass::platform::complex&lt; T &gt;</h3>
+
+<p>Class for representing and manipulating complex numbers with conversions from built-in CUDA complex types. </p>
+</div><h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="aa7c319b0c67f8ffeee3d1bb4b83ea0d6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa7c319b0c67f8ffeee3d1bb4b83ea0d6">&#9670;&nbsp;</a></span>value_type</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef T <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1platform_1_1complex.html#aa7c319b0c67f8ffeee3d1bb4b83ea0d6">value_type</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a2e852c886e61a39e884026d6f4c32c1e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2e852c886e61a39e884026d6f4c32c1e">&#9670;&nbsp;</a></span>complex() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a> </td>
+          <td>(</td>
+          <td class="paramtype">T&#160;</td>
+          <td class="paramname"><em>r</em> = <code>T(0)</code>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T&#160;</td>
+          <td class="paramname"><em>i</em> = <code>T(0)</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a71ee9d620f72fbcd54f6e3049707eb99"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a71ee9d620f72fbcd54f6e3049707eb99">&#9670;&nbsp;</a></span>complex() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a> </td>
+          <td>(</td>
+          <td class="paramtype">cuFloatComplex const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af40324ec4d1d35a0ceda676c8de968f8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af40324ec4d1d35a0ceda676c8de968f8">&#9670;&nbsp;</a></span>complex() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a>&lt; T &gt;::<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a> </td>
+          <td>(</td>
+          <td class="paramtype">cuDoubleComplex const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a57360dbcada12083ecb92fba32fae801"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57360dbcada12083ecb92fba32fae801">&#9670;&nbsp;</a></span>imag() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T const&amp; <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a>&lt; T &gt;::imag </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a835363f62c6a079496c22074ab428651"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a835363f62c6a079496c22074ab428651">&#9670;&nbsp;</a></span>imag() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&amp; <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a>&lt; T &gt;::imag </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3b92e54de1c4262c7e481218162be7ec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3b92e54de1c4262c7e481218162be7ec">&#9670;&nbsp;</a></span>operator cuDoubleComplex()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a>&lt; T &gt;::operator cuDoubleComplex </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac5a3a0dc9815dadbe539312eb6fe36c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac5a3a0dc9815dadbe539312eb6fe36c4">&#9670;&nbsp;</a></span>operator cuFloatComplex()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a>&lt; T &gt;::operator cuFloatComplex </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab06cbc1eefd47df3d3748d42d6d95974"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab06cbc1eefd47df3d3748d42d6d95974">&#9670;&nbsp;</a></span>real() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T const&amp; <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a>&lt; T &gt;::real </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acda3e2050b2fefb1aca1fa8aa2063f8b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acda3e2050b2fefb1aca1fa8aa2063f8b">&#9670;&nbsp;</a></span>real() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&amp; <a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a>&lt; T &gt;::real </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this class was generated from the following file:<ul>
+<li><a class="el" href="complex_8h_source.html">complex.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/classcutlass_1_1platform_1_1unique__ptr-members.html b/docs/classcutlass_1_1platform_1_1unique__ptr-members.html
index 696f478842..1242de6835 100644
--- a/docs/classcutlass_1_1platform_1_1unique__ptr-members.html
+++ b/docs/classcutlass_1_1platform_1_1unique__ptr-members.html
@@ -98,7 +98,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classcutlass_1_1platform_1_1unique__ptr.html b/docs/classcutlass_1_1platform_1_1unique__ptr.html
index cf455f2e5f..625e790b8d 100644
--- a/docs/classcutlass_1_1platform_1_1unique__ptr.html
+++ b/docs/classcutlass_1_1platform_1_1unique__ptr.html
@@ -546,7 +546,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a748d413c50bdbbe9e2f9986f
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/classes.html b/docs/classes.html
index 9896653f61..6a517312cc 100644
--- a/docs/classes.html
+++ b/docs/classes.html
@@ -72,100 +72,116 @@
 <div class="title">Class Index</div>  </div>
 </div><!--header-->
 <div class="contents">
-<div class="qindex"><a class="qindex" href="#letter_a">a</a>&#160;|&#160;<a class="qindex" href="#letter_b">b</a>&#160;|&#160;<a class="qindex" href="#letter_c">c</a>&#160;|&#160;<a class="qindex" href="#letter_d">d</a>&#160;|&#160;<a class="qindex" href="#letter_e">e</a>&#160;|&#160;<a class="qindex" href="#letter_f">f</a>&#160;|&#160;<a class="qindex" href="#letter_g">g</a>&#160;|&#160;<a class="qindex" href="#letter_h">h</a>&#160;|&#160;<a class="qindex" href="#letter_i">i</a>&#160;|&#160;<a class="qindex" href="#letter_l">l</a>&#160;|&#160;<a class="qindex" href="#letter_m">m</a>&#160;|&#160;<a class="qindex" href="#letter_n">n</a>&#160;|&#160;<a class="qindex" href="#letter_p">p</a>&#160;|&#160;<a class="qindex" href="#letter_r">r</a>&#160;|&#160;<a class="qindex" href="#letter_s">s</a>&#160;|&#160;<a class="qindex" href="#letter_t">t</a>&#160;|&#160;<a class="qindex" href="#letter_u">u</a>&#160;|&#160;<a class="qindex" href="#letter_v">v</a>&#160;|&#160;<a class="qindex" href="#letter_w">w</a></div>
+<div class="qindex"><a class="qindex" href="#letter_a">a</a>&#160;|&#160;<a class="qindex" href="#letter_b">b</a>&#160;|&#160;<a class="qindex" href="#letter_c">c</a>&#160;|&#160;<a class="qindex" href="#letter_d">d</a>&#160;|&#160;<a class="qindex" href="#letter_e">e</a>&#160;|&#160;<a class="qindex" href="#letter_f">f</a>&#160;|&#160;<a class="qindex" href="#letter_g">g</a>&#160;|&#160;<a class="qindex" href="#letter_h">h</a>&#160;|&#160;<a class="qindex" href="#letter_i">i</a>&#160;|&#160;<a class="qindex" href="#letter_k">k</a>&#160;|&#160;<a class="qindex" href="#letter_l">l</a>&#160;|&#160;<a class="qindex" href="#letter_m">m</a>&#160;|&#160;<a class="qindex" href="#letter_n">n</a>&#160;|&#160;<a class="qindex" href="#letter_p">p</a>&#160;|&#160;<a class="qindex" href="#letter_r">r</a>&#160;|&#160;<a class="qindex" href="#letter_s">s</a>&#160;|&#160;<a class="qindex" href="#letter_t">t</a>&#160;|&#160;<a class="qindex" href="#letter_u">u</a>&#160;|&#160;<a class="qindex" href="#letter_v">v</a>&#160;|&#160;<a class="qindex" href="#letter_w">w</a>&#160;|&#160;<a class="qindex" href="#letter_z">z</a></div>
 <table class="classindex">
 <tr><td rowspan="2" valign="bottom"><a name="letter_a"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;a&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">IgemmEpilogueScalar</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html">Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html">GlobalLoadStreamBase::SharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html">FragmentMultiplyAdd&lt; half &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html">IgemmEpilogueScalar&lt; int &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1log2__down.html">log2_down</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1FragmentStore.html">FragmentStore</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">IgemmEpilogueTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html">log2_down&lt; N, 1, Count &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1aligned__storage.html">aligned_storage</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html">FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">IgemmEpilogueTraitsHelper</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1log2__up.html">log2_up</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html">FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html">IgemmFloatToInt8Converter</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html">log2_up&lt; N, 1, Count &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1sqrt__est.html">sqrt_est</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_g"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;g&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">IgemmGlobalLoadTransformer</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_m"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;m&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1StorageType.html">StorageType</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4.html">alignment_of&lt; const value_t &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html">IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1StorageType_3_011_01_4.html">StorageType&lt; 1 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4.html">alignment_of&lt; const volatile value_t &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html">IgemmGlobalStoreTransformer</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">GemmTraits::MainLoopSharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1StorageType_3_012_01_4.html">StorageType&lt; 2 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html">alignment_of&lt; double2 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html">IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1StorageType_3_014_01_4.html">StorageType&lt; 4 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html">alignment_of&lt; double4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html">IgemmInt8ToFloatConverter</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Store.html">Store</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html">alignment_of&lt; float4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">IgemmSharedStoreTransformer</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_n"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;n&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html">Store&lt; double, 2, Memory_, true, 16 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html">alignment_of&lt; int4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">GemmEpilogueTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">IgemmSwizzle</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html">Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html">alignment_of&lt; long4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">GemmEpilogueTraitsHelper</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1nullptr__t.html">nullptr_t</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html">Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html">alignment_of&lt; longlong2 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_p"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;p&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html">Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html">alignment_of&lt; longlong4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">GemmTraits::StreamSharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html">alignment_of&lt; uint4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html">alignment_of::pad</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">GemmEpilogueTraits::StreamSharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html">alignment_of&lt; ulong4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html">IgemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">WmmaGemmGlobalIteratorCd::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_t"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;t&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">IgemmTraitsHelper</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">LinearScalingDevicePtr::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html">Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">GlobalLoadStream::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">SharedStreamPair::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1aligned__storage.html">aligned_storage</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">WmmaGemmGlobalIteratorCd::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">GemmEpilogueTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">ZipTileIterator::Params</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">GemmEpilogueTraitsHelper</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">GemmTraits::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4.html">alignment_of&lt; const value_t &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">LinearScaling::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">GemmEpilogueTraits::StreamSharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4.html">alignment_of&lt; const volatile value_t &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1int4__t.html">int4_t</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">GemmGlobalIteratorAb::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html">TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::StrideVector</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html">alignment_of&lt; double2 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">GlobalLoadStreamPair::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html">swizzleDirection</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html">alignment_of&lt; double4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__arithmetic.html">is_arithmetic</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">GemmGlobalIteratorCd::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_t"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;t&#160;&#160;</div></td></tr></table>
 </td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html">alignment_of&lt; ulonglong2 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">IgemmTraitsHelper</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">GemmTraits::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html">alignment_of&lt; ulonglong4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1GemmOperand.html">GemmOperand</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html">GlobalLoadStreamBase::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html">alignment_of&lt; volatile value_t &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html">GemmOperandTraitsAb</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">TileIteratorBase::Params</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html">alignment_of&lt; float4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__base__of.html">is_base_of</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">GemmEpilogueTraits::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html">alignment_of&lt; int4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1GemmOperand.html">GemmOperand</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html">is_base_of_helper</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">TileIteratorBase::Params</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html">alignment_of&lt; long4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html">GemmOperandTraitsAb</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__floating__point.html">is_floating_point</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">TileLoadIterator::Params</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html">alignment_of&lt; longlong2 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__fundamental.html">is_fundamental</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">TileStoreIterator::Params</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html">alignment_of&lt; longlong4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">TileLoadStream::Params</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html">alignment_of&lt; uint4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html">is_integral&lt; char &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">TileStoreStream::Params</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1TensorView.html">TensorView</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html">alignment_of&lt; ulong4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html">is_integral&lt; const T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">SharedLoadStream::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html">alignment_of&lt; ulonglong2 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html">is_integral&lt; const volatile T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1plus.html">plus</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html">alignment_of&lt; ulonglong4 &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html">is_integral&lt; int &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">PredicatedTileLoadStream</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html">alignment_of&lt; volatile value_t &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html">is_integral&lt; long &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">PredicatedTileStoreStream</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
 <tr><td rowspan="2" valign="bottom"><a name="letter_b"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;b&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">GemmGlobalIteratorCd::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">TileLoadIterator::Params</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1bool__constant.html">bool_constant</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">TileStoreIterator::Params</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html">ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html">is_integral&lt; long long &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1PredicateTileAdapter.html">PredicateTileAdapter</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html">GemmSharedStoreTileAbTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html">is_integral&lt; short &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html">TileLoadStream::PredicateVector</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html">WmmaGemmGlobalIteratorCdTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html">is_integral&lt; signed char &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html">GemmGlobalTileCdTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1bool__constant.html">bool_constant</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html">is_integral&lt; unsigned char &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html">TileStoreStream::PredicateVector</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html">GemmSharedLoadTileATraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
 <tr><td rowspan="2" valign="bottom"><a name="letter_c"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;c&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">GemmEpilogueTraits::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html">GemmSharedLoadTileBTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Gemm::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html">GemmGlobalTileCdTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__arithmetic.html">is_arithmetic</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">SharedLoadStream::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html">IgemmContiguousGlobalTileTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html">ComputeOffsetFromShape</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__base__of.html">is_base_of</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">LinearScaling::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html">GemmGlobalTileTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html">ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html">is_base_of_helper</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">GemmGlobalIteratorAb::Params</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html">GemmSharedLoadTileDTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html">ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__floating__point.html">is_floating_point</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1plus.html">plus</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html">GemmSharedLoadTileATraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html">ComputeOffsetFromStrides</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__fundamental.html">is_fundamental</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1PredicateTileAdapter.html">PredicateTileAdapter</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html">GemmSharedStoreTileDTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html">ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html">HgemmCrosswiseGlobalTileTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html">ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html">is_integral&lt; char &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html">GemmSharedStoreTileAbTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">ComputeThreadOffsetFromStrides</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html">is_integral&lt; const T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html">ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html">TileTraitsWarpRake::ThreadOffset</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html">ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html">is_integral&lt; const volatile T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html">ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html">GemmSharedStoreWithSkewTileAbTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html">ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html">GetExtent&lt; GemmOperand::kA, Tile_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html">is_integral&lt; int &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html">ProjectOperand&lt; GemmOperand::kC, true &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html">WmmaGemmGlobalIteratorCdTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1conditional.html">conditional</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html">GetExtent&lt; GemmOperand::kB, Tile_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html">is_integral&lt; long &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html">ProjectOperand&lt; GemmOperand::kD, true &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TiledThreadOffset.html">TiledThreadOffset</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html">conditional&lt; false, T, F &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html">GemmTraits::GlobalLoadStream</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html">is_integral&lt; long long &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_r"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;r&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">PredicateVector::ConstIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html">is_integral&lt; short &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html">ConstPredicateTileAdapter</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">GlobalLoadStreamBase</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html">is_integral&lt; signed char &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1remove__const.html">remove_const</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1Convert.html">Convert</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1greater.html">greater</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html">is_integral&lt; unsigned char &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html">remove_const&lt; const T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraits.html">TileTraits</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html">Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_h"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;h&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html">is_integral&lt; unsigned int &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1remove__cv.html">remove_cv</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html">TileTraitsContiguousMajor</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html">is_integral&lt; unsigned long &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1remove__volatile.html">remove_volatile</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">TileTraitsStandard</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1Copy.html">Copy</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html">is_integral&lt; unsigned long long &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html">remove_volatile&lt; volatile T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html">TileTraitsStrideMajor</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td rowspan="2" valign="bottom"><a name="letter_d"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;d&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">HgemmCrosswiseGlobalTileTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html">is_integral&lt; unsigned short &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraitsWarpRake.html">TileTraitsWarpRake</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">HgemmSwizzle</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html">is_integral&lt; volatile T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html">ReshapeThreads&lt; Tile_, Threads_, true &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1default__delete.html">default_delete</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__pointer.html">is_pointer</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TrivialPredicateTileAdapter.html">TrivialPredicateTileAdapter</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html">default_delete&lt; T[]&gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper.html">is_pointer_helper</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html">ReshapeTile&lt; Tile_, kAccessSize_, true &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_u"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;u&#160;&#160;</div></td></tr></table>
-</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html">DgemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html">is_pointer_helper&lt; T * &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_s"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;s&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html">is_integral&lt; unsigned int &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html">GemmSharedStoreWithSkewTileAbTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html">is_integral&lt; unsigned long &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html">ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html">IgemmGlobalTileTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html">is_integral&lt; unsigned long long &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html">ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html">GemmSharedLoadTileBTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">MatrixLayout::ColumnMajor</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html">GetExtent&lt; GemmOperand::kA, Tile_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html">is_integral&lt; unsigned short &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html">ProjectOperand&lt; GemmOperand::kC, true &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html">GemmGlobalTileTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">MatrixLayout::ColumnMajorBlockLinear</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html">GetExtent&lt; GemmOperand::kB, Tile_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html">is_integral&lt; volatile T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html">ProjectOperand&lt; GemmOperand::kD, true &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html">GemmSharedLoadTileDTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">ColumnMajorBlockSwizzle</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__pointer.html">is_pointer</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_r"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;r&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html">TileTraitsWarpRake::ThreadOffset</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">MatrixLayout::ColumnMajorInterleaved</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper.html">is_pointer_helper</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html">GemmSharedStoreTileDTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1greater.html">greater</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html">is_pointer_helper&lt; T * &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">RegularTilePredicateFunctor</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html">HgemmCrosswiseGlobalTileTraits::ThreadOffset</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html">ComputeOffsetFromShape</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_h"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;h&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1is__pow2.html">is_pow2</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1remove__const.html">remove_const</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileAllocation.html">TileAllocation</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html">ComputeOffsetFromStrides</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__same.html">is_same</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html">remove_const&lt; const T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">ComputeThreadOffsetFromStrides</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html">is_same&lt; A, A &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1remove__cv.html">remove_cv</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TiledThreadOffset.html">TiledThreadOffset</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html">ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">HgemmCrosswiseGlobalTileTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__trivially__copyable.html">is_trivially_copyable</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1remove__volatile.html">remove_volatile</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html">ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">HgemmSwizzle</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__void.html">is_void</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html">remove_volatile&lt; volatile T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1conditional.html">conditional</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__volatile.html">is_volatile</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html">conditional&lt; false, T, F &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html">is_volatile&lt; volatile T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html">ReshapeThreads&lt; Tile_, Threads_, true &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">PredicateVector::ConstIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html">PredicateVector::Iterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">TensorRefBatchStrided::ConstIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1IteratorAdvance.html">IteratorAdvance</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html">ReshapeTile&lt; Tile_, kAccessSize_, true &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraits.html">TileTraits</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">TensorRefArray::ConstIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraits.html">HgemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_k"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;k&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">MatrixLayout::RowMajor</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html">TileTraitsContiguousMajor</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html">ConstPredicateTileAdapter</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">HgemmTraitsHelper</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">MatrixLayout::RowMajorBlockLinear</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">TileTraitsStandard</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">MatrixLayout::ContiguousLayout</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">KernelLaunchConfiguration</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">RowMajorBlockSwizzle</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html">TileTraitsStrideMajor</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1Convert.html">Convert</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_l"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;l&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">MatrixLayout::RowMajorInterleaved</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TileTraitsWarpRake.html">TileTraitsWarpRake</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html">Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_s"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;s&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html">Launch</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1TrivialPredicateTileAdapter.html">TrivialPredicateTileAdapter</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1Copy.html">Copy</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html">Launch&lt; Gemm, false &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_u"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;u&#160;&#160;</div></td></tr></table>
 </td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html">DgemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1is__pow2.html">is_pow2</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html">unique_ptr</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1divide__assert.html">divide_assert</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraits.html">HgemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__same.html">is_same</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html">SgemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_v"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;v&#160;&#160;</div></td></tr></table>
+<tr><td rowspan="2" valign="bottom"><a name="letter_d"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;d&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1less.html">less</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a> (<a class="el" href="namespacecutlass_1_1detail.html">cutlass::detail</a>)&#160;&#160;&#160;</td></tr>
+<tr><td rowspan="2" valign="bottom"><a name="letter_i"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;i&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html">SgemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structDebugType.html">DebugType</a>&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">LinearScalingDevicePtr</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SgemmLBTraits.html">SgemmLBTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html">unique_ptr</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structDebugValue.html">DebugValue</a>&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Identity.html">Identity</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load.html">Load</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html">SgemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_v"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;v&#160;&#160;</div></td></tr></table>
 </td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html">is_base_of_helper::dummy</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">HgemmTraitsHelper</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html">is_same&lt; A, A &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html">SgemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1default__delete.html">default_delete</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html">Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Shape.html">Shape</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html">default_delete&lt; T[]&gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html">IdentityTensorMapFunc</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeAdd.html">ShapeAdd</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html">DgemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">Vector&lt; bin1_t, kLanes_ &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html">DgemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html">IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">Vector&lt; half, 1 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1divide__assert.html">divide_assert</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeDivCeiling.html">ShapeDivCeiling</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">Vector&lt; half, kLanes_ &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html">is_base_of_helper::dummy</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html">IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeMax.html">ShapeMax</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">Vector&lt; int4_t, kLanes_ &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1DumpType.html">DumpType</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">IgemmEpilogueScalar</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html">Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeMin.html">ShapeMin</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">Vector&lt; uint4_t, kLanes_ &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
 <tr><td rowspan="2" valign="bottom"><a name="letter_e"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;e&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__trivially__copyable.html">is_trivially_copyable</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Shape.html">Shape</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__void.html">is_void</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeAdd.html">ShapeAdd</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">Vector&lt; half, kLanes_ &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1enable__if.html">enable_if</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__volatile.html">is_volatile</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html">enable_if&lt; false, T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html">is_volatile&lt; volatile T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html">Vectorize&lt; Element_, 1 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1Extent.html">Extent</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html">PredicateVector::Iterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeMax.html">ShapeMax</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1VectorTraits.html">VectorTraits</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html">Extent&lt; Vector&lt; T, Lanes &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1IteratorAdvance.html">IteratorAdvance</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeMin.html">ShapeMin</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html">VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html">Extent&lt; Vector&lt; T, Lanes &gt; const &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_i"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;i&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1IteratorFragment.html">IteratorFragment</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html">VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html">IgemmEpilogueScalar&lt; int &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html">Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">IgemmEpilogueTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html">Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeScale.html">ShapeScale</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1enable__if.html">enable_if</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">IgemmEpilogueTraitsHelper</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1log2__down.html">log2_down</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html">enable_if&lt; false, T &gt;</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html">IgemmFloatToInt8Converter</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html">log2_down&lt; N, 1, Count &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeSub.html">ShapeSub</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1Extent.html">Extent</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1log2__up.html">log2_up</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1VectorTraits.html">VectorTraits</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html">Extent&lt; Vector&lt; T, Lanes &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">IgemmGlobalLoadTransformer</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html">log2_up&lt; N, 1, Count &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">GemmEpilogueTraits::SharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html">VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html">Extent&lt; Vector&lt; T, Lanes &gt; const &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html">IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_m"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;m&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">GlobalLoadStreamPair::SharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html">VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
 <tr><td rowspan="2" valign="bottom"><a name="letter_f"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;f&#160;&#160;</div></td></tr></table>
-</td><td rowspan="2" valign="bottom"><a name="letter_l"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;l&#160;&#160;</div></td></tr></table>
-</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeScale.html">ShapeScale</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_w"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;w&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html">IgemmGlobalStoreTransformer</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">GemmTraits::SharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_w"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;w&#160;&#160;</div></td></tr></table>
+</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html">IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">GemmTraits::MainLoopSharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html">GlobalLoadStream::SharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html">Fp16SgemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">ClearAccumulators::SharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">WmmaGemmGlobalIteratorCd</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html">Fp16SgemmSgemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html">IgemmInt8ToFloatConverter</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html">WmmaGemmGlobalIteratorCdTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">IgemmSharedStoreTransformer</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1MatrixTransform.html">MatrixTransform</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_z"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;z&#160;&#160;</div></td></tr></table>
 </td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1Identity.html">Identity</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1less.html">less</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ShapeSub.html">ShapeSub</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">WmmaGemmGlobalIteratorCd</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">FragmentConstIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html">GemmTraits::SharedLoadStream</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html">WmmaGemmGlobalIteratorCdTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1FragmentIterator.html">FragmentIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01AccumulatorsPerThread___01_4.html">IgemmConfig&lt; OutputTile_, int8_t, AccumulatorsPerThread_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load.html">Load</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td></td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1FragmentLoad.html">FragmentLoad</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html">IgemmContiguousGlobalTileTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html">Load&lt; double, 2, Memory_, true, 16 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">ClearAccumulators::SharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td></td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html">FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html">Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">GemmEpilogueTraits::SharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td></td></tr>
-<tr><td valign="top"><a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html">FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html">IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html">Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">GemmTraits::SharedStorage</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td></td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">FragmentConstIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">IgemmSwizzle</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Max.html">Max</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ZipConvert.html">ZipConvert</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1FragmentIterator.html">FragmentIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Min.html">Min</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1sqrt__est.html">sqrt_est</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_n"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;n&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1StorageType.html">StorageType</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">FragmentMultiplyAdd&lt; half, half, true &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1StorageType_3_011_01_4.html">StorageType&lt; 1 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">ZipTileAllocation</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td rowspan="2" valign="bottom"><a name="letter_g"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;g&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1nullptr__t.html">nullptr_t</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1StorageType_3_012_01_4.html">StorageType&lt; 2 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td rowspan="2" valign="bottom"><a name="letter_p"></a><table border="0" cellspacing="0" cellpadding="0"><tr><td><div class="ah">&#160;&#160;p&#160;&#160;</div></td></tr></table>
+</td><td valign="top"><a class="el" href="structcutlass_1_1StorageType_3_014_01_4.html">StorageType&lt; 4 &gt;</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td></td></tr>
+<tr><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html">IgemmTraits</a> (<a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a>)&#160;&#160;&#160;</td><td valign="top"><a class="el" href="structcutlass_1_1Store.html">Store</a> (<a class="el" href="namespacecutlass.html">cutlass</a>)&#160;&#160;&#160;</td><td></td></tr>
+<tr><td></td><td></td><td valign="top"><a class="el" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html">alignment_of::pad</a> (<a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a>)&#160;&#160;&#160;</td><td></td><td></td></tr>
 <tr><td></td><td></td><td></td><td></td><td></td></tr>
 </table>
-<div class="qindex"><a class="qindex" href="#letter_a">a</a>&#160;|&#160;<a class="qindex" href="#letter_b">b</a>&#160;|&#160;<a class="qindex" href="#letter_c">c</a>&#160;|&#160;<a class="qindex" href="#letter_d">d</a>&#160;|&#160;<a class="qindex" href="#letter_e">e</a>&#160;|&#160;<a class="qindex" href="#letter_f">f</a>&#160;|&#160;<a class="qindex" href="#letter_g">g</a>&#160;|&#160;<a class="qindex" href="#letter_h">h</a>&#160;|&#160;<a class="qindex" href="#letter_i">i</a>&#160;|&#160;<a class="qindex" href="#letter_l">l</a>&#160;|&#160;<a class="qindex" href="#letter_m">m</a>&#160;|&#160;<a class="qindex" href="#letter_n">n</a>&#160;|&#160;<a class="qindex" href="#letter_p">p</a>&#160;|&#160;<a class="qindex" href="#letter_r">r</a>&#160;|&#160;<a class="qindex" href="#letter_s">s</a>&#160;|&#160;<a class="qindex" href="#letter_t">t</a>&#160;|&#160;<a class="qindex" href="#letter_u">u</a>&#160;|&#160;<a class="qindex" href="#letter_v">v</a>&#160;|&#160;<a class="qindex" href="#letter_w">w</a></div>
+<div class="qindex"><a class="qindex" href="#letter_a">a</a>&#160;|&#160;<a class="qindex" href="#letter_b">b</a>&#160;|&#160;<a class="qindex" href="#letter_c">c</a>&#160;|&#160;<a class="qindex" href="#letter_d">d</a>&#160;|&#160;<a class="qindex" href="#letter_e">e</a>&#160;|&#160;<a class="qindex" href="#letter_f">f</a>&#160;|&#160;<a class="qindex" href="#letter_g">g</a>&#160;|&#160;<a class="qindex" href="#letter_h">h</a>&#160;|&#160;<a class="qindex" href="#letter_i">i</a>&#160;|&#160;<a class="qindex" href="#letter_k">k</a>&#160;|&#160;<a class="qindex" href="#letter_l">l</a>&#160;|&#160;<a class="qindex" href="#letter_m">m</a>&#160;|&#160;<a class="qindex" href="#letter_n">n</a>&#160;|&#160;<a class="qindex" href="#letter_p">p</a>&#160;|&#160;<a class="qindex" href="#letter_r">r</a>&#160;|&#160;<a class="qindex" href="#letter_s">s</a>&#160;|&#160;<a class="qindex" href="#letter_t">t</a>&#160;|&#160;<a class="qindex" href="#letter_u">u</a>&#160;|&#160;<a class="qindex" href="#letter_v">v</a>&#160;|&#160;<a class="qindex" href="#letter_w">w</a>&#160;|&#160;<a class="qindex" href="#letter_z">z</a></div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/clear__accumulators_8h.html b/docs/clear__accumulators_8h.html
index b4bd3b39c2..cd8f6307a7 100644
--- a/docs/clear__accumulators_8h.html
+++ b/docs/clear__accumulators_8h.html
@@ -82,7 +82,7 @@
 
 <p>Defines abstractions for efficiently clearing accumulator tiles.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&quot;</code><br />
 </div>
 <p><a href="clear__accumulators_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -104,7 +104,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/clear__accumulators_8h_source.html b/docs/clear__accumulators_8h_source.html
index 1a6f517fb5..7c0423a5f9 100644
--- a/docs/clear__accumulators_8h_source.html
+++ b/docs/clear__accumulators_8h_source.html
@@ -76,16 +76,17 @@
 <div class="title">clear_accumulators.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="clear__accumulators_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kLanes_ = 1&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators</a> {</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">   40</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">SharedStorage</a> {};</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef">   43</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef">ClearAccumulators</a>(<a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">SharedStorage</a>&amp; shared_storage) {}</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">   47</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">clear</a>(Fragment_&amp; fragment) {</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;    fragment.clear();</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;  }</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;};</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<a href="clear__accumulators_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kLanes_ = 1&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators</a> {</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">   40</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">SharedStorage</a> {};</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef">   43</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef">ClearAccumulators</a>(<a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">SharedStorage</a>&amp; shared_storage) {}</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#aef1832b62ae8caef5e6d34cb1d1564e3">   46</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#aef1832b62ae8caef5e6d34cb1d1564e3">ClearAccumulators</a>() {}</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">   50</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">clear</a>(Fragment_&amp; fragment) {</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    fragment.clear();</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  }</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;};</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ClearAccumulators_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ClearAccumulators.html">cutlass::gemm::ClearAccumulators</a></div><div class="ttdef"><b>Definition:</b> clear_accumulators.h:38</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ClearAccumulators_html_a4ba07ea6d6fef961de1cb95b13c672ef"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef">cutlass::gemm::ClearAccumulators::ClearAccumulators</a></div><div class="ttdeci">CUTLASS_DEVICE ClearAccumulators(SharedStorage &amp;shared_storage)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> clear_accumulators.h:43</div></div>
 <div class="ttc" id="vector_8h_html"><div class="ttname"><a href="vector_8h.html">vector.h</a></div><div class="ttdoc">Defines a 1D vector of elements held in the registers of each thread. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ClearAccumulators_html_adb8026a19b09e9a581ec767c2c2da4ab"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">cutlass::gemm::ClearAccumulators::clear</a></div><div class="ttdeci">CUTLASS_DEVICE void clear(Fragment_ &amp;fragment)</div><div class="ttdoc">Clear the fragment. </div><div class="ttdef"><b>Definition:</b> clear_accumulators.h:47</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ClearAccumulators_html_adb8026a19b09e9a581ec767c2c2da4ab"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">cutlass::gemm::ClearAccumulators::clear</a></div><div class="ttdeci">CUTLASS_DEVICE void clear(Fragment_ &amp;fragment)</div><div class="ttdoc">Clear the fragment. </div><div class="ttdef"><b>Definition:</b> clear_accumulators.h:50</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">cutlass::gemm::ClearAccumulators::SharedStorage</a></div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> clear_accumulators.h:40</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ClearAccumulators_html_aef1832b62ae8caef5e6d34cb1d1564e3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ClearAccumulators.html#aef1832b62ae8caef5e6d34cb1d1564e3">cutlass::gemm::ClearAccumulators::ClearAccumulators</a></div><div class="ttdeci">CUTLASS_DEVICE ClearAccumulators()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> clear_accumulators.h:46</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/complex_8h.html b/docs/complex_8h.html
new file mode 100644
index 0000000000..e94494d213
--- /dev/null
+++ b/docs/complex_8h.html
@@ -0,0 +1,263 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: complex.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_c5917a9a879e9a6c73eaf5237444ab84.html">util</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle">
+<div class="title">complex.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+<div class="textblock"><code>#include &lt;cuComplex.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
+<code>#include &lt;iosfwd&gt;</code><br />
+</div>
+<p><a href="complex_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex&lt; T &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacecutlass_1_1platform"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html">cutlass::platform</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a25a36d44c7b9f182eb404a3251cd4f39"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">cutlass::platform::real</a> (cuFloatComplex const &amp;z)</td></tr>
+<tr class="memdesc:a25a36d44c7b9f182eb404a3251cd4f39"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">More...</a><br /></td></tr>
+<tr class="separator:a25a36d44c7b9f182eb404a3251cd4f39"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa9b17e4705337452761c0d3bd5edfc67"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aa9b17e4705337452761c0d3bd5edfc67">cutlass::platform::real</a> (cuFloatComplex &amp;z)</td></tr>
+<tr class="memdesc:aa9b17e4705337452761c0d3bd5edfc67"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="namespacecutlass_1_1platform.html#aa9b17e4705337452761c0d3bd5edfc67">More...</a><br /></td></tr>
+<tr class="separator:aa9b17e4705337452761c0d3bd5edfc67"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1f13c0049c5f94b0480c619612608f7b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a1f13c0049c5f94b0480c619612608f7b">cutlass::platform::real</a> (cuDoubleComplex const &amp;z)</td></tr>
+<tr class="memdesc:a1f13c0049c5f94b0480c619612608f7b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="namespacecutlass_1_1platform.html#a1f13c0049c5f94b0480c619612608f7b">More...</a><br /></td></tr>
+<tr class="separator:a1f13c0049c5f94b0480c619612608f7b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3365c0200a034973b7baecede9728239"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a3365c0200a034973b7baecede9728239">cutlass::platform::real</a> (cuDoubleComplex &amp;z)</td></tr>
+<tr class="memdesc:a3365c0200a034973b7baecede9728239"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="namespacecutlass_1_1platform.html#a3365c0200a034973b7baecede9728239">More...</a><br /></td></tr>
+<tr class="separator:a3365c0200a034973b7baecede9728239"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a18bc43cfdc4d066a6c10ad2002196ee6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">cutlass::platform::imag</a> (cuFloatComplex const &amp;z)</td></tr>
+<tr class="memdesc:a18bc43cfdc4d066a6c10ad2002196ee6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">More...</a><br /></td></tr>
+<tr class="separator:a18bc43cfdc4d066a6c10ad2002196ee6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af127cab494309510051d6b45914faf33"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#af127cab494309510051d6b45914faf33">cutlass::platform::imag</a> (cuFloatComplex &amp;z)</td></tr>
+<tr class="memdesc:af127cab494309510051d6b45914faf33"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="namespacecutlass_1_1platform.html#af127cab494309510051d6b45914faf33">More...</a><br /></td></tr>
+<tr class="separator:af127cab494309510051d6b45914faf33"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1739f880ca8398f808ee57a3f0c3c30b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a1739f880ca8398f808ee57a3f0c3c30b">cutlass::platform::imag</a> (cuDoubleComplex const &amp;z)</td></tr>
+<tr class="memdesc:a1739f880ca8398f808ee57a3f0c3c30b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="namespacecutlass_1_1platform.html#a1739f880ca8398f808ee57a3f0c3c30b">More...</a><br /></td></tr>
+<tr class="separator:a1739f880ca8398f808ee57a3f0c3c30b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f356af3c5828b7d31279a5d075c5bc9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a8f356af3c5828b7d31279a5d075c5bc9">cutlass::platform::imag</a> (cuDoubleComplex &amp;z)</td></tr>
+<tr class="memdesc:a8f356af3c5828b7d31279a5d075c5bc9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="namespacecutlass_1_1platform.html#a8f356af3c5828b7d31279a5d075c5bc9">More...</a><br /></td></tr>
+<tr class="separator:a8f356af3c5828b7d31279a5d075c5bc9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a01e98d1c13ac9384f2bdc407fce6131b"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a01e98d1c13ac9384f2bdc407fce6131b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T const  &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a01e98d1c13ac9384f2bdc407fce6131b">cutlass::platform::real</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a01e98d1c13ac9384f2bdc407fce6131b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="namespacecutlass_1_1platform.html#a01e98d1c13ac9384f2bdc407fce6131b">More...</a><br /></td></tr>
+<tr class="separator:a01e98d1c13ac9384f2bdc407fce6131b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa5cfa5849e12b745236485dd2db5f854"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:aa5cfa5849e12b745236485dd2db5f854"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aa5cfa5849e12b745236485dd2db5f854">cutlass::platform::real</a> (complex&lt; T &gt; &amp;z)</td></tr>
+<tr class="memdesc:aa5cfa5849e12b745236485dd2db5f854"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="namespacecutlass_1_1platform.html#aa5cfa5849e12b745236485dd2db5f854">More...</a><br /></td></tr>
+<tr class="separator:aa5cfa5849e12b745236485dd2db5f854"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a714db927a811c86cda26fc12ca830356"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a714db927a811c86cda26fc12ca830356"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T const  &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a714db927a811c86cda26fc12ca830356">cutlass::platform::imag</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a714db927a811c86cda26fc12ca830356"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="namespacecutlass_1_1platform.html#a714db927a811c86cda26fc12ca830356">More...</a><br /></td></tr>
+<tr class="separator:a714db927a811c86cda26fc12ca830356"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa35ea4f804f9ed39578b595ba2620c1d"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:aa35ea4f804f9ed39578b595ba2620c1d"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aa35ea4f804f9ed39578b595ba2620c1d">cutlass::platform::imag</a> (complex&lt; T &gt; &amp;z)</td></tr>
+<tr class="memdesc:aa35ea4f804f9ed39578b595ba2620c1d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="namespacecutlass_1_1platform.html#aa35ea4f804f9ed39578b595ba2620c1d">More...</a><br /></td></tr>
+<tr class="separator:aa35ea4f804f9ed39578b595ba2620c1d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab4c3e4eabba020d7a9faf86ee6cf437a"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:ab4c3e4eabba020d7a9faf86ee6cf437a"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#ab4c3e4eabba020d7a9faf86ee6cf437a">cutlass::platform::operator&lt;&lt;</a> (std::ostream &amp;out, complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="separator:ab4c3e4eabba020d7a9faf86ee6cf437a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a043e8559161ee0fcaf943a1dfe1a9cbb"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a043e8559161ee0fcaf943a1dfe1a9cbb"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb">cutlass::platform::operator==</a> (complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a043e8559161ee0fcaf943a1dfe1a9cbb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Equality operator.  <a href="namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb">More...</a><br /></td></tr>
+<tr class="separator:a043e8559161ee0fcaf943a1dfe1a9cbb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa8b8911c3529ee9d433b0c4d90bde50c"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:aa8b8911c3529ee9d433b0c4d90bde50c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c">cutlass::platform::operator!=</a> (complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:aa8b8911c3529ee9d433b0c4d90bde50c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Inequality operator.  <a href="namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c">More...</a><br /></td></tr>
+<tr class="separator:aa8b8911c3529ee9d433b0c4d90bde50c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a93b0f0d73fa3cf11c5018460b257837c"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a93b0f0d73fa3cf11c5018460b257837c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a93b0f0d73fa3cf11c5018460b257837c">cutlass::platform::operator+</a> (complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a93b0f0d73fa3cf11c5018460b257837c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Addition.  <a href="namespacecutlass_1_1platform.html#a93b0f0d73fa3cf11c5018460b257837c">More...</a><br /></td></tr>
+<tr class="separator:a93b0f0d73fa3cf11c5018460b257837c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa486433971cdd6b7648c1e5459c42763"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:aa486433971cdd6b7648c1e5459c42763"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aa486433971cdd6b7648c1e5459c42763">cutlass::platform::operator-</a> (complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:aa486433971cdd6b7648c1e5459c42763"><td class="mdescLeft">&#160;</td><td class="mdescRight">Subtraction.  <a href="namespacecutlass_1_1platform.html#aa486433971cdd6b7648c1e5459c42763">More...</a><br /></td></tr>
+<tr class="separator:aa486433971cdd6b7648c1e5459c42763"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a34950f01ed89108b1d79c651aa58ecba"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a34950f01ed89108b1d79c651aa58ecba"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba">cutlass::platform::operator*</a> (complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a34950f01ed89108b1d79c651aa58ecba"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiplication.  <a href="namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba">More...</a><br /></td></tr>
+<tr class="separator:a34950f01ed89108b1d79c651aa58ecba"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aef5da2c88431ab40b58fdd6afea13dba"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:aef5da2c88431ab40b58fdd6afea13dba"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aef5da2c88431ab40b58fdd6afea13dba">cutlass::platform::operator*</a> (complex&lt; T &gt; const &amp;lhs, T const &amp;s)</td></tr>
+<tr class="memdesc:aef5da2c88431ab40b58fdd6afea13dba"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar Multiplication.  <a href="namespacecutlass_1_1platform.html#aef5da2c88431ab40b58fdd6afea13dba">More...</a><br /></td></tr>
+<tr class="separator:aef5da2c88431ab40b58fdd6afea13dba"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a289b6e31bdc0be1302b8dbab55eb568c"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a289b6e31bdc0be1302b8dbab55eb568c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a289b6e31bdc0be1302b8dbab55eb568c">cutlass::platform::operator*</a> (T const &amp;s, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a289b6e31bdc0be1302b8dbab55eb568c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar Multiplication.  <a href="namespacecutlass_1_1platform.html#a289b6e31bdc0be1302b8dbab55eb568c">More...</a><br /></td></tr>
+<tr class="separator:a289b6e31bdc0be1302b8dbab55eb568c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4fe79c19fb599cd9b85d08676a711f9f"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a4fe79c19fb599cd9b85d08676a711f9f"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f">cutlass::platform::operator/</a> (complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a4fe79c19fb599cd9b85d08676a711f9f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Division.  <a href="namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f">More...</a><br /></td></tr>
+<tr class="separator:a4fe79c19fb599cd9b85d08676a711f9f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a33f75d77ff629335c9666128837c4581"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a33f75d77ff629335c9666128837c4581"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a33f75d77ff629335c9666128837c4581">cutlass::platform::operator/</a> (complex&lt; T &gt; const &amp;lhs, T const &amp;s)</td></tr>
+<tr class="memdesc:a33f75d77ff629335c9666128837c4581"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar Division.  <a href="namespacecutlass_1_1platform.html#a33f75d77ff629335c9666128837c4581">More...</a><br /></td></tr>
+<tr class="separator:a33f75d77ff629335c9666128837c4581"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae302b414576ecb5afb0cdfdda6b30ad3"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:ae302b414576ecb5afb0cdfdda6b30ad3"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#ae302b414576ecb5afb0cdfdda6b30ad3">cutlass::platform::operator/</a> (T const &amp;s, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:ae302b414576ecb5afb0cdfdda6b30ad3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar divided by complex.  <a href="namespacecutlass_1_1platform.html#ae302b414576ecb5afb0cdfdda6b30ad3">More...</a><br /></td></tr>
+<tr class="separator:ae302b414576ecb5afb0cdfdda6b30ad3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a34c5ca341da805d5d1bc703c53c96d9d"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a34c5ca341da805d5d1bc703c53c96d9d"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt; &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a34c5ca341da805d5d1bc703c53c96d9d">cutlass::platform::operator+=</a> (complex&lt; T &gt; &amp;lhs, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a34c5ca341da805d5d1bc703c53c96d9d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Addition.  <a href="namespacecutlass_1_1platform.html#a34c5ca341da805d5d1bc703c53c96d9d">More...</a><br /></td></tr>
+<tr class="separator:a34c5ca341da805d5d1bc703c53c96d9d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abff9e10130849ea46f6245f4e8cc2cc9"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:abff9e10130849ea46f6245f4e8cc2cc9"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt; &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#abff9e10130849ea46f6245f4e8cc2cc9">cutlass::platform::operator-=</a> (complex&lt; T &gt; &amp;lhs, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:abff9e10130849ea46f6245f4e8cc2cc9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Subtraction.  <a href="namespacecutlass_1_1platform.html#abff9e10130849ea46f6245f4e8cc2cc9">More...</a><br /></td></tr>
+<tr class="separator:abff9e10130849ea46f6245f4e8cc2cc9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9a4928ab582beee4e7ddd337529d45ac"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a9a4928ab582beee4e7ddd337529d45ac"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt; &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac">cutlass::platform::operator*=</a> (complex&lt; T &gt; &amp;lhs, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a9a4928ab582beee4e7ddd337529d45ac"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiplication.  <a href="namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac">More...</a><br /></td></tr>
+<tr class="separator:a9a4928ab582beee4e7ddd337529d45ac"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a21adde191e48e604908ce886690c6d6b"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a21adde191e48e604908ce886690c6d6b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt; &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a21adde191e48e604908ce886690c6d6b">cutlass::platform::operator*=</a> (complex&lt; T &gt; &amp;lhs, T s)</td></tr>
+<tr class="memdesc:a21adde191e48e604908ce886690c6d6b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar multiplication.  <a href="namespacecutlass_1_1platform.html#a21adde191e48e604908ce886690c6d6b">More...</a><br /></td></tr>
+<tr class="separator:a21adde191e48e604908ce886690c6d6b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac594526ef64ecf364ae957753ce64b40"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:ac594526ef64ecf364ae957753ce64b40"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt; &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#ac594526ef64ecf364ae957753ce64b40">cutlass::platform::operator/=</a> (complex&lt; T &gt; &amp;lhs, complex&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:ac594526ef64ecf364ae957753ce64b40"><td class="mdescLeft">&#160;</td><td class="mdescRight">Division.  <a href="namespacecutlass_1_1platform.html#ac594526ef64ecf364ae957753ce64b40">More...</a><br /></td></tr>
+<tr class="separator:ac594526ef64ecf364ae957753ce64b40"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1fbf209c41242b3f605ac220c39e8fd5"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a1fbf209c41242b3f605ac220c39e8fd5"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5">cutlass::platform::abs</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a1fbf209c41242b3f605ac220c39e8fd5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the magnitude of the complex number.  <a href="namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5">More...</a><br /></td></tr>
+<tr class="separator:a1fbf209c41242b3f605ac220c39e8fd5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8a1a03766dbd2c2ce10b10498f281bf0"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a8a1a03766dbd2c2ce10b10498f281bf0"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0">cutlass::platform::arg</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a8a1a03766dbd2c2ce10b10498f281bf0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the magnitude of the complex number.  <a href="namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0">More...</a><br /></td></tr>
+<tr class="separator:a8a1a03766dbd2c2ce10b10498f281bf0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9d631b040eea94d9b5af04faa5c20bb1"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a9d631b040eea94d9b5af04faa5c20bb1"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">cutlass::platform::norm</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a9d631b040eea94d9b5af04faa5c20bb1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the squared magnitude.  <a href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">More...</a><br /></td></tr>
+<tr class="separator:a9d631b040eea94d9b5af04faa5c20bb1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7167baf0f7fcf52471c0413f084d98d4"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a7167baf0f7fcf52471c0413f084d98d4"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a7167baf0f7fcf52471c0413f084d98d4">cutlass::platform::conj</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a7167baf0f7fcf52471c0413f084d98d4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the complex conjugate.  <a href="namespacecutlass_1_1platform.html#a7167baf0f7fcf52471c0413f084d98d4">More...</a><br /></td></tr>
+<tr class="separator:a7167baf0f7fcf52471c0413f084d98d4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4e57cfad9bf0b78e338d536ff1bdda39"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a4e57cfad9bf0b78e338d536ff1bdda39"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a4e57cfad9bf0b78e338d536ff1bdda39">cutlass::platform::proj</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a4e57cfad9bf0b78e338d536ff1bdda39"><td class="mdescLeft">&#160;</td><td class="mdescRight">Projects the complex number z onto the Riemann sphere.  <a href="namespacecutlass_1_1platform.html#a4e57cfad9bf0b78e338d536ff1bdda39">More...</a><br /></td></tr>
+<tr class="separator:a4e57cfad9bf0b78e338d536ff1bdda39"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6c9200b03868a5090027e5cfc8e27c62"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a6c9200b03868a5090027e5cfc8e27c62"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a6c9200b03868a5090027e5cfc8e27c62">cutlass::platform::polar</a> (T const &amp;r, T const &amp;theta=T())</td></tr>
+<tr class="memdesc:a6c9200b03868a5090027e5cfc8e27c62"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a complex number with magnitude r and phase theta.  <a href="namespacecutlass_1_1platform.html#a6c9200b03868a5090027e5cfc8e27c62">More...</a><br /></td></tr>
+<tr class="separator:a6c9200b03868a5090027e5cfc8e27c62"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1a6ab5742404272f76faeaf22f3ec11b"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a1a6ab5742404272f76faeaf22f3ec11b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">cutlass::platform::exp</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a1a6ab5742404272f76faeaf22f3ec11b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the complex exponential of z.  <a href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">More...</a><br /></td></tr>
+<tr class="separator:a1a6ab5742404272f76faeaf22f3ec11b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adc1afc18e182f42f72210e2203ba293c"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:adc1afc18e182f42f72210e2203ba293c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">cutlass::platform::log</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:adc1afc18e182f42f72210e2203ba293c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the complex exponential of z.  <a href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">More...</a><br /></td></tr>
+<tr class="separator:adc1afc18e182f42f72210e2203ba293c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a62dd6ae0e1b4476fd62ac70c26f12a06"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a62dd6ae0e1b4476fd62ac70c26f12a06"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a62dd6ae0e1b4476fd62ac70c26f12a06">cutlass::platform::log10</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a62dd6ae0e1b4476fd62ac70c26f12a06"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the complex exponential of z.  <a href="namespacecutlass_1_1platform.html#a62dd6ae0e1b4476fd62ac70c26f12a06">More...</a><br /></td></tr>
+<tr class="separator:a62dd6ae0e1b4476fd62ac70c26f12a06"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a81308ccea406262e143e27193cbdf747"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a81308ccea406262e143e27193cbdf747"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">cutlass::platform::sqrt</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a81308ccea406262e143e27193cbdf747"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the square root of complex number z.  <a href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">More...</a><br /></td></tr>
+<tr class="separator:a81308ccea406262e143e27193cbdf747"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae0ad2891ed2be526d97bc5665d5c0a92"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:ae0ad2891ed2be526d97bc5665d5c0a92"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92">cutlass::platform::cos</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:ae0ad2891ed2be526d97bc5665d5c0a92"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the cosine of complex z.  <a href="namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92">More...</a><br /></td></tr>
+<tr class="separator:ae0ad2891ed2be526d97bc5665d5c0a92"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3c5dc10135c54b3b212c9e107ba1476a"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a3c5dc10135c54b3b212c9e107ba1476a"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> complex&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a">cutlass::platform::sin</a> (complex&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a3c5dc10135c54b3b212c9e107ba1476a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the sin of complex z.  <a href="namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a">More...</a><br /></td></tr>
+<tr class="separator:a3c5dc10135c54b3b212c9e107ba1476a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/complex_8h_source.html b/docs/complex_8h_source.html
new file mode 100644
index 0000000000..6270d22da7
--- /dev/null
+++ b/docs/complex_8h_source.html
@@ -0,0 +1,123 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: complex.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_c5917a9a879e9a6c73eaf5237444ab84.html">util</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">complex.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="complex_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00026"></a><span class="lineno">   26</span>&#160;</div><div class="line"><a name="l00027"></a><span class="lineno">   27</span>&#160;<span class="preprocessor">#include &lt;cuComplex.h&gt;</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#include &lt;iosfwd&gt;</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00032"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html">   32</a></span>&#160;<span class="keyword">namespace </span>platform {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="comment">// Accessors for CUDA complex types</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">   44</a></span>&#160;<span class="keywordtype">float</span> <span class="keyword">const</span> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(cuFloatComplex <span class="keyword">const</span> &amp;z) { <span class="keywordflow">return</span> z.x; }</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#aa9b17e4705337452761c0d3bd5edfc67">   50</a></span>&#160;<span class="keywordtype">float</span> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(cuFloatComplex &amp;z) { <span class="keywordflow">return</span> z.x; }</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a1f13c0049c5f94b0480c619612608f7b">   56</a></span>&#160;<span class="keywordtype">double</span> <span class="keyword">const</span> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(cuDoubleComplex <span class="keyword">const</span> &amp;z) { <span class="keywordflow">return</span> z.x; }</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a3365c0200a034973b7baecede9728239">   62</a></span>&#160;<span class="keywordtype">double</span> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(cuDoubleComplex &amp;z) { <span class="keywordflow">return</span> z.x; }</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">   68</a></span>&#160;<span class="keywordtype">float</span> <span class="keyword">const</span> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(cuFloatComplex <span class="keyword">const</span> &amp;z) { <span class="keywordflow">return</span> z.y; }</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#af127cab494309510051d6b45914faf33">   74</a></span>&#160;<span class="keywordtype">float</span> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(cuFloatComplex &amp;z) { <span class="keywordflow">return</span> z.y; }</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a1739f880ca8398f808ee57a3f0c3c30b">   80</a></span>&#160;<span class="keywordtype">double</span> <span class="keyword">const</span> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(cuDoubleComplex <span class="keyword">const</span> &amp;z) { <span class="keywordflow">return</span> z.y; }</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a8f356af3c5828b7d31279a5d075c5bc9">   86</a></span>&#160;<span class="keywordtype">double</span> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(cuDoubleComplex &amp;z) { <span class="keywordflow">return</span> z.y; }</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html">   93</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1platform_1_1complex.html">complex</a> {</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html#aa7c319b0c67f8ffeee3d1bb4b83ea0d6">   96</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="classcutlass_1_1platform_1_1complex.html#aa7c319b0c67f8ffeee3d1bb4b83ea0d6">value_type</a>;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  T _real;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  T _imag;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="comment">// Methods</span></div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00118"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html#a2e852c886e61a39e884026d6f4c32c1e">  118</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1complex.html#a2e852c886e61a39e884026d6f4c32c1e">complex</a>(T r = T(0), T i = T(0)) : _real(r), _imag(i) {}</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html#a71ee9d620f72fbcd54f6e3049707eb99">  124</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1complex.html#a71ee9d620f72fbcd54f6e3049707eb99">complex</a>(cuFloatComplex <span class="keyword">const</span> &amp;z) : _real(platform::<a class="code" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">real</a>(z)), _imag(platform::<a class="code" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">imag</a>(z)) {}</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00130"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html#af40324ec4d1d35a0ceda676c8de968f8">  130</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1complex.html#af40324ec4d1d35a0ceda676c8de968f8">complex</a>(cuDoubleComplex <span class="keyword">const</span> &amp;z) : _real(platform::<a class="code" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">real</a>(z)), _imag(platform::<a class="code" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">imag</a>(z)) {}</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00136"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">  136</a></span>&#160;  T <span class="keyword">const</span> &amp;<a class="code" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">real</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> _real; }</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00142"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html#acda3e2050b2fefb1aca1fa8aa2063f8b">  142</a></span>&#160;  T &amp;<a class="code" href="classcutlass_1_1platform_1_1complex.html#acda3e2050b2fefb1aca1fa8aa2063f8b">real</a>() { <span class="keywordflow">return</span> _real; }</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00148"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">  148</a></span>&#160;  T <span class="keyword">const</span> &amp;<a class="code" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">imag</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> _imag; }</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00154"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html#a835363f62c6a079496c22074ab428651">  154</a></span>&#160;  T &amp;<a class="code" href="classcutlass_1_1platform_1_1complex.html#a835363f62c6a079496c22074ab428651">imag</a>() { <span class="keywordflow">return</span> _imag; }</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00160"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html#ac5a3a0dc9815dadbe539312eb6fe36c4">  160</a></span>&#160;  <span class="keyword">operator</span> cuFloatComplex()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> make_cuFloatComplex(<a class="code" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">real</a>(), <a class="code" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">imag</a>()); }</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00166"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1complex.html#a3b92e54de1c4262c7e481218162be7ec">  166</a></span>&#160;  <span class="keyword">operator</span> cuDoubleComplex()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> make_cuDoubleComplex(<a class="code" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">real</a>(), <a class="code" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">imag</a>()); }</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;};</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;<span class="comment">// Accessors for complex template</span></div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00177"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a01e98d1c13ac9384f2bdc407fce6131b">  177</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <span class="keyword">const</span> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;  <span class="keywordflow">return</span> z.<a class="code" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">real</a>();</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;}</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#aa5cfa5849e12b745236485dd2db5f854">  185</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T &amp;<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;z) {</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;  <span class="keywordflow">return</span> z.<a class="code" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">real</a>();</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;}</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00193"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a714db927a811c86cda26fc12ca830356">  193</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <span class="keyword">const</span> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;  <span class="keywordflow">return</span> z.<a class="code" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">imag</a>();</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;}</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#aa35ea4f804f9ed39578b595ba2620c1d">  201</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T &amp;<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;z) {</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;  <span class="keywordflow">return</span> z.<a class="code" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">imag</a>();</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;}</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;<span class="comment">// Output operators</span></div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00210"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ab4c3e4eabba020d7a9faf86ee6cf437a">  210</a></span>&#160;std::ostream &amp;operator&lt;&lt;(std::ostream &amp;out, complex&lt;T&gt; <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  T _r = <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z);</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;  T _i = <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z);</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;  <span class="keywordflow">return</span> out &lt;&lt; _r &lt;&lt; <span class="stringliteral">&quot;+i&quot;</span> &lt;&lt; _i;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;}</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;<span class="comment">// Non-member operators defined for complex types</span></div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb">  224</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb">operator==</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;lhs, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(lhs) == (rhs) &amp;&amp; <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(lhs) == <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs);</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;}</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00232"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c">  232</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c">operator!=</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;lhs, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;  <span class="keywordflow">return</span> !(lhs == rhs);</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;}</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00240"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a93b0f0d73fa3cf11c5018460b257837c">  240</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a93b0f0d73fa3cf11c5018460b257837c">operator+</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;lhs, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(lhs) + <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(rhs), <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(lhs) + <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs));</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;}</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00248"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#aa486433971cdd6b7648c1e5459c42763">  248</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#aa486433971cdd6b7648c1e5459c42763">operator-</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;lhs, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(lhs) - <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(rhs), <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(lhs) - <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs));</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;}</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00256"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba">  256</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba">operator*</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;lhs, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(lhs) * <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(rhs) - <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(lhs) * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs),</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;                    <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(lhs) * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs) + <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(lhs) * <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(rhs));</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;}</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00265"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#aef5da2c88431ab40b58fdd6afea13dba">  265</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba">operator*</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;lhs, T <span class="keyword">const</span> &amp;s) {</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(lhs) * s, <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(lhs) * s);</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;}</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00273"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a289b6e31bdc0be1302b8dbab55eb568c">  273</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba">operator*</a>(T <span class="keyword">const</span> &amp;s, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(s * <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(rhs), s * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs));</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;}</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00281"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f">  281</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f">operator/</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;lhs, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;  T d = (<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(rhs) * (rhs) + <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs) * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs));</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>((<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(lhs) * (rhs) + <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(lhs) * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs)) / d,</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;                    (<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(lhs) * (rhs)-<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(lhs) * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs)) / d);</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;}</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00292"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a33f75d77ff629335c9666128837c4581">  292</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f">operator/</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;lhs, T <span class="keyword">const</span> &amp;s) {</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(lhs) / s, <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(lhs) / s);</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;}</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00300"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ae302b414576ecb5afb0cdfdda6b30ad3">  300</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f">operator/</a>(T <span class="keyword">const</span> &amp;s, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;  T d = (<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(rhs) * (rhs) + <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs) * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs));</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>((s * (rhs)) / d, -(s * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(rhs)) / d);</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;}</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00310"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a34c5ca341da805d5d1bc703c53c96d9d">  310</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a34c5ca341da805d5d1bc703c53c96d9d">operator+=</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;lhs, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;  lhs = (lhs + rhs);</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;  <span class="keywordflow">return</span> lhs;</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;}</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00319"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#abff9e10130849ea46f6245f4e8cc2cc9">  319</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;<a class="code" href="namespacecutlass_1_1platform.html#abff9e10130849ea46f6245f4e8cc2cc9">operator-=</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;lhs, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;  lhs = (lhs - rhs);</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;  <span class="keywordflow">return</span> lhs;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;}</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00328"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac">  328</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac">operator*=</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;lhs, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;  lhs = (lhs * rhs);</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;  <span class="keywordflow">return</span> lhs;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;}</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00337"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a21adde191e48e604908ce886690c6d6b">  337</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;<a class="code" href="namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac">operator*=</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;lhs, T s) {</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;  lhs = (lhs * s);</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;  <span class="keywordflow">return</span> lhs;</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;}</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00346"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ac594526ef64ecf364ae957753ce64b40">  346</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;<a class="code" href="namespacecutlass_1_1platform.html#ac594526ef64ecf364ae957753ce64b40">operator/=</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> &amp;lhs, <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;rhs) {</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;  lhs = (lhs / rhs);</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;  <span class="keywordflow">return</span> lhs;</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;}</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;<span class="comment">// Non-member functions defined for complex numbers</span></div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00359"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5">  359</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="code" href="namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5">abs</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">sqrt</a>(<a class="code" href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">norm</a>(z));</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;}</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00367"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0">  367</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="code" href="namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0">arg</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;  <span class="keywordflow">return</span> atan2(<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z), <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z));</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;}</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00375"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">  375</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="code" href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">norm</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z) * <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z) + <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z) * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z);</div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;}</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00383"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a7167baf0f7fcf52471c0413f084d98d4">  383</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a7167baf0f7fcf52471c0413f084d98d4">conj</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z), -<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z));</div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;}</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00391"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a4e57cfad9bf0b78e338d536ff1bdda39">  391</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a4e57cfad9bf0b78e338d536ff1bdda39">proj</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;  T d = <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z) * <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z) + <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z) * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z) + T(1);</div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>((T(2) * <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z)) / d, (T(2) * <a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z)) / d);</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;}</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00400"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a6c9200b03868a5090027e5cfc8e27c62">  400</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a6c9200b03868a5090027e5cfc8e27c62">polar</a>(T <span class="keyword">const</span> &amp;r, T <span class="keyword">const</span> &amp;theta = T()) {</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(r * <a class="code" href="namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92">cos</a>(theta), r * <a class="code" href="namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a">sin</a>(theta));</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;}</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00408"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">  408</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">exp</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(<a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z) * <a class="code" href="namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92">cos</a>(<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z)), <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z) * <a class="code" href="namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a">sin</a>(<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z)));</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;}</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00416"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">  416</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">log</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(<a class="code" href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">log</a>(<a class="code" href="namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5">abs</a>(z)), <a class="code" href="namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0">arg</a>(z));</div><div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;}</div><div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;</div><div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00424"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a62dd6ae0e1b4476fd62ac70c26f12a06">  424</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a62dd6ae0e1b4476fd62ac70c26f12a06">log10</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">log</a>(z) / T(<a class="code" href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">log</a>(T(10)));</div><div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;}</div><div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;</div><div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00432"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">  432</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">sqrt</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">sqrt</a>(T(2)) / T(2) *</div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;         <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(<a class="code" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">sqrt</a>(<a class="code" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">sqrt</a>(<a class="code" href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">norm</a>(z)) + <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z)),</div><div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;                    (<a class="code" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a>(z) &lt; 0 ? T(-1) : T(1)) * <a class="code" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">sqrt</a>(<a class="code" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">sqrt</a>(<a class="code" href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">norm</a>(z)) - <a class="code" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a>(z)));</div><div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;}</div><div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;</div><div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00442"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92">  442</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92">cos</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;  <span class="keywordflow">return</span> (<a class="code" href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">exp</a>(z) + <a class="code" href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">exp</a>(-z)) / T(2);</div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;}</div><div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;<span class="preprocessor">#pragma hd_warning_disable  // Suppresses warnings when attempting to instantiate complex&lt;T&gt; with a</span></div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;                            <span class="comment">// host-only type</span></div><div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00450"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a">  450</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a">sin</a>(<a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a> <span class="keyword">const</span> &amp;z) {</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;  <span class="keywordflow">return</span> (<a class="code" href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">exp</a>(-z) - <a class="code" href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">exp</a>(z)) * <a class="code" href="classcutlass_1_1platform_1_1complex.html">complex&lt;T&gt;</a>(T(0), T(1) / T(2));</div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;}</div><div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;</div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;</div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;}  <span class="comment">// namespace platform</span></div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_1_1platform_html_a4e57cfad9bf0b78e338d536ff1bdda39"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a4e57cfad9bf0b78e338d536ff1bdda39">cutlass::platform::proj</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; proj(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Projects the complex number z onto the Riemann sphere. </div><div class="ttdef"><b>Definition:</b> complex.h:391</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1complex_html_a835363f62c6a079496c22074ab428651"><div class="ttname"><a href="classcutlass_1_1platform_1_1complex.html#a835363f62c6a079496c22074ab428651">cutlass::platform::complex::imag</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T &amp; imag()</div><div class="ttdoc">Accesses the imaginary part of the complex number. </div><div class="ttdef"><b>Definition:</b> complex.h:154</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a043e8559161ee0fcaf943a1dfe1a9cbb"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb">cutlass::platform::operator==</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator==(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Equality operator. </div><div class="ttdef"><b>Definition:</b> complex.h:224</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1complex_html_a57360dbcada12083ecb92fba32fae801"><div class="ttname"><a href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">cutlass::platform::complex::imag</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T const  &amp; imag() const</div><div class="ttdoc">Accesses the imaginary part of the complex number. </div><div class="ttdef"><b>Definition:</b> complex.h:148</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a34950f01ed89108b1d79c651aa58ecba"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba">cutlass::platform::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; operator*(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Multiplication. </div><div class="ttdef"><b>Definition:</b> complex.h:256</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_abff9e10130849ea46f6245f4e8cc2cc9"><div class="ttname"><a href="namespacecutlass_1_1platform.html#abff9e10130849ea46f6245f4e8cc2cc9">cutlass::platform::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; &amp; operator-=(complex&lt; T &gt; &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Subtraction. </div><div class="ttdef"><b>Definition:</b> complex.h:319</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_aa486433971cdd6b7648c1e5459c42763"><div class="ttname"><a href="namespacecutlass_1_1platform.html#aa486433971cdd6b7648c1e5459c42763">cutlass::platform::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; operator-(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Subtraction. </div><div class="ttdef"><b>Definition:</b> complex.h:248</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1complex_html_acda3e2050b2fefb1aca1fa8aa2063f8b"><div class="ttname"><a href="classcutlass_1_1platform_1_1complex.html#acda3e2050b2fefb1aca1fa8aa2063f8b">cutlass::platform::complex::real</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T &amp; real()</div><div class="ttdoc">Accesses the real part of the complex number. </div><div class="ttdef"><b>Definition:</b> complex.h:142</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a25a36d44c7b9f182eb404a3251cd4f39"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">cutlass::platform::real</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE float const  &amp; real(cuFloatComplex const &amp;z)</div><div class="ttdoc">Returns the real part of the complex number. </div><div class="ttdef"><b>Definition:</b> complex.h:44</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a3c5dc10135c54b3b212c9e107ba1476a"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a">cutlass::platform::sin</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; sin(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Computes the sin of complex z. </div><div class="ttdef"><b>Definition:</b> complex.h:450</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1complex_html_a71ee9d620f72fbcd54f6e3049707eb99"><div class="ttname"><a href="classcutlass_1_1platform_1_1complex.html#a71ee9d620f72fbcd54f6e3049707eb99">cutlass::platform::complex::complex</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex(cuFloatComplex const &amp;z)</div><div class="ttdoc">Conversion from cuFloatComplex. </div><div class="ttdef"><b>Definition:</b> complex.h:124</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_ae0ad2891ed2be526d97bc5665d5c0a92"><div class="ttname"><a href="namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92">cutlass::platform::cos</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; cos(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Computes the cosine of complex z. </div><div class="ttdef"><b>Definition:</b> complex.h:442</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a93b0f0d73fa3cf11c5018460b257837c"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a93b0f0d73fa3cf11c5018460b257837c">cutlass::platform::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; operator+(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Addition. </div><div class="ttdef"><b>Definition:</b> complex.h:240</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a6c9200b03868a5090027e5cfc8e27c62"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a6c9200b03868a5090027e5cfc8e27c62">cutlass::platform::polar</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; polar(T const &amp;r, T const &amp;theta=T())</div><div class="ttdoc">Returns a complex number with magnitude r and phase theta. </div><div class="ttdef"><b>Definition:</b> complex.h:400</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1complex_html_ab06cbc1eefd47df3d3748d42d6d95974"><div class="ttname"><a href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">cutlass::platform::complex::real</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T const  &amp; real() const</div><div class="ttdoc">Accesses the real part of the complex number. </div><div class="ttdef"><b>Definition:</b> complex.h:136</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_ac594526ef64ecf364ae957753ce64b40"><div class="ttname"><a href="namespacecutlass_1_1platform.html#ac594526ef64ecf364ae957753ce64b40">cutlass::platform::operator/=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; &amp; operator/=(complex&lt; T &gt; &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Division. </div><div class="ttdef"><b>Definition:</b> complex.h:346</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a81308ccea406262e143e27193cbdf747"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">cutlass::platform::sqrt</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; sqrt(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Computes the square root of complex number z. </div><div class="ttdef"><b>Definition:</b> complex.h:432</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a34c5ca341da805d5d1bc703c53c96d9d"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a34c5ca341da805d5d1bc703c53c96d9d">cutlass::platform::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; &amp; operator+=(complex&lt; T &gt; &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Addition. </div><div class="ttdef"><b>Definition:</b> complex.h:310</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a18bc43cfdc4d066a6c10ad2002196ee6"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">cutlass::platform::imag</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE float const  &amp; imag(cuFloatComplex const &amp;z)</div><div class="ttdoc">Returns the imaginary part of the complex number. </div><div class="ttdef"><b>Definition:</b> complex.h:68</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a1a6ab5742404272f76faeaf22f3ec11b"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">cutlass::platform::exp</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; exp(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Computes the complex exponential of z. </div><div class="ttdef"><b>Definition:</b> complex.h:408</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a62dd6ae0e1b4476fd62ac70c26f12a06"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a62dd6ae0e1b4476fd62ac70c26f12a06">cutlass::platform::log10</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; log10(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Computes the complex exponential of z. </div><div class="ttdef"><b>Definition:</b> complex.h:424</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a9d631b040eea94d9b5af04faa5c20bb1"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">cutlass::platform::norm</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T norm(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Returns the squared magnitude. </div><div class="ttdef"><b>Definition:</b> complex.h:375</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_aa8b8911c3529ee9d433b0c4d90bde50c"><div class="ttname"><a href="namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c">cutlass::platform::operator!=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator!=(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Inequality operator. </div><div class="ttdef"><b>Definition:</b> complex.h:232</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a1fbf209c41242b3f605ac220c39e8fd5"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5">cutlass::platform::abs</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T abs(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Returns the magnitude of the complex number. </div><div class="ttdef"><b>Definition:</b> complex.h:359</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a9a4928ab582beee4e7ddd337529d45ac"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac">cutlass::platform::operator*=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; &amp; operator*=(complex&lt; T &gt; &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Multiplication. </div><div class="ttdef"><b>Definition:</b> complex.h:328</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1complex_html_af40324ec4d1d35a0ceda676c8de968f8"><div class="ttname"><a href="classcutlass_1_1platform_1_1complex.html#af40324ec4d1d35a0ceda676c8de968f8">cutlass::platform::complex::complex</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex(cuDoubleComplex const &amp;z)</div><div class="ttdoc">Conversion from cuDoubleComplex. </div><div class="ttdef"><b>Definition:</b> complex.h:130</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a8a1a03766dbd2c2ce10b10498f281bf0"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0">cutlass::platform::arg</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T arg(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Returns the magnitude of the complex number. </div><div class="ttdef"><b>Definition:</b> complex.h:367</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1complex_html_a2e852c886e61a39e884026d6f4c32c1e"><div class="ttname"><a href="classcutlass_1_1platform_1_1complex.html#a2e852c886e61a39e884026d6f4c32c1e">cutlass::platform::complex::complex</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex(T r=T(0), T i=T(0))</div><div class="ttdoc">Constructor. </div><div class="ttdef"><b>Definition:</b> complex.h:118</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1complex_html"><div class="ttname"><a href="classcutlass_1_1platform_1_1complex.html">cutlass::platform::complex</a></div><div class="ttdef"><b>Definition:</b> complex.h:93</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_adc1afc18e182f42f72210e2203ba293c"><div class="ttname"><a href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">cutlass::platform::log</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; log(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Computes the complex exponential of z. </div><div class="ttdef"><b>Definition:</b> complex.h:416</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1complex_html_aa7c319b0c67f8ffeee3d1bb4b83ea0d6"><div class="ttname"><a href="classcutlass_1_1platform_1_1complex.html#aa7c319b0c67f8ffeee3d1bb4b83ea0d6">cutlass::platform::complex::value_type</a></div><div class="ttdeci">T value_type</div><div class="ttdoc">Type alias for scalar type. </div><div class="ttdef"><b>Definition:</b> complex.h:96</div></div>
+<div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a4fe79c19fb599cd9b85d08676a711f9f"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f">cutlass::platform::operator/</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; operator/(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Division. </div><div class="ttdef"><b>Definition:</b> complex.h:281</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a7167baf0f7fcf52471c0413f084d98d4"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a7167baf0f7fcf52471c0413f084d98d4">cutlass::platform::conj</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE complex&lt; T &gt; conj(complex&lt; T &gt; const &amp;z)</div><div class="ttdoc">Returns the complex conjugate. </div><div class="ttdef"><b>Definition:</b> complex.h:383</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/convert_8h.html b/docs/convert_8h.html
index 422c520173..cd3bf4bb8a 100644
--- a/docs/convert_8h.html
+++ b/docs/convert_8h.html
@@ -82,7 +82,7 @@
 
 <p>Defines conversion operations among Fragments of different base type.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
 </div>
 <p><a href="convert_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -103,7 +103,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/convert_8h_source.html b/docs/convert_8h_source.html
index 6e877d293e..22ec9d4b81 100644
--- a/docs/convert_8h_source.html
+++ b/docs/convert_8h_source.html
@@ -76,7 +76,7 @@
 <div class="title">convert.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="convert_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno"><a class="line" href="namespacecutlass.html">   33</a></span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputFragment_, <span class="keyword">typename</span> OutputFragment_&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Convert.html">Convert</a> {};</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputScalar_, <span class="keyword">typename</span> OutputScalar_, <span class="keywordtype">int</span> kScalars_&gt;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html">   43</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Convert.html">Convert</a>&lt;<a class="code" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;InputScalar_, kScalars_&gt;, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;OutputScalar_, kScalars_&gt; &gt; {</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#ac7906301019c3e6d60985c3851f1e95e">   45</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;InputScalar_, kScalars_&gt;</a> <a class="code" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#ac7906301019c3e6d60985c3851f1e95e">InputFragment</a>;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a8ef69ab595489e142911e8e240fb405a">   47</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;OutputScalar_, kScalars_&gt;</a> <a class="code" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a8ef69ab595489e142911e8e240fb405a">OutputFragment</a>;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a593a5a2c48708965e829d242ccb3b99f">   50</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a593a5a2c48708965e829d242ccb3b99f">Convert</a>() {}</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a4dd95354137d3cb52752ecdd346a5685">   53</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a4dd95354137d3cb52752ecdd346a5685">transform</a>(<a class="code" href="structcutlass_1_1Fragment.html">InputFragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    transform(src, 0, dst);</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  }</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#aa9fe67c947bf461ba3e3ca48daa34815">   59</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#aa9fe67c947bf461ba3e3ca48daa34815">transform</a>(Fragment_ <span class="keyword">const</span>&amp; src, <span class="keywordtype">int</span> offset, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; kScalars_; ++i) {</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;      dst[i] = <span class="keyword">static_cast&lt;</span>OutputScalar_<span class="keyword">&gt;</span>(src[i + offset]);</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;    }</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  }</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;};</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html">   69</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Copy.html">Copy</a> {</div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html#aed254bbc1ad94ed9d335ab02f199ceb1">   71</a></span>&#160;  <span class="keyword">typedef</span> Fragment_ <a class="code" href="structcutlass_1_1Copy.html#aed254bbc1ad94ed9d335ab02f199ceb1">InputFragment</a>;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html#a545be6c284d625b0841a10cc9126e14a">   73</a></span>&#160;  <span class="keyword">typedef</span> Fragment_ <a class="code" href="structcutlass_1_1Copy.html#a545be6c284d625b0841a10cc9126e14a">OutputFragment</a>;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html#ab2c20f886208396a1779c6d29b56c3f1">   76</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1Copy.html#ab2c20f886208396a1779c6d29b56c3f1">Copy</a>() {}</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3">   79</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3">transform</a>(Fragment_ <span class="keyword">const</span>&amp; src, Fragment_&amp; dst) { <a class="code" href="structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3">transform</a>(src, 0, dst); }</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputFragment_&gt;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html#a171f9a44c05b6fb432b0339979de4eb2">   83</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Copy.html#a171f9a44c05b6fb432b0339979de4eb2">transform</a>(InputFragment_ <span class="keyword">const</span>&amp; src, <span class="keywordtype">int</span> offset, Fragment_&amp; dst) {</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    <span class="keywordflow">if</span> (<span class="keyword">sizeof</span>(<span class="keyword">typename</span> Fragment_::Element) == 8) {</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      uint64_t <span class="keyword">const</span>* src_ptr = <span class="keyword">reinterpret_cast&lt;</span>uint64_t const*<span class="keyword">&gt;</span>(&amp;src[offset]);</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      uint64_t* dst_ptr = <span class="keyword">reinterpret_cast&lt;</span>uint64_t*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <span class="keyword">sizeof</span>(Fragment_) / 8; ++i) {</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;        dst_ptr[i] = src_ptr[i];</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;      }</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;      uint32_t <span class="keyword">const</span>* src_ptr = <span class="keyword">reinterpret_cast&lt;</span>uint32_t const*<span class="keyword">&gt;</span>(&amp;src[offset]);</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;      uint32_t* dst_ptr = <span class="keyword">reinterpret_cast&lt;</span>uint32_t*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <span class="keyword">sizeof</span>(Fragment_) / 4; ++i) {</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;        dst_ptr[i] = src_ptr[i];</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;      }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;    }</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  }</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;};</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<a href="convert_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno"><a class="line" href="namespacecutlass.html">   33</a></span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputFragment_, <span class="keyword">typename</span> OutputFragment_&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Convert.html">Convert</a> {};</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputScalar_, <span class="keyword">typename</span> OutputScalar_, <span class="keywordtype">int</span> kScalars_&gt;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html">   43</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Convert.html">Convert</a>&lt;<a class="code" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;InputScalar_, kScalars_&gt;, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;OutputScalar_, kScalars_&gt; &gt; {</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#ac7906301019c3e6d60985c3851f1e95e">   45</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;InputScalar_, kScalars_&gt;</a> <a class="code" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#ac7906301019c3e6d60985c3851f1e95e">InputFragment</a>;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a8ef69ab595489e142911e8e240fb405a">   47</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;OutputScalar_, kScalars_&gt;</a> <a class="code" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a8ef69ab595489e142911e8e240fb405a">OutputFragment</a>;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a593a5a2c48708965e829d242ccb3b99f">   50</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a593a5a2c48708965e829d242ccb3b99f">Convert</a>() {}</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a4dd95354137d3cb52752ecdd346a5685">   53</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a4dd95354137d3cb52752ecdd346a5685">transform</a>(<a class="code" href="structcutlass_1_1Fragment.html">InputFragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    transform(src, 0, dst);</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  }</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#aa9fe67c947bf461ba3e3ca48daa34815">   59</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#aa9fe67c947bf461ba3e3ca48daa34815">transform</a>(Fragment_ <span class="keyword">const</span>&amp; src, <span class="keywordtype">int</span> offset, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; kScalars_; ++i) {</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;      dst[i] = <span class="keyword">static_cast&lt;</span>OutputScalar_<span class="keyword">&gt;</span>(src[i + offset]);</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;    }</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  }</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;};</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html">   69</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Copy.html">Copy</a> {</div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html#aed254bbc1ad94ed9d335ab02f199ceb1">   71</a></span>&#160;  <span class="keyword">typedef</span> Fragment_ <a class="code" href="structcutlass_1_1Copy.html#aed254bbc1ad94ed9d335ab02f199ceb1">InputFragment</a>;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html#a545be6c284d625b0841a10cc9126e14a">   73</a></span>&#160;  <span class="keyword">typedef</span> Fragment_ <a class="code" href="structcutlass_1_1Copy.html#a545be6c284d625b0841a10cc9126e14a">OutputFragment</a>;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html#ab2c20f886208396a1779c6d29b56c3f1">   76</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1Copy.html#ab2c20f886208396a1779c6d29b56c3f1">Copy</a>() {}</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3">   79</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3">transform</a>(Fragment_ <span class="keyword">const</span>&amp; src, Fragment_&amp; dst) { <a class="code" href="structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3">transform</a>(src, 0, dst); }</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputFragment_&gt;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1Copy.html#a171f9a44c05b6fb432b0339979de4eb2">   83</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Copy.html#a171f9a44c05b6fb432b0339979de4eb2">transform</a>(InputFragment_ <span class="keyword">const</span>&amp; src, <span class="keywordtype">int</span> offset, Fragment_&amp; dst) {</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    <span class="keywordflow">if</span> (<span class="keyword">sizeof</span>(<span class="keyword">typename</span> Fragment_::Element) == 8) {</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      uint64_t <span class="keyword">const</span>* src_ptr = <span class="keyword">reinterpret_cast&lt;</span>uint64_t const*<span class="keyword">&gt;</span>(&amp;src[offset]);</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      uint64_t* dst_ptr = <span class="keyword">reinterpret_cast&lt;</span>uint64_t*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <span class="keyword">sizeof</span>(Fragment_) / 8; ++i) {</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;        dst_ptr[i] = src_ptr[i];</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;      }</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;      uint32_t <span class="keyword">const</span>* src_ptr = <span class="keyword">reinterpret_cast&lt;</span>uint32_t const*<span class="keyword">&gt;</span>(&amp;src[offset]);</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;      uint32_t* dst_ptr = <span class="keyword">reinterpret_cast&lt;</span>uint32_t*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <span class="keyword">sizeof</span>(Fragment_) / 4; ++i) {</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;        dst_ptr[i] = src_ptr[i];</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;      }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;    }</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  }</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;};</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121_html_a8ef69ab595489e142911e8e240fb405a"><div class="ttname"><a href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a8ef69ab595489e142911e8e240fb405a">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::OutputFragment</a></div><div class="ttdeci">Fragment&lt; OutputScalar_, kScalars_ &gt; OutputFragment</div><div class="ttdoc">The output fragment. </div><div class="ttdef"><b>Definition:</b> convert.h:47</div></div>
 <div class="ttc" id="structcutlass_1_1Copy_html"><div class="ttname"><a href="structcutlass_1_1Copy.html">cutlass::Copy</a></div><div class="ttdef"><b>Definition:</b> convert.h:69</div></div>
 <div class="ttc" id="structcutlass_1_1Copy_html_ab356f0f473aa3fd8df8fb8ddd8e0e9f3"><div class="ttname"><a href="structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3">cutlass::Copy::transform</a></div><div class="ttdeci">CUTLASS_DEVICE void transform(Fragment_ const &amp;src, Fragment_ &amp;dst)</div><div class="ttdoc">Transform a fragment. </div><div class="ttdef"><b>Definition:</b> convert.h:79</div></div>
@@ -94,7 +94,7 @@
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/coord_8h.html b/docs/coord_8h.html
index 5165038675..8bb9bea4d2 100644
--- a/docs/coord_8h.html
+++ b/docs/coord_8h.html
@@ -83,7 +83,8 @@
 
 <p>A Coord is a coordinate of arbitrary rank into a tensor or matrix.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&quot;</code><br />
 </div>
 <p><a href="coord_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -92,7 +93,7 @@
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Identity.html">cutlass::Identity</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Describes identity elements.  <a href="structcutlass_1_1Identity.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Statically-sized array specifying Coords within a tensor.  <a href="structcutlass_1_1Coord.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
@@ -115,23 +116,14 @@
 <tr class="memitem:a9410b1f5956d3aaf4584e65d047428fc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> Coord&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a9410b1f5956d3aaf4584e65d047428fc">cutlass::make_Coord</a> (int _0, int _1, int _2, int _3)</td></tr>
 <tr class="memdesc:a9410b1f5956d3aaf4584e65d047428fc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to make a 4-element coordinate.  <a href="namespacecutlass.html#a9410b1f5956d3aaf4584e65d047428fc">More...</a><br /></td></tr>
 <tr class="separator:a9410b1f5956d3aaf4584e65d047428fc"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7d2ab683e29b47d245e183ad5aeb962e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> Coord&lt; 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e">cutlass::get_Coord_hw</a> (Coord&lt; 3 &gt; const &amp;coord)</td></tr>
-<tr class="memdesc:a7d2ab683e29b47d245e183ad5aeb962e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Getter.  <a href="namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e">More...</a><br /></td></tr>
-<tr class="separator:a7d2ab683e29b47d245e183ad5aeb962e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a082e7a2e4acc2879468243f5732ccf0b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> Coord&lt; 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a082e7a2e4acc2879468243f5732ccf0b">cutlass::get_Coord_hw</a> (Coord&lt; 4 &gt; const &amp;coord)</td></tr>
-<tr class="memdesc:a082e7a2e4acc2879468243f5732ccf0b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Getter.  <a href="namespacecutlass.html#a082e7a2e4acc2879468243f5732ccf0b">More...</a><br /></td></tr>
-<tr class="separator:a082e7a2e4acc2879468243f5732ccf0b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a71f3e2a12b9e98be1fba082610fa9d4f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> Coord&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a71f3e2a12b9e98be1fba082610fa9d4f">cutlass::get_Coord_hwc</a> (Coord&lt; 4 &gt; const &amp;coord)</td></tr>
-<tr class="memdesc:a71f3e2a12b9e98be1fba082610fa9d4f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Getter.  <a href="namespacecutlass.html#a71f3e2a12b9e98be1fba082610fa9d4f">More...</a><br /></td></tr>
-<tr class="separator:a71f3e2a12b9e98be1fba082610fa9d4f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4680709eeeb679ef0219938f85f7394e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> Coord&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a4680709eeeb679ef0219938f85f7394e">cutlass::get_Coord_dhw</a> (Coord&lt; 4 &gt; const &amp;coord)</td></tr>
-<tr class="memdesc:a4680709eeeb679ef0219938f85f7394e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Getter.  <a href="namespacecutlass.html#a4680709eeeb679ef0219938f85f7394e">More...</a><br /></td></tr>
-<tr class="separator:a4680709eeeb679ef0219938f85f7394e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a90028a415a05ce09073860e5c761aa6f"><td class="memTemplParams" colspan="2">template&lt;typename Shape_ &gt; </td></tr>
+<tr class="memitem:a90028a415a05ce09073860e5c761aa6f"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> Coord&lt; 3 &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a90028a415a05ce09073860e5c761aa6f">cutlass::make_Coord_from_shape</a> ()</td></tr>
+<tr class="separator:a90028a415a05ce09073860e5c761aa6f"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/coord_8h_source.html b/docs/coord_8h_source.html
index 71ec92e1af..b0e2162ccb 100644
--- a/docs/coord_8h_source.html
+++ b/docs/coord_8h_source.html
@@ -76,50 +76,54 @@
 <div class="title">coord.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="coord_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1Identity.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Identity.html">Identity</a> {</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597">   41</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375">Kind</a> { <a class="code" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375a77d7cc80ec0c3ff42ca9b2aff98a1646">Additive</a> = 0, <a class="code" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597">Multiplicative</a> = 1 };</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;};</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N_&gt;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html">   48</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Coord.html">Coord</a> {</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  <span class="comment">// Type and constant definitions</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">   53</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> = N_;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">   60</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[<a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>];</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a9cbfff91f0b0d0a149534c97e3d6e69b">   68</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html#a9cbfff91f0b0d0a149534c97e3d6e69b">Coord</a>(<span class="keywordtype">int</span> value = 0) {</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] = value;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    }</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;  }</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a53a3d88a884f6cb7fda8aedfe2cec2c5">   76</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html#a53a3d88a884f6cb7fda8aedfe2cec2c5">Coord</a>(<span class="keywordtype">int</span> _idx[]) {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] = _idx[i];</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;    }</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;  }</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a3dfc4ce4191097b6c3268696f2a45ef5">   84</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a> <a class="code" href="structcutlass_1_1Coord.html#a3dfc4ce4191097b6c3268696f2a45ef5">operator+</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord</a> c;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      c.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] = <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] + b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;    }</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;    <span class="keywordflow">return</span> c;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;  }</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#acc510511ffb52bed7f6a52f14b99750d">   94</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a> <a class="code" href="structcutlass_1_1Coord.html#acc510511ffb52bed7f6a52f14b99750d">operator-</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord</a> c;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;      c.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] = <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] - b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    }</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <span class="keywordflow">return</span> c;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;  }</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a8e4f7df55a75d040cf50cf9984c04c8a">  104</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a> <a class="code" href="structcutlass_1_1Coord.html#a8e4f7df55a75d040cf50cf9984c04c8a">operator*</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord</a> c;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;      c.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] = <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] * b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;    }</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;    <span class="keywordflow">return</span> c;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  }</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a87f485be079fa68bcf576da4d56f0ece">  114</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a> <a class="code" href="structcutlass_1_1Coord.html#a87f485be079fa68bcf576da4d56f0ece">operator/</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord</a> c;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;      c.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] = <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] / b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;    }</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;    <span class="keywordflow">return</span> c;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  }</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#aeb209486943fa9d42911325b16e49e09">  124</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#aeb209486943fa9d42911325b16e49e09">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] += b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;    }</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  }</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ac1795ec2a5890d8a39840567a4bea88e">  133</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#ac1795ec2a5890d8a39840567a4bea88e">operator-=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] -= b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    }</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  }</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00142"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a282b6cc9ac8b2f72720c252791155aad">  142</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#a282b6cc9ac8b2f72720c252791155aad">operator*=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] *= b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;    }</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  }</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00151"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#abe91e59962ef0d73aec9c14824f64ecc">  151</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#abe91e59962ef0d73aec9c14824f64ecc">operator/=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] /= b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;    }</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;  }</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ab7fc89de3ccd7096ab275fb5dd40104c">  159</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span>&amp; <a class="code" href="structcutlass_1_1Coord.html#ab7fc89de3ccd7096ab275fb5dd40104c">operator[]</a>(<span class="keywordtype">int</span> dim) { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[dim]; }</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a6eeab0a1686ee25389e1bd017c5f03ae">  162</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1Coord.html#a6eeab0a1686ee25389e1bd017c5f03ae">operator[]</a>(<span class="keywordtype">int</span> dim)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[dim]; }</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00166"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ad4b3704d14057c043f972827671115cf">  166</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="code" href="structcutlass_1_1Coord.html#ad4b3704d14057c043f972827671115cf">dot</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b, T sum)<span class="keyword"> const </span>{</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;      sum += <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] * b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;    }</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;    <span class="keywordflow">return</span> sum;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;  }</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00175"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ae023c0c664c22a978e9b9ce5e063aae4">  175</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="code" href="structcutlass_1_1Coord.html#ae023c0c664c22a978e9b9ce5e063aae4">dot</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;    T sum = T(0);</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      sum += <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] * b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    }</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    <span class="keywordflow">return</span> sum;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;  }</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Dim&gt;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">  185</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span>&amp; <a class="code" href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">at</a>() {</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[Dim];</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  }</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ab511a16210d1b94449f5bc6476f6a266">  191</a></span>&#160;  <span class="keywordtype">int</span>&amp; <a class="code" href="structcutlass_1_1Coord.html#ab511a16210d1b94449f5bc6476f6a266">at</a>(<span class="keywordtype">int</span> dim) { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[dim]; }</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Dim&gt;</div><div class="line"><a name="l00195"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#af9cc7ab2088544d1240ac51c4c6e685d">  195</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1Coord.html#af9cc7ab2088544d1240ac51c4c6e685d">at</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[Dim];</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;  }</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#aed4f4d1c7c0749fe72736d7a1213b6e9">  201</a></span>&#160;  <span class="keywordtype">int</span> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1Coord.html#aed4f4d1c7c0749fe72736d7a1213b6e9">at</a>(<span class="keywordtype">int</span> dim)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[dim]; }</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00205"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#acfa94aabd0c9a71ee994ca479d5f515f">  205</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1Coord.html#acfa94aabd0c9a71ee994ca479d5f515f">operator==</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;N&gt;</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;    <span class="keywordtype">bool</span> equal = <span class="keyword">true</span>;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; equal &amp;&amp; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;      equal = (<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] == b.<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i]);</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;    }</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;    <span class="keywordflow">return</span> equal;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  }</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00215"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a7fb46873e8f3cf38212703d35bd36995">  215</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1Coord.html#a7fb46873e8f3cf38212703d35bd36995">operator!=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;N&gt;</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> !(*<span class="keyword">this</span> == b); }</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00219"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e">  219</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e">clamp</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;N&gt;</a> <span class="keyword">const</span>&amp; <a class="code" href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">max</a>, <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;N&gt;</a> <span class="keyword">const</span>&amp; <a class="code" href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">min</a> = <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;N&gt;</a>()) {</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i] = <a class="code" href="platform_8h.html#abd31f291635329bc15292954f1f01d38">__NV_STD_MAX</a>(<a class="code" href="platform_8h.html#a39e234a3e3b0018b58df720bcb143420">__NV_STD_MIN</a>(<a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i], <a class="code" href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">max</a>.idx[i]), <a class="code" href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">min</a>.idx[i]);</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;    }</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;  }</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00228"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a40429a9154f7a142ad7e9eb35282d196">  228</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1Coord.html#a40429a9154f7a142ad7e9eb35282d196">count</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;    <span class="keywordtype">int</span> product = <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[0];</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 1; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>; ++i) {</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;      product *= <a class="code" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a>[i];</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;    }</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;    <span class="keywordflow">return</span> product;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;  }</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;};</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00241"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">  241</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;1&gt;</a> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<span class="keywordtype">int</span> _0) {</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;  <span class="keywordtype">int</span> values[1] = {_0};</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;1&gt;</a>(values);</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;}</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00248"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a61d81e5363bcb8a7f6dd70f053242564">  248</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2&gt;</a> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<span class="keywordtype">int</span> _0, <span class="keywordtype">int</span> _1) {</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;  <span class="keywordtype">int</span> values[2] = {_0, _1};</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2&gt;</a>(values);</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;}</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00255"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a25acf680a7d2592c957a7ac603f4c361">  255</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<span class="keywordtype">int</span> _0, <span class="keywordtype">int</span> _1, <span class="keywordtype">int</span> _2) {</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;  <span class="keywordtype">int</span> values[3] = {_0, _1, _2};</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>(values);</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;}</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00262"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a9410b1f5956d3aaf4584e65d047428fc">  262</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<span class="keywordtype">int</span> _0, <span class="keywordtype">int</span> _1, <span class="keywordtype">int</span> _2, <span class="keywordtype">int</span> _3) {</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;  <span class="keywordtype">int</span> values[4] = {_0, _1, _2, _3};</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a>(values);</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;}</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00271"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e">  271</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2&gt;</a> <a class="code" href="namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e">get_Coord_hw</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; coord) { <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(coord[1], coord[2]); }</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00275"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a082e7a2e4acc2879468243f5732ccf0b">  275</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2&gt;</a> <a class="code" href="namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e">get_Coord_hw</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <span class="keyword">const</span>&amp; coord) { <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(coord[1], coord[2]); }</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00279"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a71f3e2a12b9e98be1fba082610fa9d4f">  279</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="namespacecutlass.html#a71f3e2a12b9e98be1fba082610fa9d4f">get_Coord_hwc</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <span class="keyword">const</span>&amp; coord) { <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(coord[1], coord[2], coord[3]); }</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00283"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a4680709eeeb679ef0219938f85f7394e">  283</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="namespacecutlass.html#a4680709eeeb679ef0219938f85f7394e">get_Coord_dhw</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <span class="keyword">const</span>&amp; coord) { <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(coord[0], coord[1], coord[2]); }</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1Coord_html_a6eeab0a1686ee25389e1bd017c5f03ae"><div class="ttname"><a href="structcutlass_1_1Coord.html#a6eeab0a1686ee25389e1bd017c5f03ae">cutlass::Coord::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int const  &amp; operator[](int dim) const</div><div class="ttdoc">Member access operator. </div><div class="ttdef"><b>Definition:</b> coord.h:162</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a40429a9154f7a142ad7e9eb35282d196"><div class="ttname"><a href="structcutlass_1_1Coord.html#a40429a9154f7a142ad7e9eb35282d196">cutlass::Coord::count</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int count() const</div><div class="ttdoc">Returns the product of all elements. </div><div class="ttdef"><b>Definition:</b> coord.h:228</div></div>
-<div class="ttc" id="structcutlass_1_1Identity_html"><div class="ttname"><a href="structcutlass_1_1Identity.html">cutlass::Identity</a></div><div class="ttdoc">Describes identity elements. </div><div class="ttdef"><b>Definition:</b> coord.h:38</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_af6a9a165e53d7e85ae121d5789aa03e0"><div class="ttname"><a href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">cutlass::platform::max</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr const T &amp; max(const T &amp;a, const T &amp;b)</div><div class="ttdoc">std::max </div><div class="ttdef"><b>Definition:</b> platform.h:207</div></div>
+<a href="coord_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="structcutlass_1_1Identity.html">   39</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Identity.html">Identity</a> {</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597">   42</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375">Kind</a> { <a class="code" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375a77d7cc80ec0c3ff42ca9b2aff98a1646">Additive</a> = 0, <a class="code" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597">Multiplicative</a> = 1 };</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;};</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Rank_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html">   49</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Coord.html">Coord</a> {</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="comment">// Type and constant definitions</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">   55</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> = Rank_;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">   58</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">N</a> = Rank_;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">   61</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">   68</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[<a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>];</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">   76</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">Coord</a>(<a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> value = 0) {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] = value;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;    }</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;  }</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">   84</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">Coord</a>(<a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> _idx[]) {</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] = _idx[i];</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;    }</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  }</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">   92</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">Coord</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kRank&gt;</a> <span class="keyword">const</span> &amp;coord) {</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] = coord[i];</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  }</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Slice&gt;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">  102</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Slice&gt;</a> <a class="code" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a>(<span class="keywordtype">int</span> start = 0, <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> identity = 0)<span class="keyword"> const </span>{</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Slice&gt;</a> result;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Slice; ++i) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      <span class="keywordflow">if</span> (i + start &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>) {</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;        <a class="code" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a>[i] = <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i + start];</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;      }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;      <span class="keywordflow">else</span> {</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;        <a class="code" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a>[i] = identity;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;      }</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;    }</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;    <span class="keywordflow">return</span> result;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;  }</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">  117</a></span>&#160;  <span class="keyword">operator</span> bool()<span class="keyword"> const </span>{</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i]) {</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;        <span class="keywordflow">return</span> <span class="keyword">true</span>;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;      }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;    }</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">false</span>;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;  }</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">  128</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">operator!</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i]) {</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;        <span class="keywordflow">return</span> <span class="keyword">false</span>;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;      }</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;    }</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">true</span>;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  }</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00139"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">  139</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a> <a class="code" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">operator+</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord</a> c;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;      c.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] = <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] + b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    }</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    <span class="keywordflow">return</span> c;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;  }</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00149"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">  149</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a> <a class="code" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">operator-</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord</a> c;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      c.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] = <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] - b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;    }</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;    <span class="keywordflow">return</span> c;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  }</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">  159</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a> <a class="code" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">operator*</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord</a> c;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;      c.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] = <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] * b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    }</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    <span class="keywordflow">return</span> c;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;  }</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00169"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">  169</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a> <a class="code" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">operator/</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord</a> c;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;      c.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] = <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] / b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;    }</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <span class="keywordflow">return</span> c;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;  }</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">  179</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] += b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    }</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;  }</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00188"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">  188</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">operator-=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] -= b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;    }</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;  }</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00197"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">  197</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">operator*=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] *= b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;    }</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;  }</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00206"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">  206</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">operator/=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] /= b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;    }</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  }</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;</div><div class="line"><a name="l00214"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">  214</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">operator[]</a>(<span class="keywordtype">int</span> dim) { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[dim]; }</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">  217</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">operator[]</a>(<span class="keywordtype">int</span> dim)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[dim]; }</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00221"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">  221</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="code" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">dot</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b, T sum)<span class="keyword"> const </span>{</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      sum += <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] * b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    }</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    <span class="keywordflow">return</span> sum;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;  }</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00230"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">  230</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="code" href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">dot</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;    T sum = T(0);</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;      sum += <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] * b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;    }</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;    <span class="keywordflow">return</span> sum;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  }</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Dim&gt;</div><div class="line"><a name="l00240"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">  240</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>() {</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[Dim];</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;  }</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00246"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">  246</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">at</a>(<span class="keywordtype">int</span> dim) { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[dim]; }</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Dim&gt;</div><div class="line"><a name="l00250"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">  250</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">at</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[Dim];</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;  }</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00256"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">  256</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">at</a>(<span class="keywordtype">int</span> dim)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[dim]; }</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00260"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">  260</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">operator==</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kRank&gt;</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    <span class="keywordtype">bool</span> equal = <span class="keyword">true</span>;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; equal &amp;&amp; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;      equal = (<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] == b.<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i]);</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;    }</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;    <span class="keywordflow">return</span> equal;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;  }</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00270"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">  270</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">operator!=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kRank&gt;</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> !(*<span class="keyword">this</span> == b); }</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00274"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">  274</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="code" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">clamp</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kRank&gt;</a> <span class="keyword">const</span>&amp; <a class="code" href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">max</a>, <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kRank&gt;</a> <span class="keyword">const</span>&amp; <a class="code" href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">min</a> = <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kRank&gt;</a>()) {</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] = <a class="code" href="platform_8h.html#abd31f291635329bc15292954f1f01d38">__NV_STD_MAX</a>(<a class="code" href="platform_8h.html#a39e234a3e3b0018b58df720bcb143420">__NV_STD_MIN</a>(<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i], <a class="code" href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">max</a>.idx[i]), <a class="code" href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">min</a>.idx[i]);</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;    }</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;  }</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00283"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">  283</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> <a class="code" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">count</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> product = <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[0];</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 1; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;      product *= <a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i];</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;    }</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;    <span class="keywordflow">return</span> product;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;  }</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00293"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">  293</a></span>&#160;  <span class="keywordtype">bool</span> operator&lt;(Coord&lt;kRank&gt; <span class="keyword">const</span> &amp;b) <span class="keyword">const</span> {</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;      <span class="keywordflow">if</span> (!(<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] &lt; b[i])) {</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;        <span class="keywordflow">return</span> <span class="keyword">false</span>;</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;      }</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;    }</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">true</span>;</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;  }</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00304"></a><span class="lineno"><a class="line" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">  304</a></span>&#160;  <span class="keywordtype">bool</span> operator&lt;=(Coord&lt;kRank&gt; <span class="keyword">const</span> &amp;b) <span class="keyword">const</span> {</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>; ++i) {</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;      <span class="keywordflow">if</span> (!(<a class="code" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a>[i] &lt;= b[i])) {</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;        <span class="keywordflow">return</span> <span class="keyword">false</span>;</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;      }</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;    }</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">true</span>;</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;  }</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;};</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00318"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">  318</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;1&gt;</a> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<span class="keywordtype">int</span> _0) {</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;  <span class="keywordtype">int</span> values[1] = {_0};</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;1&gt;</a>(values);</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;}</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00325"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a61d81e5363bcb8a7f6dd70f053242564">  325</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2&gt;</a> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<span class="keywordtype">int</span> _0, <span class="keywordtype">int</span> _1) {</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;  <span class="keywordtype">int</span> values[2] = {_0, _1};</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2&gt;</a>(values);</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;}</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00332"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a25acf680a7d2592c957a7ac603f4c361">  332</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<span class="keywordtype">int</span> _0, <span class="keywordtype">int</span> _1, <span class="keywordtype">int</span> _2) {</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;  <span class="keywordtype">int</span> values[3] = {_0, _1, _2};</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>(values);</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;}</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00339"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a9410b1f5956d3aaf4584e65d047428fc">  339</a></span>&#160;<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<span class="keywordtype">int</span> _0, <span class="keywordtype">int</span> _1, <span class="keywordtype">int</span> _2, <span class="keywordtype">int</span> _3) {</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;  <span class="keywordtype">int</span> values[4] = {_0, _1, _2, _3};</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a>(values);</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;}</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Shape_&gt;</div><div class="line"><a name="l00347"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a90028a415a05ce09073860e5c761aa6f">  347</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="namespacecutlass.html#a90028a415a05ce09073860e5c761aa6f">make_Coord_from_shape</a>() {</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(Shape_::kD, Shape_::kH, Shape_::kW);</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;}</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1Identity_html"><div class="ttname"><a href="structcutlass_1_1Identity.html">cutlass::Identity</a></div><div class="ttdoc">Describes identity elements. </div><div class="ttdef"><b>Definition:</b> coord.h:39</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_af6a9a165e53d7e85ae121d5789aa03e0"><div class="ttname"><a href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">cutlass::platform::max</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr const T &amp; max(const T &amp;a, const T &amp;b)</div><div class="ttdoc">std::max </div><div class="ttdef"><b>Definition:</b> platform.h:215</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_acfa94aabd0c9a71ee994ca479d5f515f"><div class="ttname"><a href="structcutlass_1_1Coord.html#acfa94aabd0c9a71ee994ca479d5f515f">cutlass::Coord::operator==</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator==(Coord&lt; N &gt; const &amp;b) const</div><div class="ttdoc">Determines if two Coord&lt;&gt; objects are equal. </div><div class="ttdef"><b>Definition:</b> coord.h:205</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_aeb209486943fa9d42911325b16e49e09"><div class="ttname"><a href="structcutlass_1_1Coord.html#aeb209486943fa9d42911325b16e49e09">cutlass::Coord::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator+=(Coord const &amp;b)</div><div class="ttdoc">In-place addition. </div><div class="ttdef"><b>Definition:</b> coord.h:124</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a7fb46873e8f3cf38212703d35bd36995"><div class="ttname"><a href="structcutlass_1_1Coord.html#a7fb46873e8f3cf38212703d35bd36995">cutlass::Coord::operator!=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator!=(Coord&lt; N &gt; const &amp;b) const</div><div class="ttdoc">Not equal. </div><div class="ttdef"><b>Definition:</b> coord.h:215</div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
-<div class="ttc" id="namespacecutlass_html_a71f3e2a12b9e98be1fba082610fa9d4f"><div class="ttname"><a href="namespacecutlass.html#a71f3e2a12b9e98be1fba082610fa9d4f">cutlass::get_Coord_hwc</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 3 &gt; get_Coord_hwc(Coord&lt; 4 &gt; const &amp;coord)</div><div class="ttdoc">Getter. </div><div class="ttdef"><b>Definition:</b> coord.h:279</div></div>
-<div class="ttc" id="namespacecutlass_html_a4680709eeeb679ef0219938f85f7394e"><div class="ttname"><a href="namespacecutlass.html#a4680709eeeb679ef0219938f85f7394e">cutlass::get_Coord_dhw</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 3 &gt; get_Coord_dhw(Coord&lt; 4 &gt; const &amp;coord)</div><div class="ttdoc">Getter. </div><div class="ttdef"><b>Definition:</b> coord.h:283</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a482ada6da62f427987c22098796fcf7e"><div class="ttname"><a href="structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e">cutlass::Coord::clamp</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; clamp(Coord&lt; N &gt; const &amp;max, Coord&lt; N &gt; const &amp;min=Coord&lt; N &gt;())</div><div class="ttdoc">Clamps a coordinate to a range specified by maximum and minimum values. </div><div class="ttdef"><b>Definition:</b> coord.h:219</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_af9cc7ab2088544d1240ac51c4c6e685d"><div class="ttname"><a href="structcutlass_1_1Coord.html#af9cc7ab2088544d1240ac51c4c6e685d">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int const  &amp; at() const</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:195</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a87f485be079fa68bcf576da4d56f0ece"><div class="ttname"><a href="structcutlass_1_1Coord.html#a87f485be079fa68bcf576da4d56f0ece">cutlass::Coord::operator/</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord operator/(Coord const &amp;b) const</div><div class="ttdoc">Element-wise division. </div><div class="ttdef"><b>Definition:</b> coord.h:114</div></div>
-<div class="ttc" id="structcutlass_1_1Identity_html_a37966282c824c6d0e32b432275ea8375"><div class="ttname"><a href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375">cutlass::Identity::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> coord.h:41</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_ad4b3704d14057c043f972827671115cf"><div class="ttname"><a href="structcutlass_1_1Coord.html#ad4b3704d14057c043f972827671115cf">cutlass::Coord::dot</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T dot(Coord const &amp;b, T sum) const</div><div class="ttdoc">Computes the dot product of two Coord instances. </div><div class="ttdef"><b>Definition:</b> coord.h:166</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a53a3d88a884f6cb7fda8aedfe2cec2c5"><div class="ttname"><a href="structcutlass_1_1Coord.html#a53a3d88a884f6cb7fda8aedfe2cec2c5">cutlass::Coord::Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord(int _idx[])</div><div class="ttdoc">Constructs from an array of integers. </div><div class="ttdef"><b>Definition:</b> coord.h:76</div></div>
-<div class="ttc" id="platform_8h_html_abd31f291635329bc15292954f1f01d38"><div class="ttname"><a href="platform_8h.html#abd31f291635329bc15292954f1f01d38">__NV_STD_MAX</a></div><div class="ttdeci">#define __NV_STD_MAX(a, b)</div><div class="ttdoc">Select maximum(a, b) </div><div class="ttdef"><b>Definition:</b> platform.h:155</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_ab511a16210d1b94449f5bc6476f6a266"><div class="ttname"><a href="structcutlass_1_1Coord.html#ab511a16210d1b94449f5bc6476f6a266">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int &amp; at(int dim)</div><div class="ttdoc">Access via index; may limit unrolling potential. </div><div class="ttdef"><b>Definition:</b> coord.h:191</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_ab7fc89de3ccd7096ab275fb5dd40104c"><div class="ttname"><a href="structcutlass_1_1Coord.html#ab7fc89de3ccd7096ab275fb5dd40104c">cutlass::Coord::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int &amp; operator[](int dim)</div><div class="ttdoc">Member access operator. </div><div class="ttdef"><b>Definition:</b> coord.h:159</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_ac1795ec2a5890d8a39840567a4bea88e"><div class="ttname"><a href="structcutlass_1_1Coord.html#ac1795ec2a5890d8a39840567a4bea88e">cutlass::Coord::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator-=(Coord const &amp;b)</div><div class="ttdoc">In-place subtraction. </div><div class="ttdef"><b>Definition:</b> coord.h:133</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a8e4f7df55a75d040cf50cf9984c04c8a"><div class="ttname"><a href="structcutlass_1_1Coord.html#a8e4f7df55a75d040cf50cf9984c04c8a">cutlass::Coord::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord operator*(Coord const &amp;b) const</div><div class="ttdoc">Element-wise multiplication. </div><div class="ttdef"><b>Definition:</b> coord.h:104</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a9cbfff91f0b0d0a149534c97e3d6e69b"><div class="ttname"><a href="structcutlass_1_1Coord.html#a9cbfff91f0b0d0a149534c97e3d6e69b">cutlass::Coord::Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord(int value=0)</div><div class="ttdoc">Default ctor initializes uniformly. </div><div class="ttdef"><b>Definition:</b> coord.h:68</div></div>
-<div class="ttc" id="namespacecutlass_html_a7d2ab683e29b47d245e183ad5aeb962e"><div class="ttname"><a href="namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e">cutlass::get_Coord_hw</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 2 &gt; get_Coord_hw(Coord&lt; 3 &gt; const &amp;coord)</div><div class="ttdoc">Getter. </div><div class="ttdef"><b>Definition:</b> coord.h:271</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a3f2f5a9d7ef2063456c4d9f7e57e71ca"><div class="ttname"><a href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">cutlass::Coord::N</a></div><div class="ttdeci">static int const N</div><div class="ttdef"><b>Definition:</b> coord.h:53</div></div>
-<div class="ttc" id="platform_8h_html_a39e234a3e3b0018b58df720bcb143420"><div class="ttname"><a href="platform_8h.html#a39e234a3e3b0018b58df720bcb143420">__NV_STD_MIN</a></div><div class="ttdeci">#define __NV_STD_MIN(a, b)</div><div class="ttdoc">Select minimum(a, b) </div><div class="ttdef"><b>Definition:</b> platform.h:160</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_ae023c0c664c22a978e9b9ce5e063aae4"><div class="ttname"><a href="structcutlass_1_1Coord.html#ae023c0c664c22a978e9b9ce5e063aae4">cutlass::Coord::dot</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T dot(Coord const &amp;b) const</div><div class="ttdoc">Computes the dot product of two Coord instances. </div><div class="ttdef"><b>Definition:</b> coord.h:175</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_acc510511ffb52bed7f6a52f14b99750d"><div class="ttname"><a href="structcutlass_1_1Coord.html#acc510511ffb52bed7f6a52f14b99750d">cutlass::Coord::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord operator-(Coord const &amp;b) const</div><div class="ttdoc">Element-wise subtraction. </div><div class="ttdef"><b>Definition:</b> coord.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a6b876f61a85a4a4ef3763b6742bfaa6b"><div class="ttname"><a href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">cutlass::Coord::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord operator-(Coord const &amp;b) const</div><div class="ttdoc">Element-wise subtraction. </div><div class="ttdef"><b>Definition:</b> coord.h:149</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a9b47b1521820c898b03868627c3f8e46"><div class="ttname"><a href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; at(int dim) const</div><div class="ttdoc">Access via index; may limit unrolling potential. </div><div class="ttdef"><b>Definition:</b> coord.h:256</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a882e7ac07bbd6983659ef2e574b46454"><div class="ttname"><a href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">cutlass::Coord::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; operator[](int dim) const</div><div class="ttdoc">Member access operator. </div><div class="ttdef"><b>Definition:</b> coord.h:217</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a9bb07631f09efc80219413ac8309f568"><div class="ttname"><a href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">cutlass::Coord::operator/</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord operator/(Coord const &amp;b) const</div><div class="ttdoc">Element-wise division. </div><div class="ttdef"><b>Definition:</b> coord.h:169</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a6e0967541a1d74edeb93897ea6069e24"><div class="ttname"><a href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">cutlass::Coord::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; operator[](int dim)</div><div class="ttdoc">Member access operator. </div><div class="ttdef"><b>Definition:</b> coord.h:214</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a23e1b9a7f5fa8fd4afeadfb85de7c5c3"><div class="ttname"><a href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">cutlass::Coord::kRank</a></div><div class="ttdeci">static int const kRank</div><div class="ttdoc">Number of elements in Coord. </div><div class="ttdef"><b>Definition:</b> coord.h:55</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a7c73966e94b4f45854f16e33683bc02c"><div class="ttname"><a href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">cutlass::Coord::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type used to store elements. </div><div class="ttdef"><b>Definition:</b> coord.h:61</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ad4303b578b72b5cb2a0198375290e168"><div class="ttname"><a href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">cutlass::Coord::operator*=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator*=(Coord const &amp;b)</div><div class="ttdoc">In-place multiplication. </div><div class="ttdef"><b>Definition:</b> coord.h:197</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_aa253bf69fc819876a7c7770305f1a694"><div class="ttname"><a href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; at(int dim)</div><div class="ttdoc">Access via index; may limit unrolling potential. </div><div class="ttdef"><b>Definition:</b> coord.h:246</div></div>
+<div class="ttc" id="platform_8h_html"><div class="ttname"><a href="platform_8h.html">platform.h</a></div><div class="ttdoc">C++ features that may be otherwise unimplemented for CUDA device functions. </div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ac0ac5f2aa2cbea3887d126645025e017"><div class="ttname"><a href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">cutlass::Coord::count</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index count() const</div><div class="ttdoc">Returns the product of all elements. </div><div class="ttdef"><b>Definition:</b> coord.h:283</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a2e94c093f82908ff3dba4f23b5d10033"><div class="ttname"><a href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">cutlass::Coord::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord operator*(Coord const &amp;b) const</div><div class="ttdoc">Element-wise multiplication. </div><div class="ttdef"><b>Definition:</b> coord.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1Identity_html_a37966282c824c6d0e32b432275ea8375"><div class="ttname"><a href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375">cutlass::Identity::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> coord.h:42</div></div>
+<div class="ttc" id="namespacecutlass_html_a90028a415a05ce09073860e5c761aa6f"><div class="ttname"><a href="namespacecutlass.html#a90028a415a05ce09073860e5c761aa6f">cutlass::make_Coord_from_shape</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 3 &gt; make_Coord_from_shape()</div><div class="ttdef"><b>Definition:</b> coord.h:347</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a7f919aeb2a895bc040599971400dec8d"><div class="ttname"><a href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">cutlass::Coord::operator==</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator==(Coord&lt; kRank &gt; const &amp;b) const</div><div class="ttdoc">Determines if two Coord&lt;&gt; objects are equal. </div><div class="ttdef"><b>Definition:</b> coord.h:260</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_acfd416eafec51e47b42b8b713ba76030"><div class="ttname"><a href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">cutlass::Coord::N</a></div><div class="ttdeci">static int const N</div><div class="ttdoc">Number of elements in Coord, aliased for compatibility. </div><div class="ttdef"><b>Definition:</b> coord.h:58</div></div>
+<div class="ttc" id="platform_8h_html_abd31f291635329bc15292954f1f01d38"><div class="ttname"><a href="platform_8h.html#abd31f291635329bc15292954f1f01d38">__NV_STD_MAX</a></div><div class="ttdeci">#define __NV_STD_MAX(a, b)</div><div class="ttdoc">Select maximum(a, b) </div><div class="ttdef"><b>Definition:</b> platform.h:163</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a872e1e0d9cc255fa438c04daaf10ad68"><div class="ttname"><a href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">cutlass::Coord::idx</a></div><div class="ttdeci">Index idx[kRank]</div><div class="ttdoc">Indices. </div><div class="ttdef"><b>Definition:</b> coord.h:68</div></div>
+<div class="ttc" id="platform_8h_html_a39e234a3e3b0018b58df720bcb143420"><div class="ttname"><a href="platform_8h.html#a39e234a3e3b0018b58df720bcb143420">__NV_STD_MIN</a></div><div class="ttdeci">#define __NV_STD_MIN(a, b)</div><div class="ttdoc">Select minimum(a, b) </div><div class="ttdef"><b>Definition:</b> platform.h:168</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a304334cbcad636d7b058fdc6310f0e6b"><div class="ttname"><a href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">cutlass::Coord::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator-=(Coord const &amp;b)</div><div class="ttdoc">In-place subtraction. </div><div class="ttdef"><b>Definition:</b> coord.h:188</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ae4f2cb12b84411118cb93e7c4cb88b20"><div class="ttname"><a href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">cutlass::Coord::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator+=(Coord const &amp;b)</div><div class="ttdoc">In-place addition. </div><div class="ttdef"><b>Definition:</b> coord.h:179</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_a57c071d2a7305dd4ec60542e66b0c81c"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">cutlass::platform::min</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr const T &amp; min(const T &amp;a, const T &amp;b)</div><div class="ttdoc">std::min </div><div class="ttdef"><b>Definition:</b> platform.h:201</div></div>
-<div class="ttc" id="structcutlass_1_1Identity_html_a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597"><div class="ttname"><a href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597">cutlass::Identity::Multiplicative</a></div><div class="ttdef"><b>Definition:</b> coord.h:41</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:48</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_ad10b59430927a354fcd874d2d32f1bd8"><div class="ttname"><a href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int &amp; at()</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:185</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a50de265129f1db7bdf2f0aefbc6a46bc"><div class="ttname"><a href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">cutlass::Coord::idx</a></div><div class="ttdeci">int idx[N]</div><div class="ttdoc">Indices. </div><div class="ttdef"><b>Definition:</b> coord.h:60</div></div>
-<div class="ttc" id="structcutlass_1_1Identity_html_a37966282c824c6d0e32b432275ea8375a77d7cc80ec0c3ff42ca9b2aff98a1646"><div class="ttname"><a href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375a77d7cc80ec0c3ff42ca9b2aff98a1646">cutlass::Identity::Additive</a></div><div class="ttdef"><b>Definition:</b> coord.h:41</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_aed4f4d1c7c0749fe72736d7a1213b6e9"><div class="ttname"><a href="structcutlass_1_1Coord.html#aed4f4d1c7c0749fe72736d7a1213b6e9">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int const  &amp; at(int dim) const</div><div class="ttdoc">Access via index; may limit unrolling potential. </div><div class="ttdef"><b>Definition:</b> coord.h:201</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a353d847675e5ba2402c407dcd4ae4de3"><div class="ttname"><a href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">cutlass::Coord::operator!=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator!=(Coord&lt; kRank &gt; const &amp;b) const</div><div class="ttdoc">Not equal. </div><div class="ttdef"><b>Definition:</b> coord.h:270</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a57c071d2a7305dd4ec60542e66b0c81c"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">cutlass::platform::min</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr const T &amp; min(const T &amp;a, const T &amp;b)</div><div class="ttdoc">std::min </div><div class="ttdef"><b>Definition:</b> platform.h:209</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a9eff24a3b74b68d11839b92324613c93"><div class="ttname"><a href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; at()</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:240</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ac87199c4c9a4e20aac4eb6e3b9a68f28"><div class="ttname"><a href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">cutlass::Coord::operator/=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator/=(Coord const &amp;b)</div><div class="ttdoc">In-place division. </div><div class="ttdef"><b>Definition:</b> coord.h:206</div></div>
+<div class="ttc" id="structcutlass_1_1Identity_html_a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597"><div class="ttname"><a href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597">cutlass::Identity::Multiplicative</a></div><div class="ttdef"><b>Definition:</b> coord.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ac8f7a9b0835efc34fd28894b2b45342c"><div class="ttname"><a href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">cutlass::Coord::slice</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; Slice &gt; slice(int start=0, Index identity=0) const</div><div class="ttdef"><b>Definition:</b> coord.h:102</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:49</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a177adcc2d0fb5e72ebcb523edd24e6fe"><div class="ttname"><a href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; at() const</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:250</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ac8ec94703830ab2c62ee055533ea2184"><div class="ttname"><a href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">cutlass::Coord::dot</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T dot(Coord const &amp;b, T sum) const</div><div class="ttdoc">Computes the dot product of two Coord instances. </div><div class="ttdef"><b>Definition:</b> coord.h:221</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a422aa7e2d2bf5dd3a60f65427bc0d7c0"><div class="ttname"><a href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">cutlass::Coord::Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord(Index value=0)</div><div class="ttdoc">Default ctor initializes uniformly. </div><div class="ttdef"><b>Definition:</b> coord.h:76</div></div>
+<div class="ttc" id="structcutlass_1_1Identity_html_a37966282c824c6d0e32b432275ea8375a77d7cc80ec0c3ff42ca9b2aff98a1646"><div class="ttname"><a href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375a77d7cc80ec0c3ff42ca9b2aff98a1646">cutlass::Identity::Additive</a></div><div class="ttdef"><b>Definition:</b> coord.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a404a3b4e00f59cac71d41fb1bbba38ba"><div class="ttname"><a href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">cutlass::Coord::clamp</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; clamp(Coord&lt; kRank &gt; const &amp;max, Coord&lt; kRank &gt; const &amp;min=Coord&lt; kRank &gt;())</div><div class="ttdoc">Clamps a coordinate to a range specified by maximum and minimum values. </div><div class="ttdef"><b>Definition:</b> coord.h:274</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a63ad1225ab2c51a68add731e994526b4"><div class="ttname"><a href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">cutlass::Coord::Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord(Index _idx[])</div><div class="ttdoc">Constructs from an array of integers. </div><div class="ttdef"><b>Definition:</b> coord.h:84</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a0acc37908acb6b879c37f54ff7ffc93d"><div class="ttname"><a href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">cutlass::Coord::dot</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T dot(Coord const &amp;b) const</div><div class="ttdoc">Computes the dot product of two Coord instances. </div><div class="ttdef"><b>Definition:</b> coord.h:230</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ab37672637771a70910df9aa1a0cffddc"><div class="ttname"><a href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">cutlass::Coord::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord operator+(Coord const &amp;b) const</div><div class="ttdoc">Element-wise addition. </div><div class="ttdef"><b>Definition:</b> coord.h:139</div></div>
 <div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a282b6cc9ac8b2f72720c252791155aad"><div class="ttname"><a href="structcutlass_1_1Coord.html#a282b6cc9ac8b2f72720c252791155aad">cutlass::Coord::operator*=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator*=(Coord const &amp;b)</div><div class="ttdoc">In-place multiplication. </div><div class="ttdef"><b>Definition:</b> coord.h:142</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a3dfc4ce4191097b6c3268696f2a45ef5"><div class="ttname"><a href="structcutlass_1_1Coord.html#a3dfc4ce4191097b6c3268696f2a45ef5">cutlass::Coord::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord operator+(Coord const &amp;b) const</div><div class="ttdoc">Element-wise addition. </div><div class="ttdef"><b>Definition:</b> coord.h:84</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_abe91e59962ef0d73aec9c14824f64ecc"><div class="ttname"><a href="structcutlass_1_1Coord.html#abe91e59962ef0d73aec9c14824f64ecc">cutlass::Coord::operator/=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator/=(Coord const &amp;b)</div><div class="ttdoc">In-place division. </div><div class="ttdef"><b>Definition:</b> coord.h:151</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a6110e4cfd090561696a81a8a4068a573"><div class="ttname"><a href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">cutlass::Coord::Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord(Coord&lt; kRank &gt; const &amp;coord)</div><div class="ttdoc">Constructs from an array of integers. </div><div class="ttdef"><b>Definition:</b> coord.h:92</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a232095edae2f74c01a3c8abf68166e02"><div class="ttname"><a href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">cutlass::Coord::operator!</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator!() const</div><div class="ttdoc">Returns true if Coord is uniformly zero. </div><div class="ttdef"><b>Definition:</b> coord.h:128</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/core__io_8h.html b/docs/core__io_8h.html
index d71c397167..2f50d78515 100644
--- a/docs/core__io_8h.html
+++ b/docs/core__io_8h.html
@@ -73,6 +73,8 @@
 </div><!-- top -->
 <div class="header">
   <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a> &#124;
 <a href="#func-members">Functions</a>  </div>
   <div class="headertitle">
 <div class="title">core_io.h File Reference</div>  </div>
@@ -83,51 +85,56 @@
 <a href="#details">More...</a></p>
 <div class="textblock"><code>#include &lt;iosfwd&gt;</code><br />
 <code>#include &lt;typeinfo&gt;</code><br />
-<code>#include &lt;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&gt;</code><br />
+<code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&quot;</code><br />
 </div>
 <p><a href="core__io_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ScalarIO.html">cutlass::ScalarIO&lt; T &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to enable formatted printing of CUTLASS scalar types to an ostream.  <a href="structcutlass_1_1ScalarIO.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:a4a0d84a2a19a11549b87a2328d58690d"><td class="memTemplParams" colspan="2">template&lt;int Rank&gt; </td></tr>
-<tr class="memitem:a4a0d84a2a19a11549b87a2328d58690d"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="core__io_8h.html#a4a0d84a2a19a11549b87a2328d58690d">operator&lt;&lt;</a> (std::ostream &amp;out, <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank &gt; const &amp;coord)</td></tr>
-<tr class="separator:a4a0d84a2a19a11549b87a2328d58690d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afe231b125bbb1e9aa51307a8abdf9a60"><td class="memTemplParams" colspan="2">template&lt;int Rank&gt; </td></tr>
+<tr class="memitem:afe231b125bbb1e9aa51307a8abdf9a60"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#afe231b125bbb1e9aa51307a8abdf9a60">cutlass::operator&lt;&lt;</a> (std::ostream &amp;out, Coord&lt; Rank &gt; const &amp;coord)</td></tr>
+<tr class="separator:afe231b125bbb1e9aa51307a8abdf9a60"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a30ddfc5e90b9103840cb30c9f9b96b49"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a30ddfc5e90b9103840cb30c9f9b96b49"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a30ddfc5e90b9103840cb30c9f9b96b49">cutlass::operator&lt;&lt;</a> (std::ostream &amp;out, ScalarIO&lt; T &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:a30ddfc5e90b9103840cb30c9f9b96b49"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default printing to ostream.  <a href="namespacecutlass.html#a30ddfc5e90b9103840cb30c9f9b96b49">More...</a><br /></td></tr>
+<tr class="separator:a30ddfc5e90b9103840cb30c9f9b96b49"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a36690681ed19dc7e398fcdafdbfe9975"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:a36690681ed19dc7e398fcdafdbfe9975"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a36690681ed19dc7e398fcdafdbfe9975">cutlass::operator&lt;&lt;</a> (std::ostream &amp;out, ScalarIO&lt; int8_t &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:a36690681ed19dc7e398fcdafdbfe9975"><td class="mdescLeft">&#160;</td><td class="mdescRight">Printing to ostream of int8_t as integer rather than character.  <a href="namespacecutlass.html#a36690681ed19dc7e398fcdafdbfe9975">More...</a><br /></td></tr>
+<tr class="separator:a36690681ed19dc7e398fcdafdbfe9975"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1a35d6b9b984a9c143957db733a93f51"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:a1a35d6b9b984a9c143957db733a93f51"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a1a35d6b9b984a9c143957db733a93f51">cutlass::operator&lt;&lt;</a> (std::ostream &amp;out, ScalarIO&lt; uint8_t &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:a1a35d6b9b984a9c143957db733a93f51"><td class="mdescLeft">&#160;</td><td class="mdescRight">Printing to ostream of uint8_t as integer rather than character.  <a href="namespacecutlass.html#a1a35d6b9b984a9c143957db733a93f51">More...</a><br /></td></tr>
+<tr class="separator:a1a35d6b9b984a9c143957db733a93f51"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2fd306c63f71877f9231a7e1265752cf"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:a2fd306c63f71877f9231a7e1265752cf"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a2fd306c63f71877f9231a7e1265752cf">cutlass::operator&lt;&lt;</a> (std::ostream &amp;out, ScalarIO&lt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">cutlass::bin1_t</a>, 32 &gt; &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:a2fd306c63f71877f9231a7e1265752cf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Printing to ostream of vector of 1b elements.  <a href="namespacecutlass.html#a2fd306c63f71877f9231a7e1265752cf">More...</a><br /></td></tr>
+<tr class="separator:a2fd306c63f71877f9231a7e1265752cf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aecf2cd62eee939946b7173a110ecf76e"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:aecf2cd62eee939946b7173a110ecf76e"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#aecf2cd62eee939946b7173a110ecf76e">cutlass::operator&lt;&lt;</a> (std::ostream &amp;out, ScalarIO&lt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">cutlass::int4_t</a>, 8 &gt; &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:aecf2cd62eee939946b7173a110ecf76e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Printing to ostream of vector of 4b signed integer elements.  <a href="namespacecutlass.html#aecf2cd62eee939946b7173a110ecf76e">More...</a><br /></td></tr>
+<tr class="separator:aecf2cd62eee939946b7173a110ecf76e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3ceda5ed2d923222662a37e8f355c9b8"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:a3ceda5ed2d923222662a37e8f355c9b8"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a3ceda5ed2d923222662a37e8f355c9b8">cutlass::operator&lt;&lt;</a> (std::ostream &amp;out, ScalarIO&lt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">cutlass::uint4_t</a>, 8 &gt; &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:a3ceda5ed2d923222662a37e8f355c9b8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Printing to ostream of vector of 4b unsigned integer elements.  <a href="namespacecutlass.html#a3ceda5ed2d923222662a37e8f355c9b8">More...</a><br /></td></tr>
+<tr class="separator:a3ceda5ed2d923222662a37e8f355c9b8"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
-<h2 class="groupheader">Function Documentation</h2>
-<a id="a4a0d84a2a19a11549b87a2328d58690d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4a0d84a2a19a11549b87a2328d58690d">&#9670;&nbsp;</a></span>operator&lt;&lt;()</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;int Rank&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname">std::ostream&amp; operator&lt;&lt; </td>
-          <td>(</td>
-          <td class="paramtype">std::ostream &amp;&#160;</td>
-          <td class="paramname"><em>out</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>coord</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/core__io_8h_source.html b/docs/core__io_8h_source.html
index 7c076c94da..21b790113f 100644
--- a/docs/core__io_8h_source.html
+++ b/docs/core__io_8h_source.html
@@ -76,11 +76,19 @@
 <div class="title">core_io.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="core__io_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00026"></a><span class="lineno">   26</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;iosfwd&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;typeinfo&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Rank&gt;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="core__io_8h.html#a4a0d84a2a19a11549b87a2328d58690d">   39</a></span>&#160;std::ostream&amp; operator&lt;&lt;(std::ostream&amp; out, cutlass::Coord&lt;Rank&gt; <span class="keyword">const</span>&amp; coord) {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Rank; ++i) {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;    out &lt;&lt; (i ? <span class="stringliteral">&quot;, &quot;</span> : <span class="stringliteral">&quot;&quot;</span>) &lt;&lt; coord.idx[i];</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;  }</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;  <span class="keywordflow">return</span> out;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;}</div><div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
+<a href="core__io_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;iosfwd&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;typeinfo&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Rank&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="namespacecutlass.html#afe231b125bbb1e9aa51307a8abdf9a60">   42</a></span>&#160;std::ostream&amp; operator&lt;&lt;(std::ostream&amp; out, Coord&lt;Rank&gt; <span class="keyword">const</span>&amp; coord) {</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Rank; ++i) {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;    out &lt;&lt; (i ? <span class="stringliteral">&quot;, &quot;</span> : <span class="stringliteral">&quot;&quot;</span>) &lt;&lt; coord.idx[i];</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;  }</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;  <span class="keywordflow">return</span> out;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;}</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1ScalarIO.html">   53</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ScalarIO.html">ScalarIO</a> {</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">   56</a></span>&#160;  T <a class="code" href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">value</a>;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1ScalarIO.html#ad4166575521254088bf6c6300c351714">   59</a></span>&#160;  <a class="code" href="structcutlass_1_1ScalarIO.html#ad4166575521254088bf6c6300c351714">ScalarIO</a>() { }</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1ScalarIO.html#a5227e1e9ed24326ad4f8dc94d186186f">   62</a></span>&#160;  <a class="code" href="structcutlass_1_1ScalarIO.html#a5227e1e9ed24326ad4f8dc94d186186f">ScalarIO</a>(T <a class="code" href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">value</a>): <a class="code" href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">value</a>(<a class="code" href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">value</a>) {}</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;};</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a30ddfc5e90b9103840cb30c9f9b96b49">   69</a></span>&#160;<span class="keyword">inline</span> std::ostream &amp;operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt;T&gt; <span class="keyword">const</span> &amp;scalar) {</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <span class="keywordflow">return</span> out &lt;&lt; scalar.value;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;}</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a36690681ed19dc7e398fcdafdbfe9975">   75</a></span>&#160;<span class="keyword">inline</span> std::ostream &amp;operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt;int8_t&gt; <span class="keyword">const</span> &amp;scalar) {</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <span class="keywordflow">return</span> out &lt;&lt; int(scalar.value);</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;}</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a1a35d6b9b984a9c143957db733a93f51">   81</a></span>&#160;<span class="keyword">inline</span> std::ostream &amp;operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt;uint8_t&gt; <span class="keyword">const</span> &amp;scalar) {</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  <span class="keywordflow">return</span> out &lt;&lt; unsigned(scalar.value);</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;}</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00087"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a2fd306c63f71877f9231a7e1265752cf">   87</a></span>&#160;<span class="keyword">inline</span> std::ostream &amp;<a class="code" href="namespacecutlass.html#afe231b125bbb1e9aa51307a8abdf9a60">operator&lt;&lt;</a>(</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  std::ostream &amp;out, </div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  <a class="code" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt;cutlass::bin1_t, 32&gt;</a> &gt; <span class="keyword">const</span> &amp;scalar) {</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; 32; i++) {</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;    out &lt;&lt; int(scalar.value[i]);</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;    out &lt;&lt; ((i != 31) ? <span class="stringliteral">&quot;, &quot;</span> : <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;  }</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  <span class="keywordflow">return</span> out;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;}</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="namespacecutlass.html#aecf2cd62eee939946b7173a110ecf76e">  100</a></span>&#160;<span class="keyword">inline</span> std::ostream &amp;<a class="code" href="namespacecutlass.html#afe231b125bbb1e9aa51307a8abdf9a60">operator&lt;&lt;</a>(</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  std::ostream &amp;out, </div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  <a class="code" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt;cutlass::int4_t, 8&gt;</a> &gt; <span class="keyword">const</span> &amp;scalar) {</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; 8; i++) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    out &lt;&lt; int(scalar.value[i]);</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;    out &lt;&lt; ((i != 7) ? <span class="stringliteral">&quot;, &quot;</span> : <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  <span class="keywordflow">return</span> out;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;}</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a3ceda5ed2d923222662a37e8f355c9b8">  113</a></span>&#160;<span class="keyword">inline</span> std::ostream &amp;<a class="code" href="namespacecutlass.html#afe231b125bbb1e9aa51307a8abdf9a60">operator&lt;&lt;</a>(</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  std::ostream &amp;out, </div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;  <a class="code" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt;cutlass::uint4_t, 8&gt;</a> &gt; <span class="keyword">const</span> &amp;scalar) {</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; 8; i++) {</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;    out &lt;&lt; unsigned(scalar.value[i]);</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;    out &lt;&lt; ((i != 7) ? <span class="stringliteral">&quot;, &quot;</span> : <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  }</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  <span class="keywordflow">return</span> out;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;}</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
+<div class="ttc" id="structcutlass_1_1ScalarIO_html_a5227e1e9ed24326ad4f8dc94d186186f"><div class="ttname"><a href="structcutlass_1_1ScalarIO.html#a5227e1e9ed24326ad4f8dc94d186186f">cutlass::ScalarIO::ScalarIO</a></div><div class="ttdeci">ScalarIO(T value)</div><div class="ttdoc">Constructs from a value. </div><div class="ttdef"><b>Definition:</b> core_io.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1ScalarIO_html_ad4166575521254088bf6c6300c351714"><div class="ttname"><a href="structcutlass_1_1ScalarIO.html#ad4166575521254088bf6c6300c351714">cutlass::ScalarIO::ScalarIO</a></div><div class="ttdeci">ScalarIO()</div><div class="ttdoc">Default ctor. </div><div class="ttdef"><b>Definition:</b> core_io.h:59</div></div>
+<div class="ttc" id="namespacecutlass_html_afe231b125bbb1e9aa51307a8abdf9a60"><div class="ttname"><a href="namespacecutlass.html#afe231b125bbb1e9aa51307a8abdf9a60">cutlass::operator&lt;&lt;</a></div><div class="ttdeci">std::ostream &amp; operator&lt;&lt;(std::ostream &amp;out, Coord&lt; Rank &gt; const &amp;coord)</div><div class="ttdef"><b>Definition:</b> core_io.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1ScalarIO_html"><div class="ttname"><a href="structcutlass_1_1ScalarIO.html">cutlass::ScalarIO</a></div><div class="ttdoc">Helper to enable formatted printing of CUTLASS scalar types to an ostream. </div><div class="ttdef"><b>Definition:</b> core_io.h:53</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html"><div class="ttname"><a href="unioncutlass_1_1Vector.html">cutlass::Vector</a></div><div class="ttdef"><b>Definition:</b> vector.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1ScalarIO_html_a76d2822161aef20f85c3798b855ca9dd"><div class="ttname"><a href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">cutlass::ScalarIO::value</a></div><div class="ttdeci">T value</div><div class="ttdoc">Value to print. </div><div class="ttdef"><b>Definition:</b> core_io.h:56</div></div>
+<div class="ttc" id="vector_8h_html"><div class="ttname"><a href="vector_8h.html">vector.h</a></div><div class="ttdoc">Defines a 1D vector of elements held in the registers of each thread. </div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/cutlass_8h.html b/docs/cutlass_8h.html
index bbb0463c91..419c9123f3 100644
--- a/docs/cutlass_8h.html
+++ b/docs/cutlass_8h.html
@@ -73,8 +73,10 @@
 </div><!-- top -->
 <div class="header">
   <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
 <a href="#namespaces">Namespaces</a> &#124;
-<a href="#define-members">Macros</a>  </div>
+<a href="#define-members">Macros</a> &#124;
+<a href="#func-members">Functions</a>  </div>
   <div class="headertitle">
 <div class="title">cutlass.h File Reference</div>  </div>
 </div><!--header-->
@@ -85,6 +87,13 @@
 
 <p><a href="cutlass_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structDebugType.html">DebugType&lt; T &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structDebugValue.html">DebugValue&lt; Value &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
 Namespaces</h2></td></tr>
 <tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
@@ -96,18 +105,26 @@
 <tr class="separator:a8ff3cda9323810c1c504793a0206d4b8"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:ad114a1ab01f73833ea00020ffb7bcea7"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#ad114a1ab01f73833ea00020ffb7bcea7">CUTLASS_MINOR</a>&#160;&#160;&#160;0</td></tr>
 <tr class="separator:ad114a1ab01f73833ea00020ffb7bcea7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1d4e5818a594bbfc472e54978955cb8b"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#a1d4e5818a594bbfc472e54978955cb8b">CUTLASS_PATCH</a>&#160;&#160;&#160;0</td></tr>
+<tr class="memitem:a1d4e5818a594bbfc472e54978955cb8b"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#a1d4e5818a594bbfc472e54978955cb8b">CUTLASS_PATCH</a>&#160;&#160;&#160;1</td></tr>
 <tr class="separator:a1d4e5818a594bbfc472e54978955cb8b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:aa3040eddf073214969f9445bfa925039"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#aa3040eddf073214969f9445bfa925039">CUTLASS_VERSION</a>&#160;&#160;&#160;((<a class="el" href="cutlass_8h.html#a8ff3cda9323810c1c504793a0206d4b8">CUTLASS_MAJOR</a>)*100 + (<a class="el" href="cutlass_8h.html#ad114a1ab01f73833ea00020ffb7bcea7">CUTLASS_MINOR</a>)*10 + <a class="el" href="cutlass_8h.html#a1d4e5818a594bbfc472e54978955cb8b">CUTLASS_PATCH</a>)</td></tr>
 <tr class="separator:aa3040eddf073214969f9445bfa925039"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a28c2443a142676d3d71effdae1a986b1"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></td></tr>
 <tr class="separator:a28c2443a142676d3d71effdae1a986b1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0159b8e4cd578881a1ccfd0921516af7"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">CUTLASS_ASSERT</a>(x)&#160;&#160;&#160;assert(x)</td></tr>
+<tr class="separator:a0159b8e4cd578881a1ccfd0921516af7"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></td></tr>
 <tr class="separator:a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:adb3bc73d74b4a4bf13099d5696db3352"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#adb3bc73d74b4a4bf13099d5696db3352">CUTLASS_PRAGMA_NO_UNROLL</a></td></tr>
 <tr class="separator:adb3bc73d74b4a4bf13099d5696db3352"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0159b8e4cd578881a1ccfd0921516af7"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">CUTLASS_ASSERT</a>(x)&#160;&#160;&#160;assert(x)</td></tr>
-<tr class="separator:a0159b8e4cd578881a1ccfd0921516af7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8e18ced39c05ab3304bb4fcdc0cc9f71"><td class="memItemLeft" align="right" valign="top">#define&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">CUTLASS_GEMM_LOOP</a>&#160;&#160;&#160;<a class="el" href="cutlass_8h.html#adb3bc73d74b4a4bf13099d5696db3352">CUTLASS_PRAGMA_NO_UNROLL</a></td></tr>
+<tr class="separator:a8e18ced39c05ab3304bb4fcdc0cc9f71"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:ab7e23b523490567225b20e2c72649f20"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:ab7e23b523490567225b20e2c72649f20"><td class="memTemplItemLeft" align="right" valign="top">void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="cutlass_8h.html#ab7e23b523490567225b20e2c72649f20">DebugTypeFunc</a> (T const &amp;t)</td></tr>
+<tr class="separator:ab7e23b523490567225b20e2c72649f20"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Macro Definition Documentation</h2>
 <a id="a0159b8e4cd578881a1ccfd0921516af7"></a>
@@ -126,6 +143,20 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0159b8e4cd578881a1ccfd09
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a8e18ced39c05ab3304bb4fcdc0cc9f71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8e18ced39c05ab3304bb4fcdc0cc9f71">&#9670;&nbsp;</a></span>CUTLASS_GEMM_LOOP</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">#define CUTLASS_GEMM_LOOP&#160;&#160;&#160;<a class="el" href="cutlass_8h.html#adb3bc73d74b4a4bf13099d5696db3352">CUTLASS_PRAGMA_NO_UNROLL</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="a28c2443a142676d3d71effdae1a986b1"></a>
@@ -177,7 +208,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1d4e5818a594bbfc472e5497
 <div class="memproto">
       <table class="memname">
         <tr>
-          <td class="memname">#define CUTLASS_PATCH&#160;&#160;&#160;0</td>
+          <td class="memname">#define CUTLASS_PATCH&#160;&#160;&#160;1</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -224,12 +255,33 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa3040eddf073214969f9445b
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<h2 class="groupheader">Function Documentation</h2>
+<a id="ab7e23b523490567225b20e2c72649f20"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab7e23b523490567225b20e2c72649f20">&#9670;&nbsp;</a></span>DebugTypeFunc()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">void DebugTypeFunc </td>
+          <td>(</td>
+          <td class="paramtype">T const &amp;&#160;</td>
+          <td class="paramname"><em>t</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/cutlass_8h_source.html b/docs/cutlass_8h_source.html
index d2f442295e..9c9fb2b290 100644
--- a/docs/cutlass_8h_source.html
+++ b/docs/cutlass_8h_source.html
@@ -76,11 +76,14 @@
 <div class="title">cutlass.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="cutlass_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a8ff3cda9323810c1c504793a0206d4b8">   34</a></span>&#160;<span class="preprocessor">#define CUTLASS_MAJOR 1</span></div><div class="line"><a name="l00035"></a><span class="lineno"><a class="line" href="cutlass_8h.html#ad114a1ab01f73833ea00020ffb7bcea7">   35</a></span>&#160;<span class="preprocessor">#define CUTLASS_MINOR 0</span></div><div class="line"><a name="l00036"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a1d4e5818a594bbfc472e54978955cb8b">   36</a></span>&#160;<span class="preprocessor">#define CUTLASS_PATCH 0</span></div><div class="line"><a name="l00037"></a><span class="lineno"><a class="line" href="cutlass_8h.html#aa3040eddf073214969f9445bfa925039">   37</a></span>&#160;<span class="preprocessor">#define CUTLASS_VERSION ((CUTLASS_MAJOR)*100 + (CUTLASS_MINOR)*10 + CUTLASS_PATCH)</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#ifdef __NVCC__</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#define CUTLASS_HOST_DEVICE __forceinline__ __device__ __host__</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#define CUTLASS_DEVICE __forceinline__ __device__</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="preprocessor">#elif defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="preprocessor">#define CUTLASS_HOST_DEVICE __forceinline__ __device__</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="preprocessor">#define CUTLASS_DEVICE __forceinline__ __device__</span></div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">   46</a></span>&#160;<span class="preprocessor">#define CUTLASS_HOST_DEVICE</span></div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="comment">// CUTLASS_DEVICE is an error if not compiling device code</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="comment">// CUTLASS_PRAGMA_UNROLL inserts a CUTLASS_PRAGMA_UNROLL if supported by the compiler</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;<span class="preprocessor">#if defined(__CUDA_ARCH__)</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="preprocessor">#if defined(_MSC_VER)</span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_UNROLL __pragma(&quot;unroll&quot;)</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_NO_UNROLL __pragma(&quot;unroll 1&quot;)</span></div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_UNROLL _Pragma(&quot;unroll&quot;)</span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_NO_UNROLL _Pragma(&quot;unroll 1&quot;)</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">   60</a></span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_UNROLL</span></div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="cutlass_8h.html#adb3bc73d74b4a4bf13099d5696db3352">   61</a></span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_NO_UNROLL</span></div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">   64</a></span>&#160;<span class="preprocessor">#define CUTLASS_ASSERT(x) assert(x)</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;<span class="keyword">static</span> <span class="keyword">const</span> <span class="keywordtype">int</span> kWarpSize = 32;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<a href="cutlass_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a8ff3cda9323810c1c504793a0206d4b8">   34</a></span>&#160;<span class="preprocessor">#define CUTLASS_MAJOR 1</span></div><div class="line"><a name="l00035"></a><span class="lineno"><a class="line" href="cutlass_8h.html#ad114a1ab01f73833ea00020ffb7bcea7">   35</a></span>&#160;<span class="preprocessor">#define CUTLASS_MINOR 0</span></div><div class="line"><a name="l00036"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a1d4e5818a594bbfc472e54978955cb8b">   36</a></span>&#160;<span class="preprocessor">#define CUTLASS_PATCH 1</span></div><div class="line"><a name="l00037"></a><span class="lineno"><a class="line" href="cutlass_8h.html#aa3040eddf073214969f9445bfa925039">   37</a></span>&#160;<span class="preprocessor">#define CUTLASS_VERSION ((CUTLASS_MAJOR)*100 + (CUTLASS_MINOR)*10 + CUTLASS_PATCH)</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#ifdef __NVCC__</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#define CUTLASS_HOST_DEVICE __forceinline__ __device__ __host__</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#define CUTLASS_DEVICE __forceinline__ __device__</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="preprocessor">#elif defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="preprocessor">#define CUTLASS_HOST_DEVICE __forceinline__ __device__</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="preprocessor">#define CUTLASS_DEVICE __forceinline__ __device__</span></div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">   46</a></span>&#160;<span class="preprocessor">#define CUTLASS_HOST_DEVICE</span></div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="comment">// CUTLASS_DEVICE is an error if not compiling device code</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">   50</a></span>&#160;<span class="preprocessor">#define CUTLASS_ASSERT(x) assert(x)</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="comment">// CUTLASS_PRAGMA_(UNROLL|NO_UNROLL) optimization directives for the CUDA compiler.</span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;<span class="preprocessor">#if defined(__CUDA_ARCH__)</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;<span class="preprocessor">#if defined(_MSC_VER)</span></div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_UNROLL __pragma(&quot;unroll&quot;)</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_NO_UNROLL __pragma(&quot;unroll 1&quot;)</span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_UNROLL _Pragma(&quot;unroll&quot;)</span></div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_NO_UNROLL _Pragma(&quot;unroll 1&quot;)</span></div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">   62</a></span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_UNROLL</span></div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="cutlass_8h.html#adb3bc73d74b4a4bf13099d5696db3352">   63</a></span>&#160;<span class="preprocessor">#define CUTLASS_PRAGMA_NO_UNROLL</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">   66</a></span>&#160;<span class="preprocessor">#define CUTLASS_GEMM_LOOP CUTLASS_PRAGMA_NO_UNROLL</span></div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;<span class="comment">// A small helper class to dump a type at compile time</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;<span class="comment">// Usage:: DumpType&lt;Class&gt;::Class</span></div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="structDebugType.html">   71</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structDebugType.html">DebugType</a> {};</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="cutlass_8h.html#ab7e23b523490567225b20e2c72649f20">   74</a></span>&#160;<span class="keywordtype">void</span> <a class="code" href="cutlass_8h.html#ab7e23b523490567225b20e2c72649f20">DebugTypeFunc</a>(T <span class="keyword">const</span>&amp; t) {</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  T::t;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;}</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;<span class="comment">// A small helper class to dump a compile time constant at compile time</span></div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;<span class="comment">// Usage: DumpValue&lt;Class::kConstant&gt;::kConstant</span></div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Value&gt;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structDebugValue.html">   81</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structDebugValue.html">DebugValue</a> {};</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;<span class="keyword">static</span> <span class="keyword">const</span> <span class="keywordtype">int</span> kWarpSize = 32;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structDebugValue_html"><div class="ttname"><a href="structDebugValue.html">DebugValue</a></div><div class="ttdef"><b>Definition:</b> cutlass.h:81</div></div>
+<div class="ttc" id="structDebugType_html"><div class="ttname"><a href="structDebugType.html">DebugType</a></div><div class="ttdef"><b>Definition:</b> cutlass.h:71</div></div>
+<div class="ttc" id="cutlass_8h_html_ab7e23b523490567225b20e2c72649f20"><div class="ttname"><a href="cutlass_8h.html#ab7e23b523490567225b20e2c72649f20">DebugTypeFunc</a></div><div class="ttdeci">void DebugTypeFunc(T const &amp;t)</div><div class="ttdef"><b>Definition:</b> cutlass.h:74</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/cutlass__math_8h.html b/docs/cutlass__math_8h.html
index 953b0d4c70..c4dbc54b0b 100644
--- a/docs/cutlass__math_8h.html
+++ b/docs/cutlass__math_8h.html
@@ -83,7 +83,7 @@
 
 <p>Math utilities.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&quot;</code><br />
 </div>
 <p><a href="cutlass__math_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -103,6 +103,10 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1divide__assert.html">cutlass::divide_assert&lt; Dividend, Divisor &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Min.html">cutlass::Min&lt; A, B &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Max.html">cutlass::Max&lt; A, B &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
 Namespaces</h2></td></tr>
@@ -120,11 +124,17 @@
 <tr class="memitem:af07506fee11de882d926f4e8237eef09"><td class="memTemplParams" colspan="2">template&lt;typename value_t &gt; </td></tr>
 <tr class="memitem:af07506fee11de882d926f4e8237eef09"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#af07506fee11de882d926f4e8237eef09">cutlass::lcm</a> (value_t a, value_t b)</td></tr>
 <tr class="separator:af07506fee11de882d926f4e8237eef09"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6bc666acc9f0d7278a788975e226e005"><td class="memTemplParams" colspan="2">template&lt;typename value_t &gt; </td></tr>
+<tr class="memitem:a6bc666acc9f0d7278a788975e226e005"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a6bc666acc9f0d7278a788975e226e005">cutlass::clz</a> (value_t x)</td></tr>
+<tr class="separator:a6bc666acc9f0d7278a788975e226e005"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a58a119c3f7b33d97c43ae8c114004d9e"><td class="memTemplParams" colspan="2">template&lt;typename value_t &gt; </td></tr>
+<tr class="memitem:a58a119c3f7b33d97c43ae8c114004d9e"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a58a119c3f7b33d97c43ae8c114004d9e">cutlass::find_log2</a> (value_t x)</td></tr>
+<tr class="separator:a58a119c3f7b33d97c43ae8c114004d9e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/cutlass__math_8h_source.html b/docs/cutlass__math_8h_source.html
index 2809a84568..8381f641a1 100644
--- a/docs/cutlass__math_8h_source.html
+++ b/docs/cutlass__math_8h_source.html
@@ -76,27 +76,33 @@
 <div class="title">cutlass_math.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="cutlass__math_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;</div><div class="line"><a name="l00026"></a><span class="lineno">   26</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00027"></a><span class="lineno">   27</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="comment"> * Static math utilities</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N&gt;</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1is__pow2.html">   45</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1is__pow2.html">is_pow2</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">platform::integral_constant</a>&lt;bool, (N &amp; (N - 1)) == 0&gt; {};</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N, <span class="keywordtype">int</span> CurrentVal = N, <span class="keywordtype">int</span> Count = 0&gt;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__down.html">   51</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1log2__down.html">log2_down</a> {</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d">   53</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d">value</a> = <a class="code" href="structcutlass_1_1log2__down.html">log2_down&lt;N, (CurrentVal &gt;</a>&gt; 1), Count + 1&gt;::<a class="code" href="structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d">value</a> };</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;};</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;<span class="comment">// Base case</span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N, <span class="keywordtype">int</span> Count&gt;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html">   58</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1log2__down.html">log2_down</a>&lt;N, 1, Count&gt; {</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html#ad7d3c2329ab708bd4af36ffaee8509cba282c4c5d8f66dc49544f34071f148b1f">   59</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d">value</a> = Count };</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;};</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N, <span class="keywordtype">int</span> CurrentVal = N, <span class="keywordtype">int</span> Count = 0&gt;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__up.html">   66</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1log2__up.html">log2_up</a> {</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6">   68</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6">value</a> = <a class="code" href="structcutlass_1_1log2__up.html">log2_up&lt;N, (CurrentVal &gt;</a>&gt; 1), Count + 1&gt;::<a class="code" href="structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6">value</a> };</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;};</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;<span class="comment">// Base case</span></div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N, <span class="keywordtype">int</span> Count&gt;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html">   73</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1log2__up.html">log2_up</a>&lt;N, 1, Count&gt; {</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html#ab001737f02df0a2c514334a1bfa6f1f9a6b6af5b6bf14ee5d3e3f1442e7f75117">   74</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6">value</a> = ((1 &lt;&lt; Count) &lt; N) ? Count + 1 : Count };</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;};</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N&gt;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1sqrt__est.html">   81</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1sqrt__est.html">sqrt_est</a> {</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1sqrt__est.html#abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964">   82</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1sqrt__est.html#abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964">value</a> = 1 &lt;&lt; (<a class="code" href="structcutlass_1_1log2__up.html">log2_up&lt;N&gt;::value</a> / 2) };</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;};</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Div<span class="keywordtype">id</span>end, <span class="keywordtype">int</span> Divisor&gt;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1divide__assert.html">   90</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1divide__assert.html">divide_assert</a> {</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc">   91</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc">value</a> = Dividend / Divisor };</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((Dividend % Divisor == 0), <span class="stringliteral">&quot;Not an even multiple&quot;</span>);</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;};</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;<span class="comment"> * Rounding</span></div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> div<span class="keywordtype">id</span>end_t, <span class="keyword">typename</span> divisor_t&gt;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e">  104</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dividend_t <a class="code" href="namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e">round_nearest</a>(dividend_t dividend, divisor_t divisor) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;  <span class="keywordflow">return</span> ((dividend + divisor - 1) / divisor) * divisor;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;}</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8">  112</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t <a class="code" href="namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8">gcd</a>(value_t a, value_t b) {</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;  <span class="keywordflow">for</span> (;;) {</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    <span class="keywordflow">if</span> (a == 0) <span class="keywordflow">return</span> b;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    b %= a;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <span class="keywordflow">if</span> (b == 0) <span class="keywordflow">return</span> a;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    a %= b;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  }</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;}</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="namespacecutlass.html#af07506fee11de882d926f4e8237eef09">  125</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t <a class="code" href="namespacecutlass.html#af07506fee11de882d926f4e8237eef09">lcm</a>(value_t a, value_t b) {</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  value_t temp = <a class="code" href="namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8">gcd</a>(a, b);</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  <span class="keywordflow">return</span> temp ? (a / temp * b) : 0;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;}</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1divide__assert_html_a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc"><div class="ttname"><a href="structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc">cutlass::divide_assert::value</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:91</div></div>
+<a href="cutlass__math_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;</div><div class="line"><a name="l00026"></a><span class="lineno">   26</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00027"></a><span class="lineno">   27</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="comment"> * Static math utilities</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N&gt;</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1is__pow2.html">   45</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1is__pow2.html">is_pow2</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">platform::integral_constant</a>&lt;bool, (N &amp; (N - 1)) == 0&gt; {};</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N, <span class="keywordtype">int</span> CurrentVal = N, <span class="keywordtype">int</span> Count = 0&gt;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__down.html">   51</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1log2__down.html">log2_down</a> {</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d">   53</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d">value</a> = <a class="code" href="structcutlass_1_1log2__down.html">log2_down&lt;N, (CurrentVal &gt;</a>&gt; 1), Count + 1&gt;::<a class="code" href="structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d">value</a> };</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;};</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;<span class="comment">// Base case</span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N, <span class="keywordtype">int</span> Count&gt;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html">   58</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1log2__down.html">log2_down</a>&lt;N, 1, Count&gt; {</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html#ad7d3c2329ab708bd4af36ffaee8509cba282c4c5d8f66dc49544f34071f148b1f">   59</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d">value</a> = Count };</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;};</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N, <span class="keywordtype">int</span> CurrentVal = N, <span class="keywordtype">int</span> Count = 0&gt;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__up.html">   66</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1log2__up.html">log2_up</a> {</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6">   68</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6">value</a> = <a class="code" href="structcutlass_1_1log2__up.html">log2_up&lt;N, (CurrentVal &gt;</a>&gt; 1), Count + 1&gt;::<a class="code" href="structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6">value</a> };</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;};</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;<span class="comment">// Base case</span></div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N, <span class="keywordtype">int</span> Count&gt;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html">   73</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1log2__up.html">log2_up</a>&lt;N, 1, Count&gt; {</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html#ab001737f02df0a2c514334a1bfa6f1f9a6b6af5b6bf14ee5d3e3f1442e7f75117">   74</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6">value</a> = ((1 &lt;&lt; Count) &lt; N) ? Count + 1 : Count };</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;};</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> N&gt;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1sqrt__est.html">   81</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1sqrt__est.html">sqrt_est</a> {</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1sqrt__est.html#abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964">   82</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1sqrt__est.html#abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964">value</a> = 1 &lt;&lt; (<a class="code" href="structcutlass_1_1log2__up.html">log2_up&lt;N&gt;::value</a> / 2) };</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;};</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Div<span class="keywordtype">id</span>end, <span class="keywordtype">int</span> Divisor&gt;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1divide__assert.html">   90</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1divide__assert.html">divide_assert</a> {</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc">   91</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc">value</a> = Dividend / Divisor };</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((Dividend % Divisor == 0), <span class="stringliteral">&quot;Not an even multiple&quot;</span>);</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;};</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;<span class="comment"> * Rounding</span></div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> div<span class="keywordtype">id</span>end_t, <span class="keyword">typename</span> divisor_t&gt;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e">  104</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dividend_t <a class="code" href="namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e">round_nearest</a>(dividend_t dividend, divisor_t divisor) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;  <span class="keywordflow">return</span> ((dividend + divisor - 1) / divisor) * divisor;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;}</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8">  112</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t <a class="code" href="namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8">gcd</a>(value_t a, value_t b) {</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;  <span class="keywordflow">for</span> (;;) {</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    <span class="keywordflow">if</span> (a == 0) <span class="keywordflow">return</span> b;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    b %= a;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <span class="keywordflow">if</span> (b == 0) <span class="keywordflow">return</span> a;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    a %= b;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  }</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;}</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="namespacecutlass.html#af07506fee11de882d926f4e8237eef09">  125</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t <a class="code" href="namespacecutlass.html#af07506fee11de882d926f4e8237eef09">lcm</a>(value_t a, value_t b) {</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  value_t temp = <a class="code" href="namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8">gcd</a>(a, b);</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  <span class="keywordflow">return</span> temp ? (a / temp * b) : 0;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;}</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a6bc666acc9f0d7278a788975e226e005">  137</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t <a class="code" href="namespacecutlass.html#a6bc666acc9f0d7278a788975e226e005">clz</a>(value_t x) {</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 31; i &gt;= 0; --i) {</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    <span class="keywordflow">if</span> ((1 &lt;&lt; i) &amp; x) <span class="keywordflow">return</span> 31 - i;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  }</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;  <span class="keywordflow">return</span> 32;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;}</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00145"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a58a119c3f7b33d97c43ae8c114004d9e">  145</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t <a class="code" href="namespacecutlass.html#a58a119c3f7b33d97c43ae8c114004d9e">find_log2</a>(value_t x) {</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;  <span class="keywordtype">int</span> a = 31 - <a class="code" href="namespacecutlass.html#a6bc666acc9f0d7278a788975e226e005">clz</a>(x);</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  a += (x &amp; (x - 1)) != 0;  <span class="comment">// Round up, add 1 if not a power of 2.</span></div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;  <span class="keywordflow">return</span> a;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;}</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;<span class="comment"> * Min/Max</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> A, <span class="keywordtype">int</span> B&gt;</div><div class="line"><a name="l00156"></a><span class="lineno"><a class="line" href="structcutlass_1_1Min.html">  156</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Min.html">Min</a> {</div><div class="line"><a name="l00157"></a><span class="lineno"><a class="line" href="structcutlass_1_1Min.html#a97e6dd3ff6fb5404e8a6e6109f73f429">  157</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Min.html#a97e6dd3ff6fb5404e8a6e6109f73f429">kValue</a> = (A &lt; B) ? A : B;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;};</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> A, <span class="keywordtype">int</span> B&gt;</div><div class="line"><a name="l00161"></a><span class="lineno"><a class="line" href="structcutlass_1_1Max.html">  161</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Max.html">Max</a> {</div><div class="line"><a name="l00162"></a><span class="lineno"><a class="line" href="structcutlass_1_1Max.html#a6ed8be7ed855eea8f8d08921f7b5d763">  162</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Max.html#a6ed8be7ed855eea8f8d08921f7b5d763">kValue</a> = (A &gt; B) ? A : B;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;};</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1divide__assert_html_a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc"><div class="ttname"><a href="structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc">cutlass::divide_assert::value</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:91</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1Min_html_a97e6dd3ff6fb5404e8a6e6109f73f429"><div class="ttname"><a href="structcutlass_1_1Min.html#a97e6dd3ff6fb5404e8a6e6109f73f429">cutlass::Min::kValue</a></div><div class="ttdeci">static int const kValue</div><div class="ttdef"><b>Definition:</b> cutlass_math.h:157</div></div>
+<div class="ttc" id="namespacecutlass_html_a58a119c3f7b33d97c43ae8c114004d9e"><div class="ttname"><a href="namespacecutlass.html#a58a119c3f7b33d97c43ae8c114004d9e">cutlass::find_log2</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE value_t find_log2(value_t x)</div><div class="ttdef"><b>Definition:</b> cutlass_math.h:145</div></div>
 <div class="ttc" id="structcutlass_1_1log2__down_html"><div class="ttname"><a href="structcutlass_1_1log2__down.html">cutlass::log2_down</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:51</div></div>
 <div class="ttc" id="platform_8h_html"><div class="ttname"><a href="platform_8h.html">platform.h</a></div><div class="ttdoc">C++ features that may be otherwise unimplemented for CUDA device functions. </div></div>
+<div class="ttc" id="structcutlass_1_1Min_html"><div class="ttname"><a href="structcutlass_1_1Min.html">cutlass::Min</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:156</div></div>
 <div class="ttc" id="structcutlass_1_1log2__down_html_a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d"><div class="ttname"><a href="structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d">cutlass::log2_down::value</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:53</div></div>
 <div class="ttc" id="namespacecutlass_html_af07506fee11de882d926f4e8237eef09"><div class="ttname"><a href="namespacecutlass.html#af07506fee11de882d926f4e8237eef09">cutlass::lcm</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE value_t lcm(value_t a, value_t b)</div><div class="ttdef"><b>Definition:</b> cutlass_math.h:125</div></div>
 <div class="ttc" id="namespacecutlass_html_a17c8c408d672d26f1c70d2435f6ac83e"><div class="ttname"><a href="namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e">cutlass::round_nearest</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE dividend_t round_nearest(dividend_t dividend, divisor_t divisor)</div><div class="ttdef"><b>Definition:</b> cutlass_math.h:104</div></div>
 <div class="ttc" id="structcutlass_1_1log2__up_html_a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6"><div class="ttname"><a href="structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6">cutlass::log2_up::value</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:68</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html">cutlass::platform::integral_constant</a></div><div class="ttdoc">std::integral_constant </div><div class="ttdef"><b>Definition:</b> platform.h:274</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html">cutlass::platform::integral_constant</a></div><div class="ttdoc">std::integral_constant </div><div class="ttdef"><b>Definition:</b> platform.h:282</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
+<div class="ttc" id="structcutlass_1_1Max_html"><div class="ttname"><a href="structcutlass_1_1Max.html">cutlass::Max</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:161</div></div>
 <div class="ttc" id="structcutlass_1_1sqrt__est_html_abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964"><div class="ttname"><a href="structcutlass_1_1sqrt__est.html#abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964">cutlass::sqrt_est::value</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:82</div></div>
 <div class="ttc" id="namespacecutlass_html_a38481ebfe13bc199aa621ceecfa016b8"><div class="ttname"><a href="namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8">cutlass::gcd</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE value_t gcd(value_t a, value_t b)</div><div class="ttdef"><b>Definition:</b> cutlass_math.h:112</div></div>
 <div class="ttc" id="structcutlass_1_1divide__assert_html"><div class="ttname"><a href="structcutlass_1_1divide__assert.html">cutlass::divide_assert</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:90</div></div>
 <div class="ttc" id="structcutlass_1_1log2__up_html"><div class="ttname"><a href="structcutlass_1_1log2__up.html">cutlass::log2_up</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:66</div></div>
+<div class="ttc" id="namespacecutlass_html_a6bc666acc9f0d7278a788975e226e005"><div class="ttname"><a href="namespacecutlass.html#a6bc666acc9f0d7278a788975e226e005">cutlass::clz</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE value_t clz(value_t x)</div><div class="ttdef"><b>Definition:</b> cutlass_math.h:137</div></div>
 <div class="ttc" id="structcutlass_1_1is__pow2_html"><div class="ttname"><a href="structcutlass_1_1is__pow2.html">cutlass::is_pow2</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:45</div></div>
+<div class="ttc" id="structcutlass_1_1Max_html_a6ed8be7ed855eea8f8d08921f7b5d763"><div class="ttname"><a href="structcutlass_1_1Max.html#a6ed8be7ed855eea8f8d08921f7b5d763">cutlass::Max::kValue</a></div><div class="ttdeci">static int const kValue</div><div class="ttdef"><b>Definition:</b> cutlass_math.h:162</div></div>
 <div class="ttc" id="structcutlass_1_1sqrt__est_html"><div class="ttname"><a href="structcutlass_1_1sqrt__est.html">cutlass::sqrt_est</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:81</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/debug_8h.html b/docs/debug_8h.html
index 1f88396ab8..81ed9f3ca6 100644
--- a/docs/debug_8h.html
+++ b/docs/debug_8h.html
@@ -231,7 +231,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a002632ff687c83cff0484476
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/debug_8h_source.html b/docs/debug_8h_source.html
index 881b4e3f05..c404b41106 100644
--- a/docs/debug_8h_source.html
+++ b/docs/debug_8h_source.html
@@ -81,7 +81,7 @@
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/dgemm__traits_8h.html b/docs/dgemm__traits_8h.html
index eebc2f364c..ac6d33b0cb 100644
--- a/docs/dgemm__traits_8h.html
+++ b/docs/dgemm__traits_8h.html
@@ -82,21 +82,21 @@
 
 <p>Defines structural traits of double-precision GEMM.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="gemm_8h_source.html">cutlass/gemm/gemm.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__epilogue_8h_source.html">cutlass/gemm/gemm_epilogue.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__epilogue__traits_8h_source.html">cutlass/gemm/gemm_epilogue_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__traits_8h_source.html">cutlass/gemm/gemm_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="thread__multiply__add_8h_source.html">cutlass/gemm/thread_multiply_add.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="gemm_8h_source.html">cutlass/gemm/gemm.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__epilogue_8h_source.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__epilogue__traits_8h_source.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__traits_8h_source.html">cutlass/gemm/gemm_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="thread__multiply__add_8h_source.html">cutlass/gemm/thread_multiply_add.h</a>&quot;</code><br />
 </div>
 <p><a href="dgemm__traits_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html">cutlass::gemm::DgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html">cutlass::gemm::DgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html">cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html">cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -109,7 +109,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/dgemm__traits_8h_source.html b/docs/dgemm__traits_8h_source.html
index 9cf2c8738a..d7cdbe5295 100644
--- a/docs/dgemm__traits_8h_source.html
+++ b/docs/dgemm__traits_8h_source.html
@@ -76,26 +76,26 @@
 <div class="title">dgemm_traits.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="dgemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="thread__multiply__add_8h.html">cutlass/gemm/thread_multiply_add.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerThread_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1&gt;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1DgemmConfig.html">   52</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1DgemmConfig.html">DgemmConfig</a></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;          double,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;          double,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;          double,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;          double,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;          OutputTile_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;          ThreadMultiplyAdd&lt;AccumulatorsPerThread_, Shape&lt;1, 4, 8&gt;, double, double, double&gt;,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;          kScalarsPerLdgA_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;          kScalarsPerLdgA_,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;          2,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;          kScalarsPerLdgB_,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;          kScalarsPerLdgB_,</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;          2,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;          1,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;          2,</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;          1,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;          2&gt; {};</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    <span class="keyword">typename</span> OutputTile_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 64, 128&gt;</a>,</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling&lt;double&gt;</a>,</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerThread_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 8, 8&gt;</a>,</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1,</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    <span class="keyword">typename</span> GemmConfig_ =</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1DgemmConfig.html">DgemmConfig&lt;OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_&gt;</a>,</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    <span class="keyword">typename</span> GemmEpilogueTraits_ =</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits&lt;GemmConfig_, EpilogueFunctor_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1DgemmTraits.html">  112</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1DgemmTraits.html">DgemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a>&lt;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                         <span class="comment">// The layout for A.</span></div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;                         kLayoutA_,</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;                         <span class="comment">// The layout for B.</span></div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;                         kLayoutB_,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;                         <span class="comment">// The config.</span></div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;                         GemmConfig_,</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;                         <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;                         GemmEpilogue&lt;GemmEpilogueTraits_&gt;,</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;                         <span class="comment">// The index.</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;                         Index_&gt; {};</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<a href="dgemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="thread__multiply__add_8h.html">cutlass/gemm/thread_multiply_add.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1&gt;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1DgemmConfig.html">   52</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1DgemmConfig.html">DgemmConfig</a></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;          double,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;          double,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;          double,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;          double,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;          OutputTile_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;          ThreadMultiplyAdd&lt;ThreadGemmShape_, Shape&lt;1, 4, 8&gt;, double, double, double&gt;,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;          kScalarsPerLdgA_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;          kScalarsPerLdgA_,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;          2,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;          kScalarsPerLdgB_,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;          kScalarsPerLdgB_,</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;          2,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;          1,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;          2,</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;          1,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;          2,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;          false,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;          false,</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;          false</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;          &gt;{};</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    <span class="keyword">typename</span> OutputTile_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 64, 128&gt;</a>,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling&lt;double&gt;</a>,</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 8, 8&gt;</a>,</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    <span class="keyword">typename</span> GemmConfig_ =</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1DgemmConfig.html">DgemmConfig&lt;OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_&gt;</a>,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    <span class="keyword">typename</span> GemmEpilogueTraits_ =</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits&lt;GemmConfig_, EpilogueFunctor_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1DgemmTraits.html">  119</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1DgemmTraits.html">DgemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a>&lt;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;                         <span class="comment">// The layout for A.</span></div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;                         kLayoutA_,</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;                         <span class="comment">// The layout for B.</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;                         kLayoutB_,</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;                         <span class="comment">// The config.</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;                         GemmConfig_,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;                         <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;                         GemmEpilogue&lt;GemmEpilogueTraits_&gt;,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                         <span class="comment">// The index.</span></div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;                         Index_&gt; {};</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="gemm__global__tile_8h_html"><div class="ttname"><a href="gemm__global__tile_8h.html">gemm_global_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing to global memory. </div></div>
 <div class="ttc" id="gemm__traits_8h_html"><div class="ttname"><a href="gemm__traits_8h.html">gemm_traits.h</a></div><div class="ttdoc">Defines structural properties of complete GEMM computation. </div></div>
 <div class="ttc" id="thread__multiply__add_8h_html"><div class="ttname"><a href="thread__multiply__add_8h.html">thread_multiply_add.h</a></div><div class="ttdoc">Template implementing matrix multiply-add operations on fragments. </div></div>
 <div class="ttc" id="gemm__epilogue_8h_html"><div class="ttname"><a href="gemm__epilogue_8h.html">gemm_epilogue.h</a></div><div class="ttdoc">Implements the epilogue phase of the GEMM kernel that efficiently updates global memory with the comp...</div></div>
 <div class="ttc" id="gemm__shared__tile_8h_html"><div class="ttname"><a href="gemm__shared__tile_8h.html">gemm_shared_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing tiles to and from shared memory. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:79</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1DgemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1DgemmTraits.html">cutlass::gemm::DgemmTraits</a></div><div class="ttdef"><b>Definition:</b> dgemm_traits.h:112</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_config.h:76</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1DgemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1DgemmTraits.html">cutlass::gemm::DgemmTraits</a></div><div class="ttdef"><b>Definition:</b> dgemm_traits.h:119</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1DgemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1DgemmConfig.html">cutlass::gemm::DgemmConfig</a></div><div class="ttdef"><b>Definition:</b> dgemm_traits.h:52</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">cutlass::gemm::SimplifiedGemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:300</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:40</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">cutlass::gemm::SimplifiedGemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:323</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:51</div></div>
 <div class="ttc" id="gemm_8h_html"><div class="ttname"><a href="gemm_8h.html">gemm.h</a></div><div class="ttdoc">Implements a software-pipelined efficient GEMM. </div></div>
 <div class="ttc" id="gemm__epilogue__traits_8h_html"><div class="ttname"><a href="gemm__epilogue__traits_8h.html">gemm_epilogue_traits.h</a></div><div class="ttdoc">Defines structural properties of the GEMM epilogue. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">cutlass::gemm::SimplifiedGemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:723</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">cutlass::gemm::SimplifiedGemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:650</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/dir_1417ee5ebebc309c36b7962f26a92c39.html b/docs/dir_1417ee5ebebc309c36b7962f26a92c39.html
index d7393ef13f..6555e36cf4 100644
--- a/docs/dir_1417ee5ebebc309c36b7962f26a92c39.html
+++ b/docs/dir_1417ee5ebebc309c36b7962f26a92c39.html
@@ -101,15 +101,15 @@
 <tr class="memitem:fragment_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="fragment_8h.html">fragment.h</a> <a href="fragment_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:fragment_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines Fragment, a statically-sized array for storing parts of matrices within a thread's registers. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:fragment__load__store_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="fragment__load__store_8h.html">fragment_load_store.h</a> <a href="fragment__load__store_8h_source.html">[code]</a></td></tr>
-<tr class="memdesc:fragment__load__store_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines accessors for loading and storing fragments to memory efficiently. <br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:fragment__multiply__add_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="fragment__multiply__add_8h.html">fragment_multiply_add.h</a> <a href="fragment__multiply__add_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:fragment__multiply__add_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines multiply-add operations on fragments within a thread. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:iterator__access_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="iterator__access_8h.html">iterator_access.h</a> <a href="iterator__access_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:iterator__access_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Free functions for loading and storing to implementations of tile iteartor concepts. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:kernel__launch_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="kernel__launch_8h.html">kernel_launch.h</a> <a href="kernel__launch_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:kernel__launch_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines structures and helpers to launch CUDA kernels within CUTLASS. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:load__store_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="load__store_8h.html">load_store.h</a> <a href="load__store_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:load__store_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines abstractions for efficiently loading and storing vectors to memory. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -128,12 +128,24 @@
 <tr class="memitem:tensor__ref_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="tensor__ref_8h.html">tensor_ref.h</a> <a href="tensor__ref_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:tensor__ref_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines a structure containing strides, bounds, and a pointer to tensor data. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:tensor__ref__collection_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="tensor__ref__collection_8h.html">tensor_ref_collection.h</a> <a href="tensor__ref__collection_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:tensor__ref__collection_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Introduces TensorRefCollection concept and defines TensorRefBatch and TensorRefArray. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:tensor__view_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="tensor__view_8h.html">tensor_view.h</a> <a href="tensor__view_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:tensor__view_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines a structure containing strides and a pointer to tensor data. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:tile__allocation_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="tile__allocation_8h.html">tile_allocation.h</a> <a href="tile__allocation_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:tile__allocation_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines a fragment based on a Shape&lt;&gt; template. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:tile__coord_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="tile__coord_8h.html">tile_coord.h</a> <a href="tile__coord_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:tile__coord_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines a coordinate used for the CUTLASS 4-D tile structure. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:tile__iterator_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="tile__iterator_8h.html">tile_iterator.h</a> <a href="tile__iterator_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:tile__iterator_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:tile__stream_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="tile__stream_8h.html">tile_stream.h</a> <a href="tile__stream_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:tile__stream_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Implements the tile stream concept, composing an iterator with a transformation. Offers split-phase semantics, separating the initiation of an asynchronous memory operation with a fence forcing it to complete. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:tile__traits__standard_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="tile__traits__standard_8h.html">tile_traits_standard.h</a> <a href="tile__traits__standard_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:tile__traits__standard_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines tile traits for several tile partitioning arrangements of threads expected to achieve efficient streaming performance. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -143,11 +155,20 @@
 <tr class="memitem:wmma__matrix_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="wmma__matrix_8h.html">wmma_matrix.h</a> <a href="wmma__matrix_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:wmma__matrix_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Abstractions for loading and storing matrices using the CUDA WMMA API. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:zip__fragment_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="zip__fragment_8h.html">zip_fragment.h</a> <a href="zip__fragment_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:zip__fragment_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Models a pair of fragments. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:zip__tensor__ref_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="zip__tensor__ref_8h.html">zip_tensor_ref.h</a> <a href="zip__tensor__ref_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:zip__tensor__ref_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines a structure containing a pair of TensorRef-like objects. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:zip__tile__iterator_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="zip__tile__iterator_8h.html">zip_tile_iterator.h</a> <a href="zip__tile__iterator_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:zip__tile__iterator_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs an iterator that owns two tile iterator instances. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/dir_18d6a367a3982a494d65599933fc67a3.html b/docs/dir_18d6a367a3982a494d65599933fc67a3.html
index 161267475b..b606ad3e06 100644
--- a/docs/dir_18d6a367a3982a494d65599933fc67a3.html
+++ b/docs/dir_18d6a367a3982a494d65599933fc67a3.html
@@ -85,9 +85,24 @@
 <tr class="memitem:dgemm__traits_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="dgemm__traits_8h.html">dgemm_traits.h</a> <a href="dgemm__traits_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:dgemm__traits_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines structural traits of double-precision GEMM. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:fp16__sgemm__multiply__add_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="fp16__sgemm__multiply__add_8h.html">fp16_sgemm_multiply_add.h</a> <a href="fp16__sgemm__multiply__add_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:fp16__sgemm__multiply__add_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template implementing matrix multiply-add operations on fragments. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:fp16__sgemm__traits_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="fp16__sgemm__traits_8h.html">fp16_sgemm_traits.h</a> <a href="fp16__sgemm__traits_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:fp16__sgemm__traits_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defies structural properties of single-precision GEMM where any number of the input/output could be fp16 or fp32. The accumulator type stays in fp32. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:gemm_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gemm_8h.html">gemm.h</a> <a href="gemm_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:gemm_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Implements a software-pipelined efficient GEMM. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gemm__config_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gemm__config_8h.html">gemm_config.h</a> <a href="gemm__config_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:gemm__config_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines properties of GEMM computation that impose some constraints on caller. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gemm__coord_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gemm__coord_8h.html">gemm_coord.h</a> <a href="gemm__coord_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:gemm__coord_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">GemmCoord is a structure derived from <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> that specifies a location within the coordinate system of a GEMM problem. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gemm__desc_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gemm__desc_8h.html">gemm_desc.h</a> <a href="gemm__desc_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:gemm__desc_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Implements a software-pipelined efficient GEMM. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:gemm__epilogue_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gemm__epilogue_8h.html">gemm_epilogue.h</a> <a href="gemm__epilogue_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:gemm__epilogue_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Implements the epilogue phase of the GEMM kernel that efficiently updates global memory with the computed matrix product. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -109,6 +124,9 @@
 <tr class="memitem:gemm__shared__tile_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gemm__shared__tile_8h.html">gemm_shared_tile.h</a> <a href="gemm__shared__tile_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:gemm__shared__tile_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines iterators for efficiently loading and storing tiles to and from shared memory. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gemm__stream__pair_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gemm__stream__pair_8h.html">gemm_stream_pair.h</a> <a href="gemm__stream__pair_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:gemm__stream__pair_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines a pair of GEMM tile streams. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:gemm__traits_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="gemm__traits_8h.html">gemm_traits.h</a> <a href="gemm__traits_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:gemm__traits_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines structural properties of complete GEMM computation. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -124,9 +142,6 @@
 <tr class="memitem:hgemm__traits_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="hgemm__traits_8h.html">hgemm_traits.h</a> <a href="hgemm__traits_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:hgemm__traits_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defies structural properties of half-precision GEMM computation. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:identity__block__swizzle_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="identity__block__swizzle_8h.html">identity_block_swizzle.h</a> <a href="identity__block__swizzle_8h_source.html">[code]</a></td></tr>
-<tr class="memdesc:identity__block__swizzle_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defies functors for mapping blockIdx to partitions of the GEMM computation. <br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:igemm__epilogue_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="igemm__epilogue_8h.html">igemm_epilogue.h</a> <a href="igemm__epilogue_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:igemm__epilogue_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines the epilogue phase of the GEMM computation for IGEMM, supporting integer and floating-point output matrix formats. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -145,12 +160,21 @@
 <tr class="memitem:linear__scaling_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="linear__scaling_8h.html">linear_scaling.h</a> <a href="linear__scaling_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:linear__scaling_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Implements the BLAS linear scaling function alpha*AB + beta*C. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:linear__scaling__device__ptr_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="linear__scaling__device__ptr_8h.html">linear_scaling_device_ptr.h</a> <a href="linear__scaling__device__ptr_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:linear__scaling__device__ptr_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Implements the BLAS linear scaling function alpha*AB + beta*C. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:scalar__or__pointer_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="scalar__or__pointer_8h.html">scalar_or_pointer.h</a> <a href="scalar__or__pointer_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:scalar__or__pointer_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Implements the BLAS linear scaling function alpha*AB + beta*C. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:sgemm__traits_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="sgemm__traits_8h.html">sgemm_traits.h</a> <a href="sgemm__traits_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:sgemm__traits_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defies structural properties of single-precision GEMM. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:thread__multiply__add_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="thread__multiply__add_8h.html">thread_multiply_add.h</a> <a href="thread__multiply__add_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:thread__multiply__add_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template implementing matrix multiply-add operations on fragments. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:threadblock__swizzle_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="threadblock__swizzle_8h.html">threadblock_swizzle.h</a> <a href="threadblock__swizzle_8h_source.html">[code]</a></td></tr>
+<tr class="memdesc:threadblock__swizzle_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defies functors for mapping blockIdx to partitions of the GEMM computation. <br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:wmma__gemm__epilogue__traits_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="wmma__gemm__epilogue__traits_8h.html">wmma_gemm_epilogue_traits.h</a> <a href="wmma__gemm__epilogue__traits_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:wmma__gemm__epilogue__traits_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines structural properties of WMMA GEMM's epilogue phase. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -170,7 +194,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/dir_c5917a9a879e9a6c73eaf5237444ab84.html b/docs/dir_c5917a9a879e9a6c73eaf5237444ab84.html
index a66eb22fa5..9011cf40c0 100644
--- a/docs/dir_c5917a9a879e9a6c73eaf5237444ab84.html
+++ b/docs/dir_c5917a9a879e9a6c73eaf5237444ab84.html
@@ -79,12 +79,16 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="files"></a>
 Files</h2></td></tr>
+<tr class="memitem:complex_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="complex_8h.html">complex.h</a> <a href="complex_8h_source.html">[code]</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:cutlass__math_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="cutlass__math_8h.html">cutlass_math.h</a> <a href="cutlass__math_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:cutlass__math_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Math utilities. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:debug_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="debug_8h.html">debug.h</a> <a href="debug_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:debug_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">Debugging and logging functionality. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:numeric__types_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="numeric__types_8h.html">numeric_types.h</a> <a href="numeric__types_8h_source.html">[code]</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:platform_8h"><td class="memItemLeft" align="right" valign="top">file &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="platform_8h.html">platform.h</a> <a href="platform_8h_source.html">[code]</a></td></tr>
 <tr class="memdesc:platform_8h"><td class="mdescLeft">&#160;</td><td class="mdescRight">C++ features that may be otherwise unimplemented for CUDA device functions. <br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -92,7 +96,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/files.html b/docs/files.html
index 2c06de5a89..1019520907 100644
--- a/docs/files.html
+++ b/docs/files.html
@@ -75,62 +75,79 @@
 <div class="textblock">Here is a list of all files with brief descriptions:</div><div class="directory">
 <table class="directory">
 <tr id="row_0_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="clear__accumulators_8h_source.html"><span class="icondoc"></span></a><a class="el" href="clear__accumulators_8h.html" target="_self">clear_accumulators.h</a></td><td class="desc">Defines abstractions for efficiently clearing accumulator tiles </td></tr>
-<tr id="row_1_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="convert_8h_source.html"><span class="icondoc"></span></a><a class="el" href="convert_8h.html" target="_self">convert.h</a></td><td class="desc">Defines conversion operations among Fragments of different base type </td></tr>
-<tr id="row_2_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="coord_8h_source.html"><span class="icondoc"></span></a><a class="el" href="coord_8h.html" target="_self">coord.h</a></td><td class="desc">A Coord is a coordinate of arbitrary rank into a tensor or matrix </td></tr>
-<tr id="row_3_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="core__io_8h_source.html"><span class="icondoc"></span></a><a class="el" href="core__io_8h.html" target="_self">core_io.h</a></td><td class="desc">Helpers for printing cutlass/core objects </td></tr>
-<tr id="row_4_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="cutlass_8h_source.html"><span class="icondoc"></span></a><a class="el" href="cutlass_8h.html" target="_self">cutlass.h</a></td><td class="desc">Basic include for CUTLASS macros </td></tr>
-<tr id="row_5_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="cutlass__math_8h_source.html"><span class="icondoc"></span></a><a class="el" href="cutlass__math_8h.html" target="_self">cutlass_math.h</a></td><td class="desc">Math utilities </td></tr>
-<tr id="row_6_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="debug_8h_source.html"><span class="icondoc"></span></a><a class="el" href="debug_8h.html" target="_self">debug.h</a></td><td class="desc">Debugging and logging functionality </td></tr>
-<tr id="row_7_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="dgemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="dgemm__traits_8h.html" target="_self">dgemm_traits.h</a></td><td class="desc">Defines structural traits of double-precision GEMM </td></tr>
-<tr id="row_8_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="fragment_8h_source.html"><span class="icondoc"></span></a><a class="el" href="fragment_8h.html" target="_self">fragment.h</a></td><td class="desc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread's registers </td></tr>
-<tr id="row_9_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="fragment__load__store_8h_source.html"><span class="icondoc"></span></a><a class="el" href="fragment__load__store_8h.html" target="_self">fragment_load_store.h</a></td><td class="desc">Defines accessors for loading and storing fragments to memory efficiently </td></tr>
-<tr id="row_10_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="fragment__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="fragment__multiply__add_8h.html" target="_self">fragment_multiply_add.h</a></td><td class="desc">Defines multiply-add operations on fragments within a thread </td></tr>
-<tr id="row_11_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm_8h.html" target="_self">gemm.h</a></td><td class="desc">Implements a software-pipelined efficient GEMM </td></tr>
-<tr id="row_12_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__epilogue_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__epilogue_8h.html" target="_self">gemm_epilogue.h</a></td><td class="desc">Implements the epilogue phase of the GEMM kernel that efficiently updates global memory with the computed matrix product </td></tr>
-<tr id="row_13_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__epilogue__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__epilogue__traits_8h.html" target="_self">gemm_epilogue_traits.h</a></td><td class="desc">Defines structural properties of the GEMM epilogue </td></tr>
-<tr id="row_14_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__global__stream_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__global__stream_8h.html" target="_self">gemm_global_stream.h</a></td><td class="desc">Implements efficient loading of the thread block-level tile from global memory and storing to shared memory </td></tr>
-<tr id="row_15_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__global__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__global__tile_8h.html" target="_self">gemm_global_tile.h</a></td><td class="desc">Defines iterators for efficiently loading and storing to global memory </td></tr>
-<tr id="row_16_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__operand_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__operand_8h.html" target="_self">gemm_operand.h</a></td><td class="desc">Defines constant expressions for mapping GEMM problem size and strides onto pitch-linear memory </td></tr>
-<tr id="row_17_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__shared__stream_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__shared__stream_8h.html" target="_self">gemm_shared_stream.h</a></td><td class="desc">Defines abstractions for managing loading and storing fragments to shared memory in the efficient GEMM pipeline </td></tr>
-<tr id="row_18_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__shared__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__shared__tile_8h.html" target="_self">gemm_shared_tile.h</a></td><td class="desc">Defines iterators for efficiently loading and storing tiles to and from shared memory </td></tr>
-<tr id="row_19_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__traits_8h.html" target="_self">gemm_traits.h</a></td><td class="desc">Defines structural properties of complete GEMM computation </td></tr>
-<tr id="row_20_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="hgemm__global__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="hgemm__global__tile_8h.html" target="_self">hgemm_global_tile.h</a></td><td class="desc">Tile traits used to construct global tile iterator for HGEMM. This is intended to partition the thread block-level tile into 2D subtiles loaded by the threads and facilitate memory accesses larger than 16 bits </td></tr>
-<tr id="row_21_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="hgemm__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="hgemm__multiply__add_8h.html" target="_self">hgemm_multiply_add.h</a></td><td class="desc">Specialization implementing multiply-add operation on half-precision floating point fragments </td></tr>
-<tr id="row_22_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="hgemm__swizzle_8h_source.html"><span class="icondoc"></span></a><a class="el" href="hgemm__swizzle_8h.html" target="_self">hgemm_swizzle.h</a></td><td class="desc">Transposes a tile of 16b elements. Used by HGEMM to construct a K-strided layout in shared memory for multiplicands </td></tr>
-<tr id="row_23_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="hgemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="hgemm__traits_8h.html" target="_self">hgemm_traits.h</a></td><td class="desc">Defies structural properties of half-precision GEMM computation </td></tr>
-<tr id="row_24_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="identity__block__swizzle_8h_source.html"><span class="icondoc"></span></a><a class="el" href="identity__block__swizzle_8h.html" target="_self">identity_block_swizzle.h</a></td><td class="desc">Defies functors for mapping blockIdx to partitions of the GEMM computation </td></tr>
-<tr id="row_25_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="igemm__epilogue_8h_source.html"><span class="icondoc"></span></a><a class="el" href="igemm__epilogue_8h.html" target="_self">igemm_epilogue.h</a></td><td class="desc">Defines the epilogue phase of the GEMM computation for IGEMM, supporting integer and floating-point output matrix formats </td></tr>
-<tr id="row_26_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="igemm__global__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="igemm__global__tile_8h.html" target="_self">igemm_global_tile.h</a></td><td class="desc">Implements tile iterators to partition the thread block tile into 2D subtiles and efficiently load each. Applies permute transformation to construct 'interleaved K-strided' data layout in which 4-element dot products from the same K index are arranged in consecutive locations within shared memory </td></tr>
-<tr id="row_27_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="igemm__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="igemm__multiply__add_8h.html" target="_self">igemm_multiply_add.h</a></td><td class="desc">Implements matrix multiply accumulate operation of 8-bit integer data using DP4A instruction </td></tr>
-<tr id="row_28_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="igemm__swizzle_8h_source.html"><span class="icondoc"></span></a><a class="el" href="igemm__swizzle_8h.html" target="_self">igemm_swizzle.h</a></td><td class="desc">Transposes a fragment of data containing packed 8-bit integer elements </td></tr>
-<tr id="row_29_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="igemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="igemm__traits_8h.html" target="_self">igemm_traits.h</a></td><td class="desc">Defies structural properties of mixed-precision integer GEMM. Multiplicands are assumed to be packed 8bit integers, accumulators are assumed to be 32b signed integers, and output formats vary </td></tr>
-<tr id="row_30_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="iterator__access_8h_source.html"><span class="icondoc"></span></a><a class="el" href="iterator__access_8h.html" target="_self">iterator_access.h</a></td><td class="desc">Free functions for loading and storing to implementations of tile iteartor concepts </td></tr>
-<tr id="row_31_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="linear__scaling_8h_source.html"><span class="icondoc"></span></a><a class="el" href="linear__scaling_8h.html" target="_self">linear_scaling.h</a></td><td class="desc">Implements the BLAS linear scaling function alpha*AB + beta*C </td></tr>
-<tr id="row_32_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="load__store_8h_source.html"><span class="icondoc"></span></a><a class="el" href="load__store_8h.html" target="_self">load_store.h</a></td><td class="desc">Defines abstractions for efficiently loading and storing vectors to memory </td></tr>
-<tr id="row_33_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="matrix__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="matrix__traits_8h.html" target="_self">matrix_traits.h</a></td><td class="desc">Defines properties of matrices used to denote layout and operands to GEMM kernels </td></tr>
-<tr id="row_34_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="platform_8h_source.html"><span class="icondoc"></span></a><a class="el" href="platform_8h.html" target="_self">platform.h</a></td><td class="desc">C++ features that may be otherwise unimplemented for CUDA device functions </td></tr>
-<tr id="row_35_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="predicate__vector_8h_source.html"><span class="icondoc"></span></a><a class="el" href="predicate__vector_8h.html" target="_self">predicate_vector.h</a></td><td class="desc">Defines container classes and iterators for managing a statically sized vector of boolean predicates </td></tr>
-<tr id="row_36_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="reshape__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="reshape__tile_8h.html" target="_self">reshape_tile.h</a></td><td class="desc">Defines a type for restructuring a tile </td></tr>
-<tr id="row_37_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="sgemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="sgemm__traits_8h.html" target="_self">sgemm_traits.h</a></td><td class="desc">Defies structural properties of single-precision GEMM </td></tr>
-<tr id="row_38_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="shape_8h_source.html"><span class="icondoc"></span></a><a class="el" href="shape_8h.html" target="_self">shape.h</a></td><td class="desc">Defines Shape implementing the Layout concept for representing a 4D hypercube of objects </td></tr>
-<tr id="row_39_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tensor__ref_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tensor__ref_8h.html" target="_self">tensor_ref.h</a></td><td class="desc">Defines a structure containing strides, bounds, and a pointer to tensor data </td></tr>
-<tr id="row_40_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tensor__view_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tensor__view_8h.html" target="_self">tensor_view.h</a></td><td class="desc">Defines a structure containing strides and a pointer to tensor data </td></tr>
-<tr id="row_41_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="thread__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="thread__multiply__add_8h.html" target="_self">thread_multiply_add.h</a></td><td class="desc">Template implementing matrix multiply-add operations on fragments </td></tr>
-<tr id="row_42_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tile__iterator_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tile__iterator_8h.html" target="_self">tile_iterator.h</a></td><td class="desc">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently </td></tr>
-<tr id="row_43_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tile__traits__standard_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tile__traits__standard_8h.html" target="_self">tile_traits_standard.h</a></td><td class="desc">Defines tile traits for several tile partitioning arrangements of threads expected to achieve efficient streaming performance </td></tr>
-<tr id="row_44_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="vector_8h_source.html"><span class="icondoc"></span></a><a class="el" href="vector_8h.html" target="_self">vector.h</a></td><td class="desc">Defines a 1D vector of elements held in the registers of each thread </td></tr>
-<tr id="row_45_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__gemm__epilogue__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__gemm__epilogue__traits_8h.html" target="_self">wmma_gemm_epilogue_traits.h</a></td><td class="desc">Defines structural properties of WMMA GEMM's epilogue phase </td></tr>
-<tr id="row_46_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__gemm__global__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__gemm__global__tile_8h.html" target="_self">wmma_gemm_global_tile.h</a></td><td class="desc">Defines tile iterator traits for loading thread block-level tile from global memory </td></tr>
-<tr id="row_47_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__gemm__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__gemm__multiply__add_8h.html" target="_self">wmma_gemm_multiply_add.h</a></td><td class="desc">Implements warp-level matrix multiply-accumulate operation using CUDA WMMA API </td></tr>
-<tr id="row_48_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__gemm__shared__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__gemm__shared__tile_8h.html" target="_self">wmma_gemm_shared_tile.h</a></td><td class="desc">Defines iterator traits for efficiently loading and storing fragment to and from shared memory, specialized for WMMA GEMM </td></tr>
-<tr id="row_49_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__gemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__gemm__traits_8h.html" target="_self">wmma_gemm_traits.h</a></td><td class="desc">Defies structural properties of GEMM targeting WMMA API in CUDA </td></tr>
-<tr id="row_50_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__matrix_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__matrix_8h.html" target="_self">wmma_matrix.h</a></td><td class="desc">Abstractions for loading and storing matrices using the CUDA WMMA API </td></tr>
+<tr id="row_1_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="complex_8h_source.html"><span class="icondoc"></span></a><a class="el" href="complex_8h.html" target="_self">complex.h</a></td><td class="desc"></td></tr>
+<tr id="row_2_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="convert_8h_source.html"><span class="icondoc"></span></a><a class="el" href="convert_8h.html" target="_self">convert.h</a></td><td class="desc">Defines conversion operations among Fragments of different base type </td></tr>
+<tr id="row_3_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="coord_8h_source.html"><span class="icondoc"></span></a><a class="el" href="coord_8h.html" target="_self">coord.h</a></td><td class="desc">A Coord is a coordinate of arbitrary rank into a tensor or matrix </td></tr>
+<tr id="row_4_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="core__io_8h_source.html"><span class="icondoc"></span></a><a class="el" href="core__io_8h.html" target="_self">core_io.h</a></td><td class="desc">Helpers for printing cutlass/core objects </td></tr>
+<tr id="row_5_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="cutlass_8h_source.html"><span class="icondoc"></span></a><a class="el" href="cutlass_8h.html" target="_self">cutlass.h</a></td><td class="desc">Basic include for CUTLASS macros </td></tr>
+<tr id="row_6_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="cutlass__math_8h_source.html"><span class="icondoc"></span></a><a class="el" href="cutlass__math_8h.html" target="_self">cutlass_math.h</a></td><td class="desc">Math utilities </td></tr>
+<tr id="row_7_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="debug_8h_source.html"><span class="icondoc"></span></a><a class="el" href="debug_8h.html" target="_self">debug.h</a></td><td class="desc">Debugging and logging functionality </td></tr>
+<tr id="row_8_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="dgemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="dgemm__traits_8h.html" target="_self">dgemm_traits.h</a></td><td class="desc">Defines structural traits of double-precision GEMM </td></tr>
+<tr id="row_9_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="fp16__sgemm__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="fp16__sgemm__multiply__add_8h.html" target="_self">fp16_sgemm_multiply_add.h</a></td><td class="desc">Template implementing matrix multiply-add operations on fragments </td></tr>
+<tr id="row_10_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="fp16__sgemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="fp16__sgemm__traits_8h.html" target="_self">fp16_sgemm_traits.h</a></td><td class="desc">Defies structural properties of single-precision GEMM where any number of the input/output could be fp16 or fp32. The accumulator type stays in fp32 </td></tr>
+<tr id="row_11_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="fragment_8h_source.html"><span class="icondoc"></span></a><a class="el" href="fragment_8h.html" target="_self">fragment.h</a></td><td class="desc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread's registers </td></tr>
+<tr id="row_12_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="fragment__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="fragment__multiply__add_8h.html" target="_self">fragment_multiply_add.h</a></td><td class="desc">Defines multiply-add operations on fragments within a thread </td></tr>
+<tr id="row_13_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm_8h.html" target="_self">gemm.h</a></td><td class="desc">Implements a software-pipelined efficient GEMM </td></tr>
+<tr id="row_14_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__config_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__config_8h.html" target="_self">gemm_config.h</a></td><td class="desc">Defines properties of GEMM computation that impose some constraints on caller </td></tr>
+<tr id="row_15_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__coord_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__coord_8h.html" target="_self">gemm_coord.h</a></td><td class="desc">GemmCoord is a structure derived from <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> that specifies a location within the coordinate system of a GEMM problem </td></tr>
+<tr id="row_16_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__desc_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__desc_8h.html" target="_self">gemm_desc.h</a></td><td class="desc">Implements a software-pipelined efficient GEMM </td></tr>
+<tr id="row_17_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__epilogue_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__epilogue_8h.html" target="_self">gemm_epilogue.h</a></td><td class="desc">Implements the epilogue phase of the GEMM kernel that efficiently updates global memory with the computed matrix product </td></tr>
+<tr id="row_18_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__epilogue__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__epilogue__traits_8h.html" target="_self">gemm_epilogue_traits.h</a></td><td class="desc">Defines structural properties of the GEMM epilogue </td></tr>
+<tr id="row_19_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__global__stream_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__global__stream_8h.html" target="_self">gemm_global_stream.h</a></td><td class="desc">Implements efficient loading of the thread block-level tile from global memory and storing to shared memory </td></tr>
+<tr id="row_20_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__global__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__global__tile_8h.html" target="_self">gemm_global_tile.h</a></td><td class="desc">Defines iterators for efficiently loading and storing to global memory </td></tr>
+<tr id="row_21_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__operand_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__operand_8h.html" target="_self">gemm_operand.h</a></td><td class="desc">Defines constant expressions for mapping GEMM problem size and strides onto pitch-linear memory </td></tr>
+<tr id="row_22_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__shared__stream_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__shared__stream_8h.html" target="_self">gemm_shared_stream.h</a></td><td class="desc">Defines abstractions for managing loading and storing fragments to shared memory in the efficient GEMM pipeline </td></tr>
+<tr id="row_23_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__shared__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__shared__tile_8h.html" target="_self">gemm_shared_tile.h</a></td><td class="desc">Defines iterators for efficiently loading and storing tiles to and from shared memory </td></tr>
+<tr id="row_24_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__stream__pair_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__stream__pair_8h.html" target="_self">gemm_stream_pair.h</a></td><td class="desc">Defines a pair of GEMM tile streams </td></tr>
+<tr id="row_25_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="gemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="gemm__traits_8h.html" target="_self">gemm_traits.h</a></td><td class="desc">Defines structural properties of complete GEMM computation </td></tr>
+<tr id="row_26_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="hgemm__global__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="hgemm__global__tile_8h.html" target="_self">hgemm_global_tile.h</a></td><td class="desc">Tile traits used to construct global tile iterator for HGEMM. This is intended to partition the thread block-level tile into 2D subtiles loaded by the threads and facilitate memory accesses larger than 16 bits </td></tr>
+<tr id="row_27_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="hgemm__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="hgemm__multiply__add_8h.html" target="_self">hgemm_multiply_add.h</a></td><td class="desc">Specialization implementing multiply-add operation on half-precision floating point fragments </td></tr>
+<tr id="row_28_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="hgemm__swizzle_8h_source.html"><span class="icondoc"></span></a><a class="el" href="hgemm__swizzle_8h.html" target="_self">hgemm_swizzle.h</a></td><td class="desc">Transposes a tile of 16b elements. Used by HGEMM to construct a K-strided layout in shared memory for multiplicands </td></tr>
+<tr id="row_29_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="hgemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="hgemm__traits_8h.html" target="_self">hgemm_traits.h</a></td><td class="desc">Defies structural properties of half-precision GEMM computation </td></tr>
+<tr id="row_30_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="igemm__epilogue_8h_source.html"><span class="icondoc"></span></a><a class="el" href="igemm__epilogue_8h.html" target="_self">igemm_epilogue.h</a></td><td class="desc">Defines the epilogue phase of the GEMM computation for IGEMM, supporting integer and floating-point output matrix formats </td></tr>
+<tr id="row_31_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="igemm__global__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="igemm__global__tile_8h.html" target="_self">igemm_global_tile.h</a></td><td class="desc">Implements tile iterators to partition the thread block tile into 2D subtiles and efficiently load each. Applies permute transformation to construct 'interleaved K-strided' data layout in which 4-element dot products from the same K index are arranged in consecutive locations within shared memory </td></tr>
+<tr id="row_32_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="igemm__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="igemm__multiply__add_8h.html" target="_self">igemm_multiply_add.h</a></td><td class="desc">Implements matrix multiply accumulate operation of 8-bit integer data using DP4A instruction </td></tr>
+<tr id="row_33_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="igemm__swizzle_8h_source.html"><span class="icondoc"></span></a><a class="el" href="igemm__swizzle_8h.html" target="_self">igemm_swizzle.h</a></td><td class="desc">Transposes a fragment of data containing packed 8-bit integer elements </td></tr>
+<tr id="row_34_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="igemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="igemm__traits_8h.html" target="_self">igemm_traits.h</a></td><td class="desc">Defies structural properties of mixed-precision integer GEMM. Multiplicands are assumed to be packed 8bit integers, accumulators are assumed to be 32b signed integers, and output formats vary </td></tr>
+<tr id="row_35_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="iterator__access_8h_source.html"><span class="icondoc"></span></a><a class="el" href="iterator__access_8h.html" target="_self">iterator_access.h</a></td><td class="desc">Free functions for loading and storing to implementations of tile iteartor concepts </td></tr>
+<tr id="row_36_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="kernel__launch_8h_source.html"><span class="icondoc"></span></a><a class="el" href="kernel__launch_8h.html" target="_self">kernel_launch.h</a></td><td class="desc">Defines structures and helpers to launch CUDA kernels within CUTLASS </td></tr>
+<tr id="row_37_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="linear__scaling_8h_source.html"><span class="icondoc"></span></a><a class="el" href="linear__scaling_8h.html" target="_self">linear_scaling.h</a></td><td class="desc">Implements the BLAS linear scaling function alpha*AB + beta*C </td></tr>
+<tr id="row_38_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="linear__scaling__device__ptr_8h_source.html"><span class="icondoc"></span></a><a class="el" href="linear__scaling__device__ptr_8h.html" target="_self">linear_scaling_device_ptr.h</a></td><td class="desc">Implements the BLAS linear scaling function alpha*AB + beta*C </td></tr>
+<tr id="row_39_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="load__store_8h_source.html"><span class="icondoc"></span></a><a class="el" href="load__store_8h.html" target="_self">load_store.h</a></td><td class="desc">Defines abstractions for efficiently loading and storing vectors to memory </td></tr>
+<tr id="row_40_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="matrix__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="matrix__traits_8h.html" target="_self">matrix_traits.h</a></td><td class="desc">Defines properties of matrices used to denote layout and operands to GEMM kernels </td></tr>
+<tr id="row_41_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="numeric__types_8h_source.html"><span class="icondoc"></span></a><a class="el" href="numeric__types_8h.html" target="_self">numeric_types.h</a></td><td class="desc"></td></tr>
+<tr id="row_42_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="platform_8h_source.html"><span class="icondoc"></span></a><a class="el" href="platform_8h.html" target="_self">platform.h</a></td><td class="desc">C++ features that may be otherwise unimplemented for CUDA device functions </td></tr>
+<tr id="row_43_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="predicate__vector_8h_source.html"><span class="icondoc"></span></a><a class="el" href="predicate__vector_8h.html" target="_self">predicate_vector.h</a></td><td class="desc">Defines container classes and iterators for managing a statically sized vector of boolean predicates </td></tr>
+<tr id="row_44_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="reshape__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="reshape__tile_8h.html" target="_self">reshape_tile.h</a></td><td class="desc">Defines a type for restructuring a tile </td></tr>
+<tr id="row_45_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="scalar__or__pointer_8h_source.html"><span class="icondoc"></span></a><a class="el" href="scalar__or__pointer_8h.html" target="_self">scalar_or_pointer.h</a></td><td class="desc">Implements the BLAS linear scaling function alpha*AB + beta*C </td></tr>
+<tr id="row_46_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="sgemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="sgemm__traits_8h.html" target="_self">sgemm_traits.h</a></td><td class="desc">Defies structural properties of single-precision GEMM </td></tr>
+<tr id="row_47_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="shape_8h_source.html"><span class="icondoc"></span></a><a class="el" href="shape_8h.html" target="_self">shape.h</a></td><td class="desc">Defines Shape implementing the Layout concept for representing a 4D hypercube of objects </td></tr>
+<tr id="row_48_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tensor__ref_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tensor__ref_8h.html" target="_self">tensor_ref.h</a></td><td class="desc">Defines a structure containing strides, bounds, and a pointer to tensor data </td></tr>
+<tr id="row_49_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tensor__ref__collection_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tensor__ref__collection_8h.html" target="_self">tensor_ref_collection.h</a></td><td class="desc">Introduces TensorRefCollection concept and defines TensorRefBatch and TensorRefArray </td></tr>
+<tr id="row_50_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tensor__view_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tensor__view_8h.html" target="_self">tensor_view.h</a></td><td class="desc">Defines a structure containing strides and a pointer to tensor data </td></tr>
+<tr id="row_51_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="thread__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="thread__multiply__add_8h.html" target="_self">thread_multiply_add.h</a></td><td class="desc">Template implementing matrix multiply-add operations on fragments </td></tr>
+<tr id="row_52_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="threadblock__swizzle_8h_source.html"><span class="icondoc"></span></a><a class="el" href="threadblock__swizzle_8h.html" target="_self">threadblock_swizzle.h</a></td><td class="desc">Defies functors for mapping blockIdx to partitions of the GEMM computation </td></tr>
+<tr id="row_53_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tile__allocation_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tile__allocation_8h.html" target="_self">tile_allocation.h</a></td><td class="desc">Defines a fragment based on a Shape&lt;&gt; template </td></tr>
+<tr id="row_54_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tile__coord_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tile__coord_8h.html" target="_self">tile_coord.h</a></td><td class="desc">Defines a coordinate used for the CUTLASS 4-D tile structure </td></tr>
+<tr id="row_55_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tile__iterator_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tile__iterator_8h.html" target="_self">tile_iterator.h</a></td><td class="desc">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently </td></tr>
+<tr id="row_56_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tile__stream_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tile__stream_8h.html" target="_self">tile_stream.h</a></td><td class="desc">Implements the tile stream concept, composing an iterator with a transformation. Offers split-phase semantics, separating the initiation of an asynchronous memory operation with a fence forcing it to complete </td></tr>
+<tr id="row_57_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="tile__traits__standard_8h_source.html"><span class="icondoc"></span></a><a class="el" href="tile__traits__standard_8h.html" target="_self">tile_traits_standard.h</a></td><td class="desc">Defines tile traits for several tile partitioning arrangements of threads expected to achieve efficient streaming performance </td></tr>
+<tr id="row_58_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="vector_8h_source.html"><span class="icondoc"></span></a><a class="el" href="vector_8h.html" target="_self">vector.h</a></td><td class="desc">Defines a 1D vector of elements held in the registers of each thread </td></tr>
+<tr id="row_59_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__gemm__epilogue__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__gemm__epilogue__traits_8h.html" target="_self">wmma_gemm_epilogue_traits.h</a></td><td class="desc">Defines structural properties of WMMA GEMM's epilogue phase </td></tr>
+<tr id="row_60_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__gemm__global__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__gemm__global__tile_8h.html" target="_self">wmma_gemm_global_tile.h</a></td><td class="desc">Defines tile iterator traits for loading thread block-level tile from global memory </td></tr>
+<tr id="row_61_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__gemm__multiply__add_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__gemm__multiply__add_8h.html" target="_self">wmma_gemm_multiply_add.h</a></td><td class="desc">Implements warp-level matrix multiply-accumulate operation using CUDA WMMA API </td></tr>
+<tr id="row_62_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__gemm__shared__tile_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__gemm__shared__tile_8h.html" target="_self">wmma_gemm_shared_tile.h</a></td><td class="desc">Defines iterator traits for efficiently loading and storing fragment to and from shared memory, specialized for WMMA GEMM </td></tr>
+<tr id="row_63_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__gemm__traits_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__gemm__traits_8h.html" target="_self">wmma_gemm_traits.h</a></td><td class="desc">Defies structural properties of GEMM targeting WMMA API in CUDA </td></tr>
+<tr id="row_64_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="wmma__matrix_8h_source.html"><span class="icondoc"></span></a><a class="el" href="wmma__matrix_8h.html" target="_self">wmma_matrix.h</a></td><td class="desc">Abstractions for loading and storing matrices using the CUDA WMMA API </td></tr>
+<tr id="row_65_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="zip__fragment_8h_source.html"><span class="icondoc"></span></a><a class="el" href="zip__fragment_8h.html" target="_self">zip_fragment.h</a></td><td class="desc">Models a pair of fragments </td></tr>
+<tr id="row_66_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="zip__tensor__ref_8h_source.html"><span class="icondoc"></span></a><a class="el" href="zip__tensor__ref_8h.html" target="_self">zip_tensor_ref.h</a></td><td class="desc">Defines a structure containing a pair of TensorRef-like objects </td></tr>
+<tr id="row_67_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a href="zip__tile__iterator_8h_source.html"><span class="icondoc"></span></a><a class="el" href="zip__tile__iterator_8h.html" target="_self">zip_tile_iterator.h</a></td><td class="desc">Constructs an iterator that owns two tile iterator instances </td></tr>
 </table>
 </div><!-- directory -->
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/fp16__sgemm__multiply__add_8h.html b/docs/fp16__sgemm__multiply__add_8h.html
new file mode 100644
index 0000000000..deff050ef5
--- /dev/null
+++ b/docs/fp16__sgemm__multiply__add_8h.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: fp16_sgemm_multiply_add.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">fp16_sgemm_multiply_add.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Template implementing matrix multiply-add operations on fragments.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="thread__multiply__add_8h_source.html">cutlass/gemm/thread_multiply_add.h</a>&quot;</code><br />
+</div>
+<p><a href="fp16__sgemm__multiply__add_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/fp16__sgemm__multiply__add_8h_source.html b/docs/fp16__sgemm__multiply__add_8h_source.html
new file mode 100644
index 0000000000..efac04637f
--- /dev/null
+++ b/docs/fp16__sgemm__multiply__add_8h_source.html
@@ -0,0 +1,107 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: fp16_sgemm_multiply_add.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">fp16_sgemm_multiply_add.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="fp16__sgemm__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="thread__multiply__add_8h.html">cutlass/gemm/thread_multiply_add.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> ThreadGemmShape_,</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_&gt;</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">   40</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt;ThreadGemmShape_, ThreadsPerWarp_, half, half, float&gt; {</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#afc7858e849a2967631761986512dbfb7">   42</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#afc7858e849a2967631761986512dbfb7">InstructionShape</a>;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">   44</a></span>&#160;  <span class="keyword">typedef</span> ThreadGemmShape_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">ThreadGemmShape</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a70e8444060c36afb41e5064b2fb18b42">   46</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">ThreadGemmShape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a70e8444060c36afb41e5064b2fb18b42">AccumulatorsPerThread</a>;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7">   48</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7">ThreadsPerWarp</a>;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a9a5632bb1891a33126d6170af72a3ae2">   50</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">ShapeMul&lt;ThreadGemmShape, ThreadsPerWarp&gt;::Shape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a9a5632bb1891a33126d6170af72a3ae2">AccumulatorsPerWarp</a>;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324">   52</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324">ScalarA</a>;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959">   54</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarA, AccumulatorsPerThread::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959">FragmentA</a>;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3">   56</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3">ScalarB</a>;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100">   58</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarB, AccumulatorsPerThread::kH&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100">FragmentB</a>;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">   60</a></span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">float</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">ScalarC</a>;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">   62</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarC, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW, 16&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">Accumulators</a>;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a0ab850304c3c6e73bcba321426ba93f9">   65</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a0ab850304c3c6e73bcba321426ba93f9">ThreadMultiplyAdd</a>() {}</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#ae0ea662652907b60140598dad777c5ab">   68</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#ae0ea662652907b60140598dad777c5ab">multiply_add</a>(<a class="code" href="structcutlass_1_1Fragment.html">FragmentA</a> <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">FragmentB</a> <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a> <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a>&amp; d) {</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; AccumulatorsPerThread::kH; ++j) {</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; AccumulatorsPerThread::kW; ++i) {</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;        d[j * AccumulatorsPerThread::kW + i] = <span class="keyword">static_cast&lt;</span><a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">ScalarC</a><span class="keyword">&gt;</span>(a[i]) * static_cast&lt;ScalarC&gt;(b[j]) + c[j * AccumulatorsPerThread::kW + i];</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;      }</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;    }</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  }</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;};</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_a0ab850304c3c6e73bcba321426ba93f9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a0ab850304c3c6e73bcba321426ba93f9">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ThreadMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE ThreadMultiplyAdd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_a8d74401ef0bfa076caad70669fb8d100"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::FragmentB</a></div><div class="ttdeci">Fragment&lt; ScalarB, AccumulatorsPerThread::kH &gt; FragmentB</div><div class="ttdoc">The fragment for B. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:58</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeMul_html_a8875fc5e861339f981360ed774e8cc94"><div class="ttname"><a href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">cutlass::ShapeMul::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD *B_::kD, A_::kH *B_::kH, A_::kW *B_::kW, A_::kC *B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:119</div></div>
+<div class="ttc" id="structcutlass_1_1Fragment_html"><div class="ttname"><a href="structcutlass_1_1Fragment.html">cutlass::Fragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:99</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_a9a5632bb1891a33126d6170af72a3ae2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a9a5632bb1891a33126d6170af72a3ae2">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::AccumulatorsPerWarp</a></div><div class="ttdeci">ShapeMul&lt; ThreadGemmShape, ThreadsPerWarp &gt;::Shape AccumulatorsPerWarp</div><div class="ttdoc">The number of accumulators per warp. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:50</div></div>
+<div class="ttc" id="thread__multiply__add_8h_html"><div class="ttname"><a href="thread__multiply__add_8h.html">thread_multiply_add.h</a></div><div class="ttdoc">Template implementing matrix multiply-add operations on fragments. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_a8bbf1a5eac01585438c639da0e40e5c8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ThreadGemmShape</a></div><div class="ttdeci">ThreadGemmShape_ ThreadGemmShape</div><div class="ttdoc">The shape of a thread-leveel matrix multiply accumulate. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_ae0ea662652907b60140598dad777c5ab"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#ae0ea662652907b60140598dad777c5ab">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:68</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_a4f4a40f3e77a7c36425449fa97bf2324"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ScalarA</a></div><div class="ttdeci">half ScalarA</div><div class="ttdoc">The type for A. specialized to half. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_a3f4a2d052e6701f5d0ff950a850eabe3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ScalarB</a></div><div class="ttdeci">half ScalarB</div><div class="ttdoc">The type for B. specialized to half. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:56</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_aea4b928b0cfd4082e93851104838c5d7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The number of threads per warp. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_abe217e2e1a21b9f7cff5bb0a56bfa959"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::FragmentA</a></div><div class="ttdeci">Fragment&lt; ScalarA, AccumulatorsPerThread::kW &gt; FragmentA</div><div class="ttdoc">The fragment for A. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:54</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_a726556cb28d1515c89ac841f1140c781"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ScalarC</a></div><div class="ttdeci">float ScalarC</div><div class="ttdoc">The type for C and D. specialized to float. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_af197d64d806795a1d88d1833e5f3ac89"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::Accumulators</a></div><div class="ttdeci">Fragment&lt; ScalarC, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW, 16 &gt; Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_a70e8444060c36afb41e5064b2fb18b42"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a70e8444060c36afb41e5064b2fb18b42">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::AccumulatorsPerThread</a></div><div class="ttdeci">ThreadGemmShape AccumulatorsPerThread</div><div class="ttdoc">Aliased to &quot;AccumulatorsPerThread&quot; for compatibility. Expect to be renamed in CUTLASS v2...</div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:44</div></div>
+<div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4_html_afc7858e849a2967631761986512dbfb7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#afc7858e849a2967631761986512dbfb7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::InstructionShape</a></div><div class="ttdeci">Shape&lt; 1, 1, 1, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> fp16_sgemm_multiply_add.h:42</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/fp16__sgemm__traits_8h.html b/docs/fp16__sgemm__traits_8h.html
new file mode 100644
index 0000000000..0691fbbfcf
--- /dev/null
+++ b/docs/fp16__sgemm__traits_8h.html
@@ -0,0 +1,117 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: fp16_sgemm_traits.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">fp16_sgemm_traits.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Defies structural properties of single-precision GEMM where any number of the input/output could be fp16 or fp32. The accumulator type stays in fp32.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="gemm_8h_source.html">cutlass/gemm/gemm.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__epilogue_8h_source.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__epilogue__traits_8h_source.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__traits_8h_source.html">cutlass/gemm/gemm_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fp16__sgemm__multiply__add_8h_source.html">cutlass/gemm/fp16_sgemm_multiply_add.h</a>&quot;</code><br />
+</div>
+<p><a href="fp16__sgemm__traits_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html">cutlass::gemm::Fp16SgemmConfig&lt; OutputTile_, ThreadGemmShape_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html">cutlass::gemm::Fp16SgemmSgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, Scalar_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/fp16__sgemm__traits_8h_source.html b/docs/fp16__sgemm__traits_8h_source.html
new file mode 100644
index 0000000000..b5f94457fe
--- /dev/null
+++ b/docs/fp16__sgemm__traits_8h_source.html
@@ -0,0 +1,104 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: fp16_sgemm_traits.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">fp16_sgemm_traits.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="fp16__sgemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fp16__sgemm__multiply__add_8h.html">cutlass/gemm/fp16_sgemm_multiply_add.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_,</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;    <span class="keyword">typename</span> ScalarA_,</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;    <span class="keyword">typename</span> ScalarB_,</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    <span class="keyword">typename</span> ScalarC_,</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    <span class="keyword">typename</span> ScalarD_,</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1&gt;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html">   61</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html">Fp16SgemmConfig</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;                         ScalarA_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;                         ScalarB_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;                         ScalarC_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;                         ScalarD_,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                         OutputTile_,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                         ThreadMultiplyAdd&lt;ThreadGemmShape_, Shape&lt;1, 4, 8&gt;, ScalarA_, ScalarB_, float <span class="comment">/*for sgemm accum is float*/</span>&gt;,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;                         kScalarsPerLdgA_,</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;                         kScalarsPerLdgA_,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;                         4,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;                         kScalarsPerLdgB_,</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;                         kScalarsPerLdgB_,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;                         4,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;                         1,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;                         4,</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;                         1,</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;                         2&gt; {};</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <span class="keyword">typename</span> OutputTile_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 128, 128&gt;</a>,</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    <span class="keyword">typename</span> ScalarA_ = half,</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    <span class="keyword">typename</span> ScalarB_ = half,</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;    <span class="keyword">typename</span> ScalarC_ = half,</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;    <span class="keyword">typename</span> ScalarD_ = half,</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;    <span class="keyword">typename</span> Scalar_ = half,</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a>&lt;Scalar_, <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a>&lt;Scalar_, <span class="keywordtype">float</span><span class="comment">/*accumulator type*/</span>&gt; &gt;,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 8, 8&gt;</a>,</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1,</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;    <span class="keyword">typename</span> GemmConfig_ =</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html">Fp16SgemmConfig</a>&lt;OutputTile_, </div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;                        ThreadGemmShape_, </div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                        ScalarA_,</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;                        ScalarB_,</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;                        ScalarC_,</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;                        ScalarD_,</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;                        kScalarsPerLdgA_, </div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;                        kScalarsPerLdgB_&gt;,</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;    <span class="keyword">typename</span> GemmEpilogueTraits_ =</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits&lt;GemmConfig_, EpilogueFunctor_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html">  137</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html">Fp16SgemmSgemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a>&lt;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;                         <span class="comment">// The layout for A.</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;                         kLayoutA_,</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;                         <span class="comment">// The layout for B.</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;                         kLayoutB_,</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;                         <span class="comment">// The config.</span></div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;                         GemmConfig_,</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;                         <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;                         GemmEpilogue&lt;GemmEpilogueTraits_&gt;,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;                         <span class="comment">// The index.</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;                         Index_&gt; {};</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="gemm__global__tile_8h_html"><div class="ttname"><a href="gemm__global__tile_8h.html">gemm_global_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing to global memory. </div></div>
+<div class="ttc" id="gemm__traits_8h_html"><div class="ttname"><a href="gemm__traits_8h.html">gemm_traits.h</a></div><div class="ttdoc">Defines structural properties of complete GEMM computation. </div></div>
+<div class="ttc" id="gemm__epilogue_8h_html"><div class="ttname"><a href="gemm__epilogue_8h.html">gemm_epilogue.h</a></div><div class="ttdoc">Implements the epilogue phase of the GEMM kernel that efficiently updates global memory with the comp...</div></div>
+<div class="ttc" id="gemm__shared__tile_8h_html"><div class="ttname"><a href="gemm__shared__tile_8h.html">gemm_shared_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing tiles to and from shared memory. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_config.h:76</div></div>
+<div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">cutlass::gemm::SimplifiedGemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:323</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Fp16SgemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html">cutlass::gemm::Fp16SgemmConfig</a></div><div class="ttdef"><b>Definition:</b> fp16_sgemm_traits.h:61</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="fp16__sgemm__multiply__add_8h_html"><div class="ttname"><a href="fp16__sgemm__multiply__add_8h.html">fp16_sgemm_multiply_add.h</a></div><div class="ttdoc">Template implementing matrix multiply-add operations on fragments. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:51</div></div>
+<div class="ttc" id="gemm_8h_html"><div class="ttname"><a href="gemm_8h.html">gemm.h</a></div><div class="ttdoc">Implements a software-pipelined efficient GEMM. </div></div>
+<div class="ttc" id="gemm__epilogue__traits_8h_html"><div class="ttname"><a href="gemm__epilogue__traits_8h.html">gemm_epilogue_traits.h</a></div><div class="ttdoc">Defines structural properties of the GEMM epilogue. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html">cutlass::gemm::Fp16SgemmSgemmTraits</a></div><div class="ttdef"><b>Definition:</b> fp16_sgemm_traits.h:137</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">cutlass::gemm::SimplifiedGemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:650</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a></div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:41</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/fragment_8h.html b/docs/fragment_8h.html
index d97ac7b5a8..687dfdc86b 100644
--- a/docs/fragment_8h.html
+++ b/docs/fragment_8h.html
@@ -83,15 +83,15 @@
 <p>Defines Fragment, a statically-sized array for storing parts of matrices within a thread's registers.  
 <a href="#details">More...</a></p>
 <div class="textblock"><code>#include &lt;assert.h&gt;</code><br />
-<code>#include &lt;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="cutlass__math_8h_source.html">cutlass/util/cutlass_math.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&gt;</code><br />
+<code>#include &quot;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cutlass__math_8h_source.html">cutlass/util/cutlass_math.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&quot;</code><br />
 </div>
 <p><a href="fragment_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1StorageType.html">cutlass::StorageType&lt; kAlignment_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1StorageType.html">cutlass::StorageType&lt; alignment &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1StorageType_3_014_01_4.html">cutlass::StorageType&lt; 4 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -116,7 +116,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/fragment_8h_source.html b/docs/fragment_8h_source.html
index 8006bbbdf4..f7d2365654 100644
--- a/docs/fragment_8h_source.html
+++ b/docs/fragment_8h_source.html
@@ -76,64 +76,66 @@
 <div class="title">fragment.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="fragment_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;assert.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="cutlass__math_8h.html">cutlass/util/cutlass_math.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kAlignment_&gt;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType.html">   76</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1StorageType.html">StorageType</a> {</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06">   77</a></span>&#160;  <span class="keyword">typedef</span> uint64_t <a class="code" href="structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06">Type</a>;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;};</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_014_01_4.html">   80</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>&lt;4&gt; {</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807">   81</a></span>&#160;  <span class="keyword">typedef</span> uint32_t <a class="code" href="structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807">Type</a>;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;};</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_012_01_4.html">   84</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>&lt;2&gt; {</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4">   85</a></span>&#160;  <span class="keyword">typedef</span> uint16_t <a class="code" href="structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4">Type</a>;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;};</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_011_01_4.html">   88</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>&lt;1&gt; {</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4">   89</a></span>&#160;  <span class="keyword">typedef</span> uint8_t <a class="code" href="structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4">Type</a>;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;};</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Element_, <span class="keywordtype">int</span> kElements_, <span class="keywordtype">size_t</span> kAlignment_ = 16&gt;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html">   99</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;kAlignment_&gt; {</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95">  101</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(kAlignment_ == 16 || kAlignment_ &gt;= <span class="keyword">sizeof</span>(Element_), <span class="stringliteral">&quot;Alignment is too small&quot;</span>);</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="structcutlass_1_1is__pow2.html">is_pow2&lt;kAlignment_&gt;::value</a>, <span class="stringliteral">&quot;Alignment must be a power of two&quot;</span>);</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;Element_, kElements_&gt;</a> <a class="code" href="structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95">This_</a>;</div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">  108</a></span>&#160;  <span class="keyword">typedef</span> Element_ <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">  110</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> = kElements_;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a29e7408fcde8cdf9de5e3a10eaa46391">  113</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Fragment.html#a29e7408fcde8cdf9de5e3a10eaa46391">clear</a>() {</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    <span class="comment">// Avoid element-wise access for sub 32b element type</span></div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    <span class="keywordflow">if</span> (kAlignment_ &gt;= 8 &amp;&amp; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) % 8 == 0) {</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;      uint64_t* ptr = <span class="keyword">reinterpret_cast&lt;</span>uint64_t*<span class="keyword">&gt;</span>(storage);</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) / 8; ++i) {</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;        ptr[i] = uint64_t(0);</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      }</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (kAlignment_ &gt;= 4 &amp;&amp; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) % 4 == 0) {</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;      uint32_t* ptr = <span class="keyword">reinterpret_cast&lt;</span>uint32_t*<span class="keyword">&gt;</span>(storage);</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) / 4; ++i) {</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;        ptr[i] = uint32_t(0);</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;      }</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;    } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (kAlignment_ &gt;= 2 &amp;&amp; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) % 2 == 0) {</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;      uint16_t* ptr = <span class="keyword">reinterpret_cast&lt;</span>uint16_t*<span class="keyword">&gt;</span>(storage);</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) / 2; ++i) {</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;        ptr[i] = uint16_t(0);</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;      }</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a>; ++i) {</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;        storage[i] = 0;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;      }</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    }</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  }</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a99fef5f3093b2df50905ab13819b67a0">  138</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>&amp; <a class="code" href="structcutlass_1_1Fragment.html#a99fef5f3093b2df50905ab13819b67a0">operator[]</a>(<span class="keywordtype">int</span> i) {</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    assert(i &lt; kElements_);</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>*<span class="keyword">&gt;</span>(storage)[i];</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;  }</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a75f51bb6ca84615076aab42ac9d42592">  144</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1Fragment.html#a75f51bb6ca84615076aab42ac9d42592">operator[]</a>(<span class="keywordtype">int</span> i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;    assert(i &lt; kElements_);</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> const*<span class="keyword">&gt;</span>(storage)[i];</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  }</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06">StorageType&lt;kAlignment_&gt;::Type</a> <a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kStorageCount =</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      (<span class="keyword">sizeof</span>(Element_) * kElements_ + <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>) - 1) / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>);</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;  <a class="code" href="structcutlass_1_1StorageType.html">StorageType</a> storage[kStorageCount];</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>) &lt;= kAlignment_, <span class="stringliteral">&quot;StorageType is too big for given alignment&quot;</span>);</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;};</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_, <span class="keyword">typename</span> Iterations_, <span class="keyword">typename</span> AccessType_&gt;</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html">  170</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1FragmentIterator.html">FragmentIterator</a> {</div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369">  172</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1FragmentIterator.html">FragmentIterator&lt;Fragment_, Iterations_, AccessType_&gt;</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369">This_</a>;</div><div class="line"><a name="l00174"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808">  174</a></span>&#160;  <span class="keyword">typedef</span> Fragment_ <a class="code" href="structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808">Fragment</a>;</div><div class="line"><a name="l00176"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0">  176</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0">Iterations</a>;</div><div class="line"><a name="l00178"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">  178</a></span>&#160;  <span class="keyword">typedef</span> AccessType_ <a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;</div><div class="line"><a name="l00181"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">  181</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Fragment::Element</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">Element</a>;</div><div class="line"><a name="l00183"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">  183</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">kElementsPerAccess</a> = (int)(<span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>) / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">Element</a>));</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">  185</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html">ShapeMul&lt;Iterations, Shape&lt;1, 1, 1, kElementsPerAccess&gt;</a> &gt;<a class="code" href="structcutlass_1_1Shape.html">::Shape</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentShape</a>;</div><div class="line"><a name="l00187"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a2858ba9a8a9bbaef1de73415cff9b3c1">  187</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">ShapeStrides&lt;FragmentShape&gt;::Shape</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#a2858ba9a8a9bbaef1de73415cff9b3c1">Strides</a>;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> OtherFragment_&gt;</div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#ae1825fe3e138e2aa62d27dab2b5227b4">  191</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1FragmentIterator.html#ae1825fe3e138e2aa62d27dab2b5227b4">FragmentIterator</a>(OtherFragment_&amp; fragment, <span class="keywordtype">int</span> offset = 0)</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;      : <a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>(reinterpret_cast&lt;<a class="code" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">Element</a>*&gt;(&amp;fragment[offset])) {</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;    <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(OtherFragment_::kElements &gt;= <a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">Fragment::kElements</a>, <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;  }</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;</div><div class="line"><a name="l00197"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a9cf31df06ff035705a1341810fcdcbf2">  197</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1FragmentIterator.html#a9cf31df06ff035705a1341810fcdcbf2">at</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c = 0)<span class="keyword"> const </span>{</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> imm = <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">ComputeOffsetFromStrides&lt;Strides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>[imm]);</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;  }</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a7bdc407aae8d7360e089af347b585a53">  203</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp; <a class="code" href="structcutlass_1_1FragmentIterator.html#a7bdc407aae8d7360e089af347b585a53">at</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c = 0) {</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> imm = <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">ComputeOffsetFromStrides&lt;Strides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>[imm]);</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  }</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;</div><div class="line"><a name="l00209"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a83bb6a3ed588e2d890bf986665d2b7bb">  209</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1FragmentIterator.html#a83bb6a3ed588e2d890bf986665d2b7bb">operator[]</a>(<span class="keywordtype">int</span> i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>[i * <a class="code" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">kElementsPerAccess</a>]);</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  }</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;</div><div class="line"><a name="l00214"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a3bd2a9d8467f8db02ca3a01ae0c11ad7">  214</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp; <a class="code" href="structcutlass_1_1FragmentIterator.html#a3bd2a9d8467f8db02ca3a01ae0c11ad7">operator[]</a>(<span class="keywordtype">int</span> i) {</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>[i * <a class="code" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">kElementsPerAccess</a>]);</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;  }</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;</div><div class="line"><a name="l00219"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#ab18f8ea676b45831f939715212167a99">  219</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1FragmentIterator.html#ab18f8ea676b45831f939715212167a99">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">true</span>; }</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">  222</a></span>&#160;  <a class="code" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">Element</a>* <a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;};</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_, <span class="keyword">typename</span> Iterations_, <span class="keyword">typename</span> AccessType_&gt;</div><div class="line"><a name="l00228"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html">  228</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1FragmentConstIterator.html">FragmentConstIterator</a> {</div><div class="line"><a name="l00230"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f">  230</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1FragmentIterator.html">FragmentIterator&lt;Fragment_, Iterations_, AccessType_&gt;</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f">This_</a>;</div><div class="line"><a name="l00232"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05">  232</a></span>&#160;  <span class="keyword">typedef</span> Fragment_ <a class="code" href="structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05">Fragment</a>;</div><div class="line"><a name="l00234"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2">  234</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2">Iterations</a>;</div><div class="line"><a name="l00236"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">  236</a></span>&#160;  <span class="keyword">typedef</span> AccessType_ <a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a>;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00239"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">  239</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Fragment::Element</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a>;</div><div class="line"><a name="l00241"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">  241</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">kElementsPerAccess</a> = (int)(<span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a>) / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a>));</div><div class="line"><a name="l00243"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">  243</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html">ShapeMul&lt;Iterations, Shape&lt;1, 1, 1, kElementsPerAccess&gt;</a> &gt;<a class="code" href="structcutlass_1_1Shape.html">::Shape</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">FragmentShape</a>;</div><div class="line"><a name="l00245"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#ab683796885f3bae3765efd96883f311b">  245</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">ShapeStrides&lt;FragmentShape&gt;::Shape</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#ab683796885f3bae3765efd96883f311b">IterationsStrides</a>;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> OtherFragment_&gt;</div><div class="line"><a name="l00249"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#ac4b6f351e6e72bed37e425f02a10c81e">  249</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1FragmentConstIterator.html#ac4b6f351e6e72bed37e425f02a10c81e">FragmentConstIterator</a>(OtherFragment_&amp; fragment, <span class="keywordtype">int</span> offset = 0)</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;      : <a class="code" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a>(reinterpret_cast&lt;<a class="code" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a> const*&gt;(&amp;fragment[offset])) {</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;    <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(OtherFragment_::kElements &gt;= <a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">Fragment::kElements</a>, <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;  }</div><div class="line"><a name="l00254"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a3a8fd8f13c157ed13dc93fd78036c59e">  254</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a3a8fd8f13c157ed13dc93fd78036c59e">FragmentConstIterator</a>(</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;      <a class="code" href="structcutlass_1_1FragmentIterator.html">FragmentIterator&lt;Fragment_, Iterations_, AccessType_&gt;</a> <span class="keyword">const</span>&amp; rhs_)</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;      : <a class="code" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a>(reinterpret_cast&lt;<a class="code" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a> const*&gt;(rhs_.offset)) {}</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div><div class="line"><a name="l00259"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a8b957150545becacab1b8ead1be29424">  259</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a8b957150545becacab1b8ead1be29424">at</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c = 0)<span class="keyword"> const </span>{</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> imm = <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">ComputeOffsetFromStrides&lt;IterationsStrides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a>[imm]);</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;  }</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;</div><div class="line"><a name="l00265"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#af16f2aa14ff424b038a393b683c4783e">  265</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1FragmentConstIterator.html#af16f2aa14ff424b038a393b683c4783e">operator[]</a>(<span class="keywordtype">int</span> i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a>[i * <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">kElementsPerAccess</a>]);</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;  }</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;</div><div class="line"><a name="l00270"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a01571b2fc566793fd50a10fa82441951">  270</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a01571b2fc566793fd50a10fa82441951">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">true</span>; }</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;</div><div class="line"><a name="l00273"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">  273</a></span>&#160;  <a class="code" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a> <span class="keyword">const</span>* <a class="code" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a>;</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;};</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1Fragment_html_a29e7408fcde8cdf9de5e3a10eaa46391"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a29e7408fcde8cdf9de5e3a10eaa46391">cutlass::Fragment::clear</a></div><div class="ttdeci">CUTLASS_DEVICE void clear()</div><div class="ttdoc">Clear a fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:113</div></div>
+<a href="fragment_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;assert.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass__math_8h.html">cutlass/util/cutlass_math.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> alignment&gt;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType.html">   76</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1StorageType.html">StorageType</a> {</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType.html#abb0d270cdf38d46347261cac36dc619b">   77</a></span>&#160;  <span class="keyword">typedef</span> uint64_t <a class="code" href="structcutlass_1_1StorageType.html#abb0d270cdf38d46347261cac36dc619b">Type</a>;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;};</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_014_01_4.html">   80</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>&lt;4&gt; {</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807">   81</a></span>&#160;  <span class="keyword">typedef</span> uint32_t <a class="code" href="structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807">Type</a>;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;};</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_012_01_4.html">   84</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>&lt;2&gt; {</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4">   85</a></span>&#160;  <span class="keyword">typedef</span> uint16_t <a class="code" href="structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4">Type</a>;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;};</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_011_01_4.html">   88</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>&lt;1&gt; {</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4">   89</a></span>&#160;  <span class="keyword">typedef</span> uint8_t <a class="code" href="structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4">Type</a>;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;};</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Element_, <span class="keywordtype">int</span> kElements_, <span class="keywordtype">size_t</span> kAlignment_ = 16&gt;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html">   99</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;kAlignment_&gt; {</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95">  101</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(kAlignment_ == 16 || kAlignment_ &gt;= <span class="keyword">sizeof</span>(Element_), <span class="stringliteral">&quot;Alignment is too small&quot;</span>);</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="structcutlass_1_1is__pow2.html">is_pow2&lt;kAlignment_&gt;::value</a>, <span class="stringliteral">&quot;Alignment must be a power of two&quot;</span>);</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;Element_, kElements_&gt;</a> <a class="code" href="structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95">This_</a>;</div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">  108</a></span>&#160;  <span class="keyword">typedef</span> Element_ <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">  110</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> = kElements_;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a84b6d68a5a24dbd04d842e0755b42bda">  112</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Fragment.html#a84b6d68a5a24dbd04d842e0755b42bda">kAlignment</a> = kAlignment_;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#acf28266500b87484530b2395925fca51">  115</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Fragment.html#acf28266500b87484530b2395925fca51">clear</a>() {</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <span class="comment">// Avoid element-wise access for sub 32b element type</span></div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    <span class="keywordflow">if</span> (kAlignment_ &gt;= 8 &amp;&amp; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) % 8 == 0) {</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;      uint64_t* ptr = <span class="keyword">reinterpret_cast&lt;</span>uint64_t*<span class="keyword">&gt;</span>(storage);</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) / 8; ++i) {</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;        ptr[i] = uint64_t(0);</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;      }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;    } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (kAlignment_ &gt;= 4 &amp;&amp; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) % 4 == 0) {</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;      uint32_t* ptr = <span class="keyword">reinterpret_cast&lt;</span>uint32_t*<span class="keyword">&gt;</span>(storage);</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) / 4; ++i) {</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;        ptr[i] = uint32_t(0);</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;      }</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;    } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (kAlignment_ &gt;= 2 &amp;&amp; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) % 2 == 0) {</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;      uint16_t* ptr = <span class="keyword">reinterpret_cast&lt;</span>uint16_t*<span class="keyword">&gt;</span>(storage);</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; (<a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>)) / 2; ++i) {</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;        ptr[i] = uint16_t(0);</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      }</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a>; ++i) {</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;        storage[i] = 0;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      }</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    }</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  }</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a77ba7cddf7822d64534b019c4ad9732e">  140</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>&amp; <a class="code" href="structcutlass_1_1Fragment.html#a77ba7cddf7822d64534b019c4ad9732e">operator[]</a>(<span class="keywordtype">int</span> i) { <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>*<span class="keyword">&gt;</span>(storage)[i]; }</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="structcutlass_1_1Fragment.html#a7795c5cf4d5626ff125abd5e8f156e9b">  143</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1Fragment.html#a7795c5cf4d5626ff125abd5e8f156e9b">operator[]</a>(<span class="keywordtype">int</span> i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> const*<span class="keyword">&gt;</span>(storage)[i];</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;  }</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1StorageType.html">StorageType&lt;kAlignment_&gt;::Type</a> <a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kStorageCount =</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      (<span class="keyword">sizeof</span>(Element_) * kElements_ + <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>) - 1) / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>);</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  <a class="code" href="structcutlass_1_1StorageType.html">StorageType</a> storage[kStorageCount];</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1StorageType.html">StorageType</a>) &lt;= kAlignment_, <span class="stringliteral">&quot;StorageType is too big for given alignment&quot;</span>);</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;};</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_, <span class="keyword">typename</span> Iterations_, <span class="keyword">typename</span> AccessType_&gt;</div><div class="line"><a name="l00168"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html">  168</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1FragmentIterator.html">FragmentIterator</a> {</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369">  170</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1FragmentIterator.html">FragmentIterator&lt;Fragment_, Iterations_, AccessType_&gt;</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369">This_</a>;</div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808">  172</a></span>&#160;  <span class="keyword">typedef</span> Fragment_ <a class="code" href="structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808">Fragment</a>;</div><div class="line"><a name="l00174"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0">  174</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0">Iterations</a>;</div><div class="line"><a name="l00176"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">  176</a></span>&#160;  <span class="keyword">typedef</span> AccessType_ <a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">  179</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Fragment::Element</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">Element</a>;</div><div class="line"><a name="l00181"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">  181</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">kElementsPerAccess</a> = (int)(<span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>) / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">Element</a>));</div><div class="line"><a name="l00183"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">  183</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html">ShapeMul&lt;Iterations, Shape&lt;1, 1, 1, kElementsPerAccess&gt;</a> &gt;<a class="code" href="structcutlass_1_1Shape.html">::Shape</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentShape</a>;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a2e93985d759d904ac858054eeaa9e50e">  185</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">ShapeStrides&lt;FragmentShape, kElementsPerAccess&gt;::Shape</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#a2e93985d759d904ac858054eeaa9e50e">Strides</a>;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> OtherFragment_&gt;</div><div class="line"><a name="l00189"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a638e4e1d84b4ae84e758288c7f37548b">  189</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#a638e4e1d84b4ae84e758288c7f37548b">FragmentIterator</a>(OtherFragment_&amp; fragment, <span class="keywordtype">int</span> offset = 0)</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;      : <a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>(reinterpret_cast&lt;<a class="code" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">Element</a>*&gt;(&amp;fragment[offset])) {</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;    <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(OtherFragment_::kElements &gt;= <a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">Fragment::kElements</a>, <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;  }</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;</div><div class="line"><a name="l00195"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a35b721563536ab2c5dbab0f5de1c2b43">  195</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1FragmentIterator.html#a35b721563536ab2c5dbab0f5de1c2b43">at</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c = 0)<span class="keyword"> const </span>{</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> imm = <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">ComputeOffsetFromStrides&lt;Strides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>[imm]);</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;  }</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#adb863b44dfbc1fa923625e767f6dd7cd">  201</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp; <a class="code" href="structcutlass_1_1FragmentIterator.html#adb863b44dfbc1fa923625e767f6dd7cd">at</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c = 0) {</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> imm = <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">ComputeOffsetFromStrides&lt;Strides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>[imm]);</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;  }</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;</div><div class="line"><a name="l00207"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a21877944988f34eb69cb6eefb00c6575">  207</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1FragmentIterator.html#a21877944988f34eb69cb6eefb00c6575">operator[]</a>(<span class="keywordtype">int</span> i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>[i * <a class="code" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">kElementsPerAccess</a>]);</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;  }</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00212"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#ad665745f3d6a3a88d7894fe0fc1bbd3e">  212</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp; <a class="code" href="structcutlass_1_1FragmentIterator.html#ad665745f3d6a3a88d7894fe0fc1bbd3e">operator[]</a>(<span class="keywordtype">int</span> i) {</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>[i * <a class="code" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">kElementsPerAccess</a>]);</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;  }</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#a8608dd815ed4906d8c82c41a10df23e2">  217</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1FragmentIterator.html#a8608dd815ed4906d8c82c41a10df23e2">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">true</span>; }</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;</div><div class="line"><a name="l00220"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">  220</a></span>&#160;  <a class="code" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">Element</a>* <a class="code" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a>;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;};</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_, <span class="keyword">typename</span> Iterations_, <span class="keyword">typename</span> AccessType_&gt;</div><div class="line"><a name="l00226"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html">  226</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1FragmentConstIterator.html">FragmentConstIterator</a> {</div><div class="line"><a name="l00228"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f">  228</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1FragmentIterator.html">FragmentIterator&lt;Fragment_, Iterations_, AccessType_&gt;</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f">This_</a>;</div><div class="line"><a name="l00230"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05">  230</a></span>&#160;  <span class="keyword">typedef</span> Fragment_ <a class="code" href="structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05">Fragment</a>;</div><div class="line"><a name="l00232"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2">  232</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2">Iterations</a>;</div><div class="line"><a name="l00234"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">  234</a></span>&#160;  <span class="keyword">typedef</span> AccessType_ <a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a>;</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">  237</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Fragment::Element</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a>;</div><div class="line"><a name="l00239"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">  239</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">kElementsPerAccess</a> = (int)(<span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a>) / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a>));</div><div class="line"><a name="l00241"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">  241</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html">ShapeMul&lt;Iterations, Shape&lt;1, 1, 1, kElementsPerAccess&gt;</a> &gt;<a class="code" href="structcutlass_1_1Shape.html">::Shape</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">FragmentShape</a>;</div><div class="line"><a name="l00243"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a14ef0a0095e391503a19067e146c584a">  243</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">ShapeStrides&lt;FragmentShape, kElementsPerAccess&gt;::Shape</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a14ef0a0095e391503a19067e146c584a">IterationsStrides</a>;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> OtherFragment_&gt;</div><div class="line"><a name="l00247"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#ad3e99cd7f56d4aec0a28cfcbde66f5af">  247</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#ad3e99cd7f56d4aec0a28cfcbde66f5af">FragmentConstIterator</a>(OtherFragment_&amp; fragment, <span class="keywordtype">int</span> offset = 0)</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      : <a class="code" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a>(reinterpret_cast&lt;<a class="code" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a> const*&gt;(&amp;fragment[offset])) {</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;    <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(OtherFragment_::kElements &gt;= <a class="code" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">Fragment::kElements</a>, <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;  }</div><div class="line"><a name="l00252"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a18f926c9c877e15a279f16637bd24e83">  252</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a18f926c9c877e15a279f16637bd24e83">FragmentConstIterator</a>(</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;      <a class="code" href="structcutlass_1_1FragmentIterator.html">FragmentIterator&lt;Fragment_, Iterations_, AccessType_&gt;</a> <span class="keyword">const</span>&amp; rhs_)</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;      : <a class="code" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a>(reinterpret_cast&lt;<a class="code" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a> const*&gt;(rhs_.offset)) {}</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;</div><div class="line"><a name="l00257"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a14f2ad2f9b90aea092ff1836e8fb159d">  257</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a14f2ad2f9b90aea092ff1836e8fb159d">at</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c = 0)<span class="keyword"> const </span>{</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> imm = <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">ComputeOffsetFromStrides&lt;IterationsStrides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a>[imm]);</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;  }</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;</div><div class="line"><a name="l00263"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#a6216b58ffe6322f037f1e0a3ffa714c8">  263</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a6216b58ffe6322f037f1e0a3ffa714c8">operator[]</a>(<span class="keywordtype">int</span> i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a>[i * <a class="code" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">kElementsPerAccess</a>]);</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;  }</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;</div><div class="line"><a name="l00268"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#ac4d601998a84a3eac23e3b7a7c8a935b">  268</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1FragmentConstIterator.html#ac4d601998a84a3eac23e3b7a7c8a935b">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">true</span>; }</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;</div><div class="line"><a name="l00271"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">  271</a></span>&#160;  <a class="code" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a> <span class="keyword">const</span>* <a class="code" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a>;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;};</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1Fragment_html_acf28266500b87484530b2395925fca51"><div class="ttname"><a href="structcutlass_1_1Fragment.html#acf28266500b87484530b2395925fca51">cutlass::Fragment::clear</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void clear()</div><div class="ttdoc">Clear a fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:115</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a8608dd815ed4906d8c82c41a10df23e2"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a8608dd815ed4906d8c82c41a10df23e2">cutlass::FragmentIterator::valid</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Is the iterator valid? </div><div class="ttdef"><b>Definition:</b> fragment.h:217</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1Fragment_html_a99fef5f3093b2df50905ab13819b67a0"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a99fef5f3093b2df50905ab13819b67a0">cutlass::Fragment::operator[]</a></div><div class="ttdeci">CUTLASS_DEVICE Element &amp; operator[](int i)</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:138</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a7bdc407aae8d7360e089af347b585a53"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a7bdc407aae8d7360e089af347b585a53">cutlass::FragmentIterator::at</a></div><div class="ttdeci">CUTLASS_DEVICE AccessType &amp; at(int d, int h, int w, int c=0)</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:203</div></div>
-<div class="ttc" id="structcutlass_1_1AlignedStruct_html"><div class="ttname"><a href="structcutlass_1_1AlignedStruct.html">cutlass::AlignedStruct</a></div><div class="ttdef"><b>Definition:</b> vector.h:41</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a></div><div class="ttdef"><b>Definition:</b> fragment.h:228</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_af16f2aa14ff424b038a393b683c4783e"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#af16f2aa14ff424b038a393b683c4783e">cutlass::FragmentConstIterator::operator[]</a></div><div class="ttdeci">CUTLASS_DEVICE AccessType const  &amp; operator[](int i) const</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:265</div></div>
-<div class="ttc" id="structcutlass_1_1ShapeStrides_html_ac6fcda9b8e1782f24c1e6d67cd880a6a"><div class="ttname"><a href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">cutlass::ShapeStrides::Shape</a></div><div class="ttdeci">Shape&lt; Shape_::kH *Shape_::kW *Shape_::kC, Shape_::kW *Shape_::kC, Shape_::kC, 1 &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:155</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeStrides_html_a76cde4c3ebd1d191e0191826b2663be4"><div class="ttname"><a href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">cutlass::ShapeStrides::Shape</a></div><div class="ttdeci">Shape&lt; Shape_::kH *Shape_::kW *Shape_::kC, Shape_::kW *Shape_::kC, Shape_::kC, elementsPerAccess &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:170</div></div>
+<div class="ttc" id="structcutlass_1_1AlignedStruct_html"><div class="ttname"><a href="structcutlass_1_1AlignedStruct.html">cutlass::AlignedStruct</a></div><div class="ttdef"><b>Definition:</b> vector.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a></div><div class="ttdef"><b>Definition:</b> fragment.h:226</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a638e4e1d84b4ae84e758288c7f37548b"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a638e4e1d84b4ae84e758288c7f37548b">cutlass::FragmentIterator::FragmentIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE FragmentIterator(OtherFragment_ &amp;fragment, int offset=0)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> fragment.h:189</div></div>
 <div class="ttc" id="structcutlass_1_1Fragment_html"><div class="ttname"><a href="structcutlass_1_1Fragment.html">cutlass::Fragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:99</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_ab4ef3c5a6b5e13224e45bbbcb9f1bc5d"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">cutlass::FragmentIterator::Element</a></div><div class="ttdeci">Fragment::Element Element</div><div class="ttdoc">The element. </div><div class="ttdef"><b>Definition:</b> fragment.h:181</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a004fabc9caa6924f3fb4badcbb19e88f"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">cutlass::FragmentConstIterator::kElementsPerAccess</a></div><div class="ttdeci">static int const kElementsPerAccess</div><div class="ttdoc">The number of elements per access. </div><div class="ttdef"><b>Definition:</b> fragment.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_afd15cbe1c9a0fd7871b12f3f3042c808"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808">cutlass::FragmentIterator::Fragment</a></div><div class="ttdeci">Fragment_ Fragment</div><div class="ttdoc">The fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:174</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_acac5b62b365f36f370adb0fee11cea05"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05">cutlass::FragmentConstIterator::Fragment</a></div><div class="ttdeci">Fragment_ Fragment</div><div class="ttdoc">The fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:232</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a3bd2a9d8467f8db02ca3a01ae0c11ad7"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a3bd2a9d8467f8db02ca3a01ae0c11ad7">cutlass::FragmentIterator::operator[]</a></div><div class="ttdeci">CUTLASS_DEVICE AccessType &amp; operator[](int i)</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:214</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_ae98ab2a88342e7dbf9631cfb5cf5e706"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">cutlass::FragmentConstIterator::Element</a></div><div class="ttdeci">Fragment::Element Element</div><div class="ttdoc">The element. </div><div class="ttdef"><b>Definition:</b> fragment.h:239</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_ab683796885f3bae3765efd96883f311b"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#ab683796885f3bae3765efd96883f311b">cutlass::FragmentConstIterator::IterationsStrides</a></div><div class="ttdeci">ShapeStrides&lt; FragmentShape &gt;::Shape IterationsStrides</div><div class="ttdoc">The linear strides for iterations. </div><div class="ttdef"><b>Definition:</b> fragment.h:245</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a01571b2fc566793fd50a10fa82441951"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a01571b2fc566793fd50a10fa82441951">cutlass::FragmentConstIterator::valid</a></div><div class="ttdeci">CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Is the iterator valid? </div><div class="ttdef"><b>Definition:</b> fragment.h:270</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_ae1825fe3e138e2aa62d27dab2b5227b4"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#ae1825fe3e138e2aa62d27dab2b5227b4">cutlass::FragmentIterator::FragmentIterator</a></div><div class="ttdeci">CUTLASS_DEVICE FragmentIterator(OtherFragment_ &amp;fragment, int offset=0)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> fragment.h:191</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_ab4ef3c5a6b5e13224e45bbbcb9f1bc5d"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">cutlass::FragmentIterator::Element</a></div><div class="ttdeci">Fragment::Element Element</div><div class="ttdoc">The element. </div><div class="ttdef"><b>Definition:</b> fragment.h:179</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a004fabc9caa6924f3fb4badcbb19e88f"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">cutlass::FragmentConstIterator::kElementsPerAccess</a></div><div class="ttdeci">static int const kElementsPerAccess</div><div class="ttdoc">The number of elements per access. </div><div class="ttdef"><b>Definition:</b> fragment.h:239</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_afd15cbe1c9a0fd7871b12f3f3042c808"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808">cutlass::FragmentIterator::Fragment</a></div><div class="ttdeci">Fragment_ Fragment</div><div class="ttdoc">The fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:172</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_acac5b62b365f36f370adb0fee11cea05"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05">cutlass::FragmentConstIterator::Fragment</a></div><div class="ttdeci">Fragment_ Fragment</div><div class="ttdoc">The fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:230</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_ae98ab2a88342e7dbf9631cfb5cf5e706"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">cutlass::FragmentConstIterator::Element</a></div><div class="ttdeci">Fragment::Element Element</div><div class="ttdoc">The element. </div><div class="ttdef"><b>Definition:</b> fragment.h:237</div></div>
 <div class="ttc" id="structcutlass_1_1Fragment_html_a32f7ff86b73576a15c5ddaa40c4e0a95"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95">cutlass::Fragment::This_</a></div><div class="ttdeci">Fragment&lt; Element_, kElements_ &gt; This_</div><div class="ttdoc">Make sure the alignment makes sense wrt the size of elements. </div><div class="ttdef"><b>Definition:</b> fragment.h:101</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_ae320d9672450f5341abcdb24a8b09369"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369">cutlass::FragmentIterator::This_</a></div><div class="ttdeci">FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> fragment.h:172</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a880f12d0cd42cdae7ce6009d2233f577"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">cutlass::FragmentConstIterator::FragmentShape</a></div><div class="ttdeci">ShapeMul&lt; Iterations, Shape&lt; 1, 1, 1, kElementsPerAccess &gt; &gt;::Shape FragmentShape</div><div class="ttdoc">The shape of the the fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:243</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_ae320d9672450f5341abcdb24a8b09369"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369">cutlass::FragmentIterator::This_</a></div><div class="ttdeci">FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> fragment.h:170</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a880f12d0cd42cdae7ce6009d2233f577"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">cutlass::FragmentConstIterator::FragmentShape</a></div><div class="ttdeci">ShapeMul&lt; Iterations, Shape&lt; 1, 1, 1, kElementsPerAccess &gt; &gt;::Shape FragmentShape</div><div class="ttdoc">The shape of the the fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:241</div></div>
 <div class="ttc" id="cutlass__math_8h_html"><div class="ttname"><a href="cutlass__math_8h.html">cutlass_math.h</a></div><div class="ttdoc">Math utilities. </div></div>
 <div class="ttc" id="structcutlass_1_1StorageType_html"><div class="ttname"><a href="structcutlass_1_1StorageType.html">cutlass::StorageType</a></div><div class="ttdef"><b>Definition:</b> fragment.h:76</div></div>
 <div class="ttc" id="structcutlass_1_1StorageType_3_014_01_4_html_aa6754c0eb530544a1457afe1ae94a807"><div class="ttname"><a href="structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807">cutlass::StorageType&lt; 4 &gt;::Type</a></div><div class="ttdeci">uint32_t Type</div><div class="ttdef"><b>Definition:</b> fragment.h:81</div></div>
 <div class="ttc" id="structcutlass_1_1StorageType_3_011_01_4_html_a4a70002785c378c1f180800f2a65bcd4"><div class="ttname"><a href="structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4">cutlass::StorageType&lt; 1 &gt;::Type</a></div><div class="ttdeci">uint8_t Type</div><div class="ttdef"><b>Definition:</b> fragment.h:89</div></div>
-<div class="ttc" id="structcutlass_1_1ComputeOffsetFromStrides_html_af5e46bc2b325cb6952d2d68c8aca1409"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">cutlass::ComputeOffsetFromStrides::get</a></div><div class="ttdeci">static CUTLASS_DEVICE int get(int d, int h, int w, int c)</div><div class="ttdef"><b>Definition:</b> shape.h:211</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_af667793926cdb24d701eb75e0345bbd6"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">cutlass::FragmentIterator::pointer</a></div><div class="ttdeci">Element * pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> fragment.h:222</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_addf5c21444f129211eefe7cdca6dfa1b"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">cutlass::FragmentConstIterator::AccessType</a></div><div class="ttdeci">AccessType_ AccessType</div><div class="ttdoc">The access type. </div><div class="ttdef"><b>Definition:</b> fragment.h:236</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_af667793926cdb24d701eb75e0345bbd6"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">cutlass::FragmentIterator::pointer</a></div><div class="ttdeci">Element * pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> fragment.h:220</div></div>
+<div class="ttc" id="structcutlass_1_1Fragment_html_a7795c5cf4d5626ff125abd5e8f156e9b"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a7795c5cf4d5626ff125abd5e8f156e9b">cutlass::Fragment::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Element const  &amp; operator[](int i) const</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:143</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_addf5c21444f129211eefe7cdca6dfa1b"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">cutlass::FragmentConstIterator::AccessType</a></div><div class="ttdeci">AccessType_ AccessType</div><div class="ttdoc">The access type. </div><div class="ttdef"><b>Definition:</b> fragment.h:234</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a14ef0a0095e391503a19067e146c584a"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a14ef0a0095e391503a19067e146c584a">cutlass::FragmentConstIterator::IterationsStrides</a></div><div class="ttdeci">ShapeStrides&lt; FragmentShape, kElementsPerAccess &gt;::Shape IterationsStrides</div><div class="ttdoc">The linear strides for iterations. </div><div class="ttdef"><b>Definition:</b> fragment.h:243</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeMul_html"><div class="ttname"><a href="structcutlass_1_1ShapeMul.html">cutlass::ShapeMul</a></div><div class="ttdef"><b>Definition:</b> shape.h:118</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a63ff1767c4923b0a2b6b64487306ed76"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">cutlass::FragmentIterator::FragmentShape</a></div><div class="ttdeci">ShapeMul&lt; Iterations, Shape&lt; 1, 1, 1, kElementsPerAccess &gt; &gt;::Shape FragmentShape</div><div class="ttdoc">The shape of the the fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:185</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a></div><div class="ttdoc">A template defining Fragment Iterator Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:170</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a63ff1767c4923b0a2b6b64487306ed76"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">cutlass::FragmentIterator::FragmentShape</a></div><div class="ttdeci">ShapeMul&lt; Iterations, Shape&lt; 1, 1, 1, kElementsPerAccess &gt; &gt;::Shape FragmentShape</div><div class="ttdoc">The shape of the the fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:183</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_ad3e99cd7f56d4aec0a28cfcbde66f5af"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#ad3e99cd7f56d4aec0a28cfcbde66f5af">cutlass::FragmentConstIterator::FragmentConstIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE FragmentConstIterator(OtherFragment_ &amp;fragment, int offset=0)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> fragment.h:247</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a></div><div class="ttdoc">A template defining Fragment Iterator Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:168</div></div>
 <div class="ttc" id="structcutlass_1_1Fragment_html_a2b9a64391d00ef23dd8d456c2337fa60"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">cutlass::Fragment::kElements</a></div><div class="ttdeci">static int const kElements</div><div class="ttdoc">The number of elements. </div><div class="ttdef"><b>Definition:</b> fragment.h:110</div></div>
-<div class="ttc" id="structcutlass_1_1Fragment_html_a75f51bb6ca84615076aab42ac9d42592"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a75f51bb6ca84615076aab42ac9d42592">cutlass::Fragment::operator[]</a></div><div class="ttdeci">CUTLASS_DEVICE Element const  &amp; operator[](int i) const</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:144</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a527100e34ed700787b1419157710dbb2"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2">cutlass::FragmentConstIterator::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">The number of iterations. </div><div class="ttdef"><b>Definition:</b> fragment.h:234</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a4324ae522c6463e66a64f05d2e58b5f0"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0">cutlass::FragmentIterator::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">The number of iterations. </div><div class="ttdef"><b>Definition:</b> fragment.h:176</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a527100e34ed700787b1419157710dbb2"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2">cutlass::FragmentConstIterator::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">The number of iterations. </div><div class="ttdef"><b>Definition:</b> fragment.h:232</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a35b721563536ab2c5dbab0f5de1c2b43"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a35b721563536ab2c5dbab0f5de1c2b43">cutlass::FragmentIterator::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE AccessType const  &amp; at(int d, int h, int w, int c=0) const</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:195</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a4324ae522c6463e66a64f05d2e58b5f0"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0">cutlass::FragmentIterator::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">The number of iterations. </div><div class="ttdef"><b>Definition:</b> fragment.h:174</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a18f926c9c877e15a279f16637bd24e83"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a18f926c9c877e15a279f16637bd24e83">cutlass::FragmentConstIterator::FragmentConstIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE FragmentConstIterator(FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;rhs_)</div><div class="ttdoc">Create from non-constant FragmentIterator. </div><div class="ttdef"><b>Definition:</b> fragment.h:252</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a8b957150545becacab1b8ead1be29424"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a8b957150545becacab1b8ead1be29424">cutlass::FragmentConstIterator::at</a></div><div class="ttdeci">CUTLASS_DEVICE AccessType const  &amp; at(int d, int h, int w, int c=0) const</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:259</div></div>
 <div class="ttc" id="structcutlass_1_1Fragment_html_a9c67fa5bbd0b8b49bd6ec002dee3cbab"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">cutlass::Fragment::Element</a></div><div class="ttdeci">Element_ Element</div><div class="ttdoc">The element. </div><div class="ttdef"><b>Definition:</b> fragment.h:108</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_add14f695231c2bdd6284bf22b1e66f8f"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f">cutlass::FragmentConstIterator::This_</a></div><div class="ttdeci">FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> fragment.h:230</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a83bb6a3ed588e2d890bf986665d2b7bb"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a83bb6a3ed588e2d890bf986665d2b7bb">cutlass::FragmentIterator::operator[]</a></div><div class="ttdeci">CUTLASS_DEVICE AccessType const  &amp; operator[](int i) const</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:209</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_add14f695231c2bdd6284bf22b1e66f8f"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f">cutlass::FragmentConstIterator::This_</a></div><div class="ttdeci">FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> fragment.h:228</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a6216b58ffe6322f037f1e0a3ffa714c8"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a6216b58ffe6322f037f1e0a3ffa714c8">cutlass::FragmentConstIterator::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE AccessType const  &amp; operator[](int i) const</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:263</div></div>
+<div class="ttc" id="structcutlass_1_1Fragment_html_a77ba7cddf7822d64534b019c4ad9732e"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a77ba7cddf7822d64534b019c4ad9732e">cutlass::Fragment::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Element &amp; operator[](int i)</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:140</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a21877944988f34eb69cb6eefb00c6575"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a21877944988f34eb69cb6eefb00c6575">cutlass::FragmentIterator::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE AccessType const  &amp; operator[](int i) const</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:207</div></div>
 <div class="ttc" id="structcutlass_1_1StorageType_3_012_01_4_html_a66c52fe770774ea01c511aea1af1f8d4"><div class="ttname"><a href="structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4">cutlass::StorageType&lt; 2 &gt;::Type</a></div><div class="ttdeci">uint16_t Type</div><div class="ttdef"><b>Definition:</b> fragment.h:85</div></div>
 <div class="ttc" id="vector_8h_html"><div class="ttname"><a href="vector_8h.html">vector.h</a></div><div class="ttdoc">Defines a 1D vector of elements held in the registers of each thread. </div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a3a8fd8f13c157ed13dc93fd78036c59e"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a3a8fd8f13c157ed13dc93fd78036c59e">cutlass::FragmentConstIterator::FragmentConstIterator</a></div><div class="ttdeci">CUTLASS_DEVICE FragmentConstIterator(FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;rhs_)</div><div class="ttdoc">Create from non-constant FragmentIterator. </div><div class="ttdef"><b>Definition:</b> fragment.h:254</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_ad2c43e30e78e8799df7cb02ac08cee9a"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">cutlass::FragmentIterator::kElementsPerAccess</a></div><div class="ttdeci">static int const kElementsPerAccess</div><div class="ttdoc">The number of elements per access. </div><div class="ttdef"><b>Definition:</b> fragment.h:183</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a2858ba9a8a9bbaef1de73415cff9b3c1"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a2858ba9a8a9bbaef1de73415cff9b3c1">cutlass::FragmentIterator::Strides</a></div><div class="ttdeci">ShapeStrides&lt; FragmentShape &gt;::Shape Strides</div><div class="ttdoc">The linear strides for iterations. </div><div class="ttdef"><b>Definition:</b> fragment.h:187</div></div>
+<div class="ttc" id="structcutlass_1_1StorageType_html_abb0d270cdf38d46347261cac36dc619b"><div class="ttname"><a href="structcutlass_1_1StorageType.html#abb0d270cdf38d46347261cac36dc619b">cutlass::StorageType::Type</a></div><div class="ttdeci">uint64_t Type</div><div class="ttdef"><b>Definition:</b> fragment.h:77</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_ac4d601998a84a3eac23e3b7a7c8a935b"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#ac4d601998a84a3eac23e3b7a7c8a935b">cutlass::FragmentConstIterator::valid</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Is the iterator valid? </div><div class="ttdef"><b>Definition:</b> fragment.h:268</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a2e93985d759d904ac858054eeaa9e50e"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a2e93985d759d904ac858054eeaa9e50e">cutlass::FragmentIterator::Strides</a></div><div class="ttdeci">ShapeStrides&lt; FragmentShape, kElementsPerAccess &gt;::Shape Strides</div><div class="ttdoc">The linear strides for iterations. </div><div class="ttdef"><b>Definition:</b> fragment.h:185</div></div>
+<div class="ttc" id="structcutlass_1_1ComputeOffsetFromStrides_html_aa28231590bfa0ced0f317e6a4d52dc1e"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">cutlass::ComputeOffsetFromStrides::get</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE int get(int d, int h, int w, int c)</div><div class="ttdef"><b>Definition:</b> shape.h:199</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_ad665745f3d6a3a88d7894fe0fc1bbd3e"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#ad665745f3d6a3a88d7894fe0fc1bbd3e">cutlass::FragmentIterator::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE AccessType &amp; operator[](int i)</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:212</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_adb863b44dfbc1fa923625e767f6dd7cd"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#adb863b44dfbc1fa923625e767f6dd7cd">cutlass::FragmentIterator::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE AccessType &amp; at(int d, int h, int w, int c=0)</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:201</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_ad2c43e30e78e8799df7cb02ac08cee9a"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">cutlass::FragmentIterator::kElementsPerAccess</a></div><div class="ttdeci">static int const kElementsPerAccess</div><div class="ttdoc">The number of elements per access. </div><div class="ttdef"><b>Definition:</b> fragment.h:181</div></div>
 <div class="ttc" id="shape_8h_html"><div class="ttname"><a href="shape_8h.html">shape.h</a></div><div class="ttdoc">Defines Shape implementing the Layout concept for representing a 4D hypercube of objects. </div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a012c5af3a8a40843c576c55ecbc663e7"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">cutlass::FragmentIterator::AccessType</a></div><div class="ttdeci">AccessType_ AccessType</div><div class="ttdoc">The access type. </div><div class="ttdef"><b>Definition:</b> fragment.h:178</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_ab18f8ea676b45831f939715212167a99"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#ab18f8ea676b45831f939715212167a99">cutlass::FragmentIterator::valid</a></div><div class="ttdeci">CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Is the iterator valid? </div><div class="ttdef"><b>Definition:</b> fragment.h:219</div></div>
-<div class="ttc" id="structcutlass_1_1StorageType_html_a2b9c99ae52eb4962428f776efc1e7f06"><div class="ttname"><a href="structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06">cutlass::StorageType::Type</a></div><div class="ttdeci">uint64_t Type</div><div class="ttdef"><b>Definition:</b> fragment.h:77</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a012c5af3a8a40843c576c55ecbc663e7"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">cutlass::FragmentIterator::AccessType</a></div><div class="ttdeci">AccessType_ AccessType</div><div class="ttdoc">The access type. </div><div class="ttdef"><b>Definition:</b> fragment.h:176</div></div>
+<div class="ttc" id="structcutlass_1_1Fragment_html_a84b6d68a5a24dbd04d842e0755b42bda"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a84b6d68a5a24dbd04d842e0755b42bda">cutlass::Fragment::kAlignment</a></div><div class="ttdeci">static int const kAlignment</div><div class="ttdoc">Alignment. </div><div class="ttdef"><b>Definition:</b> fragment.h:112</div></div>
 <div class="ttc" id="structcutlass_1_1is__pow2_html"><div class="ttname"><a href="structcutlass_1_1is__pow2.html">cutlass::is_pow2</a></div><div class="ttdef"><b>Definition:</b> cutlass_math.h:45</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_ac4b6f351e6e72bed37e425f02a10c81e"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#ac4b6f351e6e72bed37e425f02a10c81e">cutlass::FragmentConstIterator::FragmentConstIterator</a></div><div class="ttdeci">CUTLASS_DEVICE FragmentConstIterator(OtherFragment_ &amp;fragment, int offset=0)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> fragment.h:249</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a9cf31df06ff035705a1341810fcdcbf2"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a9cf31df06ff035705a1341810fcdcbf2">cutlass::FragmentIterator::at</a></div><div class="ttdeci">CUTLASS_DEVICE AccessType const  &amp; at(int d, int h, int w, int c=0) const</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:197</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_aee37f8ea06127b94a304bb776945509b"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">cutlass::FragmentConstIterator::pointer</a></div><div class="ttdeci">Element const  * pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> fragment.h:273</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_a14f2ad2f9b90aea092ff1836e8fb159d"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#a14f2ad2f9b90aea092ff1836e8fb159d">cutlass::FragmentConstIterator::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE AccessType const  &amp; at(int d, int h, int w, int c=0) const</div><div class="ttdoc">The accessor. </div><div class="ttdef"><b>Definition:</b> fragment.h:257</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentConstIterator_html_aee37f8ea06127b94a304bb776945509b"><div class="ttname"><a href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">cutlass::FragmentConstIterator::pointer</a></div><div class="ttdeci">Element const  * pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> fragment.h:271</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/fragment__multiply__add_8h.html b/docs/fragment__multiply__add_8h.html
index 59a94dfdff..107cfee79a 100644
--- a/docs/fragment__multiply__add_8h.html
+++ b/docs/fragment__multiply__add_8h.html
@@ -82,15 +82,15 @@
 
 <p>Defines multiply-add operations on fragments within a thread.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
 </div>
 <p><a href="fragment__multiply__add_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -103,7 +103,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/fragment__multiply__add_8h_source.html b/docs/fragment__multiply__add_8h_source.html
index 9b453fd942..1d4c4f7f22 100644
--- a/docs/fragment__multiply__add_8h_source.html
+++ b/docs/fragment__multiply__add_8h_source.html
@@ -76,28 +76,26 @@
 <div class="title">fragment_multiply_add.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="fragment__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html">   33</a></span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a> {</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ac93ba536992debeae86087e638167a13">   40</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ac93ba536992debeae86087e638167a13">InstructionShape</a>;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a6fa76b3e7ac721d47df47eba4e9ef222">   42</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a6fa76b3e7ac721d47df47eba4e9ef222">ScalarA</a>;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af4f5c4a79c447e5aaf313878eca022cb">   44</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af4f5c4a79c447e5aaf313878eca022cb">ScalarB</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a92c1ffbfb479cd9fa2c2632ef8e347d3">   46</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a92c1ffbfb479cd9fa2c2632ef8e347d3">ScalarC</a>;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af19e14a22aefd1124f7d31beec6f8c42">   49</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af19e14a22aefd1124f7d31beec6f8c42">FragmentMultiplyAdd</a>() {}</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a522301fbe3e276cb5ef9fbe75bb2ab50">   53</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a522301fbe3e276cb5ef9fbe75bb2ab50">multiply</a>(Scalar_ a, Fragment_ <span class="keyword">const</span>&amp; b, Fragment_&amp; d) {</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; Fragment_::kElements; ++j) {</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;      d[j] = a * b[j];</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    }</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  }</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a34bbf209967fef6181d3d46dd27fa0c0">   61</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a34bbf209967fef6181d3d46dd27fa0c0">multiply_add</a>(Scalar_ a,</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;                                   Fragment_ <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;                                   Fragment_ <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;                                   Fragment_&amp; d) {</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; Fragment_::kElements; ++j) {</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;      d[j] = a * b[j] + c[j];</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    }</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  }</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;};</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)</span></div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html">   75</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a>&lt;half&gt; {</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ab16a3d8adda89cc4f9765116ea75a4b7">   77</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ab16a3d8adda89cc4f9765116ea75a4b7">InstructionShape</a>;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a366083b229b28e7f44da38273b2ab263">   79</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a366083b229b28e7f44da38273b2ab263">ScalarA</a>;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af52ec4b92a3e788169764014aebb85a1">   81</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af52ec4b92a3e788169764014aebb85a1">ScalarB</a>;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af553be8ef0b4dc9bb593d98dfce8628d">   83</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af553be8ef0b4dc9bb593d98dfce8628d">ScalarC</a>;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a21f0965f6178917c7f5c6d79ed048059">   86</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a21f0965f6178917c7f5c6d79ed048059">FragmentMultiplyAdd</a>() {}</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ae62d61ec068ac958753d0a2f5a99d8e2">   90</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ae62d61ec068ac958753d0a2f5a99d8e2">multiply</a>(half a, Fragment_ <span class="keyword">const</span>&amp; b, Fragment_&amp; d) {</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; __CUDA_ARCH__ &gt;= 530</span></div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;    <span class="comment">// The input.</span></div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;    __half2 <span class="keyword">const</span>* b_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;b[0]);</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;    <span class="comment">// The output.</span></div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    __half2* d_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2*<span class="keyword">&gt;</span>(&amp;d[0]);</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    <span class="comment">// Assemble a half2 from a.</span></div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    __half2 <span class="keyword">const</span> a_half2 = __half2half2(a);</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Fragment_::kElements / 2; ++i) {</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;      d_half2[i] = __hmul2(a_half2, b_half2[i]);</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    }</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  }</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a89c8b663af69f13c2a02cb464b5172a5">  108</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a89c8b663af69f13c2a02cb464b5172a5">multiply_add</a>(half a, Fragment_ <span class="keyword">const</span>&amp; b, Fragment_ <span class="keyword">const</span>&amp; c, Fragment_&amp; d) {</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; __CUDA_ARCH__ &gt;= 530</span></div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    <span class="comment">// The inputs.</span></div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;    __half2 <span class="keyword">const</span>* b_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;b[0]);</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;    __half2 <span class="keyword">const</span>* c_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;c[0]);</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;    <span class="comment">// The output.</span></div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    __half2* d_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2*<span class="keyword">&gt;</span>(&amp;d[0]);</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <span class="comment">// Assemble a half2 from a.</span></div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    __half2 <span class="keyword">const</span> a_half2 = __half2half2(a);</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Fragment_::kElements / 2; ++i) {</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;      d_half2[i] = __hfma2(a_half2, b_half2[i], c_half2[i]);</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;    }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  }</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;};</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_af4f5c4a79c447e5aaf313878eca022cb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af4f5c4a79c447e5aaf313878eca022cb">cutlass::gemm::FragmentMultiplyAdd::ScalarB</a></div><div class="ttdeci">Scalar_ ScalarB</div><div class="ttdoc">The type for B. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:44</div></div>
+<a href="fragment__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html">   33</a></span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt; <span class="keyword">typename</span> ScalarAlphaBeta_, </div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;  <span class="keyword">typename</span> ScalarAccum_, </div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;  <span class="keywordtype">bool</span> fragMul2 = <span class="keyword">true</span> <span class="comment">/*number of element per fragment is multiple of 2*/</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;&gt;</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">   41</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a> {</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aa101be5d45e2be54bb4056517b6d5e76">   43</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aa101be5d45e2be54bb4056517b6d5e76">InstructionShape</a>;</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">   45</a></span>&#160;  <span class="keyword">typedef</span> ScalarAlphaBeta_ <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a>;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a1e854c281072db280ae90c2569b5f64c">   47</a></span>&#160;  <span class="keyword">typedef</span> ScalarAccum_ <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a1e854c281072db280ae90c2569b5f64c">ScalarAccum</a>;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ae1fbd0fd103deda51208102f15f896ed">   50</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ae1fbd0fd103deda51208102f15f896ed">FragmentMultiplyAdd</a>() {}</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> FragmentB_, <span class="keyword">typename</span> FragmentCd_&gt;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a934c0d74c70fc87796ecb5cde50fd516">   54</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a934c0d74c70fc87796ecb5cde50fd516">multiply</a>(<a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a> a, FragmentB_ <span class="keyword">const</span>&amp; b, FragmentCd_&amp; d) {</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; __CUDA_ARCH__ &gt;= 530</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> kReduction = FragmentB_::kElements / FragmentCd_::kElements;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; FragmentCd_::kElements; ++j) {</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;      d[j] = b[j * kReduction + 0];</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> k = 1; k &lt; kReduction; ++k) {</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;        d[j] += b[j * kReduction + k];</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;      }</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;      d[j] = a * <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a>(d[j]);</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;    }</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  }</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> FragmentB_, <span class="keyword">typename</span> FragmentCd_&gt;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aafa37c2e1ffd2f7d7031c24c732157d8">   69</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aafa37c2e1ffd2f7d7031c24c732157d8">multiply_add</a>(<a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a> a,</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;                                   FragmentB_ <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                                   FragmentCd_ <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                                   FragmentCd_&amp; d) {</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; __CUDA_ARCH__ &gt;= 530</span></div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> kReduction = FragmentB_::kElements / FragmentCd_::kElements;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; FragmentCd_::kElements; ++j) {</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;      d[j] = b[j * kReduction + 0];</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> k = 1; k &lt; kReduction; ++k) {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;        d[j] += b[j * kReduction + k];</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      }</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;      d[j] = a * <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a>(d[j]) + <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a>(c[j]);</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    }</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  }</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;};</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)</span></div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">   90</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a>&lt;half, half, true&gt; {</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a7d83cf5bde360251a252c6e728ea80ff">   92</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a7d83cf5bde360251a252c6e728ea80ff">InstructionShape</a>;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ae7a333f7aa3f52226c76cec9d2da042d">   94</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ae7a333f7aa3f52226c76cec9d2da042d">ScalarAlphaBeta</a>;</div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ab3774e6aa28266b25e3822fc9e72edc2">   96</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ab3774e6aa28266b25e3822fc9e72edc2">ScalarAccum</a>;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ad35b57b3f0cf5a467a1b0e48cffc3061">   99</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ad35b57b3f0cf5a467a1b0e48cffc3061">FragmentMultiplyAdd</a>() {}</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> FragmentB_, <span class="keyword">typename</span> FragmentCd_&gt;</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a6bed70e7074931419e9441688aee00ea">  103</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a6bed70e7074931419e9441688aee00ea">multiply</a>(half a, FragmentB_ <span class="keyword">const</span>&amp; b, FragmentCd_&amp; d) {</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; __CUDA_ARCH__ &gt;= 530</span></div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    <span class="comment">// The input.</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;    __half2 <span class="keyword">const</span>* b_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;b[0]);</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    <span class="comment">// The output.</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;    __half2* d_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2*<span class="keyword">&gt;</span>(&amp;d[0]);</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    <span class="comment">// Assemble a half2 from a.</span></div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;    __half2 <span class="keyword">const</span> a_half2 = __half2half2(a);</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> kReduction = (FragmentB_::kElements / FragmentCd_::kElements);</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; FragmentCd_::kElements / 2; ++j) {</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;      d_half2[j] = __hmul2(a_half2, b_half2[j * kReduction + 0]);</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> k = 1; k &lt; kReduction; ++k) {</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;        d_half2[j] = __hfma2(a_half2, b_half2[j * kReduction + k], d_half2[j]);</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;      }</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;    }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  }</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> FragmentB_, <span class="keyword">typename</span> FragmentCd_&gt;</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a92edee5611d25b60cdab6a1c8e32141f">  128</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a92edee5611d25b60cdab6a1c8e32141f">multiply_add</a>(half a,</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;                                   FragmentB_ <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;                                   FragmentCd_ <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;                                   FragmentCd_&amp; d) {</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; __CUDA_ARCH__ &gt;= 530</span></div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;    <span class="comment">// The inputs.</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    __half2 <span class="keyword">const</span>* b_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;b[0]);</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;    __half2 <span class="keyword">const</span>* c_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;c[0]);</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    <span class="comment">// The output.</span></div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;    __half2* d_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2*<span class="keyword">&gt;</span>(&amp;d[0]);</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    <span class="comment">// Assemble a half2 from a.</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;    __half2 <span class="keyword">const</span> a_half2 = __half2half2(a);</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> kReduction = (FragmentB_::kElements / FragmentCd_::kElements);</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; FragmentCd_::kElements / 2; ++j) {</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;      d_half2[j] = __hfma2(a_half2, b_half2[j * kReduction + 0], c_half2[j]);</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> k = 1; k &lt; kReduction; ++k) {</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;        d_half2[j] = __hfma2(a_half2, b_half2[j * kReduction + k], d_half2[j]);</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;      }</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    }</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  }</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;};</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_a934c0d74c70fc87796ecb5cde50fd516"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a934c0d74c70fc87796ecb5cde50fd516">cutlass::gemm::FragmentMultiplyAdd::multiply</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply(ScalarAlphaBeta a, FragmentB_ const &amp;b, FragmentCd_ &amp;d)</div><div class="ttdoc">Multiply : d = a*b. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:54</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4_html_a7d83cf5bde360251a252c6e728ea80ff"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a7d83cf5bde360251a252c6e728ea80ff">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::InstructionShape</a></div><div class="ttdeci">Shape&lt; 1, 1, 1, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:92</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_a522301fbe3e276cb5ef9fbe75bb2ab50"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a522301fbe3e276cb5ef9fbe75bb2ab50">cutlass::gemm::FragmentMultiplyAdd::multiply</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply(Scalar_ a, Fragment_ const &amp;b, Fragment_ &amp;d)</div><div class="ttdoc">Multiply : d = a*b. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:53</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4_html_a366083b229b28e7f44da38273b2ab263"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a366083b229b28e7f44da38273b2ab263">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::ScalarA</a></div><div class="ttdeci">half ScalarA</div><div class="ttdoc">The type for A. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:79</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4_html_a21f0965f6178917c7f5c6d79ed048059"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a21f0965f6178917c7f5c6d79ed048059">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::FragmentMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE FragmentMultiplyAdd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:86</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_a34bbf209967fef6181d3d46dd27fa0c0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a34bbf209967fef6181d3d46dd27fa0c0">cutlass::gemm::FragmentMultiplyAdd::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(Scalar_ a, Fragment_ const &amp;b, Fragment_ const &amp;c, Fragment_ &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:61</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4_html_af553be8ef0b4dc9bb593d98dfce8628d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af553be8ef0b4dc9bb593d98dfce8628d">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::ScalarC</a></div><div class="ttdeci">half ScalarC</div><div class="ttdoc">The type for C and D. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:83</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4_html_a89c8b663af69f13c2a02cb464b5172a5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a89c8b663af69f13c2a02cb464b5172a5">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(half a, Fragment_ const &amp;b, Fragment_ const &amp;c, Fragment_ &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:108</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4_html_ae7a333f7aa3f52226c76cec9d2da042d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ae7a333f7aa3f52226c76cec9d2da042d">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::ScalarAlphaBeta</a></div><div class="ttdeci">half ScalarAlphaBeta</div><div class="ttdoc">The type for alpha and beta. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_ae1fbd0fd103deda51208102f15f896ed"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ae1fbd0fd103deda51208102f15f896ed">cutlass::gemm::FragmentMultiplyAdd::FragmentMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE FragmentMultiplyAdd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:50</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4_html_ad35b57b3f0cf5a467a1b0e48cffc3061"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ad35b57b3f0cf5a467a1b0e48cffc3061">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::FragmentMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE FragmentMultiplyAdd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:99</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4_html_a6bed70e7074931419e9441688aee00ea"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a6bed70e7074931419e9441688aee00ea">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::multiply</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply(half a, FragmentB_ const &amp;b, FragmentCd_ &amp;d)</div><div class="ttdoc">Multiply : d = a*b. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:103</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_a1e854c281072db280ae90c2569b5f64c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a1e854c281072db280ae90c2569b5f64c">cutlass::gemm::FragmentMultiplyAdd::ScalarAccum</a></div><div class="ttdeci">ScalarAccum_ ScalarAccum</div><div class="ttdoc">The type for accumlator. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:47</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_ac93ba536992debeae86087e638167a13"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ac93ba536992debeae86087e638167a13">cutlass::gemm::FragmentMultiplyAdd::InstructionShape</a></div><div class="ttdeci">Shape&lt; 1, 1, 1, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:40</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_a92c1ffbfb479cd9fa2c2632ef8e347d3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a92c1ffbfb479cd9fa2c2632ef8e347d3">cutlass::gemm::FragmentMultiplyAdd::ScalarC</a></div><div class="ttdeci">Scalar_ ScalarC</div><div class="ttdoc">The type for C and D. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_a6fa76b3e7ac721d47df47eba4e9ef222"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a6fa76b3e7ac721d47df47eba4e9ef222">cutlass::gemm::FragmentMultiplyAdd::ScalarA</a></div><div class="ttdeci">Scalar_ ScalarA</div><div class="ttdoc">The type for A. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:42</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_af19e14a22aefd1124f7d31beec6f8c42"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af19e14a22aefd1124f7d31beec6f8c42">cutlass::gemm::FragmentMultiplyAdd::FragmentMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE FragmentMultiplyAdd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:49</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_aea565efe23b7a5c17eeab5e8cd0d1322"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">cutlass::gemm::FragmentMultiplyAdd::ScalarAlphaBeta</a></div><div class="ttdeci">ScalarAlphaBeta_ ScalarAlphaBeta</div><div class="ttdoc">The type for alpha and beta. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:45</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4_html_a92edee5611d25b60cdab6a1c8e32141f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a92edee5611d25b60cdab6a1c8e32141f">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(half a, FragmentB_ const &amp;b, FragmentCd_ const &amp;c, FragmentCd_ &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:128</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_aa101be5d45e2be54bb4056517b6d5e76"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aa101be5d45e2be54bb4056517b6d5e76">cutlass::gemm::FragmentMultiplyAdd::InstructionShape</a></div><div class="ttdeci">Shape&lt; 1, 1, 1, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:43</div></div>
 <div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4_html_ae62d61ec068ac958753d0a2f5a99d8e2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ae62d61ec068ac958753d0a2f5a99d8e2">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::multiply</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply(half a, Fragment_ const &amp;b, Fragment_ &amp;d)</div><div class="ttdoc">Multiply : d = a*b. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:90</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4_html_ab16a3d8adda89cc4f9765116ea75a4b7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ab16a3d8adda89cc4f9765116ea75a4b7">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::InstructionShape</a></div><div class="ttdeci">Shape&lt; 1, 1, 1, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:77</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4_html_af52ec4b92a3e788169764014aebb85a1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af52ec4b92a3e788169764014aebb85a1">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::ScalarB</a></div><div class="ttdeci">half ScalarB</div><div class="ttdoc">The type for B. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:81</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a></div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:38</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4_html_ab3774e6aa28266b25e3822fc9e72edc2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ab3774e6aa28266b25e3822fc9e72edc2">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::ScalarAccum</a></div><div class="ttdeci">half ScalarAccum</div><div class="ttdoc">The type for accumlator. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:96</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html_aafa37c2e1ffd2f7d7031c24c732157d8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aafa37c2e1ffd2f7d7031c24c732157d8">cutlass::gemm::FragmentMultiplyAdd::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(ScalarAlphaBeta a, FragmentB_ const &amp;b, FragmentCd_ const &amp;c, FragmentCd_ &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a></div><div class="ttdef"><b>Definition:</b> fragment_multiply_add.h:41</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions.html b/docs/functions.html
index e6b156fbce..bdde612a82 100644
--- a/docs/functions.html
+++ b/docs/functions.html
@@ -71,77 +71,101 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_a"></a>- a -</h3><ul>
+<li>A
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
 <li>AccessType
 : <a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html#a7eccab04c8d3968e74486d0525a3fa02">cutlass::FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html#a0b656c41b9fff6402f33e95204ce8860">cutlass::FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html#a87d46956aa317f06f2ba9a535fdfc5da">cutlass::FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html#abca5165caae7304f33fcad267c16b002">cutlass::FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a8611550c045d6def964d9dafb2be80c6">cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a942970f88e13c88f496a9da67ed47a6f">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a5d7ed0abaeea99ec3399f8eea930f761">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a2b9faed8d92f55a46e313d79d214316d">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ad073f5e8252ad24b086f14bd2a109cf9">cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aeb70e4859e2795b6af63ad5e203b4da9">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a89f329ba11f96ee3ce4428cbc792ac3d">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#ac0af6ae18137156abe24d6479232b955">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a0e79ed59263ebc3478c43f2f9a50cb5a">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a10431ed94c0dd66a8c1d01ba7c8b5aa2">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>Accumulators
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a505306c2af2059f6e84ba32d701d1602">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a4712650b46b6183ea60d79ef18f55b86">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>AccumulatorsPerThread
-: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a98d0f84730551eaabfe7404b36478b50">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a47807c9c9fb43e7f7b5f409a49986c30">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad8ea3777c307bf3f8c58a8df3966715d">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a70e8444060c36afb41e5064b2fb18b42">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a24dd9fdc54b001840e8b82664b3bfe3a">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa88edf2e89062be00181f5dc4f4a0947">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>AccumulatorsPerWarp
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af0c856abdd9f7f26f671493cc629bf0a">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a327ce1b7b6478c27c80baf5d9e26bdbc">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a9a5632bb1891a33126d6170af72a3ae2">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aacb9a5a1d8f3b6e21bc449b0b97949b7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ae3152470cbbba2310d9c83b9d5d43027">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+</li>
+<li>add_pointer_offset()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a93ff0a9fda3e136a1674aeb82de050db">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa6977ded39ead005b3435f13f0e51116">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a0752af296e110d9104a45ae24bd0a104">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>Additive
 : <a class="el" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375a77d7cc80ec0c3ff42ca9b2aff98a1646">cutlass::Identity</a>
 </li>
-<li>advance()
-: <a class="el" href="classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-</li>
 <li>aligned_
 : <a class="el" href="unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1df3324868465331db13bd7775b55e87">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#acc698443a38fd0ad63f931bdf172ad99">cutlass::Vector&lt; half, 1 &gt;</a>
 , <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ad6784e347f068ad20af52379286337c0">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a4eab187b6f7650bd88ccd421c8330d3c">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 </li>
 <li>alpha
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a053c2b529be527f510ee317737fbf7e8">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+, <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
 </li>
 <li>at()
 : <a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd">cutlass::ConstPredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
-, <a class="el" href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">cutlass::Coord&lt; N_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a8b957150545becacab1b8ead1be29424">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentIterator.html#a9cf31df06ff035705a1341810fcdcbf2">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a14f2ad2f9b90aea092ff1836e8fb159d">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1FragmentIterator.html#adb863b44dfbc1fa923625e767f6dd7cd">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#acc55581896fae8c0449b44b56d750155">cutlass::TensorView&lt; T &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a92371a586e756734522a853bef74324d">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a2a95fd42d48c550a45f340b04f9dfe3d">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aac4b013050925c1e2db4019140e82602">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 , <a class="el" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f">cutlass::TrivialPredicateTileAdapter</a>
 </li>
+<li>AType
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_0x7e.html b/docs/functions_0x7e.html
index 41aa664c47..0cb0e3458c 100644
--- a/docs/functions_0x7e.html
+++ b/docs/functions_0x7e.html
@@ -78,7 +78,7 @@ <h3><a id="index_0x7e"></a>- ~ -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_b.html b/docs/functions_b.html
index 79038aa18d..35c2018ba4 100644
--- a/docs/functions_b.html
+++ b/docs/functions_b.html
@@ -71,42 +71,82 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_b"></a>- b -</h3><ul>
+<li>B
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
 <li>Base
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a507f825824e624d80a34ea9395934160">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#ab19f72d239f639f261fbb63f72f10acf">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#affd04d88a0bbef13c54f10000a5dc15d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aef7047c6a0d0c3db0bfb6bec08520aad">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a48a8eda430139e6a131654a54bbf0f3b">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a82a9cfc61ecc117592bdb30f57bd35c9">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ac14f4ef560bd8068d16c0471af6df82c">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#adbbf19c2f86c198bbe4cc596c63e65ae">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4f7dfa33f6b6e52aac05ad5072710aa9">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#ad10463da3f5a421f9b87638775ef0a85">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aea87c73ae2d4e027014ebd4d8141c89e">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4">cutlass::TensorView&lt; T &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#af4576dca736bab8ac73b308522cb4a67">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#ac7f57248d3e10c9309f042e5d41440c1">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#afc320f4d29f05102e9de0064ca31e49b">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">cutlass::TileCoord&lt; Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a24fa369165de783a72311d8ec3115c48">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>BaseParams
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5484b46ac2646edb7a185b51137f70c0">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afd2bed46f4cf04aaf331fb2ecae953f8">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5dd2a31d41d9098e928c559af12cbe66">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>batch()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#adaf31768b8239f497c0ec9b40bad1cb5">cutlass::gemm::GemmCoord</a>
+</li>
+<li>batch_stride_A
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>batch_stride_B
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>batch_stride_C
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>batch_stride_D
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
 <li>begin()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a6b0f0d9cef4a2f3f4a8bf6c192a282db">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a4f4a2f860cc10688ee27cc9ce1df1015">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>beta
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab91b702a9932144b388fad3159130332">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+, <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+</li>
+<li>block
+: <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">cutlass::KernelLaunchConfiguration</a>
 </li>
 <li>BlockSwizzle
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 </li>
+<li>bounds
+: <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a>
+</li>
+<li>Boustrophedon
+: <a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa">cutlass::gemm::swizzleDirection</a>
+</li>
+<li>BType
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
 <li>byte
 : <a class="el" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#a86f075f91b80918e968951713430f0b4">cutlass::platform::alignment_of&lt; value_t &gt;::pad</a>
 </li>
@@ -114,7 +154,7 @@ <h3><a id="index_b"></a>- b -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_c.html b/docs/functions_c.html
index 9da7dd064e..0c37a2294c 100644
--- a/docs/functions_c.html
+++ b/docs/functions_c.html
@@ -71,28 +71,50 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_c"></a>- c -</h3><ul>
+<li>C
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>c()
+: <a class="el" href="structcutlass_1_1TileCoord.html#ad8281750f2978c6c1c91982f347a14cd">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
+<li>capacity()
+: <a class="el" href="classcutlass_1_1TensorView.html#ad870c366ffe904d3363df1dfb0d5f04c">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
 <li>check()
 : <a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;</a>
 </li>
 <li>clamp()
-: <a class="el" href="structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 <li>clear()
-: <a class="el" href="structcutlass_1_1Fragment.html#a29e7408fcde8cdf9de5e3a10eaa46391">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Fragment.html#acf28266500b87484530b2395925fca51">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>
+, <a class="el" href="structcutlass_1_1ZipFragment.html#aa978dd7fca15ca20e9f52d15e6f8f9c1">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
 </li>
 <li>ClearAccumulators()
-: <a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#aef1832b62ae8caef5e6d34cb1d1564e3">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
+</li>
+<li>column()
+: <a class="el" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">cutlass::MatrixCoord</a>
+</li>
+<li>ColumnMajorBlockSwizzle()
+: <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a6d0ee4e76371af26030ab4922e6c915a">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>
 </li>
 <li>commit()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a6dc512be014b9d849057e2fd4c0b0485">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#ade2d85507dec77591e66276339a1eef5">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6ce2c6e81d159d8e9ab736cb263f44ae">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9cc435369c7fc76d0bb6233a8258e257">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab39c82ac1a8138c4b6d69dab9d48bdbc">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6699714c357f2714df011f58c1c48861">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa3aa987bf0fd6303e06f46e2f54e47e4">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a93cc2a7eb3215ce5bae343fb117f55c5">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a165a0d486f53fb2315d4e555c9f59891">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>complex()
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#a2e852c886e61a39e884026d6f4c32c1e">cutlass::platform::complex&lt; T &gt;</a>
 </li>
 <li>Congruous
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html#abe4eb7f9a0ed7d48a81029e88849dcf2">cutlass::gemm::GemmOperandTraitsAb&lt; kOperand_, kLayout_ &gt;</a>
@@ -104,49 +126,72 @@ <h3><a id="index_c"></a>- c -</h3><ul>
 : <a class="el" href="structcutlass_1_1PredicateVector.html#ab931610bc07ee0e87bb4d9a4d53a2321">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
 <li>const_ref()
-: <a class="el" href="classcutlass_1_1TensorView.html#a23564f1d333bb16343ed3a885f894285">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0a48de201c35cbc9d5e3b94fa597a617">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a559f7210b445c77a167ab1f41c8d0827">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>ConstIterator()
 : <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
 </li>
 <li>ConstPredicateTileAdapter()
 : <a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9abd78d5c3e444bfb23d2b1a08be2be1">cutlass::ConstPredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
 </li>
+<li>ConstTensorRef
+: <a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a3861f7f09da0b8153d0e3686f2c7cf57">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+</li>
 <li>ConstTensorRef_t
-: <a class="el" href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a162c4cb4f4e866892d63cd37f7f72165">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>ConstTensorView
+: <a class="el" href="classcutlass_1_1TensorView.html#ab879a7b6552c879a81c49cbc0946d719">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>consume_tile()
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#af8bb78ae198af4dccb0241da44428053">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 </li>
 <li>contains()
-: <a class="el" href="classcutlass_1_1TensorView.html#aa94063d9a9c6e599d3f53e22433274be">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a3f448bcf6e664c244f472e2659215628">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>Convert()
 : <a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a593a5a2c48708965e829d242ccb3b99f">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a>
 </li>
-<li>convert()
-: <a class="el" href="classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-</li>
 <li>Coord()
-: <a class="el" href="structcutlass_1_1Coord.html#a53a3d88a884f6cb7fda8aedfe2cec2c5">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 <li>Coord_t
-: <a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a705c22cb328c4dc9365c2f370ece2031">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#ab16a0244199ca2800ea5460ed8ed6ae2">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>Copy()
 : <a class="el" href="structcutlass_1_1Copy.html#ab2c20f886208396a1779c6d29b56c3f1">cutlass::Copy&lt; Fragment_ &gt;</a>
 </li>
 <li>copy()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ae033f55779b45b4228f40a4d699062bb">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#af25495bb0bb35bd64246d3a80fe4806f">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#af7a15b4456cda01c1ffbb2fdc532e87e">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7f6bf3b8d70bcd74d84519decd9f0d8e">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a3784dbb3efe0865ffa946419111c824a">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5c0efc259bb3bd1675f5d395dab71e95">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a99039d115a539fc99e2235c12ac57eed">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad46887abb2e3136b635c3ef5be29cf69">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a60a03c95452fe627477933d60815f7cb">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ae84437a66097189406c2090d88a79350">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#aa0f3c75e59054d6229de159474c9c978">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>count()
-: <a class="el" href="structcutlass_1_1Coord.html#a40429a9154f7a142ad7e9eb35282d196">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+</li>
+<li>CType
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_d.html b/docs/functions_d.html
index ca73b9191c..fe6d9c963d 100644
--- a/docs/functions_d.html
+++ b/docs/functions_d.html
@@ -71,61 +71,65 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_d"></a>- d -</h3><ul>
-<li>d_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aae63781de41962f496da469684919447">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
+<li>D
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
-<li>d_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a05915032eba39bc9b085bec5ff17257b">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
-<li>d_c
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa2b3126c082d04fd31521cb0e84cf4d5">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
-<li>d_d
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a30326e2d81c8e154d749f35837903216">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
+<li>d()
+: <a class="el" href="structcutlass_1_1TileCoord.html#aec4ffcdc8fbf57a8b649fff38af55007">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>data()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3af66b82b1a0cc5bf6141f940553e048">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a0d3c1a58f23957f9850d1b22992a981a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afe77778a126449e210c0bd6ec2dc6709">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a248e4240ccf96c976254464710a73fc8">cutlass::TensorView&lt; T &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5ebab59862d5f50ad980871515d999b0">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a0e05007f939b27e6a17dce5c2a49e3e0">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a67b25cc51ce867b073feead7b94e6aa3">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#acc3f2c29fe21316091a1405613083000">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+</li>
+<li>decrement()
+: <a class="el" href="classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>deleter_type
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 </li>
 <li>Delta
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aede069e51e0732a9648c437261bd4d66">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a2ee87510d2deccf8b9633aaa4f6340ea">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ad029d098ba13543bf99c728e6b93006d">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#ac5578da2577cddd5a38cb628f894f644">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a134a02091bf4360d2cbca56624e52024">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#adcede218eec980903221feb664cad3a1">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a08dada072eefded4c859df4e5fc25ca6">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#adab639892c3586464e2ea5f947b9e0f0">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a1c433ba0eea5e6a46f36101d8de98ed0">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileTraits.html#af88f5cea9f452d83004ea0fa0f9d56eb">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a>
+, <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#acd32282ce7852c4669098c06bcd9a360">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#afdb38f790d9c7cf1ac238643103b45ce">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#ad6d99ccf2fcd2bd47e45d068f4d99c82">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#ab1a4945bf562debeee1af813288e5896">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5">cutlass::TileTraitsStrideMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#a3ce218b223c5716af40c316899324bbe">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
+<li>dhw()
+: <a class="el" href="structcutlass_1_1TileCoord.html#abe65d1a0ff3798b662376032d51e9713">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
 <li>dot()
-: <a class="el" href="structcutlass_1_1Coord.html#ad4b3704d14057c043f972827671115cf">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+</li>
+<li>DType
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>dynamic_smem
+: <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">cutlass::KernelLaunchConfiguration</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_e.html b/docs/functions_e.html
index ee616a11c7..ea9d23f57a 100644
--- a/docs/functions_e.html
+++ b/docs/functions_e.html
@@ -83,7 +83,7 @@ <h3><a id="index_e"></a>- e -</h3><ul>
 : <a class="el" href="structcutlass_1_1PredicateVector.html#ad9493fc80fdc33330cc15641779cc275">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
 <li>epilogue()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 </li>
 <li>Epilogue
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
@@ -93,20 +93,20 @@ <h3><a id="index_e"></a>- e -</h3><ul>
 , <a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#afdca9ac1d28e17efaa394f5831a60c04">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage</a>
 </li>
 <li>Epilogue
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a234ae6065d5ab56135e10119d3ad2d98">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5e2ed697a9091a1ca8b19855b5a2c651">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada2812153440cf1e678ca4c795a6e8ae">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a36c8b17c98723934d9d75228dd9c2915">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 </li>
 <li>epilogue_with_or_without_beta()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 </li>
 <li>evaluate()
-: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a2e0d140aed388d2457dfb24d28fcd08a">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_enum.html b/docs/functions_enum.html
index b710de0fe1..df8ae39f43 100644
--- a/docs/functions_enum.html
+++ b/docs/functions_enum.html
@@ -70,18 +70,20 @@
 <div class="contents">
 &#160;<ul>
 <li>Kind
-: <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand</a>
+: <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">cutlass::FragmentElementType</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8">cutlass::gemm::swizzleDirection</a>
+, <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand</a>
 , <a class="el" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375">cutlass::Identity</a>
 , <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">cutlass::IteratorAdvance</a>
-, <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">cutlass::IteratorFragment</a>
 , <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout</a>
+, <a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48">cutlass::MatrixTransform</a>
 , <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_eval.html b/docs/functions_eval.html
index 40c01ec853..b53129338c 100644
--- a/docs/functions_eval.html
+++ b/docs/functions_eval.html
@@ -77,6 +77,13 @@ <h3><a id="index_a"></a>- a -</h3><ul>
 </ul>
 
 
+<h3><a id="index_b"></a>- b -</h3><ul>
+<li>Boustrophedon
+: <a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa">cutlass::gemm::swizzleDirection</a>
+</li>
+</ul>
+
+
 <h3><a id="index_k"></a>- k -</h3><ul>
 <li>kA
 : <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand</a>
@@ -90,6 +97,9 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 <li>kColumnMajor
 : <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout</a>
 </li>
+<li>kConjugate
+: <a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683">cutlass::MatrixTransform</a>
+</li>
 <li>kD
 : <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe">cutlass::GemmOperand</a>
 , <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5">cutlass::IteratorAdvance</a>
@@ -105,29 +115,40 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 </li>
 <li>kLanes
 : <a class="el" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
-, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#aa70d2fd36f00b63d321c1f7b6d6c3024ad242b575673ca1bf9cf311e58a966392">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a4020f25408022dbf20c26ed4fa8c7dffa14befaa9d739f1b754bc372f717b105b">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a27410a8095bb82f682612954df4d6182a3a12b2fbef9007373a03125ec3c1c393">cutlass::Vector&lt; half, 1 &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#acfa6821aefbd38a1b7c44e5d83eda05fad242b575673ca1bf9cf311e58a966392">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a322ddd3ec1f47b76e21c24d3a3c44c5badeba151dbcb3c15e581bad7d767a93fa">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a9aacb7538f1b83762d68c768629c98eba17b71e816051646b567cf47334649a9b">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
+</li>
+<li>kNone
+: <a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5">cutlass::MatrixTransform</a>
 </li>
 <li>kRequiresLoadFence
-: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>kRowMajor
 : <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout</a>
 </li>
 <li>kScalar
-: <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80aeca44a186befa21ccae44eb4dc7b6954">cutlass::IteratorFragment</a>
+: <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">cutlass::FragmentElementType</a>
 </li>
 <li>kShared
 : <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace</a>
 </li>
 <li>kVectorSize
 : <a class="el" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
-, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#adc4140a7e40be1e4f81c78a657c7ba73abfbb3cf98db2f8af7150efb91cac4e79">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#ad75d72ca210d77ae82b8aa4bed04fed0ab98f21cd2645378ad0a840727b7edaff">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a0c3d44e7c726aabf23d57094475fcc22aa12662bfb46ed10de12f168219ce0a8d">cutlass::Vector&lt; half, 1 &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a42288bc8b85cd3f40aafbe7549a5285babfbb3cf98db2f8af7150efb91cac4e79">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a01e23040ab8cea016e3709f55c2089fdaf9fe4d6ac4ee913780e3361dde6c80d6">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a722f7852892c56613ea5027610523d8bab0655ce225f020ac27580efa249f6acb">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 </li>
 <li>kW
 : <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">cutlass::IteratorAdvance</a>
 </li>
 <li>kWmmaMatrix
-: <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">cutlass::IteratorFragment</a>
+: <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">cutlass::FragmentElementType</a>
 </li>
 </ul>
 
@@ -139,6 +160,13 @@ <h3><a id="index_m"></a>- m -</h3><ul>
 </ul>
 
 
+<h3><a id="index_o"></a>- o -</h3><ul>
+<li>OneDirection
+: <a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5">cutlass::gemm::swizzleDirection</a>
+</li>
+</ul>
+
+
 <h3><a id="index_v"></a>- v -</h3><ul>
 <li>value
 : <a class="el" href="structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc">cutlass::divide_assert&lt; Dividend, Divisor &gt;</a>
@@ -164,7 +192,7 @@ <h3><a id="index_v"></a>- v -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_f.html b/docs/functions_f.html
index e2a60d90a2..2deb57d042 100644
--- a/docs/functions_f.html
+++ b/docs/functions_f.html
@@ -71,70 +71,121 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_f"></a>- f -</h3><ul>
-<li>fetched_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a3147da380e4c1e465aba0b965ac87ab5">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-</li>
-<li>fetched_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a837fbec1d47ae45480941de6290889c0">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+<li>fetched
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>fetched_fragment
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>FetchedFragment
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>fill()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
+<li>First
+: <a class="el" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
+</li>
+<li>first
+: <a class="el" href="structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
+</li>
+<li>First
+: <a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
+</li>
+<li>first
+: <a class="el" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
+</li>
+<li>First
+: <a class="el" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>
+</li>
+<li>first
+: <a class="el" href="structcutlass_1_1ZipTensorRef.html#a535f0e6fc79d0e305f651efed099275c">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+</li>
+<li>First
+: <a class="el" href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+</li>
+<li>first
+: <a class="el" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>First
+: <a class="el" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>first
+: <a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a5dd69883d6b3f16fe28ebfe79235743e">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a>
+</li>
 <li>Fragment
 : <a class="el" href="structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a32687e2aa49dfa251eab14d5cd2036be">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab7e315253b3301c191581bce05644106">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+</li>
+<li>fragment()
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad5cb076de46e841a165bd43924dab463">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>Fragment
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a7f802c4c733375d0a63f91c58196e6a0">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a6c9737f5b09e7eb1aa7daabb00ae2e69">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>fragment()
+: <a class="el" href="structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>Fragment
+: <a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>fragment()
+: <a class="el" href="structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>Fragment
+: <a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>fragment_a()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a4a8c64d85aa012e3689dd024c486924b">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#af29f052dc0145abe3144dea1472d241a">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
 </li>
 <li>fragment_b()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#aa28f34fb0c4bf739246d92c2fef80e0b">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a375e96bc2e35447682bd1dea3c4d87ad">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
 </li>
 <li>FragmentA
-: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1daf96b6d152c5cf32f248bbfd605b74">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a71aadbb130d4b1a6532c45282b37354f">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>FragmentB
-: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae79e7fc5be2f4c8d30ca83edc151f63a">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a43e278686b493d0aef943f32a9f47b9e">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>FragmentConstIterator()
-: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#ac4b6f351e6e72bed37e425f02a10c81e">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a48de0db7ee2ee9699b946a9d5a0364c7">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#ad3e99cd7f56d4aec0a28cfcbde66f5af">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#adfcd8a2e63bd0c515ef03760cc1c4283">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>FragmentElement
-: <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a2b13136a970fae187fcb377c9be28fac">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>FragmentIterator()
-: <a class="el" href="structcutlass_1_1FragmentIterator.html#ae1825fe3e138e2aa62d27dab2b5227b4">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a0843b2d82422e7178f324a8d3be9d705">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1FragmentIterator.html#a638e4e1d84b4ae84e758288c7f37548b">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ace8a65d90db264a0ee93a810be38918f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>FragmentMultiplyAdd()
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af19e14a22aefd1124f7d31beec6f8c42">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a21f0965f6178917c7f5c6d79ed048059">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ae1fbd0fd103deda51208102f15f896ed">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ad35b57b3f0cf5a467a1b0e48cffc3061">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
 </li>
 <li>FragmentShape
@@ -142,16 +193,19 @@ <h3><a id="index_f"></a>- f -</h3><ul>
 , <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a3b872e85844c9e009fa480a71a829136">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a82ceeea55603dbb0c6e5bf9c22ac692e">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>functor
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 </li>
 <li>Functor
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 </li>
 <li>functor
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#afa888d993b86ed88950a9e5ab7edeb06">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adb04e5990ab7faae9e8c0b110d2e3bee">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 </li>
 <li>Functor
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
@@ -160,7 +214,7 @@ <h3><a id="index_f"></a>- f -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func.html b/docs/functions_func.html
index 0a425c0a11..4791620ae0 100644
--- a/docs/functions_func.html
+++ b/docs/functions_func.html
@@ -71,25 +71,36 @@
 &#160;
 
 <h3><a id="index_a"></a>- a -</h3><ul>
-<li>advance()
-: <a class="el" href="classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
+<li>add_pointer_offset()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a93ff0a9fda3e136a1674aeb82de050db">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa6977ded39ead005b3435f13f0e51116">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a0752af296e110d9104a45ae24bd0a104">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>alpha()
+: <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
 </li>
 <li>at()
 : <a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd">cutlass::ConstPredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
-, <a class="el" href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">cutlass::Coord&lt; N_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a8b957150545becacab1b8ead1be29424">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentIterator.html#a9cf31df06ff035705a1341810fcdcbf2">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a14f2ad2f9b90aea092ff1836e8fb159d">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1FragmentIterator.html#a35b721563536ab2c5dbab0f5de1c2b43">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#ad894a8b373c413d308cb1b7c7ba545ce">cutlass::TensorView&lt; T &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a597bb02594c918c50f0bdb0cb4ce74c8">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a2a95fd42d48c550a45f340b04f9dfe3d">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aac4b013050925c1e2db4019140e82602">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 , <a class="el" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f">cutlass::TrivialPredicateTileAdapter</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_0x7e.html b/docs/functions_func_0x7e.html
index bf8de83a89..02cd656d33 100644
--- a/docs/functions_func_0x7e.html
+++ b/docs/functions_func_0x7e.html
@@ -78,7 +78,7 @@ <h3><a id="index_0x7e"></a>- ~ -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_b.html b/docs/functions_func_b.html
index 5d533d802e..80882b7aa2 100644
--- a/docs/functions_func_b.html
+++ b/docs/functions_func_b.html
@@ -71,14 +71,22 @@
 &#160;
 
 <h3><a id="index_b"></a>- b -</h3><ul>
+<li>batch()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">cutlass::gemm::GemmCoord</a>
+</li>
 <li>begin()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a6b0f0d9cef4a2f3f4a8bf6c192a282db">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a4f4a2f860cc10688ee27cc9ce1df1015">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>beta()
+: <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_c.html b/docs/functions_func_c.html
index 19541d873f..b8f85b2cd2 100644
--- a/docs/functions_func_c.html
+++ b/docs/functions_func_c.html
@@ -71,24 +71,43 @@
 &#160;
 
 <h3><a id="index_c"></a>- c -</h3><ul>
+<li>c()
+: <a class="el" href="structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
+<li>capacity()
+: <a class="el" href="classcutlass_1_1TensorView.html#ad870c366ffe904d3363df1dfb0d5f04c">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
 <li>check()
 : <a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;</a>
 </li>
 <li>clamp()
-: <a class="el" href="structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 <li>clear()
-: <a class="el" href="structcutlass_1_1Fragment.html#a29e7408fcde8cdf9de5e3a10eaa46391">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Fragment.html#acf28266500b87484530b2395925fca51">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipFragment.html#aa978dd7fca15ca20e9f52d15e6f8f9c1">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
 </li>
 <li>ClearAccumulators()
 : <a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;</a>
 </li>
+<li>column()
+: <a class="el" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">cutlass::MatrixCoord</a>
+</li>
+<li>ColumnMajorBlockSwizzle()
+: <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a6d0ee4e76371af26030ab4922e6c915a">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>
+</li>
 <li>commit()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a6dc512be014b9d849057e2fd4c0b0485">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#ade2d85507dec77591e66276339a1eef5">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6ce2c6e81d159d8e9ab736cb263f44ae">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9cc435369c7fc76d0bb6233a8258e257">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab39c82ac1a8138c4b6d69dab9d48bdbc">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6699714c357f2714df011f58c1c48861">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa3aa987bf0fd6303e06f46e2f54e47e4">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a93cc2a7eb3215ce5bae343fb117f55c5">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a165a0d486f53fb2315d4e555c9f59891">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>complex()
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#a2e852c886e61a39e884026d6f4c32c1e">cutlass::platform::complex&lt; T &gt;</a>
 </li>
 <li>const_begin()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#aeb7f9226a4fa49d06500c3c83958dc41">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
@@ -97,43 +116,51 @@ <h3><a id="index_c"></a>- c -</h3><ul>
 : <a class="el" href="structcutlass_1_1PredicateVector.html#ab931610bc07ee0e87bb4d9a4d53a2321">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
 <li>const_ref()
-: <a class="el" href="classcutlass_1_1TensorView.html#a23564f1d333bb16343ed3a885f894285">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0a48de201c35cbc9d5e3b94fa597a617">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a559f7210b445c77a167ab1f41c8d0827">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>ConstIterator()
-: <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
+: <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
 </li>
 <li>ConstPredicateTileAdapter()
 : <a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9abd78d5c3e444bfb23d2b1a08be2be1">cutlass::ConstPredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
 </li>
+<li>consume_tile()
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#af8bb78ae198af4dccb0241da44428053">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+</li>
 <li>contains()
-: <a class="el" href="classcutlass_1_1TensorView.html#aa94063d9a9c6e599d3f53e22433274be">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a3f448bcf6e664c244f472e2659215628">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>Convert()
 : <a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a593a5a2c48708965e829d242ccb3b99f">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a>
 </li>
-<li>convert()
-: <a class="el" href="classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-</li>
 <li>Coord()
-: <a class="el" href="structcutlass_1_1Coord.html#a9cbfff91f0b0d0a149534c97e3d6e69b">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 <li>Copy()
 : <a class="el" href="structcutlass_1_1Copy.html#ab2c20f886208396a1779c6d29b56c3f1">cutlass::Copy&lt; Fragment_ &gt;</a>
 </li>
 <li>copy()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ae033f55779b45b4228f40a4d699062bb">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#af25495bb0bb35bd64246d3a80fe4806f">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#af7a15b4456cda01c1ffbb2fdc532e87e">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a279144e9722055d4b862e3fa25948762">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a3784dbb3efe0865ffa946419111c824a">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5c0efc259bb3bd1675f5d395dab71e95">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a99039d115a539fc99e2235c12ac57eed">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad46887abb2e3136b635c3ef5be29cf69">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a60a03c95452fe627477933d60815f7cb">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ae84437a66097189406c2090d88a79350">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>count()
-: <a class="el" href="structcutlass_1_1Coord.html#a40429a9154f7a142ad7e9eb35282d196">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_d.html b/docs/functions_func_d.html
index 4c1c062a01..dbc7a90c0e 100644
--- a/docs/functions_func_d.html
+++ b/docs/functions_func_d.html
@@ -71,23 +71,29 @@
 &#160;
 
 <h3><a id="index_d"></a>- d -</h3><ul>
+<li>d()
+: <a class="el" href="structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
 <li>data()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3af66b82b1a0cc5bf6141f940553e048">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a0d3c1a58f23957f9850d1b22992a981a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afe77778a126449e210c0bd6ec2dc6709">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a248e4240ccf96c976254464710a73fc8">cutlass::TensorView&lt; T &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5ebab59862d5f50ad980871515d999b0">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a0e05007f939b27e6a17dce5c2a49e3e0">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a67b25cc51ce867b073feead7b94e6aa3">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#acc3f2c29fe21316091a1405613083000">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+</li>
+<li>decrement()
+: <a class="el" href="classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>dhw()
+: <a class="el" href="structcutlass_1_1TileCoord.html#abe65d1a0ff3798b662376032d51e9713">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>dot()
-: <a class="el" href="structcutlass_1_1Coord.html#ad4b3704d14057c043f972827671115cf">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_e.html b/docs/functions_func_e.html
index 89f2b82a27..10ff8b0633 100644
--- a/docs/functions_func_e.html
+++ b/docs/functions_func_e.html
@@ -75,19 +75,19 @@ <h3><a id="index_e"></a>- e -</h3><ul>
 : <a class="el" href="structcutlass_1_1PredicateVector.html#ad9493fc80fdc33330cc15641779cc275">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
 <li>epilogue()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 </li>
 <li>epilogue_with_or_without_beta()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 </li>
 <li>evaluate()
-: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a2e0d140aed388d2457dfb24d28fcd08a">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_f.html b/docs/functions_func_f.html
index a614ede1b7..bfd045bdef 100644
--- a/docs/functions_func_f.html
+++ b/docs/functions_func_f.html
@@ -74,27 +74,32 @@ <h3><a id="index_f"></a>- f -</h3><ul>
 <li>fill()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
+<li>fragment()
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad5cb076de46e841a165bd43924dab463">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
 <li>fragment_a()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a4a8c64d85aa012e3689dd024c486924b">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#af29f052dc0145abe3144dea1472d241a">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
 </li>
 <li>fragment_b()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#aa28f34fb0c4bf739246d92c2fef80e0b">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a375e96bc2e35447682bd1dea3c4d87ad">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
 </li>
 <li>FragmentConstIterator()
-: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#ac4b6f351e6e72bed37e425f02a10c81e">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a18f926c9c877e15a279f16637bd24e83">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 </li>
 <li>FragmentIterator()
-: <a class="el" href="structcutlass_1_1FragmentIterator.html#ae1825fe3e138e2aa62d27dab2b5227b4">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+: <a class="el" href="structcutlass_1_1FragmentIterator.html#a638e4e1d84b4ae84e758288c7f37548b">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 </li>
 <li>FragmentMultiplyAdd()
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af19e14a22aefd1124f7d31beec6f8c42">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a21f0965f6178917c7f5c6d79ed048059">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ae1fbd0fd103deda51208102f15f896ed">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ad35b57b3f0cf5a467a1b0e48cffc3061">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_g.html b/docs/functions_func_g.html
index b302373663..b6258df4a7 100644
--- a/docs/functions_func_g.html
+++ b/docs/functions_func_g.html
@@ -74,47 +74,73 @@ <h3><a id="index_g"></a>- g -</h3><ul>
 <li>Gemm()
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 </li>
+<li>GemmCoord()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01">cutlass::gemm::GemmCoord</a>
+</li>
+<li>GemmDesc()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a948af4a974f1aa74d3b6da9cd3e185de">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
 <li>GemmEpilogue()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 </li>
 <li>GemmGlobalIteratorAb()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a34cb153d311377388e7819296a84d07e">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>GemmGlobalIteratorCd()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6dae81995ab94c0b7f28eeeeb84a6c8d">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>get()
-: <a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">cutlass::ComputeOffsetFromShape&lt; Shape_ &gt;</a>
-, <a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html#a11bf40abc57580db5ce4b0fd4c3e55ff">cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;</a>
-, <a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html#a5198e838e3892245fe7b10884555ec93">cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;</a>
-, <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">cutlass::ComputeOffsetFromStrides&lt; Strides_ &gt;</a>
-, <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html#a512a9d46f6bea9d85641d7263bcfee36">cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a>
-, <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html#acdbb9c7cdf9fc054656614f72396434e">cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a>
+: <a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">cutlass::ComputeOffsetFromShape&lt; Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">cutlass::ComputeOffsetFromStrides&lt; Strides_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">cutlass::ComputeThreadOffsetFromStrides&lt; Threads_, Strides_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html#a6e621f5fae2ba29277fde46be1cede24">cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html#a5d446b2663c01362361e09435a726996">cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a>
+, <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a1661baed19b4aa4eea725a6f6e6b26a3">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
 , <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a2e7c14b8a118f81c1df46ea5045e297b">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#af035589126434bd2dbef4000cd864b8b">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
 </li>
+<li>get_batch_id()
+: <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#abb21a72e2cef3217f446f70758c59c1e">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a8f84a2b830caecff3edd052dc24635e6">cutlass::gemm::IdentityBlockSwizzle</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a9be74716c0e3dc6a7f4cdd64cbb16211">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>
+</li>
 <li>get_deleter()
-: <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
+: <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#aa427ab4ea4f2336ac6db28d53a4c11ac">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
+</li>
+<li>get_grid_layout()
+: <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a927ce3eed4cd22554f9e6fe20a1ccc6e">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#afc20f302a5cc5b736cfc1c91dfcaa57c">cutlass::gemm::IdentityBlockSwizzle</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#aa9fc825e19404ff527cb3d2dcc55ae1c">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>
+</li>
+<li>get_pointer_offset()
+: <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a3d1922402bba34d0bc865fcc3e1a9a5c">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>get_ptr()
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a6b066568947df37094e4125b0347faf1">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+</li>
+<li>get_scalar()
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a81bd7b4f50b8d7c5effe5291ad920380">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+</li>
+<li>get_threadblock_offset()
+: <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a380fb7f905548c52933ea411166424b4">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a386e5cf702b0dcc3d57f9fdb4ab5d236">cutlass::gemm::IdentityBlockSwizzle</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#af7c1b4e0afb08e893cd14a169a0b47cd">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>
 </li>
 <li>GlobalLoadStream()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ab2961b4db0694cf128d55d38a98db575">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a4dd11a75375b6b9d7b8dcbd4d402d8d6">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aec86bdf5d7d4ad1f7b6ebebcf2da8395">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 </li>
-<li>GlobalLoadStreamBase()
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0fdc0f56d1352b5ad41fd4985edd3278">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+<li>GlobalLoadStreamPair()
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab97442e24a1d6d64727b6320ab901ad1">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
 </li>
 <li>good()
-: <a class="el" href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a837881bc82704491accf54aad2b9def9">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a8e1cfab3a220175dad58239c764a5d98">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_h.html b/docs/functions_func_h.html
index 7eb85aac8d..184c449e22 100644
--- a/docs/functions_func_h.html
+++ b/docs/functions_func_h.html
@@ -71,14 +71,23 @@
 &#160;
 
 <h3><a id="index_h"></a>- h -</h3><ul>
+<li>h()
+: <a class="el" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
 <li>HgemmSwizzle()
 : <a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ac3c52e0fee9b37a3dfc39ca168a63d36">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 </li>
+<li>hw()
+: <a class="el" href="structcutlass_1_1TileCoord.html#a0927c4ba212d00f3687034afe6bb8daf">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
+<li>hwc()
+: <a class="el" href="structcutlass_1_1TileCoord.html#a11bb7593ce7bba2dcedd199322a8b42b">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_i.html b/docs/functions_func_i.html
index 16cfdc5180..7c8680aba2 100644
--- a/docs/functions_func_i.html
+++ b/docs/functions_func_i.html
@@ -72,90 +72,103 @@
 
 <h3><a id="index_i"></a>- i -</h3><ul>
 <li>IdentityBlockSwizzle()
-: <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#abfde9b316173b1c0b8622cf22ffb6d68">cutlass::gemm::IdentityBlockSwizzle</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a046a5dfd01164df2abd514e9a52987c3">cutlass::gemm::IdentityBlockSwizzle</a>
 </li>
 <li>IgemmEpilogue()
-: <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#ab7a51121d24250d6441ee538e6521dc2">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a49ac00bed1532707aacd3ff108c84623">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a599a50becefed561d063c1b834188aca">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a0a1be1aab827127161406871ca75cbe0">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a>
 </li>
 <li>IgemmFloatToInt8Converter()
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#ac65f020e93584b1bd3cdb849ff625026">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a>
 </li>
+<li>IgemmGlobalIteratorAb()
+: <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a489fe448cd7f7e1f3805d33504f9d336">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+</li>
 <li>IgemmInt8ToFloatConverter()
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a88a55a494d3a30d50477d50bf6a8804d">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a>
 </li>
 <li>IgemmSwizzle()
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac041d287c966cf568599d7e462e81d5a">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 </li>
+<li>imag()
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">cutlass::platform::complex&lt; T &gt;</a>
+</li>
 <li>inc_advance()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a9dea455aa86bb59517b4a4d0309e424b">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab4b8150f19c9f8649d75c69ec0a76e1a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a174ae7d8aa0664eaf1d6f63c5606baa0">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a1614b27755cf82c0e1f3e7852c5a4c75">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>inc_c()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a12ead84ea9634e963d10c6df7b7792c9">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a44287250bf5631a490b514859fd101d1">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>inc_d()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1e42503e5a54cdc01308e9030aebdd35">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad26ab8d8010c9a1d7f3b91f60940b460">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab1ebbe54e4315ac07daf260a88f41d04">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a74dffe1ddcc84935ab170117e939b7e3">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>inc_h()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aa24336597f4a3316d94df6ab0c20f714">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ae07fa10a53d44471a04275145201299e">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa9a733f35e9be67663c9c8f80b0034d4">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a3793f5d5846862f22f1de736e36ae7c1">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>inc_stage()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8851150a49e4a9c135279c8c9dfdc592">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a187e0852ec4862f6d3cb6249bedc3bb3">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad4b9b1c1fe4b0c6961842d0eff6d7db7">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ad61206a742c8c5ab5bcd64b76ece9f74">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>inc_w()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a622a4dd27162854ec96efea93cdd4380">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aec2d692967d9be5d42673dfde21f5427">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa573a47a9ffc3e07239a09e2bc470cf1">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>increment()
+: <a class="el" href="classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>initialize()
-: <a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html#ac00c9d78a187d9c7d53399f971c0e129">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a3e9d0fd2989fea776b0cab0e0f2813ce">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#a73091e07b6d4c99f6e0319fbf6bd1709">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#af5a496f1b6a46ea6a9894512029add6a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a13395bf81eabdc539c935e179c31d7ca">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#ad0602cf5d322e98e3e5990c84ae1e3f3">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a7c7e448384156c801ed362359a1a6a40">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8e4d277325bb5e56c718a2298b60d3cf">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a054aee5b4bf288cc1f5945f2521ef835">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ad4089906220d4656ba075fb9afd1012c">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+, <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ad1b2291b898091ee1966b73bd1ad56fa">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9b62788c187fff49b0250c0070a41fa0">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#ad6b65c5f3ed7cd9e7ffeb684cbf30d04">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ac1cfe92f1543ba445fa10f1859a0db98">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a98867f4fc4daf790e309f8365e71cc8f">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#aca14058b112b7d5105658457341726cb">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>initialize_predicates()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab9375d9e779dcda79a5cd561bb3762ff">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#af92ba20db048a9ec96976a1673f0f7c2">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#acb6bc889b93d25c9e483a0b7297d7c89">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#ab0f93878bbe5aac072450f9bf1dd8b64">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>intermediate_fragment()
+: <a class="el" href="structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>is_pointer()
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a95373f3d1b286c61cb204ba6a1282ce0">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
 </li>
 <li>is_zero()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#a1c4fe2bec906cd7937428ed6561ac79a">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
 <li>Iterator()
-: <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a91b7d25cbd64e696ef23c87671f0b077">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
+: <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_k.html b/docs/functions_func_k.html
new file mode 100644
index 0000000000..ced1e9b631
--- /dev/null
+++ b/docs/functions_func_k.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div class="contents">
+&#160;
+
+<h3><a id="index_k"></a>- k -</h3><ul>
+<li>k()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">cutlass::gemm::GemmCoord</a>
+</li>
+<li>KernelLaunchConfiguration()
+: <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa">cutlass::KernelLaunchConfiguration</a>
+</li>
+<li>km()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad6c884a5bb6e5edaf371e8af10df367d">cutlass::gemm::GemmCoord</a>
+</li>
+<li>kn()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a16501265d58ddaca0e2d9bb4e21d66ea">cutlass::gemm::GemmCoord</a>
+</li>
+<li>knm()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a4062c040208868c75dbc6ba18910bffb">cutlass::gemm::GemmCoord</a>
+</li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/functions_func_l.html b/docs/functions_func_l.html
index c76f9fc530..76d84a0547 100644
--- a/docs/functions_func_l.html
+++ b/docs/functions_func_l.html
@@ -74,30 +74,56 @@ <h3><a id="index_l"></a>- l -</h3><ul>
 <li>launch()
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 </li>
+<li>Launch()
+: <a class="el" href="structcutlass_1_1gemm_1_1Launch.html#a8552a524b9419f60bf8ef3c6b8528d27">cutlass::gemm::Launch&lt; Gemm, WithLaunchBounds &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#ab7a89806834a5fa8022daae4180e6180">cutlass::gemm::Launch&lt; Gemm, false &gt;</a>
+</li>
 <li>leading_dim()
-: <a class="el" href="classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6c580a451a36143d1eb0e409e7b13e33">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
 </li>
 <li>LinearScaling()
-: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a34df6970f033b3090ad8f4d40063b1b2">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+</li>
+<li>LinearScalingDevicePtr()
+: <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a9dcb15bbcf3785280fd5cea0e0da5602">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
 </li>
 <li>load()
-: <a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html#a014682b143bce65667075ea15fad184d">cutlass::FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html#a01a847858cb330d7d109ddee228e96ce">cutlass::FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a7ba77016bee8e941f7831cc9fbfa994d">cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a4ee00178c441bdf4d4a1f8cf984bc03f">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#aa9d5e227ea20ad3c6952f296016ec167">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a0e58d26dd68aabb6cb9678f5656c7e6f">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Load.html#a0d13c39fdb813c3f043cdfaf0f1221a7">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a7d9027453aa78d4448d70dc44307791e">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a4bab8959d29ee868fb6b3e1f9abc04fc">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a7d3d3e156dc527f9c00acc7a66d21326">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#a2e906364a0631c2c9f97acd0ae4a1873">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#afee69b86f070e3badc75ab00bcc5996b">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a854c684b3f6c1a10b6e8fcf7967f6642">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#a619f643794f51b35f3c0a1011ba00bbd">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#abc4f879290c847a6e73dc9e68a340f74">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#af587adae1103b4242e0d56eb902f9302">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a9a3f2f913ee73f0c04e74ec89c6c5cbb">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>load_element()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a5cbda0dea8c87ca55499c97cc80b1ccf">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a109209936a9453e8f1f3f5eecfd6afca">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>load_post_increment()
-: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae2febd768cbbfb8aab3c2cb669c0505d">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#adfbd262dfb19fffd91e0712190d9712d">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a95b8db4af9228beed273669b3b0b12fe">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_m.html b/docs/functions_func_m.html
index 2c68ec4f36..97f286560d 100644
--- a/docs/functions_func_m.html
+++ b/docs/functions_func_m.html
@@ -71,23 +71,38 @@
 &#160;
 
 <h3><a id="index_m"></a>- m -</h3><ul>
+<li>m()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">cutlass::gemm::GemmCoord</a>
+</li>
+<li>map()
+: <a class="el" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a215f63b5a1b3799654c5670ef108fcfb">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
+<li>MatrixCoord()
+: <a class="el" href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">cutlass::MatrixCoord</a>
+</li>
+<li>move_to_residue()
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac269a9280a55d3988ca60f571bdf7f29">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab94c0c95d6d4e019563ba8a142f9d410">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+</li>
 <li>multiply()
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a522301fbe3e276cb5ef9fbe75bb2ab50">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ae62d61ec068ac958753d0a2f5a99d8e2">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a934c0d74c70fc87796ecb5cde50fd516">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a6bed70e7074931419e9441688aee00ea">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
 </li>
 <li>multiply_add()
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a34bbf209967fef6181d3d46dd27fa0c0">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a89c8b663af69f13c2a02cb464b5172a5">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aafa37c2e1ffd2f7d7031c24c732157d8">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a92edee5611d25b60cdab6a1c8e32141f">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5dcf66c8126ec8adf8e66d4bf5b2f347">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a66486d38349fa20eb065ae9542eb43aa">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad22dd143c304c22c2630aedbfd3459af">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7989d48e4c2e16b7804b813630f347cb">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#ae0ea662652907b60140598dad777c5ab">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aaf8ea4aaf393488f03ba7fb7af264940">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ad9d8e47e8896d8d4eab538aa78b56e47">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_n.html b/docs/functions_func_n.html
new file mode 100644
index 0000000000..3b16224a8f
--- /dev/null
+++ b/docs/functions_func_n.html
@@ -0,0 +1,89 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div class="contents">
+&#160;
+
+<h3><a id="index_n"></a>- n -</h3><ul>
+<li>n()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">cutlass::gemm::GemmCoord</a>
+</li>
+<li>nm()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac4550a7e80e1f0265eacecebe54794d9">cutlass::gemm::GemmCoord</a>
+</li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/functions_func_o.html b/docs/functions_func_o.html
index fb7b39f737..a7c0b04d30 100644
--- a/docs/functions_func_o.html
+++ b/docs/functions_func_o.html
@@ -72,8 +72,12 @@
 
 <h3><a id="index_o"></a>- o -</h3><ul>
 <li>offset()
-: <a class="el" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a064f3630e69798e7915f910c4ee99ab7">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a07c7f56e724cfbc844777e8ee9f616b5">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
+<li>operator()
+: <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
 </li>
 <li>operator &amp;=()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
@@ -82,16 +86,29 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 : <a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html#a8d100273203db9018dffbbe84e0b6c76">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;::dummy&lt; B, D &gt;</a>
 </li>
 <li>operator bool()
-: <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a5791650488ae864f10ad04bec4a31005">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a5791650488ae864f10ad04bec4a31005">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
+</li>
+<li>operator cuDoubleComplex()
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#a3b92e54de1c4262c7e481218162be7ec">cutlass::platform::complex&lt; T &gt;</a>
+</li>
+<li>operator cuFloatComplex()
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#ac5a3a0dc9815dadbe539312eb6fe36c4">cutlass::platform::complex&lt; T &gt;</a>
 </li>
 <li>operator D*()
 : <a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html#a8aadc500baf1492b1a4d05cc8b35fc13">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;::dummy&lt; B, D &gt;</a>
 </li>
+<li>operator Scalar()
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a896f35e776c1291ceda0f432cc3da654">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+</li>
 <li>operator value_type()
 : <a class="el" href="structcutlass_1_1platform_1_1integral__constant.html#a55d25116387f1c6d978462b1d245d675">cutlass::platform::integral_constant&lt; value_t, V &gt;</a>
 </li>
+<li>operator!()
+: <a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+</li>
 <li>operator!=()
-: <a class="el" href="structcutlass_1_1Coord.html#a7fb46873e8f3cf38212703d35bd36995">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
 </li>
@@ -105,78 +122,154 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html#a1228edf6cc0f81af520dc77c8792b94c">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#a80562f5ceab2049c3b7834c2891a07ee">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a>
+, <a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html#a3922130841c34d3ce8c112ee6fae4ca1">cutlass::IdentityTensorMapFunc&lt; Rank &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#af51e07c6605524581e5d27d290c8b8d2">cutlass::MatrixLayout::ColumnMajor</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a24c06bb7e64a8015ac528b3ae954a689">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dbf79e5df5bcf52d54a699d2587319d">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a512248a443c5914fab6aeabc4a73978e">cutlass::MatrixLayout::ContiguousLayout</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a736620aef395e4224d7aae098573aa34">cutlass::MatrixLayout::RowMajor</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#abde0a4a7c487da0c78ea2519323c04af">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a5199cb7f7c10f6123c63703453b7937c">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15">cutlass::platform::default_delete&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87">cutlass::platform::default_delete&lt; T[]&gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978">cutlass::platform::greater&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18">cutlass::platform::integral_constant&lt; value_t, V &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5">cutlass::platform::less&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c">cutlass::platform::plus&lt; T &gt;</a>
+, <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#a084c0a2732827a74f7a30873c5883827">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a>
 , <a class="el" href="structcutlass_1_1TiledThreadOffset.html#a7290b6ca9ef0bede634f69bd05450fa2">cutlass::TiledThreadOffset&lt; ThreadShape &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html#a0e4edffb19218ccbf77995f6d20df000">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;::ThreadOffset</a>
 </li>
 <li>operator*()
-: <a class="el" href="structcutlass_1_1Coord.html#a8e4f7df55a75d040cf50cf9984c04c8a">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5a158b5f3c0b1779972b25aa52be1164">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#ac68a57c17811b0a04dc6fb21423ab226">cutlass::MatrixCoord</a>
 , <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
 , <a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ab8fbb13cc5ea4f580a7fc32963de9553">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>operator*=()
-: <a class="el" href="structcutlass_1_1Coord.html#a282b6cc9ac8b2f72720c252791155aad">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a69fb0bb5e73f35d3c8df71a0174d6520">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#a5fd3c3b58af1147a5c73657c05a16f5b">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ae946b3af6b795d26632da7ca66b3751c">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>operator+()
-: <a class="el" href="structcutlass_1_1Coord.html#a3dfc4ce4191097b6c3268696f2a45ef5">cutlass::Coord&lt; N_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a675efbb9ed360888faf3c333708ae4d5">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#a25236953237f965965b1c9b7a04ba26e">cutlass::MatrixCoord</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ad054f14b5580c9480d671b8fc8ef016a">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a9fcd43018e60f12cb328859c76ec7891">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a1d48f4fea3fa85a7bf1b26b421387afd">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#aa2390d8e127a51df239affd2ca36e97a">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a3bfa2daa0e63144c1e8510ba336f185b">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>operator++()
 : <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
-, <a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator</a>
+, <a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a8ce80124ab0f4ab9981f1a4d64d976a5">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a3481d6f41defd25ab574bb19ee5fe424">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a47d270fc4a119d7b95b2d5dd3ee5b87b">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>operator+=()
-: <a class="el" href="structcutlass_1_1Coord.html#aeb209486943fa9d42911325b16e49e09">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5465f7308778eac5d14d8020179a65e0">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a8e79a153de72eef10d90bfd02b5dd27e">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a769813dcffe1767aab49ac30b838a5f4">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#ad105615dbf7ede75caa0e778c873bd06">cutlass::MatrixCoord</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0753aeb57365a976bc0a88481af504cb">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a22b87d281057c8e03b80db7046c54dd8">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab07a5d1a4ec6d96ec53e868b3a6d7cae">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a4fa8fa35d00eb4d0097da492c738cddc">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a812760c633ea813db8a2bc24826c68df">cutlass::TileCoord&lt; Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a57b284e6cbff892d45e5cfeb0ae1e3ed">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a60ba516d7382cb7788d5430023f7fc44">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>operator-()
-: <a class="el" href="structcutlass_1_1Coord.html#acc510511ffb52bed7f6a52f14b99750d">cutlass::Coord&lt; N_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a762fd45e61477d700c82bfd67443c6f9">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#aa462303d75a5d98b680b6e20080ce877">cutlass::MatrixCoord</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#afde28cda18918d3e177d3e5024ed3dd4">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a143ec893406d930aa4c5aa860052197e">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab92bc090d6753ff5e17676ba85a1e478">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a1e4b2bb02c5843898f72f62787403add">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a9f274d8e93f9cd3e0a9699e11b85fa7c">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>operator--()
-: <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
-, <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
+: <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a0f395558e2c589ac48179447a23b59d8">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad5290f0e7814892cb4fff55e9518562b">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a3d22dab34b2abd0d05c00668f8591151">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>operator-=()
-: <a class="el" href="structcutlass_1_1Coord.html#ac1795ec2a5890d8a39840567a4bea88e">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a12ba250be3d5474b7c6fc4eddd4f58d5">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#a6feef48cf24733d22ca53a27cbc33ac0">cutlass::MatrixCoord</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a11964d045ac8e41c80026515adb03008">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ae3561f863072cd7be7dcdee2cb5cc1f0">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ac4018b51e78842fb252d6917738fa571">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#abc088fad6debb6a0ceb04c5d2767e81b">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a02da20e580962fe0754a772842045389">cutlass::TileCoord&lt; Index_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a7bae0f9b789e75bb154c5f37db50e14c">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>operator-&gt;()
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 </li>
 <li>operator/()
-: <a class="el" href="structcutlass_1_1Coord.html#a87f485be079fa68bcf576da4d56f0ece">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a41770bb99f02f4debbafe95e019ce02b">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#aa89b196410d25d8c9ed3746fb6833374">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a5d2cc915343a3b90fb530348ddd329d2">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>operator/=()
-: <a class="el" href="structcutlass_1_1Coord.html#abe91e59962ef0d73aec9c14824f64ecc">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#aac1e1bad751237fd76d32a1ea10f6c40">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#aab345c8ddb8048bfe3d667bc7ce6522f">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ac3207d8aa879c86a907cdcc93ccb2eb5">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
+<li>operator&lt;()
+: <a class="el" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+</li>
+<li>operator&lt;=()
+: <a class="el" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 <li>operator=()
-: <a class="el" href="classcutlass_1_1TensorView.html#aa9e9e19f35ce3111f64b763ca49b51ef">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a54357e2f1d52aa8355b2ae7796740ea3">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#acf0c156efb9197bc7538f7e9057d8a68">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>operator==()
-: <a class="el" href="structcutlass_1_1Coord.html#acfa94aabd0c9a71ee994ca479d5f515f">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
 </li>
 <li>operator[]()
-: <a class="el" href="structcutlass_1_1Coord.html#ab7fc89de3ccd7096ab275fb5dd40104c">cutlass::Coord&lt; N_ &gt;</a>
-, <a class="el" href="structcutlass_1_1Fragment.html#a75f51bb6ca84615076aab42ac9d42592">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#af16f2aa14ff424b038a393b683c4783e">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentIterator.html#a3bd2a9d8467f8db02ca3a01ae0c11ad7">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1Fragment.html#a7795c5cf4d5626ff125abd5e8f156e9b">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
+, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a6216b58ffe6322f037f1e0a3ffa714c8">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1FragmentIterator.html#ad665745f3d6a3a88d7894fe0fc1bbd3e">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#a6a2aa88ed77557c089a165da0df1e974">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a7fe7e44e15fd1ac58fb55edf72e8fb23">cutlass::TensorView&lt; T &gt;</a>
-, <a class="el" href="unioncutlass_1_1Vector.html#a44cc27bf8a7b789b4ae8538155a50156">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
-, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a8ade80e040264fbd669d3f15c249884e">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a64a5e91e01555b8bfd22875543573d22">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector.html#a69be4f85c1dac371fa6f1c6747724adc">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a8eda6e6181a5333ca8350977374708cb">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a1e6568c0f3f958db739074ab6978ff10">cutlass::Vector&lt; half, 1 &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a3891ce1c321a3e57e938c8864de9baf0">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a2d5ec0b76daa136dae0b4aec1edf9e0b">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#ae2215fe7c2c223175b4172d73a6c7a82">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 </li>
 <li>operator|=()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
@@ -185,7 +278,7 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_p.html b/docs/functions_func_p.html
index 8f1b5e8a84..d12a337a90 100644
--- a/docs/functions_func_p.html
+++ b/docs/functions_func_p.html
@@ -71,6 +71,23 @@
 &#160;
 
 <h3><a id="index_p"></a>- p -</h3><ul>
+<li>Params()
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#afb39229d0ad334834cd2ba0c1fcc9412">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ae515cd98a75ff3eafffcc69692d6301a">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+, <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae28323819fc8950bc0fee3a34b2184ff">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html#a90772ac34f8c49f049eb62fada0a2165">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9cf4cd4ecb0a81cf3c03a70c7bfc4e09">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html#adfa2399bf13cdff16b7bfe1cb0dd2bd9">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#ad38f6a2cc5800c0ec82b12d183040390">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a>
+</li>
+<li>PredicatedTileLoadStream()
+: <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a672a8883d16eff4ecc90dc79162084d3">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+</li>
+<li>PredicatedTileStoreStream()
+: <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ac4aafc6bcc6cf3bff5b31b9cd60fd667">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+</li>
 <li>PredicateTileAdapter()
 : <a class="el" href="structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
 </li>
@@ -83,11 +100,14 @@ <h3><a id="index_p"></a>- p -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html#af2a323461334a6b55b95074a1973d250">cutlass::gemm::ProjectOperand&lt; GemmOperand::kC, true &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html#ace04040ccb13af5f9a283ca80ffe93d1">cutlass::gemm::ProjectOperand&lt; GemmOperand::kD, true &gt;</a>
 </li>
+<li>project_coordinate()
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+</li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_r.html b/docs/functions_func_r.html
index 96a3353379..b7f89e8291 100644
--- a/docs/functions_func_r.html
+++ b/docs/functions_func_r.html
@@ -71,27 +71,48 @@
 &#160;
 
 <h3><a id="index_r"></a>- r -</h3><ul>
+<li>real()
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">cutlass::platform::complex&lt; T &gt;</a>
+</li>
 <li>ref()
-: <a class="el" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a7e2beb56a3bc2d58c9ec65467b78c4f3">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>reference()
+: <a class="el" href="structcutlass_1_1TileAllocation.html#a3466ef2b478e4617aa1ff261217cfd05">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a0d00001220df7f2bdb1f09ae3f37c585">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+</li>
+<li>RegularTilePredicateFunctor()
+: <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#a0e0b728d3685097a9280fbca6a47a2af">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a>
 </li>
 <li>release()
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 </li>
 <li>reset()
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a8b1785a1ea5d7aa7eba8e45297d539d3">cutlass::TensorView&lt; T &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a1043f0ef382179b8ecd9f4e710f6e106">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#ae142eb93cf91e000b635d32fcacf1db3">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>residue()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aab37ea6c47e34466371314ed3971dc7b">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a405b93680bb6e356369863244d0b56aa">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aae1adef6312e069e59a83d38c03116f9">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a235adaea5d4f01232c79cb6109dc6d17">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a1b1ec121cbd17ee61d58ea843b900e9a">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+</li>
+<li>rollback()
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1e2eecdba1871fc11aa43a06edf6ed34">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6a9287a2cd87ca8a96cbf6b6d29199da">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+</li>
+<li>row()
+: <a class="el" href="structcutlass_1_1MatrixCoord.html#a67f3102e51abad1205e8a3450e7a6c7e">cutlass::MatrixCoord</a>
+</li>
+<li>RowMajorBlockSwizzle()
+: <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a4ed7847f8ddad11a6765d914b6f32fcd">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_s.html b/docs/functions_func_s.html
index 197958afab..68316b6ad4 100644
--- a/docs/functions_func_s.html
+++ b/docs/functions_func_s.html
@@ -71,6 +71,12 @@
 &#160;
 
 <h3><a id="index_s"></a>- s -</h3><ul>
+<li>ScalarIO()
+: <a class="el" href="structcutlass_1_1ScalarIO.html#ad4166575521254088bf6c6300c351714">cutlass::ScalarIO&lt; T &gt;</a>
+</li>
+<li>ScalarOrPointer()
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b85e1940149922942c7d495f9d12134">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+</li>
 <li>set()
 : <a class="el" href="structcutlass_1_1PredicateTileAdapter.html#aeda47efdda0387f9c3c7b31f836afca5">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#aadfd039b5622098c9e46706a27122575">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
@@ -85,43 +91,71 @@ <h3><a id="index_s"></a>- s -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 </li>
 <li>SharedLoadStream()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a49315aea1c54d84ff19b0ac215128b95">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>SharedStreamPair()
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a0b69ca0b37dad32ba25c7f7e71a3dcc1">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
 </li>
 <li>size()
-: <a class="el" href="classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>slice()
+: <a class="el" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+</li>
+<li>source_required()
+: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
 </li>
 <li>store()
-: <a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html#a45319520b7d341c66bd54d3e8fec48f8">cutlass::FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html#a118c78aa6b0ae0f0c78889689b6878c8">cutlass::FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ab70d04589637f285f861902f649f834e">cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aa130564bb2eba7b07e1f183c98f1d9e2">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a00f6bb93d318bf4cff35c9dabc630167">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a027980b8456243974b0c442866a66e3a">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a53820de506cecb1f5fb07b3385d8272a">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Store.html#a187b63f682f7f00f8bf9ed3ee59d602f">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a174ed368f1c702b4c958887f0b895eee">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#a535b4356c9bc21352fc2459b3c2246d1">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#ae16a5d6d7a42ffeba0f0ebe2d252ec28">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a453a2eed81a86d6637778a50bed06b59">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a1fcdc328d4b2deb1c50be5d31ef9e55f">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a298a08c8c4c1ea871e92e2491b2cb549">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a0218adf569557b17d8e36a3d97fb185e">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#aa617653e75535fe13aafa80bc4cc9cc4">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>store_element()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a051eb2a8637601cf9c1f52999117151b">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a1f7c4143443d2bee4a69d1b380576f08">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>store_post_increment()
-: <a class="el" href="structcutlass_1_1TileStoreIterator.html#ae63949f58c1b32959bbfa5b64d521f0f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a018d5be34cdbb263d7f133197b2921ca">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#adbb7fdb5710295cdfb86e090a8c40f44">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a3a2cae47533c1122eb8ec404473a0d9e">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>stride()
-: <a class="el" href="classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a522630bb0df977282a9bff17e6fee843">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#abb88bd43e5493682d1132c550b734a36">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dab2c5aee6958c9d99109183401f41f">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#aa3c5b8d44216fdeeee9cce5e38ce418b">cutlass::MatrixLayout::ContiguousLayout</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a1b25b4a7061d81041a8e2a548128ca71">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a56f728be8b1a3e71f4f322e1dbfb3495">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
+<li>stride_advance()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>subview()
-: <a class="el" href="classcutlass_1_1TensorView.html#aee43c516397d7c06eb8012711d8d7c15">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#ad4b3faa318699b786f94cf8735a11dbb">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>swap()
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 </li>
 <li>swizzle()
-: <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">cutlass::gemm::IdentityBlockSwizzle</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">cutlass::gemm::IdentityBlockSwizzle</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_t.html b/docs/functions_func_t.html
index 13b5b7ab28..8521d2da28 100644
--- a/docs/functions_func_t.html
+++ b/docs/functions_func_t.html
@@ -71,33 +71,51 @@
 &#160;
 
 <h3><a id="index_t"></a>- t -</h3><ul>
+<li>TensorArrayRef()
+: <a class="el" href="structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
 <li>TensorRef()
-: <a class="el" href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa091e497277d0ba8a98c4ebf73c0cdba">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
+<li>TensorRefBatchStrided()
+: <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa5d7e9a4589d7dacc5d69ca3c70ecc2b">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>TensorView()
-: <a class="el" href="classcutlass_1_1TensorView.html#a80480aa986a488a106a9b0aea331c317">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a73f049694ca1ea4825b5a651852827f5">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>ThreadMultiplyAdd()
-: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ab271a3f11ccde4b629ddb11b78c0d555">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#acec155117a56c942c5e695984b0f072d">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a9b75e499f4c14369b5c86051dceeb81d">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac087f0b397599221b74d220fcb1c7121">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a0ab850304c3c6e73bcba321426ba93f9">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a32b234c873ffe44090a12e12d871024c">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aad8a642f46c88e407a1150ee1d42b8dd">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+</li>
+<li>TileCoord()
+: <a class="el" href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>TileLoadIterator()
-: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>TileLoadStream()
+: <a class="el" href="structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>TileStoreIterator()
-: <a class="el" href="structcutlass_1_1TileStoreIterator.html#aac4d49854d63f632627b6974f9b59dbb">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileStoreIterator.html#a9f4501c6e8ba0f4511919c1b63c14e69">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>TileStoreStream()
+: <a class="el" href="structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>transform()
-: <a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a4dd95354137d3cb52752ecdd346a5685">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a>
+: <a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#aa9fe67c947bf461ba3e3ca48daa34815">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3">cutlass::Copy&lt; Fragment_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipConvert.html#a7e6398ad8ecd8757744a42f3ab8ef955">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
 </li>
 <li>TrivialIterator()
-: <a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator</a>
+: <a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ada8cd3ac6db568bb9bf268ba2c3a3e14">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator</a>
 </li>
 <li>TrivialPredicateTileAdapter()
 : <a class="el" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a7259853a129a7e319b972d3b41dd59d7">cutlass::TrivialPredicateTileAdapter</a>
@@ -106,7 +124,7 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_u.html b/docs/functions_func_u.html
index 2ca7d7a113..ae93236329 100644
--- a/docs/functions_func_u.html
+++ b/docs/functions_func_u.html
@@ -78,7 +78,7 @@ <h3><a id="index_u"></a>- u -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_v.html b/docs/functions_func_v.html
index ee4e6108be..8c869d4386 100644
--- a/docs/functions_func_v.html
+++ b/docs/functions_func_v.html
@@ -72,18 +72,22 @@
 
 <h3><a id="index_v"></a>- v -</h3><ul>
 <li>valid()
-: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a01571b2fc566793fd50a10fa82441951">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentIterator.html#ab18f8ea676b45831f939715212167a99">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ac4d2c293f9312b673ea29bf79b2882fd">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6594acc213fc8d4289c6c73631f60120">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a468f8f503777e4a2b0089ee2bd6c471a">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#ac4d601998a84a3eac23e3b7a7c8a935b">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1FragmentIterator.html#a8608dd815ed4906d8c82c41a10df23e2">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>Vector()
+: <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a50ae62579267952a648d4b6a6be3c663">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a5feb070268f85bd73c3095eaf2d0e2bb">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a48e193a0b636934ea553c6e60ffef563">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_w.html b/docs/functions_func_w.html
index ef637faa0f..8cac2ddbd5 100644
--- a/docs/functions_func_w.html
+++ b/docs/functions_func_w.html
@@ -71,14 +71,17 @@
 &#160;
 
 <h3><a id="index_w"></a>- w -</h3><ul>
+<li>w()
+: <a class="el" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
 <li>WmmaGemmGlobalIteratorCd()
-: <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a505f124fa3f47c6d57b7275e81be6dd3">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_func_z.html b/docs/functions_func_z.html
new file mode 100644
index 0000000000..858d93ffa7
--- /dev/null
+++ b/docs/functions_func_z.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Class Members - Functions</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div class="contents">
+&#160;
+
+<h3><a id="index_z"></a>- z -</h3><ul>
+<li>ZipConvert()
+: <a class="el" href="structcutlass_1_1ZipConvert.html#a7aa56d3ea300ebc58493c4d66339fff5">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
+</li>
+<li>ZipFragment()
+: <a class="el" href="structcutlass_1_1ZipFragment.html#a520318d060123c5870c4153b99cf0427">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
+</li>
+<li>ZipTensorRef()
+: <a class="el" href="structcutlass_1_1ZipTensorRef.html#a9b4e616da5b0a71ac2d9bd03b4e07b86">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>
+</li>
+<li>ZipTileIterator()
+: <a class="el" href="classcutlass_1_1ZipTileIterator.html#a31553842afd1cfd5a18a2fd6c39e17b5">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/functions_g.html b/docs/functions_g.html
index 9493c5ce48..bb564d1f58 100644
--- a/docs/functions_g.html
+++ b/docs/functions_g.html
@@ -76,53 +76,75 @@ <h3><a id="index_g"></a>- g -</h3><ul>
 </li>
 <li>GemmConfig
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
+</li>
+<li>GemmCoord()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a17da9936dbad99f2402c42b1bd6ea5ea">cutlass::gemm::GemmCoord</a>
+</li>
+<li>GemmDesc()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ae2708b731cbb99d3e638382ecf599425">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
 <li>GemmEpilogue()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 </li>
 <li>GemmEpilogueTraits
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
 </li>
 <li>GemmGlobalIteratorAb()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a34cb153d311377388e7819296a84d07e">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>GemmGlobalIteratorCd()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6dae81995ab94c0b7f28eeeeb84a6c8d">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>GemmTileTraitsHelperA
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a5557c86a530f5d20a35d3fa620adf417">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ab9e10d54c81a359db0eba58a11b9a0cf">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4f3afb4b1f37a2c43a1935a3000b2a02">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aee1dfb15e1b63f838a712af93777e5d3">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 </li>
 <li>GemmTileTraitsHelperB
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8768c2b03bea0c3601c47dde2bc7ca89">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a095505bfcea6791accd06bf4d37b9df8">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada910ee63493bc3c70f7395127268a1d">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7f175193ac6bcdccba012f5d80324685">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 </li>
 <li>get()
-: <a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">cutlass::ComputeOffsetFromShape&lt; Shape_ &gt;</a>
-, <a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html#a11bf40abc57580db5ce4b0fd4c3e55ff">cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;</a>
-, <a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html#a5198e838e3892245fe7b10884555ec93">cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;</a>
-, <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">cutlass::ComputeOffsetFromStrides&lt; Strides_ &gt;</a>
-, <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html#a512a9d46f6bea9d85641d7263bcfee36">cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a>
-, <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html#acdbb9c7cdf9fc054656614f72396434e">cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a>
+: <a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">cutlass::ComputeOffsetFromShape&lt; Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">cutlass::ComputeOffsetFromStrides&lt; Strides_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">cutlass::ComputeThreadOffsetFromStrides&lt; Threads_, Strides_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html#a6e621f5fae2ba29277fde46be1cede24">cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html#a5d446b2663c01362361e09435a726996">cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a>
+, <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a1661baed19b4aa4eea725a6f6e6b26a3">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
 , <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a2e7c14b8a118f81c1df46ea5045e297b">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#af035589126434bd2dbef4000cd864b8b">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
 </li>
+<li>get_batch_id()
+: <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#abb21a72e2cef3217f446f70758c59c1e">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a8f84a2b830caecff3edd052dc24635e6">cutlass::gemm::IdentityBlockSwizzle</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a9be74716c0e3dc6a7f4cdd64cbb16211">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>
+</li>
 <li>get_deleter()
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 </li>
-<li>global
-: <a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#a3c2980547310ec4307f3a5f9817dfc51">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::StreamSharedStorage&lt; GlobalLoadStream_, SharedLoadStream_ &gt;</a>
+<li>get_grid_layout()
+: <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a927ce3eed4cd22554f9e6fe20a1ccc6e">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#afc20f302a5cc5b736cfc1c91dfcaa57c">cutlass::gemm::IdentityBlockSwizzle</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#aa9fc825e19404ff527cb3d2dcc55ae1c">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>
+</li>
+<li>get_pointer_offset()
+: <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a3d1922402bba34d0bc865fcc3e1a9a5c">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
-<li>global_stream_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a575bcff901d69ae3f46987222f23ab64">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
+<li>get_ptr()
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a6b066568947df37094e4125b0347faf1">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
 </li>
-<li>global_stream_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a46affe35cb16874de5a2b9777aedf596">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
+<li>get_scalar()
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a81bd7b4f50b8d7c5effe5291ad920380">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+</li>
+<li>get_threadblock_offset()
+: <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a380fb7f905548c52933ea411166424b4">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a386e5cf702b0dcc3d57f9fdb4ab5d236">cutlass::gemm::IdentityBlockSwizzle</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#af7c1b4e0afb08e893cd14a169a0b47cd">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>
+</li>
+<li>global_to_shared_stream
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a61fcc63cb0df6754eef16f5cf138f3a2">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
 </li>
 <li>GlobalFragmentC
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
@@ -134,40 +156,46 @@ <h3><a id="index_g"></a>- g -</h3><ul>
 : <a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a56d3f2606f9464ec57aa61aae378c642">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a880878914c25db44a1781725c24af514">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 </li>
+<li>GlobalLoadIterator
+: <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a4237c6c9e33397bc1633182e9c3b6504">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aed9492775f012986a7c158156bf4e01e">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#acd7e5d5b940f410275ebbcd6c27e4327">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a57670718427808a241005f5e27acce5d">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+</li>
 <li>GlobalLoadIteratorA
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalLoadIteratorB
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalLoadIteratorC
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
-<li>GlobalLoadStream()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ab2961b4db0694cf128d55d38a98db575">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a4dd11a75375b6b9d7b8dcbd4d402d8d6">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+<li>GlobalLoadStream
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aec86bdf5d7d4ad1f7b6ebebcf2da8395">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 </li>
 <li>GlobalLoadStreamA
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2aaece6093100c71c4d587994200e3bb">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7fb1354154f303642da72e6fd157d846">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a448c242880183e006b70d839d210a2ec">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a80e36b583ccd9aa9b37d52faa090cbca">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2aceaceb30287e909c254f01f1716845">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a50121da13661e9fa50e5ea3a87c06266">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalLoadStreamB
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abaf5f16ab0b215b406766ecadab29394">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a88e66ee760aea03687e7b3ccc6ea535b">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aad467ed9a680b4d77acecb096799cd89">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2c46c11f5fddb865645f555547c823ba">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae59454c1b3862522c8ea293bacb194a8">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a2fcf34dcf8d89424aa15da709aed4a83">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
-<li>GlobalLoadStreamBase()
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0fdc0f56d1352b5ad41fd4985edd3278">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+<li>GlobalLoadStreamPair()
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab97442e24a1d6d64727b6320ab901ad1">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
 </li>
 <li>GlobalLoadTileTraits
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
@@ -175,7 +203,7 @@ <h3><a id="index_g"></a>- g -</h3><ul>
 </li>
 <li>GlobalStoreIteratorD
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
@@ -190,40 +218,45 @@ <h3><a id="index_g"></a>- g -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a738774d1eb79de7e29c372ddfd48258d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a24f38105e3c331c733cb672c3a9be588">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a66f11407e9f5bf0d6123c81dfee6b330">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a125c9a43da3bcdc00d5194a1376f613c">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 <li>GlobalTransformerA
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalTransformerB
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalTransformerC
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
 <li>GlobalTransformerD
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
 <li>good()
-: <a class="el" href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a837881bc82704491accf54aad2b9def9">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a8e1cfab3a220175dad58239c764a5d98">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
+<li>grid
+: <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">cutlass::KernelLaunchConfiguration</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_h.html b/docs/functions_h.html
index 4c7693dbf0..1185e3320c 100644
--- a/docs/functions_h.html
+++ b/docs/functions_h.html
@@ -71,14 +71,23 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_h"></a>- h -</h3><ul>
+<li>h()
+: <a class="el" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
 <li>HgemmSwizzle()
 : <a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ac3c52e0fee9b37a3dfc39ca168a63d36">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 </li>
+<li>hw()
+: <a class="el" href="structcutlass_1_1TileCoord.html#a0927c4ba212d00f3687034afe6bb8daf">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
+<li>hwc()
+: <a class="el" href="structcutlass_1_1TileCoord.html#a11bb7593ce7bba2dcedd199322a8b42b">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_i.html b/docs/functions_i.html
index a91cf4c4ec..3167390cd3 100644
--- a/docs/functions_i.html
+++ b/docs/functions_i.html
@@ -72,117 +72,136 @@
 
 <h3><a id="index_i"></a>- i -</h3><ul>
 <li>IdentityBlockSwizzle()
-: <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#abfde9b316173b1c0b8622cf22ffb6d68">cutlass::gemm::IdentityBlockSwizzle</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a046a5dfd01164df2abd514e9a52987c3">cutlass::gemm::IdentityBlockSwizzle</a>
 </li>
 <li>idx
-: <a class="el" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 <li>IgemmConfig
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5a52727bb9b5d5f8afa7d0384f564036">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
 <li>IgemmEpilogue()
-: <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#ab7a51121d24250d6441ee538e6521dc2">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a49ac00bed1532707aacd3ff108c84623">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a599a50becefed561d063c1b834188aca">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a0a1be1aab827127161406871ca75cbe0">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a>
 </li>
 <li>IgemmFloatToInt8Converter()
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#ac65f020e93584b1bd3cdb849ff625026">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a>
 </li>
+<li>IgemmGlobalIteratorAb()
+: <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a489fe448cd7f7e1f3805d33504f9d336">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+</li>
 <li>IgemmInt8ToFloatConverter()
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a88a55a494d3a30d50477d50bf6a8804d">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a>
 </li>
 <li>IgemmSwizzle()
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac041d287c966cf568599d7e462e81d5a">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 </li>
+<li>imag()
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801">cutlass::platform::complex&lt; T &gt;</a>
+</li>
 <li>ImmediateOffsetStrides
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a8e767b5e2fb95b0b02a0ea3e8ea58368">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a5e4204b52ee081a37e824ca71c291c03">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9cfb32f902593e7dc018ee802c3520b8">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ad012add21d9393d136720f609467e121">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a99017ecc737060f53fd9804ea6f9583f">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a57b065abb737bee1c17398c90b5bc39b">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#a3db8202befa891bbc7c0a53c535cd21f">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
 </li>
 <li>inc_advance()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a9dea455aa86bb59517b4a4d0309e424b">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab4b8150f19c9f8649d75c69ec0a76e1a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a174ae7d8aa0664eaf1d6f63c5606baa0">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a857db0c999250248b104f17f13fe9bd8">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a1614b27755cf82c0e1f3e7852c5a4c75">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>inc_c()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a12ead84ea9634e963d10c6df7b7792c9">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a44287250bf5631a490b514859fd101d1">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>inc_d()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1e42503e5a54cdc01308e9030aebdd35">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad26ab8d8010c9a1d7f3b91f60940b460">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab1ebbe54e4315ac07daf260a88f41d04">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a74dffe1ddcc84935ab170117e939b7e3">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>inc_h()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aa24336597f4a3316d94df6ab0c20f714">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ae07fa10a53d44471a04275145201299e">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa9a733f35e9be67663c9c8f80b0034d4">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a3793f5d5846862f22f1de736e36ae7c1">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>inc_stage()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8851150a49e4a9c135279c8c9dfdc592">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a187e0852ec4862f6d3cb6249bedc3bb3">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad4b9b1c1fe4b0c6961842d0eff6d7db7">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ad61206a742c8c5ab5bcd64b76ece9f74">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>inc_w()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a622a4dd27162854ec96efea93cdd4380">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aec2d692967d9be5d42673dfde21f5427">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa573a47a9ffc3e07239a09e2bc470cf1">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>increment()
+: <a class="el" href="classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>Index
-: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#abd12fea9779ada02c0f2266909602171">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5ac2280dfcac08cec17b8c0db1c4593e">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">cutlass::MatrixCoord</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ab12d9d196122dc3075185ab239a27fb4">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a5a3f096a01e6a2dfe984d7e605380599">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">cutlass::TileCoord&lt; Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aae07fdedeef68abd4e6c099924c70910">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>initialize()
-: <a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html#ac00c9d78a187d9c7d53399f971c0e129">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a3e9d0fd2989fea776b0cab0e0f2813ce">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#a73091e07b6d4c99f6e0319fbf6bd1709">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#af5a496f1b6a46ea6a9894512029add6a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a13395bf81eabdc539c935e179c31d7ca">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#ad0602cf5d322e98e3e5990c84ae1e3f3">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a7c7e448384156c801ed362359a1a6a40">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8e4d277325bb5e56c718a2298b60d3cf">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a054aee5b4bf288cc1f5945f2521ef835">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ad4089906220d4656ba075fb9afd1012c">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+, <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ad1b2291b898091ee1966b73bd1ad56fa">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9b62788c187fff49b0250c0070a41fa0">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#ad6b65c5f3ed7cd9e7ffeb684cbf30d04">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a71f5238a712f7b2f377fb58938ac829b">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a98867f4fc4daf790e309f8365e71cc8f">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a23c9e9d1d2bed7e5d8579df9cc42dda3">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>initialize_predicates()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab9375d9e779dcda79a5cd561bb3762ff">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#af92ba20db048a9ec96976a1673f0f7c2">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a890a7239a89679662aeaea797ba32d32">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a8f334010614b50d962e4769904d7b76f">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>InputFragment
 : <a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#ac7906301019c3e6d60985c3851f1e95e">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a>
@@ -191,14 +210,23 @@ <h3><a id="index_i"></a>- i -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
 </li>
 <li>InstructionShape
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ac93ba536992debeae86087e638167a13">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ab16a3d8adda89cc4f9765116ea75a4b7">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa56cdefa659af5ce4efd493b94bafdfd">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad73372a37315b0c17a8db21e40a78574">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aa101be5d45e2be54bb4056517b6d5e76">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a7d83cf5bde360251a252c6e728ea80ff">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#afc7858e849a2967631761986512dbfb7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a245bdf059794144d04d2823d2b39588e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa84c3d4efc7947d6efb75536c88043bd">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+</li>
+<li>intermediate_fragment()
+: <a class="el" href="structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>is_pointer()
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a95373f3d1b286c61cb204ba6a1282ce0">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
 </li>
 <li>is_zero()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#a1c4fe2bec906cd7937428ed6561ac79a">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
@@ -213,54 +241,70 @@ <h3><a id="index_i"></a>- i -</h3><ul>
 , <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a81ca35e0c5d9553d1dccc981cbd89d47">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b33700f904dd15e3533fec15d9d71bd">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#aa9b46937bea47d071d277aa212dd610b">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a9fb4b56091d4458ebd82130bc3951e5b">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a2dc8573498bcda33273b86db76dbd511">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ae1d930fa295d8ddfaa10bda5978258de">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a552a67fb03c28e985d143f6193f88308">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileTraits.html#af7ae2fdb4c8f1702169cc7d437d2b469">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a8628ea7116f736b59c644fc0d85d395f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#a46b9e04bb8d33fcf8fc116cc48a555fc">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#a425a20b642ae8736c12626b2de9b8b82">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2">cutlass::TileTraitsStrideMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
 <li>IterationsStrides
-: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#ab683796885f3bae3765efd96883f311b">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a14ef0a0095e391503a19067e146c584a">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+</li>
+<li>Iterator
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>iterator
 : <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a>
 </li>
 <li>Iterator
-: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a1f2314aa062360b249b7c57c39af5430">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a0ba9097d54f3ba7b7dab12012631fa76">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
+</li>
+<li>iterator
+: <a class="el" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>Iterator
+: <a class="el" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>iterator
-: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html#a0430f377595718291f84ef62eb6f4e57">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>Iterator
+: <a class="el" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
-<li>Iterator()
-: <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
+<li>iterator
+: <a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html#acd106661221997d7c5943daac8eb5088">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params</a>
 </li>
 <li>iterator_c
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a7350ceefcd09a9e3662ca30b780cc2ce">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a0745d33dd881f6ca78b168e05b133ff8">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 </li>
 <li>iterator_d
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a987c179a7e73c2572fe8aef3255668f7">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#abbcccb203f9823e621caa4475aa3d346">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_k.html b/docs/functions_k.html
index 1aab81d80e..6dc0fcc707 100644
--- a/docs/functions_k.html
+++ b/docs/functions_k.html
@@ -71,9 +71,8 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_k"></a>- k -</h3><ul>
-<li>k
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ac789a7e5d2db65d006f1e8e3df542a6f">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aae3a008b39f9678a03192f6ff54152d8">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
+<li>k()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">cutlass::gemm::GemmCoord</a>
 </li>
 <li>kA
 : <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand</a>
@@ -86,33 +85,59 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#a0a494c2eacb51b65487f8405908a0214">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraitsStandard.html#a5e04777205c7a292602880c59d6b43c8">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a>
 </li>
 <li>kAccumulatorsPerLdsA
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kAccumulatorsPerLdsB
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kAdvance
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a8059c57030df99b73309e9210ec5f624">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a44200854ad5b35c1863f73c435b8750b">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>kAlignment
+: <a class="el" href="structcutlass_1_1Fragment.html#a84b6d68a5a24dbd04d842e0755b42bda">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
 </li>
 <li>kB
 : <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand</a>
 </li>
+<li>kBatch
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad7b490ce2150e54fccad6b0f11932382">cutlass::gemm::GemmCoord</a>
+</li>
+<li>kBlockColumns
+: <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+</li>
+<li>kBlockRows
+: <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+</li>
 <li>kBytes
 : <a class="el" href="structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
 <li>kC
 : <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand</a>
 , <a class="el" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a8236879e1670072033983b7ec4b7ae32">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
+<li>kColumn
+: <a class="el" href="structcutlass_1_1MatrixCoord.html#a1e096b25138e027c31ea8624729ec433">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#adb3b8cccf1ac91265fff998a3d48f5e7">cutlass::MatrixLayout::ContiguousLayout</a>
 </li>
 <li>kColumnMajor
 : <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout</a>
 </li>
+<li>kConjugate
+: <a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683">cutlass::MatrixTransform</a>
+</li>
 <li>kCount
 : <a class="el" href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">cutlass::ShapeCount&lt; Shape &gt;</a>
 </li>
@@ -120,6 +145,7 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 : <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe">cutlass::GemmOperand</a>
 , <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5">cutlass::IteratorAdvance</a>
 , <a class="el" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ab5ebf352327baadcc740175d6b39adcb">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>kDhw
 : <a class="el" href="structcutlass_1_1ShapeCount.html#af7d7ccd42de2c49fe57f03cf0e657fe8">cutlass::ShapeCount&lt; Shape &gt;</a>
@@ -134,12 +160,23 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 : <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 </li>
+<li>KernelClass
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
+</li>
+<li>KernelLaunchConfiguration()
+: <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa">cutlass::KernelLaunchConfiguration</a>
+</li>
 <li>kExtent
 : <a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html#a881f84951bc9e47ab2be9ef3f2c1e423">cutlass::gemm::GetExtent&lt; GemmOperand::kA, Tile_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html#a82ff9b447e4a58164b5f7d53d2602930">cutlass::gemm::GetExtent&lt; GemmOperand::kB, Tile_ &gt;</a>
 </li>
+<li>kFragmentElementType
+: <a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
 <li>kFragmentSize
-: <a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>kGeneric
 : <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">cutlass::MemorySpace</a>
@@ -150,6 +187,7 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 <li>kH
 : <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance</a>
 , <a class="el" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a24d32587359493bb965745f5551e1624">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>kHw
 : <a class="el" href="structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f">cutlass::ShapeCount&lt; Shape &gt;</a>
@@ -158,16 +196,22 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 : <a class="el" href="structcutlass_1_1ShapeCount.html#a75324e2c9d31a0787343fc994586b742">cutlass::ShapeCount&lt; Shape &gt;</a>
 </li>
 <li>Kind
-: <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand</a>
+: <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">cutlass::FragmentElementType</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8">cutlass::gemm::swizzleDirection</a>
+, <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand</a>
 , <a class="el" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375">cutlass::Identity</a>
 , <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">cutlass::IteratorAdvance</a>
-, <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">cutlass::IteratorFragment</a>
 , <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout</a>
+, <a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48">cutlass::MatrixTransform</a>
 , <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace</a>
 </li>
 <li>kInt8Output
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html#a8609af98d1e43cd25688bae6f33feed4">cutlass::gemm::IgemmEpilogueTraits&lt; IgemmConfig_, EpilogueFunctor_, Index_, Helper_ &gt;</a>
 </li>
+<li>kInterleave
+: <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a>
+</li>
 <li>kIterationsD
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 </li>
@@ -177,21 +221,26 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 <li>kIterationsInHPerWarp
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 </li>
-<li>kIteratorFragment
-: <a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a94c0567316118abfb84fc28560a5a46a">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+<li>kK
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a521d4b8e720d2261c825e05397c92a5e">cutlass::gemm::GemmCoord</a>
 </li>
 <li>kKstrided
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85">cutlass::gemm::GemmMultiplicandTraits&lt; ThreadBlockTile_, Usage, Layout &gt;</a>
 </li>
 <li>kLanes
 : <a class="el" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
-, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#aa70d2fd36f00b63d321c1f7b6d6c3024ad242b575673ca1bf9cf311e58a966392">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a4020f25408022dbf20c26ed4fa8c7dffa14befaa9d739f1b754bc372f717b105b">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a27410a8095bb82f682612954df4d6182a3a12b2fbef9007373a03125ec3c1c393">cutlass::Vector&lt; half, 1 &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#acfa6821aefbd38a1b7c44e5d83eda05fad242b575673ca1bf9cf311e58a966392">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a322ddd3ec1f47b76e21c24d3a3c44c5badeba151dbcb3c15e581bad7d767a93fa">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a9aacb7538f1b83762d68c768629c98eba17b71e816051646b567cf47334649a9b">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">cutlass::VectorTraits&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aca745b59c6c21292f119943e5a480f39">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a43ac200035052a2c352c8c4b84aac73c">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a>
 </li>
+<li>kLaunchBounds
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+</li>
 <li>kLayout
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
@@ -201,7 +250,9 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a807cffc6f69f8d30a2fc94cf49fb904c">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a32729d0fad10fcbbcf2643a2fa5671d6">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a11026d05b2b32f1373020c049f2cfa66">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>kLayoutA
@@ -210,6 +261,12 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 <li>kLayoutB
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 </li>
+<li>km()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad6c884a5bb6e5edaf371e8af10df367d">cutlass::gemm::GemmCoord</a>
+</li>
+<li>kM
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#af1f5c03c35eaa406c6a63082da26bec3">cutlass::gemm::GemmCoord</a>
+</li>
 <li>kMemorySpace
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
@@ -218,14 +275,27 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#adaebec9eacf767f63f048033de73ea5b">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>kn()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a16501265d58ddaca0e2d9bb4e21d66ea">cutlass::gemm::GemmCoord</a>
+</li>
+<li>kN
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a67f08a03dabee497fa5547cff0f1faea">cutlass::gemm::GemmCoord</a>
+</li>
+<li>knm()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a4062c040208868c75dbc6ba18910bffb">cutlass::gemm::GemmCoord</a>
+</li>
+<li>kNone
+: <a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5">cutlass::MatrixTransform</a>
 </li>
 <li>kOperand
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a30113b850dfd3de60f8778bc7a66f700">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 </li>
 <li>kPredicates
 : <a class="el" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
@@ -236,54 +306,71 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 <li>kPredicateStart
 : <a class="el" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
+<li>kRank
+: <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
 <li>kRequiresLoadFence
-: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>kResidueInProlog
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+</li>
+<li>kResidueSeparate
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+</li>
+<li>kRow
+: <a class="el" href="structcutlass_1_1MatrixCoord.html#a5149f4a37407746407251efc0779bb53">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#ae97a9ba9d5045bef258d8994eb732256">cutlass::MatrixLayout::ContiguousLayout</a>
 </li>
 <li>kRowMajor
 : <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout</a>
 </li>
 <li>kScalar
-: <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80aeca44a186befa21ccae44eb4dc7b6954">cutlass::IteratorFragment</a>
+: <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">cutlass::FragmentElementType</a>
 </li>
 <li>kScalarsIn4B
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 </li>
 <li>kScalarsPerLdgA
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerLdgB
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerLdgC
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerLdsA
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerLdsB
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerLdsD
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerRow
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 </li>
 <li>kScalarsPerStgD
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerStsA
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ae396f7301f934c179e054f68f0420edf">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a69775031f651795f697b628677b8e4eb">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aedb61c43d8fb9c4ba18ae72601b9f6e1">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 <li>kScalarsPerStsB
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a47d99d98c783cf1d317698bd465ffa9a">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aaa3228d45ff4428bba0f88a7a6e8b31b">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a8a6cef5e733eab9c0ead20b1e345ad6f">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 <li>kScalarsPerStsD
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerThread
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
@@ -300,15 +387,39 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aba6decf87d770becaadd610d9fc27491">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
 </li>
+<li>kSkewA
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9c296924f9a6c6908f09830bbbf6a775">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac8da30393042cf6e785bdd54b11d9408">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+</li>
+<li>kSkewB
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab35a6b3ff04e4128e4ca4a8cc0459b16">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a6d0f50e83067373b249b38444eb7fe65">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
+</li>
+<li>kSplitK
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
+</li>
 <li>kStages
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+</li>
+<li>kStorageRank
+: <a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html#ac609498e7fe858b4fb3791d1039438f4">cutlass::IdentityTensorMapFunc&lt; Rank &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70">cutlass::MatrixLayout::ColumnMajor</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">cutlass::MatrixLayout::ContiguousLayout</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30">cutlass::MatrixLayout::RowMajor</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>kStrideH
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
 </li>
 <li>kThreads
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
@@ -327,19 +438,29 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 : <a class="el" href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">cutlass::Extent&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a10f7184a9a50de0268efa45dab5dc304">cutlass::Extent&lt; Vector&lt; T, Lanes &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a87917a6dfbb1662416c4ea4831669aaf">cutlass::Extent&lt; Vector&lt; T, Lanes &gt; const &gt;</a>
+, <a class="el" href="structcutlass_1_1Max.html#a6ed8be7ed855eea8f8d08921f7b5d763">cutlass::Max&lt; A, B &gt;</a>
+, <a class="el" href="structcutlass_1_1Min.html#a97e6dd3ff6fb5404e8a6e6109f73f429">cutlass::Min&lt; A, B &gt;</a>
 </li>
 <li>kVectorSize
 : <a class="el" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
-, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#adc4140a7e40be1e4f81c78a657c7ba73abfbb3cf98db2f8af7150efb91cac4e79">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#ad75d72ca210d77ae82b8aa4bed04fed0ab98f21cd2645378ad0a840727b7edaff">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a0c3d44e7c726aabf23d57094475fcc22aa12662bfb46ed10de12f168219ce0a8d">cutlass::Vector&lt; half, 1 &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a42288bc8b85cd3f40aafbe7549a5285babfbb3cf98db2f8af7150efb91cac4e79">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a01e23040ab8cea016e3709f55c2089fdaf9fe4d6ac4ee913780e3361dde6c80d6">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a722f7852892c56613ea5027610523d8bab0655ce225f020ac27580efa249f6acb">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 </li>
 <li>kW
 : <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">cutlass::IteratorAdvance</a>
 , <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ac2c14af3ceffd5ef8f17c9e0efb4e5ec">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>kWarpCount
 : <a class="el" href="structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
+<li>kWarpGemmSteps
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+</li>
 <li>kWarps
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
@@ -348,7 +469,7 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 : <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
 <li>kWarpSize
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
@@ -359,7 +480,7 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 : <a class="el" href="structcutlass_1_1ShapeCount.html#aac5c49469aa80d119c2006291b431276">cutlass::ShapeCount&lt; Shape &gt;</a>
 </li>
 <li>kWmmaMatrix
-: <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">cutlass::IteratorFragment</a>
+: <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">cutlass::FragmentElementType</a>
 </li>
 <li>kWordCount
 : <a class="el" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
@@ -368,7 +489,7 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_l.html b/docs/functions_l.html
index 441d9d32ea..3731f45764 100644
--- a/docs/functions_l.html
+++ b/docs/functions_l.html
@@ -74,51 +74,70 @@ <h3><a id="index_l"></a>- l -</h3><ul>
 <li>launch()
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 </li>
-<li>lda
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a62ad30ba419ccb661e6700da98221789">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
-<li>ldb
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7591ce0223b0d05c4d6fca6c67b98bfe">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
-<li>ldc
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a0f492560cabc45cd492da65b819d09db">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
-<li>ldd
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a3280e5c5484f5c10d1412bcb70eb77e9">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
+<li>Launch()
+: <a class="el" href="structcutlass_1_1gemm_1_1Launch.html#a8552a524b9419f60bf8ef3c6b8528d27">cutlass::gemm::Launch&lt; Gemm, WithLaunchBounds &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#ab7a89806834a5fa8022daae4180e6180">cutlass::gemm::Launch&lt; Gemm, false &gt;</a>
 </li>
 <li>leading_dim()
-: <a class="el" href="classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6c580a451a36143d1eb0e409e7b13e33">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
 </li>
 <li>LinearScaling()
-: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a34df6970f033b3090ad8f4d40063b1b2">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
 </li>
-<li>load()
-: <a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html#a014682b143bce65667075ea15fad184d">cutlass::FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html#a01a847858cb330d7d109ddee228e96ce">cutlass::FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#aea5ed35a44624684ffa9ada9d09a8893">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a>
-, <a class="el" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a7ba77016bee8e941f7831cc9fbfa994d">cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a4ee00178c441bdf4d4a1f8cf984bc03f">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#aa9d5e227ea20ad3c6952f296016ec167">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a0e58d26dd68aabb6cb9678f5656c7e6f">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+<li>LinearScalingDevicePtr()
+: <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a9dcb15bbcf3785280fd5cea0e0da5602">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+</li>
+<li>load
+: <a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#ae7bc498e4976814111114091de4e43af">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a>
+, <a class="el" href="structcutlass_1_1Load.html#a0d13c39fdb813c3f043cdfaf0f1221a7">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a7d9027453aa78d4448d70dc44307791e">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a4bab8959d29ee868fb6b3e1f9abc04fc">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a7d3d3e156dc527f9c00acc7a66d21326">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#a2e906364a0631c2c9f97acd0ae4a1873">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#afee69b86f070e3badc75ab00bcc5996b">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a854c684b3f6c1a10b6e8fcf7967f6642">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#a619f643794f51b35f3c0a1011ba00bbd">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#abc4f879290c847a6e73dc9e68a340f74">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#af587adae1103b4242e0d56eb902f9302">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a23b72b086f350dfe07cff22ac010c45c">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>load_element()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a5cbda0dea8c87ca55499c97cc80b1ccf">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a109209936a9453e8f1f3f5eecfd6afca">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>load_iterator
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a42ffcba6af2b5ddfb1f4825a34d43532">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
-, <a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a3be938f8661f9cd10966866b7b80b471">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a46f2546f9b88f4fc87f1396d0f08b065">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
 </li>
 <li>load_post_increment()
-: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae2febd768cbbfb8aab3c2cb669c0505d">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a57c56e2fe02fc5c771283e35d59b9214">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a53045f40d203a805af9c92fa0b5bc684">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>LoadIterator
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+</li>
+<li>LongIndex
+: <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a6220549b72ed8451dbf76466b50a96c0">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa3df5b7337d41d8f96717ea73bf3e24e">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_m.html b/docs/functions_m.html
index 1a9fe80954..32e299e61a 100644
--- a/docs/functions_m.html
+++ b/docs/functions_m.html
@@ -71,14 +71,33 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_m"></a>- m -</h3><ul>
-<li>m
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a5c2b3e75cb6873762ba3f85487b78579">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aaf27c0f2f4ab730ed5c865e9f7d2373b">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
+<li>m()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">cutlass::gemm::GemmCoord</a>
 </li>
 <li>main_loop
 : <a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage</a>
 </li>
+<li>map()
+: <a class="el" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a215f63b5a1b3799654c5670ef108fcfb">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
+<li>MapFunc
+: <a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
+<li>mask_
+: <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+</li>
+<li>MatrixCoord()
+: <a class="el" href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">cutlass::MatrixCoord</a>
+</li>
+<li>move_to_residue()
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac269a9280a55d3988ca60f571bdf7f29">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab94c0c95d6d4e019563ba8a142f9d410">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+</li>
+<li>multiplicand_bounds
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+</li>
 <li>MultiplicandTraits
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 </li>
@@ -86,34 +105,38 @@ <h3><a id="index_m"></a>- m -</h3><ul>
 : <a class="el" href="structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597">cutlass::Identity</a>
 </li>
 <li>multiply()
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a522301fbe3e276cb5ef9fbe75bb2ab50">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ae62d61ec068ac958753d0a2f5a99d8e2">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a934c0d74c70fc87796ecb5cde50fd516">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a6bed70e7074931419e9441688aee00ea">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
 </li>
 <li>multiply_add()
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a34bbf209967fef6181d3d46dd27fa0c0">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a89c8b663af69f13c2a02cb464b5172a5">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aafa37c2e1ffd2f7d7031c24c732157d8">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a92edee5611d25b60cdab6a1c8e32141f">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5dcf66c8126ec8adf8e66d4bf5b2f347">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a66486d38349fa20eb065ae9542eb43aa">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad22dd143c304c22c2630aedbfd3459af">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7989d48e4c2e16b7804b813630f347cb">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#ae0ea662652907b60140598dad777c5ab">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aaf8ea4aaf393488f03ba7fb7af264940">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ad9d8e47e8896d8d4eab538aa78b56e47">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>MultiplyAdd
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae9facf63912d98e597883bf7efb56cc8">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a87e34d56fa955670331749724bee9fd8">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae82826fde376748cf67ff2e1bcaa8cef">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae84c7fd1567580dc3da15a520c47ff6e">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 </li>
 <li>MultiplyAddScalar
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a29c3a5e4ea1fb6d0ea8b234849684daf">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aac06796d174a2d54103903e7dbe7b194">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_n.html b/docs/functions_n.html
index bff5fbb328..73a3906dca 100644
--- a/docs/functions_n.html
+++ b/docs/functions_n.html
@@ -72,12 +72,13 @@
 
 <h3><a id="index_n"></a>- n -</h3><ul>
 <li>N
-: <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
-<li>n
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#acee9727aa6cb612a25cd6ced4829061a">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a437d4b6f1f149849c5ae635a5993e7ac">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
+<li>n()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">cutlass::gemm::GemmCoord</a>
+</li>
+<li>nm()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac4550a7e80e1f0265eacecebe54794d9">cutlass::gemm::GemmCoord</a>
 </li>
 <li>no
 : <a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;</a>
@@ -86,7 +87,7 @@ <h3><a id="index_n"></a>- n -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_o.html b/docs/functions_o.html
index b79e0bd1b8..589b20ce5b 100644
--- a/docs/functions_o.html
+++ b/docs/functions_o.html
@@ -72,11 +72,21 @@
 
 <h3><a id="index_o"></a>- o -</h3><ul>
 <li>offset()
-: <a class="el" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a064f3630e69798e7915f910c4ee99ab7">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a07c7f56e724cfbc844777e8ee9f616b5">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
 </li>
 <li>Offset_t
-: <a class="el" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a408d9a8026115bdaf70a37c86dc720b1">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>offset_to_residue
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
+</li>
+<li>OneDirection
+: <a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5">cutlass::gemm::swizzleDirection</a>
+</li>
+<li>operator()
+: <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
 </li>
 <li>operator &amp;=()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
@@ -85,16 +95,29 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 : <a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html#a8d100273203db9018dffbbe84e0b6c76">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;::dummy&lt; B, D &gt;</a>
 </li>
 <li>operator bool()
-: <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a5791650488ae864f10ad04bec4a31005">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a5791650488ae864f10ad04bec4a31005">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
+</li>
+<li>operator cuDoubleComplex()
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#a3b92e54de1c4262c7e481218162be7ec">cutlass::platform::complex&lt; T &gt;</a>
+</li>
+<li>operator cuFloatComplex()
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#ac5a3a0dc9815dadbe539312eb6fe36c4">cutlass::platform::complex&lt; T &gt;</a>
 </li>
 <li>operator D*()
 : <a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html#a8aadc500baf1492b1a4d05cc8b35fc13">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;::dummy&lt; B, D &gt;</a>
 </li>
+<li>operator Scalar()
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a896f35e776c1291ceda0f432cc3da654">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+</li>
 <li>operator value_type()
 : <a class="el" href="structcutlass_1_1platform_1_1integral__constant.html#a55d25116387f1c6d978462b1d245d675">cutlass::platform::integral_constant&lt; value_t, V &gt;</a>
 </li>
+<li>operator!()
+: <a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+</li>
 <li>operator!=()
-: <a class="el" href="structcutlass_1_1Coord.html#a7fb46873e8f3cf38212703d35bd36995">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
 </li>
@@ -108,78 +131,154 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html#a1228edf6cc0f81af520dc77c8792b94c">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#a80562f5ceab2049c3b7834c2891a07ee">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a>
+, <a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html#a3922130841c34d3ce8c112ee6fae4ca1">cutlass::IdentityTensorMapFunc&lt; Rank &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#af51e07c6605524581e5d27d290c8b8d2">cutlass::MatrixLayout::ColumnMajor</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a24c06bb7e64a8015ac528b3ae954a689">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dbf79e5df5bcf52d54a699d2587319d">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a512248a443c5914fab6aeabc4a73978e">cutlass::MatrixLayout::ContiguousLayout</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a736620aef395e4224d7aae098573aa34">cutlass::MatrixLayout::RowMajor</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#abde0a4a7c487da0c78ea2519323c04af">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a5199cb7f7c10f6123c63703453b7937c">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15">cutlass::platform::default_delete&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87">cutlass::platform::default_delete&lt; T[]&gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978">cutlass::platform::greater&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18">cutlass::platform::integral_constant&lt; value_t, V &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5">cutlass::platform::less&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c">cutlass::platform::plus&lt; T &gt;</a>
+, <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#a084c0a2732827a74f7a30873c5883827">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a>
 , <a class="el" href="structcutlass_1_1TiledThreadOffset.html#a7290b6ca9ef0bede634f69bd05450fa2">cutlass::TiledThreadOffset&lt; ThreadShape &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html#a0e4edffb19218ccbf77995f6d20df000">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;::ThreadOffset</a>
 </li>
 <li>operator*()
-: <a class="el" href="structcutlass_1_1Coord.html#a8e4f7df55a75d040cf50cf9984c04c8a">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5a158b5f3c0b1779972b25aa52be1164">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#ac68a57c17811b0a04dc6fb21423ab226">cutlass::MatrixCoord</a>
 , <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
 , <a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ab8fbb13cc5ea4f580a7fc32963de9553">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>operator*=()
-: <a class="el" href="structcutlass_1_1Coord.html#a282b6cc9ac8b2f72720c252791155aad">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a69fb0bb5e73f35d3c8df71a0174d6520">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#a5fd3c3b58af1147a5c73657c05a16f5b">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ae946b3af6b795d26632da7ca66b3751c">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>operator+()
-: <a class="el" href="structcutlass_1_1Coord.html#a3dfc4ce4191097b6c3268696f2a45ef5">cutlass::Coord&lt; N_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a675efbb9ed360888faf3c333708ae4d5">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#a25236953237f965965b1c9b7a04ba26e">cutlass::MatrixCoord</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ad054f14b5580c9480d671b8fc8ef016a">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a9fcd43018e60f12cb328859c76ec7891">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a1d48f4fea3fa85a7bf1b26b421387afd">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#aa2390d8e127a51df239affd2ca36e97a">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a3bfa2daa0e63144c1e8510ba336f185b">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>operator++()
 : <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
 , <a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a8ce80124ab0f4ab9981f1a4d64d976a5">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a3481d6f41defd25ab574bb19ee5fe424">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a47d270fc4a119d7b95b2d5dd3ee5b87b">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>operator+=()
-: <a class="el" href="structcutlass_1_1Coord.html#aeb209486943fa9d42911325b16e49e09">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5465f7308778eac5d14d8020179a65e0">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a8e79a153de72eef10d90bfd02b5dd27e">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a769813dcffe1767aab49ac30b838a5f4">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#ad105615dbf7ede75caa0e778c873bd06">cutlass::MatrixCoord</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0753aeb57365a976bc0a88481af504cb">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a22b87d281057c8e03b80db7046c54dd8">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab07a5d1a4ec6d96ec53e868b3a6d7cae">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a4fa8fa35d00eb4d0097da492c738cddc">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a812760c633ea813db8a2bc24826c68df">cutlass::TileCoord&lt; Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a57b284e6cbff892d45e5cfeb0ae1e3ed">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a60ba516d7382cb7788d5430023f7fc44">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>operator-()
-: <a class="el" href="structcutlass_1_1Coord.html#acc510511ffb52bed7f6a52f14b99750d">cutlass::Coord&lt; N_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a762fd45e61477d700c82bfd67443c6f9">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#aa462303d75a5d98b680b6e20080ce877">cutlass::MatrixCoord</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#afde28cda18918d3e177d3e5024ed3dd4">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a143ec893406d930aa4c5aa860052197e">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad1d8099e8d63b6d88c53738ec68a7589">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a1e4b2bb02c5843898f72f62787403add">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a9f274d8e93f9cd3e0a9699e11b85fa7c">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>operator--()
 : <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
-, <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
+, <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a0f395558e2c589ac48179447a23b59d8">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad5290f0e7814892cb4fff55e9518562b">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a3d22dab34b2abd0d05c00668f8591151">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>operator-=()
-: <a class="el" href="structcutlass_1_1Coord.html#ac1795ec2a5890d8a39840567a4bea88e">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a12ba250be3d5474b7c6fc4eddd4f58d5">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#a6feef48cf24733d22ca53a27cbc33ac0">cutlass::MatrixCoord</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a11964d045ac8e41c80026515adb03008">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ae3561f863072cd7be7dcdee2cb5cc1f0">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ac4018b51e78842fb252d6917738fa571">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#abc088fad6debb6a0ceb04c5d2767e81b">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a02da20e580962fe0754a772842045389">cutlass::TileCoord&lt; Index_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a7bae0f9b789e75bb154c5f37db50e14c">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>operator-&gt;()
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 </li>
 <li>operator/()
-: <a class="el" href="structcutlass_1_1Coord.html#a87f485be079fa68bcf576da4d56f0ece">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a41770bb99f02f4debbafe95e019ce02b">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#aa89b196410d25d8c9ed3746fb6833374">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a5d2cc915343a3b90fb530348ddd329d2">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>operator/=()
-: <a class="el" href="structcutlass_1_1Coord.html#abe91e59962ef0d73aec9c14824f64ecc">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#aac1e1bad751237fd76d32a1ea10f6c40">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#aab345c8ddb8048bfe3d667bc7ce6522f">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ac3207d8aa879c86a907cdcc93ccb2eb5">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
+<li>operator&lt;()
+: <a class="el" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+</li>
+<li>operator&lt;=()
+: <a class="el" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 <li>operator=()
-: <a class="el" href="classcutlass_1_1TensorView.html#aa9e9e19f35ce3111f64b763ca49b51ef">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b29491782c3a129355fa4ef159cb970">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#acf0c156efb9197bc7538f7e9057d8a68">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>operator==()
-: <a class="el" href="structcutlass_1_1Coord.html#acfa94aabd0c9a71ee994ca479d5f515f">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
 </li>
 <li>operator[]()
-: <a class="el" href="structcutlass_1_1Coord.html#ab7fc89de3ccd7096ab275fb5dd40104c">cutlass::Coord&lt; N_ &gt;</a>
-, <a class="el" href="structcutlass_1_1Fragment.html#a75f51bb6ca84615076aab42ac9d42592">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#af16f2aa14ff424b038a393b683c4783e">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentIterator.html#a83bb6a3ed588e2d890bf986665d2b7bb">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1Fragment.html#a77ba7cddf7822d64534b019c4ad9732e">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
+, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a6216b58ffe6322f037f1e0a3ffa714c8">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1FragmentIterator.html#ad665745f3d6a3a88d7894fe0fc1bbd3e">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a7fe7e44e15fd1ac58fb55edf72e8fb23">cutlass::TensorView&lt; T &gt;</a>
-, <a class="el" href="unioncutlass_1_1Vector.html#a250860c921c94a6077344f9e11bf5b02">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
-, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a8ade80e040264fbd669d3f15c249884e">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a57f132816e51bbdb4c807d57c067b619">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector.html#a69be4f85c1dac371fa6f1c6747724adc">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a8eda6e6181a5333ca8350977374708cb">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a1e6568c0f3f958db739074ab6978ff10">cutlass::Vector&lt; half, 1 &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ad50b5d4acbd7ead82c128091c9db9113">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a2d5ec0b76daa136dae0b4aec1edf9e0b">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#ae2215fe7c2c223175b4172d73a6c7a82">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 </li>
 <li>operator|=()
 : <a class="el" href="structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
@@ -191,11 +290,12 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
 </li>
 <li>OutputTile
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
@@ -205,7 +305,7 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_p.html b/docs/functions_p.html
index 9131d0117a..775292246a 100644
--- a/docs/functions_p.html
+++ b/docs/functions_p.html
@@ -71,6 +71,9 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_p"></a>- p -</h3><ul>
+<li>Params
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+</li>
 <li>params
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 </li>
@@ -81,9 +84,35 @@ <h3><a id="index_p"></a>- p -</h3><ul>
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+</li>
+<li>Params()
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#afb39229d0ad334834cd2ba0c1fcc9412">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a>
+</li>
+<li>params
+: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+</li>
+<li>Params()
+: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ae515cd98a75ff3eafffcc69692d6301a">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+, <a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae28323819fc8950bc0fee3a34b2184ff">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+</li>
+<li>params
+: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>Params()
+: <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html#a90772ac34f8c49f049eb62fada0a2165">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a>
+</li>
+<li>params
+: <a class="el" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>Params()
+: <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a79304c022d2466c97cd671a98128815a">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html#adfa2399bf13cdff16b7bfe1cb0dd2bd9">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a4ed93b5319fe96457caf53e9384722d4">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a>
 </li>
 <li>pointer
 : <a class="el" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
@@ -99,40 +128,49 @@ <h3><a id="index_p"></a>- p -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>pointer
-: <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
+: <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>Pointer
-: <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>pointer
-: <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>Pointer
-: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileStoreIterator.html#adc4182adb78e34b7741f297eca86fe35">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
-<li>pointer
-: <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+<li>pointers
+: <a class="el" href="structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>predicate_inc_advance
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa0367d016549cce6bd896bae364fc248">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
 </li>
 <li>predicate_inc_h
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
 </li>
 <li>predicate_offset
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
+</li>
+<li>PredicatedTileLoadStream()
+: <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a672a8883d16eff4ecc90dc79162084d3">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+</li>
+<li>PredicatedTileStoreStream()
+: <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ac4aafc6bcc6cf3bff5b31b9cd60fd667">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+</li>
+<li>PredicateFunctor
+: <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
 </li>
 <li>predicates
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
 </li>
 <li>PredicateTileAdapter()
 : <a class="el" href="structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
@@ -142,9 +180,15 @@ <h3><a id="index_p"></a>- p -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5aa507eaeb63951f8e69fb223ec41809">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a6157fe8a2ffefd45eba6f3953f0e2994">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#aa853fa2a2e73397d8950567f3f5b7a15">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>problem_size
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
 </li>
 <li>project()
 : <a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html#ae91b2350374f1734a30cbed45e14b8e3">cutlass::gemm::ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;</a>
@@ -152,11 +196,14 @@ <h3><a id="index_p"></a>- p -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html#af2a323461334a6b55b95074a1973d250">cutlass::gemm::ProjectOperand&lt; GemmOperand::kC, true &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html#ace04040ccb13af5f9a283ca80ffe93d1">cutlass::gemm::ProjectOperand&lt; GemmOperand::kD, true &gt;</a>
 </li>
+<li>project_coordinate()
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+</li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_r.html b/docs/functions_r.html
index 79d3a2e979..335de8ee2c 100644
--- a/docs/functions_r.html
+++ b/docs/functions_r.html
@@ -72,34 +72,59 @@
 
 <h3><a id="index_r"></a>- r -</h3><ul>
 <li>Rank
-: <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a233fba9abdbbd0fe3a2cc7465ea76a41">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a8dbb7043546fae133547d2c3e46dddab">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>real()
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974">cutlass::platform::complex&lt; T &gt;</a>
 </li>
 <li>ref()
-: <a class="el" href="classcutlass_1_1TensorView.html#a5cbff89d3d8dc71d27a4d6c1d7abb58a">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a7e2beb56a3bc2d58c9ec65467b78c4f3">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>reference()
+: <a class="el" href="structcutlass_1_1TileAllocation.html#afcdc0be82acf0b4ae66468e2170c5a0d">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a0d00001220df7f2bdb1f09ae3f37c585">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
 </li>
 <li>registers
 : <a class="el" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#af27a36f604513f05aebe0624a9c539ab">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
 , <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#abd116dc7a5b82ac9b1481fb1d2bfc93f">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ace5e03860b434b2d2a4590bd2bc8c147">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a15d5103e46d53e030100dedaecb0220a">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
+</li>
+<li>RegularTilePredicateFunctor()
+: <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#a0e0b728d3685097a9280fbca6a47a2af">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a>
 </li>
 <li>release()
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 </li>
 <li>reset()
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a8b1785a1ea5d7aa7eba8e45297d539d3">cutlass::TensorView&lt; T &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a1043f0ef382179b8ecd9f4e710f6e106">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#ae142eb93cf91e000b635d32fcacf1db3">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>residue()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aab37ea6c47e34466371314ed3971dc7b">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a405b93680bb6e356369863244d0b56aa">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aae1adef6312e069e59a83d38c03116f9">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a235adaea5d4f01232c79cb6109dc6d17">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a1b1ec121cbd17ee61d58ea843b900e9a">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+</li>
+<li>rollback()
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1e2eecdba1871fc11aa43a06edf6ed34">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6a9287a2cd87ca8a96cbf6b6d29199da">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+</li>
+<li>row()
+: <a class="el" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">cutlass::MatrixCoord</a>
+</li>
+<li>RowMajorBlockSwizzle()
+: <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a4ed7847f8ddad11a6765d914b6f32fcd">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_s.html b/docs/functions_s.html
index 0f0af76a37..749e7c4f8b 100644
--- a/docs/functions_s.html
+++ b/docs/functions_s.html
@@ -72,8 +72,9 @@
 
 <h3><a id="index_s"></a>- s -</h3><ul>
 <li>Scalar
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
@@ -88,67 +89,120 @@ <h3><a id="index_s"></a>- s -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afbbf15a7b5e4c38e59bf1debf67f04d6">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7073b32c2cc62ffcad70a9ca46995c4c">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317">cutlass::gemm::IgemmEpilogueScalar&lt; ScalarD_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650">cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aa37f285c74bb63c8bb8cbfc767378c41">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a1ebf24984863d0422356031615b74c53">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 , <a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a05914a7339b9d399ac7d8cf7ef617c31">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">cutlass::Vector&lt; half, 1 &gt;</a>
 , <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af60049062cedca55d8cb4a3cae82641f">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a602530542f526bd151f8a32deda015a1">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599">cutlass::VectorTraits&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a>
 </li>
 <li>ScalarA
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a6fa76b3e7ac721d47df47eba4e9ef222">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a366083b229b28e7f44da38273b2ab263">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a236a408791a38358cbadf19dd0e8ed9f">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aeef5fa0437b4ce1c2e8ac4bc7e062b65">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+</li>
+<li>ScalarAccum
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a1e854c281072db280ae90c2569b5f64c">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ab3774e6aa28266b25e3822fc9e72edc2">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+</li>
+<li>ScalarAlphaBeta
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ae7a333f7aa3f52226c76cec9d2da042d">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
 </li>
 <li>ScalarB
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af4f5c4a79c447e5aaf313878eca022cb">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af52ec4b92a3e788169764014aebb85a1">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac7557562de1108bf1abc10829c83e88f">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aaf9e4b8b16150a6ad826c228af2bf103">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>ScalarC
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a92c1ffbfb479cd9fa2c2632ef8e347d3">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af553be8ef0b4dc9bb593d98dfce8628d">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af1a6d91d4734683ea791bf57f3c3bbb0">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#acdd554e996a712ff62eb70d6ecf8e116">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a48a641d601c88d95aa542b636f94d60d">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>ScalarD
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 </li>
 <li>ScalarEpilogue
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 </li>
+<li>ScalarIO()
+: <a class="el" href="structcutlass_1_1ScalarIO.html#ad4166575521254088bf6c6300c351714">cutlass::ScalarIO&lt; T &gt;</a>
+</li>
+<li>ScalarOrPointer()
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a45cf72b3f0e3408a4b51990b648b71ee">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+</li>
 <li>scalars
 : <a class="el" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a81709dacea12d6bd3bb328a3f0a519b0">cutlass::Vector&lt; half, 1 &gt;</a>
 , <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3">cutlass::Vector&lt; half, kLanes_ &gt;</a>
 </li>
+<li>second
+: <a class="el" href="structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
+</li>
+<li>Second
+: <a class="el" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
+</li>
+<li>second
+: <a class="el" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
+</li>
+<li>Second
+: <a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
+</li>
+<li>second
+: <a class="el" href="structcutlass_1_1ZipTensorRef.html#ad981b056cc96709a23e6d51dba4cd451">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>
+</li>
+<li>Second
+: <a class="el" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>
+</li>
+<li>second
+: <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+</li>
+<li>Second
+: <a class="el" href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+</li>
+<li>second
+: <a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a6eb742dc39b1d776cf5d62719835fe26">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>Second
+: <a class="el" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
 <li>set()
 : <a class="el" href="structcutlass_1_1PredicateTileAdapter.html#aeda47efdda0387f9c3c7b31f836afca5">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
 , <a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html#aadfd039b5622098c9e46706a27122575">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a>
@@ -158,22 +212,21 @@ <h3><a id="index_s"></a>- s -</h3><ul>
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e">cutlass::gemm::GemmMultiplicandTraits&lt; ThreadBlockTile_, Usage, Layout &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71">cutlass::ShapeAdd&lt; A_, B_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">cutlass::ShapeDiv&lt; A_, B_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">cutlass::ShapeDivCeiling&lt; A_, B_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961">cutlass::ShapeMax&lt; A_, B_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">cutlass::ShapeMin&lt; A_, B_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">cutlass::ShapeMul&lt; A_, B_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29">cutlass::ShapeScale&lt; A_, kScale_ &gt;</a>
-, <a class="el" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">cutlass::ShapeStrides&lt; Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">cutlass::ShapeStrides&lt; Shape_, elementsPerAccess &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9">cutlass::ShapeSub&lt; A_, B_ &gt;</a>
-</li>
-<li>shared
-: <a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#afabd328b106d45b156200f73942d211e">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::StreamSharedStorage&lt; GlobalLoadStream_, SharedLoadStream_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
 </li>
 <li>shared_load_fence()
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 </li>
-<li>shared_load_iterator_d
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a1742e43c128665f0ca39cb578291df81">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+<li>shared_load_stream_d
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a5d3d1abd85f18476a74bcf616a717f9d">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 </li>
 <li>shared_storage
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
@@ -184,198 +237,253 @@ <h3><a id="index_s"></a>- s -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 </li>
 <li>shared_store_iterator_d
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#af79a0c74a4c30ccec59b393721b5dfc1">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adfdf3eca06ea4061fbfe016336a3f276">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 </li>
 <li>shared_stream
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#ae63b5a52106dbd37ea304196335ec210">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a>
-</li>
-<li>shared_stream_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aa9937ec51d18aad02398d95095117978">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
-</li>
-<li>shared_stream_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a78f22007632937bbd5f3dab7b097477d">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a64ecac7d5843c38e55df78dcf609d33e">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a50e9cc382a32abd5beab299a79b30b27">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
 </li>
 <li>SharedLoadIteratorA
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>SharedLoadIteratorB
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>SharedLoadIteratorD
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
 <li>SharedLoadStream()
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a49315aea1c54d84ff19b0ac215128b95">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>SharedLoadStreamA
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a21c860cc877df13d22dd30eeb5e2b06b">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a70063eb7e19921efef55a6f32562773f">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aaa35c4d2a90f137f50c9ccd24d5c4f5c">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7e035ceab26dc904726ddbf14371f476">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>SharedLoadStreamB
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac5eeca1e91f0e0d4dd48d432d5213215">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a54e8ad5874306a3764951a9791f02c96">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1d458fe1e416ddc4565f2b802592268b">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aff287e2ca10a437a82736baab2d7c28d">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
+<li>SharedLoadStreamD
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+</li>
 <li>SharedLoadTileTraits
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a458cbcc16fc296d024f2a1a95fb926c1">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af1bc7f7c26db3399201cd95f35a56790">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
-</li>
-<li>SharedLoadTransformerD
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a53dd72126a43a1c5811ed92a2313d19d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#ad8f1b0fda40f1fb7dc598cc841f38afe">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 <li>SharedStorage
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>SharedStoreFragmentD
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
 <li>SharedStoreIteratorA
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>SharedStoreIteratorB
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>SharedStoreIteratorD
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
-<li>SharedStoreStorage
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
-</li>
-<li>SharedStoreStorageA
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-</li>
-<li>SharedStoreStorageB
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-</li>
 <li>SharedStoreTileTraits
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a2aad3b2454d956f20dac1bb0ad75a2f8">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab1ae3d51f65f7af60147da1c51a7a0c2">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a7624585480f83a46725c92b5dee20ebc">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aca6118b5bbe6f667f05c53bd52543045">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aa21c231aa56c9e5f2705cac62b17bbbe">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a86ed2ebc5b6e4426ab35a1f30a3e47bb">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a872dc2d0b8ed6c75c41d258a23183861">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 <li>SharedStoreTransformerD
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
+<li>SharedStream
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
+</li>
+<li>SharedStreamPair()
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a0b69ca0b37dad32ba25c7f7e71a3dcc1">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+</li>
 <li>size()
-: <a class="el" href="classcutlass_1_1TensorView.html#a6218d8555679966eab784a6bb1fa4ed1">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a3778dc1c62a27ed811f1bb82a420096e">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>Skew
-: <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a57348779bb004ed1ea0fd9cc252e895d">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a18248da35dc9a0ae2411121bee323085">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>slice()
+: <a class="el" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+</li>
+<li>source_fragment
+: <a class="el" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>source_required()
+: <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
 </li>
 <li>stage
-: <a class="el" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>Storage
 : <a class="el" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-</li>
-<li>store()
-: <a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html#a45319520b7d341c66bd54d3e8fec48f8">cutlass::FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html#a118c78aa6b0ae0f0c78889689b6878c8">cutlass::FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a1f31090613c4e6f0895f598880d6c4e5">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a>
-, <a class="el" href="structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ab70d04589637f285f861902f649f834e">cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aa130564bb2eba7b07e1f183c98f1d9e2">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a00f6bb93d318bf4cff35c9dabc630167">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a027980b8456243974b0c442866a66e3a">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a60258b7c1a1708f97e28f8f6c292bfe4">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa86a59779c0830e8cf82066853dc1089">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a52fb77744c7c7ecf0f8a3a725556293d">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>storage
+: <a class="el" href="structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+</li>
+<li>Storage
+: <a class="el" href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>StorageCoord
+: <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#abaf7ec0e96bc99cf0ce243e703b8711c">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>store
+: <a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a673ddeb91e89c9a39c0a4dbaaa97dd8f">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a>
+, <a class="el" href="structcutlass_1_1Store.html#a187b63f682f7f00f8bf9ed3ee59d602f">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a174ed368f1c702b4c958887f0b895eee">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#a535b4356c9bc21352fc2459b3c2246d1">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#ae16a5d6d7a42ffeba0f0ebe2d252ec28">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a453a2eed81a86d6637778a50bed06b59">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a1fcdc328d4b2deb1c50be5d31ef9e55f">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a298a08c8c4c1ea871e92e2491b2cb549">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa27a456bf12d0e44adc89a1c2ca7bc3b">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a425b4a4f2e66f3ff5960742d19d06bc2">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+<li>store_element()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a051eb2a8637601cf9c1f52999117151b">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a1f7c4143443d2bee4a69d1b380576f08">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>store_iterator
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a3e5167fa3f2dc0d8b4b903bd4e936969">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
-, <a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a939e9ddecc5ee97882a54211a61f5586">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a289ac736c0c098ae6da6a21c9abfe63f">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 </li>
 <li>store_post_increment()
-: <a class="el" href="structcutlass_1_1TileStoreIterator.html#a57aa2c36eb6ad9d2500c1f5396b3a526">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a018d5be34cdbb263d7f133197b2921ca">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a35ab2595b09912d31a60c2a4e5847c88">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a18ed76e6be1a02d0229cdf1d6528e34f">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>StoreIterator
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 </li>
 <li>stream_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a62d3dcf5d97a0a896b2033e55dfb0811">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a87d507b703a0eb654265f4529ed18f66">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#afb56016927b59b8d5447c3656f0b634e">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
 </li>
 <li>stream_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a0173fcc8856b17a52cc5eee845f101fa">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a6d9444ed13ed544febe196e3e835ea16">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#a4a8f9207ffb3bbcdb000af62808371f5">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+</li>
+<li>StreamA
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+</li>
+<li>StreamB
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
 </li>
 <li>stride()
-: <a class="el" href="classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a522630bb0df977282a9bff17e6fee843">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#abb88bd43e5493682d1132c550b734a36">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dab2c5aee6958c9d99109183401f41f">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#aa3c5b8d44216fdeeee9cce5e38ce418b">cutlass::MatrixLayout::ContiguousLayout</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a1b25b4a7061d81041a8e2a548128ca71">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a56f728be8b1a3e71f4f322e1dbfb3495">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af83380ffc0e5949d40d1a5039a5ddc00">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
+<li>stride_advance()
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>stride_d
-: <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>stride_h
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae0fdc7426b22ff2c20f077e251ebc823">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a497b91e93d0eb29ca54553f8de4c694f">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>stride_w
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>Strides
-: <a class="el" href="structcutlass_1_1FragmentIterator.html#a2858ba9a8a9bbaef1de73415cff9b3c1">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+: <a class="el" href="structcutlass_1_1FragmentIterator.html#a2e93985d759d904ac858054eeaa9e50e">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+</li>
+<li>strides
+: <a class="el" href="structcutlass_1_1TensorRefArray.html#a76228819a72b8ed341e680ba84a960be">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>Strides
+: <a class="el" href="structcutlass_1_1TileAllocation.html#aba9164abe2fd7a091a858b23c0d3ac9c">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+</li>
+<li>StrideVector
+: <a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a625892aa9063eebf769bb2ed0cba7684">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>SType
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
 <li>subview()
-: <a class="el" href="classcutlass_1_1TensorView.html#aee43c516397d7c06eb8012711d8d7c15">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#ad4b3faa318699b786f94cf8735a11dbb">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>swap()
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 </li>
 <li>swizzle()
-: <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">cutlass::gemm::IdentityBlockSwizzle</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">cutlass::gemm::IdentityBlockSwizzle</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_t.html b/docs/functions_t.html
index 1b83a09191..8665a408d6 100644
--- a/docs/functions_t.html
+++ b/docs/functions_t.html
@@ -71,14 +71,55 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_t"></a>- t -</h3><ul>
-<li>TensorRef()
-: <a class="el" href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
+<li>tensor_stride
+: <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>TensorArrayRef()
+: <a class="el" href="structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>TensorCoord
+: <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a9d07d96c2eccba10c3a9e4bef58d4e01">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#ada8a241b6b2c5439183b0d6c456c934e">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>TensorRef
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa091e497277d0ba8a98c4ebf73c0cdba">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>TensorRef_t
-: <a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a25eb8c0fe380114ddaabb37453be4606">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>TensorRefA
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>TensorRefB
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>TensorRefBatchStrided()
+: <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa5d7e9a4589d7dacc5d69ca3c70ecc2b">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>TensorRefC
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>TensorRefD
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
 <li>TensorView()
-: <a class="el" href="classcutlass_1_1TensorView.html#a22401348796d603546e44d6c196018dc">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a36d48227f65ad482a7bded99d6a3d0c1">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>This_
 : <a class="el" href="structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
@@ -87,31 +128,56 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipFragment.html#a2f038ddb37879cbc54dbadaeb7085fb1">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
 </li>
 <li>thread_offset
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>threadblock_offset
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+</li>
+<li>threadblock_tile
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#af8f0050e818b788402526857afc7c919">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>
 </li>
 <li>ThreadBlockTile
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a5e43f3c9aa8d7dc5f01dfc63b1ea97dc">cutlass::gemm::GemmMultiplicandTraits&lt; ThreadBlockTile_, Usage, Layout &gt;</a>
 </li>
+<li>ThreadblockTileRef
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+</li>
+<li>ThreadblockTileStorage
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a17804b01904a9a4ee7a857905833f7a8">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+</li>
+<li>ThreadGemmShape
+: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+</li>
 <li>ThreadMultiplyAdd()
-: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ab271a3f11ccde4b629ddb11b78c0d555">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#acec155117a56c942c5e695984b0f072d">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a9b75e499f4c14369b5c86051dceeb81d">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac087f0b397599221b74d220fcb1c7121">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a0ab850304c3c6e73bcba321426ba93f9">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a32b234c873ffe44090a12e12d871024c">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aad8a642f46c88e407a1150ee1d42b8dd">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>ThreadOffset
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a07ff2f97fdd57c4df05ef8e817265b30">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileTraits.html#af9c0fc178dac7f9dac8d254da34e04dd">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#a671ef48f4141a9de30b6ec6fb0be1feb">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#a823ba83e9ca680da0af7d63be772a351">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c">cutlass::TileTraitsStrideMajor&lt; Tile_, Threads &gt;</a>
 </li>
@@ -119,20 +185,20 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a5fd1a9f132c7aa0f68e129553f519d1e">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57">cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, bool &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c">cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, true &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>ThreadsDelta
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a6eee97f03dcea1c441116e143cf58018">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a2bb0f0820e52417ff77e7a2bdb9ed434">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a61907b1afa07c12de74545d2e23a4281">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a160d1ecd86de4742f550d11bc281786b">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 </li>
 <li>ThreadShape
 : <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#a33116b67e580292d4e354ca17ecd4167">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
@@ -144,38 +210,50 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa784f29ff453c1656fdea8270454fa55">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a5bc98fd196c1f1e4e3f1bfc621df4f50">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>ThreadsStrides
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae540e7ea7106552682aa4c97b833b3b1">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
 </li>
 <li>Tile
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a260543a618fb187c2da40c9f630925ec">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">cutlass::ReshapeTile&lt; Tile_, kAccessSize_, bool &gt;</a>
 , <a class="el" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06">cutlass::ReshapeTile&lt; Tile_, kAccessSize_, true &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a8a87c8ef986e110a01a9226012594a61">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileTraits.html#ab831be0adb255eece4f2e12fd9713831">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ad18ee6f519b03e1dbf711339b63e16d6">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#a3632c351a28f71f6c140dd33089d80b0">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#a1607d53544302c12278793bc9b283763">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac">cutlass::TileTraitsStrideMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#adcd658d9daf286368a9d51c8c1647f89">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
+<li>TileCoord()
+: <a class="el" href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
 <li>TileLoadIterator()
-: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>TileLoadStream()
+: <a class="el" href="structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>TileStoreIterator()
-: <a class="el" href="structcutlass_1_1TileStoreIterator.html#a037ccd942359e6bc8640a240b13cd330">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileStoreIterator.html#a9f4501c6e8ba0f4511919c1b63c14e69">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>TileStoreStream()
+: <a class="el" href="structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>TileWithoutSkew
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a5a5a36fc570e1225b20ce0a48c89d213">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
@@ -194,36 +272,40 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a6f50a8aec2d7045e9057b93df08172a8">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5016bd7b24938026a2879ec0054eb3b6">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>transform()
 : <a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a4dd95354137d3cb52752ecdd346a5685">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3">cutlass::Copy&lt; Fragment_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a819fd33db88a68521108bab2641d73fd">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipConvert.html#a7e6398ad8ecd8757744a42f3ab8ef955">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
 </li>
-<li>transformed_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a883b28ca237b1ec076856232cfee0c6f">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-</li>
-<li>transformed_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a9369a5f819d2a42997491e0df96f47ef">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+<li>transformed
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>transformed_fragment
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>TransformedFragment
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#adeb35451885c1c4fb930ae8c914ceb20">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#af349831b19bb91d414a83c67d14f6927">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>transformer
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 </li>
 <li>Transformer
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85">cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a>
@@ -237,11 +319,27 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197">cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>transformer
 : <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
+<li>Transformer
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a9f79fd30231825b38694bf7c1d12ec2a">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a0f91f328ed2b6bd65ef4eeafe18f9afd">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+</li>
+<li>transformer
+: <a class="el" href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>Transformer
+: <a class="el" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>transformer
+: <a class="el" href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>Transformer
+: <a class="el" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
 <li>TrivialIterator()
 : <a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator</a>
 </li>
@@ -261,18 +359,20 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 , <a class="el" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3">cutlass::platform::remove_volatile&lt; volatile T &gt;</a>
 </li>
 <li>Type
-: <a class="el" href="structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06">cutlass::StorageType&lt; kAlignment_ &gt;</a>
+: <a class="el" href="structcutlass_1_1StorageType.html#abb0d270cdf38d46347261cac36dc619b">cutlass::StorageType&lt; alignment &gt;</a>
 , <a class="el" href="structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4">cutlass::StorageType&lt; 1 &gt;</a>
 , <a class="el" href="structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4">cutlass::StorageType&lt; 2 &gt;</a>
 , <a class="el" href="structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807">cutlass::StorageType&lt; 4 &gt;</a>
 , <a class="el" href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">cutlass::Vectorize&lt; Element_, kLanes_ &gt;</a>
-, <a class="el" href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html#a79f147933e3f520145aee94ae18da3c5">cutlass::Vectorize&lt; Element_, 1 &gt;</a>
+, <a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html#a5c32d50c6c97d7489034efb7188c8186">cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a>
+, <a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html#a40dac8fb50ddccb5c1e2a98200ac3a06">cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a>
+, <a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html#a9db5873c0d4df1452129022a280247ca">cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type.html b/docs/functions_type.html
index 2241f00f3d..2e6491fb84 100644
--- a/docs/functions_type.html
+++ b/docs/functions_type.html
@@ -74,48 +74,57 @@ <h3><a id="index_a"></a>- a -</h3><ul>
 <li>AccessType
 : <a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html#a7eccab04c8d3968e74486d0525a3fa02">cutlass::FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html#a0b656c41b9fff6402f33e95204ce8860">cutlass::FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html#a87d46956aa317f06f2ba9a535fdfc5da">cutlass::FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html#abca5165caae7304f33fcad267c16b002">cutlass::FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a>
-, <a class="el" href="structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a8611550c045d6def964d9dafb2be80c6">cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a942970f88e13c88f496a9da67ed47a6f">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a5d7ed0abaeea99ec3399f8eea930f761">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a>
-, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a2b9faed8d92f55a46e313d79d214316d">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ad073f5e8252ad24b086f14bd2a109cf9">cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aeb70e4859e2795b6af63ad5e203b4da9">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a89f329ba11f96ee3ce4428cbc792ac3d">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a>
-, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#ac0af6ae18137156abe24d6479232b955">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a0e79ed59263ebc3478c43f2f9a50cb5a">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a>
+, <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a10431ed94c0dd66a8c1d01ba7c8b5aa2">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>Accumulators
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a505306c2af2059f6e84ba32d701d1602">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a4712650b46b6183ea60d79ef18f55b86">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>AccumulatorsPerThread
-: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a98d0f84730551eaabfe7404b36478b50">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a47807c9c9fb43e7f7b5f409a49986c30">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad8ea3777c307bf3f8c58a8df3966715d">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a70e8444060c36afb41e5064b2fb18b42">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a24dd9fdc54b001840e8b82664b3bfe3a">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa88edf2e89062be00181f5dc4f4a0947">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>AccumulatorsPerWarp
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af0c856abdd9f7f26f671493cc629bf0a">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a327ce1b7b6478c27c80baf5d9e26bdbc">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a9a5632bb1891a33126d6170af72a3ae2">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aacb9a5a1d8f3b6e21bc449b0b97949b7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ae3152470cbbba2310d9c83b9d5d43027">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+</li>
+<li>AType
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_b.html b/docs/functions_type_b.html
index e092b1a8f1..1770402ddd 100644
--- a/docs/functions_type_b.html
+++ b/docs/functions_type_b.html
@@ -72,38 +72,49 @@
 
 <h3><a id="index_b"></a>- b -</h3><ul>
 <li>Base
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a507f825824e624d80a34ea9395934160">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#ab19f72d239f639f261fbb63f72f10acf">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#affd04d88a0bbef13c54f10000a5dc15d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aef7047c6a0d0c3db0bfb6bec08520aad">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a48a8eda430139e6a131654a54bbf0f3b">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a82a9cfc61ecc117592bdb30f57bd35c9">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ac14f4ef560bd8068d16c0471af6df82c">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#adbbf19c2f86c198bbe4cc596c63e65ae">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4f7dfa33f6b6e52aac05ad5072710aa9">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#ad10463da3f5a421f9b87638775ef0a85">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aea87c73ae2d4e027014ebd4d8141c89e">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4">cutlass::TensorView&lt; T &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#af4576dca736bab8ac73b308522cb4a67">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#ac7f57248d3e10c9309f042e5d41440c1">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#afc320f4d29f05102e9de0064ca31e49b">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">cutlass::TileCoord&lt; Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a24fa369165de783a72311d8ec3115c48">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>BaseParams
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5484b46ac2646edb7a185b51137f70c0">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afd2bed46f4cf04aaf331fb2ecae953f8">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5dd2a31d41d9098e928c559af12cbe66">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>BlockSwizzle
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 </li>
+<li>BType
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_c.html b/docs/functions_type_c.html
index e797657a52..c209e7612f 100644
--- a/docs/functions_type_c.html
+++ b/docs/functions_type_c.html
@@ -73,20 +73,35 @@
 <h3><a id="index_c"></a>- c -</h3><ul>
 <li>ClearAccumulators
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
+</li>
+<li>ConstTensorRef
+: <a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a3861f7f09da0b8153d0e3686f2c7cf57">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
 </li>
 <li>ConstTensorRef_t
-: <a class="el" href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a162c4cb4f4e866892d63cd37f7f72165">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>ConstTensorView
+: <a class="el" href="classcutlass_1_1TensorView.html#ab879a7b6552c879a81c49cbc0946d719">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>Coord_t
-: <a class="el" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a705c22cb328c4dc9365c2f370ece2031">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#ab16a0244199ca2800ea5460ed8ed6ae2">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>CType
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_d.html b/docs/functions_type_d.html
index 827859c229..45e91ea289 100644
--- a/docs/functions_type_d.html
+++ b/docs/functions_type_d.html
@@ -75,33 +75,37 @@ <h3><a id="index_d"></a>- d -</h3><ul>
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 </li>
 <li>Delta
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aede069e51e0732a9648c437261bd4d66">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a2ee87510d2deccf8b9633aaa4f6340ea">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ad029d098ba13543bf99c728e6b93006d">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#ac5578da2577cddd5a38cb628f894f644">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a134a02091bf4360d2cbca56624e52024">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#adcede218eec980903221feb664cad3a1">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a08dada072eefded4c859df4e5fc25ca6">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#adab639892c3586464e2ea5f947b9e0f0">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a1c433ba0eea5e6a46f36101d8de98ed0">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileTraits.html#af88f5cea9f452d83004ea0fa0f9d56eb">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a>
+, <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#acd32282ce7852c4669098c06bcd9a360">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#afdb38f790d9c7cf1ac238643103b45ce">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#ad6d99ccf2fcd2bd47e45d068f4d99c82">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#ab1a4945bf562debeee1af813288e5896">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5">cutlass::TileTraitsStrideMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#a3ce218b223c5716af40c316899324bbe">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
+<li>DType
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_e.html b/docs/functions_type_e.html
index cac932d07e..a88263588c 100644
--- a/docs/functions_type_e.html
+++ b/docs/functions_type_e.html
@@ -81,14 +81,14 @@ <h3><a id="index_e"></a>- e -</h3><ul>
 </li>
 <li>Epilogue
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a234ae6065d5ab56135e10119d3ad2d98">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5e2ed697a9091a1ca8b19855b5a2c651">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada2812153440cf1e678ca4c795a6e8ae">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a36c8b17c98723934d9d75228dd9c2915">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_f.html b/docs/functions_type_f.html
index a71defeb3a..8ba4932b87 100644
--- a/docs/functions_type_f.html
+++ b/docs/functions_type_f.html
@@ -72,45 +72,59 @@
 
 <h3><a id="index_f"></a>- f -</h3><ul>
 <li>FetchedFragment
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
+<li>First
+: <a class="el" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
 <li>Fragment
 : <a class="el" href="structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a32687e2aa49dfa251eab14d5cd2036be">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab7e315253b3301c191581bce05644106">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a7f802c4c733375d0a63f91c58196e6a0">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a6c9737f5b09e7eb1aa7daabb00ae2e69">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>FragmentA
-: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1daf96b6d152c5cf32f248bbfd605b74">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a71aadbb130d4b1a6532c45282b37354f">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>FragmentB
-: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae79e7fc5be2f4c8d30ca83edc151f63a">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a43e278686b493d0aef943f32a9f47b9e">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>FragmentConstIterator
-: <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a48de0db7ee2ee9699b946a9d5a0364c7">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#adfcd8a2e63bd0c515ef03760cc1c4283">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>FragmentElement
-: <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a2b13136a970fae187fcb377c9be28fac">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>FragmentIterator
-: <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a0843b2d82422e7178f324a8d3be9d705">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ace8a65d90db264a0ee93a810be38918f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>FragmentMultiplyAdd
 : <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
@@ -120,20 +134,20 @@ <h3><a id="index_f"></a>- f -</h3><ul>
 , <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a3b872e85844c9e009fa480a71a829136">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a82ceeea55603dbb0c6e5bf9c22ac692e">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>Functor
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_g.html b/docs/functions_type_g.html
index 4ae366f319..05c838d38a 100644
--- a/docs/functions_type_g.html
+++ b/docs/functions_type_g.html
@@ -73,19 +73,19 @@
 <h3><a id="index_g"></a>- g -</h3><ul>
 <li>GemmConfig
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 </li>
 <li>GemmEpilogueTraits
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
 </li>
 <li>GemmTileTraitsHelperA
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a5557c86a530f5d20a35d3fa620adf417">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ab9e10d54c81a359db0eba58a11b9a0cf">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4f3afb4b1f37a2c43a1935a3000b2a02">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aee1dfb15e1b63f838a712af93777e5d3">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 </li>
 <li>GemmTileTraitsHelperB
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8768c2b03bea0c3601c47dde2bc7ca89">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a095505bfcea6791accd06bf4d37b9df8">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada910ee63493bc3c70f7395127268a1d">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7f175193ac6bcdccba012f5d80324685">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 </li>
 <li>GlobalFragmentC
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
@@ -97,33 +97,42 @@ <h3><a id="index_g"></a>- g -</h3><ul>
 : <a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a56d3f2606f9464ec57aa61aae378c642">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a880878914c25db44a1781725c24af514">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
 </li>
+<li>GlobalLoadIterator
+: <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a4237c6c9e33397bc1633182e9c3b6504">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aed9492775f012986a7c158156bf4e01e">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#acd7e5d5b940f410275ebbcd6c27e4327">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a57670718427808a241005f5e27acce5d">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+</li>
 <li>GlobalLoadIteratorA
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalLoadIteratorB
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalLoadIteratorC
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
+<li>GlobalLoadStream
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
+</li>
 <li>GlobalLoadStreamA
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2aaece6093100c71c4d587994200e3bb">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7fb1354154f303642da72e6fd157d846">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a448c242880183e006b70d839d210a2ec">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a80e36b583ccd9aa9b37d52faa090cbca">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2aceaceb30287e909c254f01f1716845">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a50121da13661e9fa50e5ea3a87c06266">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalLoadStreamB
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abaf5f16ab0b215b406766ecadab29394">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a88e66ee760aea03687e7b3ccc6ea535b">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aad467ed9a680b4d77acecb096799cd89">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2c46c11f5fddb865645f555547c823ba">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae59454c1b3862522c8ea293bacb194a8">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a2fcf34dcf8d89424aa15da709aed4a83">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalLoadTileTraits
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
@@ -131,7 +140,7 @@ <h3><a id="index_g"></a>- g -</h3><ul>
 </li>
 <li>GlobalStoreIteratorD
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
@@ -146,28 +155,30 @@ <h3><a id="index_g"></a>- g -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a738774d1eb79de7e29c372ddfd48258d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a24f38105e3c331c733cb672c3a9be588">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a66f11407e9f5bf0d6123c81dfee6b330">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a125c9a43da3bcdc00d5194a1376f613c">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 <li>GlobalTransformerA
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalTransformerB
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>GlobalTransformerC
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
 <li>GlobalTransformerD
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
@@ -175,7 +186,7 @@ <h3><a id="index_g"></a>- g -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_i.html b/docs/functions_type_i.html
index 6be0ee90e5..0039f880d7 100644
--- a/docs/functions_type_i.html
+++ b/docs/functions_type_i.html
@@ -77,27 +77,42 @@ <h3><a id="index_i"></a>- i -</h3><ul>
 <li>ImmediateOffsetStrides
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a8e767b5e2fb95b0b02a0ea3e8ea58368">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a5e4204b52ee081a37e824ca71c291c03">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9cfb32f902593e7dc018ee802c3520b8">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ad012add21d9393d136720f609467e121">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a99017ecc737060f53fd9804ea6f9583f">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a57b065abb737bee1c17398c90b5bc39b">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#a3db8202befa891bbc7c0a53c535cd21f">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
 </li>
 <li>Index
-: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">cutlass::gemm::GemmCoord</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#abd12fea9779ada02c0f2266909602171">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5ac2280dfcac08cec17b8c0db1c4593e">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">cutlass::MatrixCoord</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ab12d9d196122dc3075185ab239a27fb4">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a5a3f096a01e6a2dfe984d7e605380599">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">cutlass::TileCoord&lt; Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aae07fdedeef68abd4e6c099924c70910">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 <li>InputFragment
 : <a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#ac7906301019c3e6d60985c3851f1e95e">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a>
@@ -106,53 +121,59 @@ <h3><a id="index_i"></a>- i -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
 </li>
 <li>InstructionShape
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ac93ba536992debeae86087e638167a13">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ab16a3d8adda89cc4f9765116ea75a4b7">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa56cdefa659af5ce4efd493b94bafdfd">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad73372a37315b0c17a8db21e40a78574">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aa101be5d45e2be54bb4056517b6d5e76">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a7d83cf5bde360251a252c6e728ea80ff">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#afc7858e849a2967631761986512dbfb7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a245bdf059794144d04d2823d2b39588e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa84c3d4efc7947d6efb75536c88043bd">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>Iterations
 : <a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058">cutlass::ConstPredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
 , <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a81ca35e0c5d9553d1dccc981cbd89d47">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b33700f904dd15e3533fec15d9d71bd">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#aa9b46937bea47d071d277aa212dd610b">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a9fb4b56091d4458ebd82130bc3951e5b">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a2dc8573498bcda33273b86db76dbd511">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ae1d930fa295d8ddfaa10bda5978258de">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a552a67fb03c28e985d143f6193f88308">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileTraits.html#af7ae2fdb4c8f1702169cc7d437d2b469">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a8628ea7116f736b59c644fc0d85d395f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#a46b9e04bb8d33fcf8fc116cc48a555fc">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#a425a20b642ae8736c12626b2de9b8b82">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2">cutlass::TileTraitsStrideMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
 <li>IterationsStrides
-: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#ab683796885f3bae3765efd96883f311b">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a14ef0a0095e391503a19067e146c584a">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 </li>
 <li>Iterator
 : <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a1f2314aa062360b249b7c57c39af5430">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a0ba9097d54f3ba7b7dab12012631fa76">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_k.html b/docs/functions_type_k.html
new file mode 100644
index 0000000000..b5e5add55b
--- /dev/null
+++ b/docs/functions_type_k.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Class Members - Typedefs</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div class="contents">
+&#160;
+
+<h3><a id="index_k"></a>- k -</h3><ul>
+<li>KernelClass
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
+</li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/functions_type_l.html b/docs/functions_type_l.html
index 2e7334f0d3..abda026b1a 100644
--- a/docs/functions_type_l.html
+++ b/docs/functions_type_l.html
@@ -72,13 +72,19 @@
 
 <h3><a id="index_l"></a>- l -</h3><ul>
 <li>LoadIterator
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+</li>
+<li>LongIndex
+: <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a6220549b72ed8451dbf76466b50a96c0">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa3df5b7337d41d8f96717ea73bf3e24e">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_m.html b/docs/functions_type_m.html
index 043340a51a..c763954924 100644
--- a/docs/functions_type_m.html
+++ b/docs/functions_type_m.html
@@ -71,26 +71,33 @@
 &#160;
 
 <h3><a id="index_m"></a>- m -</h3><ul>
+<li>MapFunc
+: <a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
 <li>MultiplicandTraits
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 </li>
 <li>MultiplyAdd
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae9facf63912d98e597883bf7efb56cc8">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a87e34d56fa955670331749724bee9fd8">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae82826fde376748cf67ff2e1bcaa8cef">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae84c7fd1567580dc3da15a520c47ff6e">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 </li>
 <li>MultiplyAddScalar
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a29c3a5e4ea1fb6d0ea8b234849684daf">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aac06796d174a2d54103903e7dbe7b194">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_n.html b/docs/functions_type_n.html
index bb5ad36c7c..187630cfd8 100644
--- a/docs/functions_type_n.html
+++ b/docs/functions_type_n.html
@@ -78,7 +78,7 @@ <h3><a id="index_n"></a>- n -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_o.html b/docs/functions_type_o.html
index 42ed281395..d3d71d5510 100644
--- a/docs/functions_type_o.html
+++ b/docs/functions_type_o.html
@@ -72,7 +72,7 @@
 
 <h3><a id="index_o"></a>- o -</h3><ul>
 <li>Offset_t
-: <a class="el" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a408d9a8026115bdaf70a37c86dc720b1">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>OutputFragment
 : <a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a8ef69ab595489e142911e8e240fb405a">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a>
@@ -81,11 +81,12 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
 </li>
 <li>OutputTile
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
@@ -95,7 +96,7 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_p.html b/docs/functions_type_p.html
index 4e124be923..9fe8de42ea 100644
--- a/docs/functions_type_p.html
+++ b/docs/functions_type_p.html
@@ -72,7 +72,10 @@
 
 <h3><a id="index_p"></a>- p -</h3><ul>
 <li>Params
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
 </li>
 <li>Pointer
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
@@ -83,28 +86,34 @@ <h3><a id="index_p"></a>- p -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>pointer
 : <a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a>
 </li>
 <li>Pointer
-: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#adc4182adb78e34b7741f297eca86fe35">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>PredicateFunctor
+: <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
 </li>
 <li>PredicateVector
 : <a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">cutlass::ConstPredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5aa507eaeb63951f8e69fb223ec41809">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a6157fe8a2ffefd45eba6f3953f0e2994">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#aa853fa2a2e73397d8950567f3f5b7a15">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_s.html b/docs/functions_type_s.html
index 2d67bf448e..159cb8c744 100644
--- a/docs/functions_type_s.html
+++ b/docs/functions_type_s.html
@@ -72,8 +72,9 @@
 
 <h3><a id="index_s"></a>- s -</h3><ul>
 <li>Scalar
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+: <a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
@@ -88,189 +89,229 @@ <h3><a id="index_s"></a>- s -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afbbf15a7b5e4c38e59bf1debf67f04d6">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7073b32c2cc62ffcad70a9ca46995c4c">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317">cutlass::gemm::IgemmEpilogueScalar&lt; ScalarD_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650">cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aa37f285c74bb63c8bb8cbfc767378c41">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a1ebf24984863d0422356031615b74c53">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 , <a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a05914a7339b9d399ac7d8cf7ef617c31">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">cutlass::Vector&lt; half, 1 &gt;</a>
 , <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af60049062cedca55d8cb4a3cae82641f">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a602530542f526bd151f8a32deda015a1">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599">cutlass::VectorTraits&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a>
 </li>
 <li>ScalarA
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a6fa76b3e7ac721d47df47eba4e9ef222">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a366083b229b28e7f44da38273b2ab263">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a236a408791a38358cbadf19dd0e8ed9f">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aeef5fa0437b4ce1c2e8ac4bc7e062b65">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+</li>
+<li>ScalarAccum
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a1e854c281072db280ae90c2569b5f64c">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ab3774e6aa28266b25e3822fc9e72edc2">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+</li>
+<li>ScalarAlphaBeta
+: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ae7a333f7aa3f52226c76cec9d2da042d">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>
 </li>
 <li>ScalarB
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af4f5c4a79c447e5aaf313878eca022cb">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af52ec4b92a3e788169764014aebb85a1">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac7557562de1108bf1abc10829c83e88f">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aaf9e4b8b16150a6ad826c228af2bf103">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>ScalarC
-: <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a92c1ffbfb479cd9fa2c2632ef8e347d3">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af553be8ef0b4dc9bb593d98dfce8628d">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af1a6d91d4734683ea791bf57f3c3bbb0">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#acdd554e996a712ff62eb70d6ecf8e116">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a48a641d601c88d95aa542b636f94d60d">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>ScalarD
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 </li>
 <li>ScalarEpilogue
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 </li>
+<li>Second
+: <a class="el" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
 <li>Shape
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e">cutlass::gemm::GemmMultiplicandTraits&lt; ThreadBlockTile_, Usage, Layout &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71">cutlass::ShapeAdd&lt; A_, B_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">cutlass::ShapeDiv&lt; A_, B_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">cutlass::ShapeDivCeiling&lt; A_, B_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961">cutlass::ShapeMax&lt; A_, B_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">cutlass::ShapeMin&lt; A_, B_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">cutlass::ShapeMul&lt; A_, B_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29">cutlass::ShapeScale&lt; A_, kScale_ &gt;</a>
-, <a class="el" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">cutlass::ShapeStrides&lt; Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">cutlass::ShapeStrides&lt; Shape_, elementsPerAccess &gt;</a>
 , <a class="el" href="structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9">cutlass::ShapeSub&lt; A_, B_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
 </li>
 <li>SharedLoadIteratorA
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>SharedLoadIteratorB
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>SharedLoadIteratorD
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
 <li>SharedLoadStreamA
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a21c860cc877df13d22dd30eeb5e2b06b">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a70063eb7e19921efef55a6f32562773f">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aaa35c4d2a90f137f50c9ccd24d5c4f5c">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7e035ceab26dc904726ddbf14371f476">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>SharedLoadStreamB
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac5eeca1e91f0e0d4dd48d432d5213215">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a54e8ad5874306a3764951a9791f02c96">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1d458fe1e416ddc4565f2b802592268b">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aff287e2ca10a437a82736baab2d7c28d">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
+<li>SharedLoadStreamD
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+</li>
 <li>SharedLoadTileTraits
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a458cbcc16fc296d024f2a1a95fb926c1">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af1bc7f7c26db3399201cd95f35a56790">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
-</li>
-<li>SharedLoadTransformerD
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a53dd72126a43a1c5811ed92a2313d19d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#ad8f1b0fda40f1fb7dc598cc841f38afe">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 <li>SharedStorage
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>SharedStoreFragmentD
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
 <li>SharedStoreIteratorA
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>SharedStoreIteratorB
-: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a>
 </li>
 <li>SharedStoreIteratorD
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
-<li>SharedStoreStorage
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
-</li>
-<li>SharedStoreStorageA
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-</li>
-<li>SharedStoreStorageB
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
-</li>
 <li>SharedStoreTileTraits
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a2aad3b2454d956f20dac1bb0ad75a2f8">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab1ae3d51f65f7af60147da1c51a7a0c2">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a7624585480f83a46725c92b5dee20ebc">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aca6118b5bbe6f667f05c53bd52543045">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aa21c231aa56c9e5f2705cac62b17bbbe">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a86ed2ebc5b6e4426ab35a1f30a3e47bb">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a872dc2d0b8ed6c75c41d258a23183861">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 <li>SharedStoreTransformerD
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a>
 </li>
+<li>SharedStream
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
+</li>
 <li>Skew
-: <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a57348779bb004ed1ea0fd9cc252e895d">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a18248da35dc9a0ae2411121bee323085">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>Storage
 : <a class="el" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa86a59779c0830e8cf82066853dc1089">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a52fb77744c7c7ecf0f8a3a725556293d">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>StorageCoord
+: <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#abaf7ec0e96bc99cf0ce243e703b8711c">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>StoreIterator
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+</li>
+<li>StreamA
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+</li>
+<li>StreamB
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
 </li>
 <li>Strides
-: <a class="el" href="structcutlass_1_1FragmentIterator.html#a2858ba9a8a9bbaef1de73415cff9b3c1">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+: <a class="el" href="structcutlass_1_1FragmentIterator.html#a2e93985d759d904ac858054eeaa9e50e">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#aba9164abe2fd7a091a858b23c0d3ac9c">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+</li>
+<li>StrideVector
+: <a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a625892aa9063eebf769bb2ed0cba7684">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>SType
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_t.html b/docs/functions_type_t.html
index 54dffcad23..9d29b5bc6b 100644
--- a/docs/functions_type_t.html
+++ b/docs/functions_type_t.html
@@ -71,8 +71,41 @@
 &#160;
 
 <h3><a id="index_t"></a>- t -</h3><ul>
+<li>TensorCoord
+: <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a9d07d96c2eccba10c3a9e4bef58d4e01">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#ada8a241b6b2c5439183b0d6c456c934e">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>TensorRef
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a>
+, <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
 <li>TensorRef_t
-: <a class="el" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorView.html#a25eb8c0fe380114ddaabb37453be4606">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
+<li>TensorRefA
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>TensorRefB
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>TensorRefC
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>TensorRefD
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
 <li>This_
 : <a class="el" href="structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
@@ -81,19 +114,38 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipFragment.html#a2f038ddb37879cbc54dbadaeb7085fb1">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
 </li>
 <li>ThreadBlockTile
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a5e43f3c9aa8d7dc5f01dfc63b1ea97dc">cutlass::gemm::GemmMultiplicandTraits&lt; ThreadBlockTile_, Usage, Layout &gt;</a>
 </li>
+<li>ThreadblockTileRef
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
+</li>
+<li>ThreadblockTileStorage
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a17804b01904a9a4ee7a857905833f7a8">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+</li>
+<li>ThreadGemmShape
+: <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+</li>
 <li>ThreadOffset
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a07ff2f97fdd57c4df05ef8e817265b30">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileTraits.html#af9c0fc178dac7f9dac8d254da34e04dd">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#a671ef48f4141a9de30b6ec6fb0be1feb">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#a823ba83e9ca680da0af7d63be772a351">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c">cutlass::TileTraitsStrideMajor&lt; Tile_, Threads &gt;</a>
 </li>
@@ -101,20 +153,20 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a5fd1a9f132c7aa0f68e129553f519d1e">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57">cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, bool &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c">cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, true &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>ThreadsDelta
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a6eee97f03dcea1c441116e143cf58018">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a2bb0f0820e52417ff77e7a2bdb9ed434">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a61907b1afa07c12de74545d2e23a4281">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a160d1ecd86de4742f550d11bc281786b">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 </li>
 <li>ThreadShape
 : <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#a33116b67e580292d4e354ca17ecd4167">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
@@ -126,28 +178,31 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa784f29ff453c1656fdea8270454fa55">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a5bc98fd196c1f1e4e3f1bfc621df4f50">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>
 </li>
 <li>ThreadsStrides
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae540e7ea7106552682aa4c97b833b3b1">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
 </li>
 <li>Tile
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a260543a618fb187c2da40c9f630925ec">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">cutlass::ReshapeTile&lt; Tile_, kAccessSize_, bool &gt;</a>
 , <a class="el" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06">cutlass::ReshapeTile&lt; Tile_, kAccessSize_, true &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a8a87c8ef986e110a01a9226012594a61">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileTraits.html#ab831be0adb255eece4f2e12fd9713831">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ad18ee6f519b03e1dbf711339b63e16d6">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#a3632c351a28f71f6c140dd33089d80b0">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#a1607d53544302c12278793bc9b283763">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac">cutlass::TileTraitsStrideMajor&lt; Tile_, Threads &gt;</a>
@@ -170,16 +225,20 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a6f50a8aec2d7045e9057b93df08172a8">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5016bd7b24938026a2879ec0054eb3b6">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>TransformedFragment
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#adeb35451885c1c4fb930ae8c914ceb20">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#af349831b19bb91d414a83c67d14f6927">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>Transformer
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85">cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a>
@@ -194,6 +253,10 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a9f79fd30231825b38694bf7c1d12ec2a">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a0f91f328ed2b6bd65ef4eeafe18f9afd">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>type
 : <a class="el" href="structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1">cutlass::platform::aligned_storage&lt; Len, Align &gt;</a>
@@ -208,18 +271,20 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 , <a class="el" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3">cutlass::platform::remove_volatile&lt; volatile T &gt;</a>
 </li>
 <li>Type
-: <a class="el" href="structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06">cutlass::StorageType&lt; kAlignment_ &gt;</a>
+: <a class="el" href="structcutlass_1_1StorageType.html#abb0d270cdf38d46347261cac36dc619b">cutlass::StorageType&lt; alignment &gt;</a>
 , <a class="el" href="structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4">cutlass::StorageType&lt; 1 &gt;</a>
 , <a class="el" href="structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4">cutlass::StorageType&lt; 2 &gt;</a>
 , <a class="el" href="structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807">cutlass::StorageType&lt; 4 &gt;</a>
 , <a class="el" href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">cutlass::Vectorize&lt; Element_, kLanes_ &gt;</a>
-, <a class="el" href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html#a79f147933e3f520145aee94ae18da3c5">cutlass::Vectorize&lt; Element_, 1 &gt;</a>
+, <a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html#a5c32d50c6c97d7489034efb7188c8186">cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a>
+, <a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html#a40dac8fb50ddccb5c1e2a98200ac3a06">cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a>
+, <a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html#a9db5873c0d4df1452129022a280247ca">cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_v.html b/docs/functions_type_v.html
index 60177eeed6..392148b35b 100644
--- a/docs/functions_type_v.html
+++ b/docs/functions_type_v.html
@@ -72,18 +72,22 @@
 
 <h3><a id="index_v"></a>- v -</h3><ul>
 <li>value_type
-: <a class="el" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">cutlass::platform::integral_constant&lt; value_t, V &gt;</a>
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#aa7c319b0c67f8ffeee3d1bb4b83ea0d6">cutlass::platform::complex&lt; T &gt;</a>
+, <a class="el" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">cutlass::platform::integral_constant&lt; value_t, V &gt;</a>
 </li>
 <li>Vector
 : <a class="el" href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">cutlass::VectorTraits&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a>
 </li>
+<li>VectorizedTile
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+</li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_w.html b/docs/functions_type_w.html
index ba510b56ad..2806ad0204 100644
--- a/docs/functions_type_w.html
+++ b/docs/functions_type_w.html
@@ -72,7 +72,7 @@
 
 <h3><a id="index_w"></a>- w -</h3><ul>
 <li>Warps
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
@@ -82,7 +82,7 @@ <h3><a id="index_w"></a>- w -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_type_y.html b/docs/functions_type_y.html
index e20abf82a1..1793ec480b 100644
--- a/docs/functions_type_y.html
+++ b/docs/functions_type_y.html
@@ -78,7 +78,7 @@ <h3><a id="index_y"></a>- y -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_u.html b/docs/functions_u.html
index fc2ce25cc7..d3ac4dab11 100644
--- a/docs/functions_u.html
+++ b/docs/functions_u.html
@@ -78,7 +78,7 @@ <h3><a id="index_u"></a>- u -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_v.html b/docs/functions_v.html
index ebea1a15a8..72381435ef 100644
--- a/docs/functions_v.html
+++ b/docs/functions_v.html
@@ -75,12 +75,11 @@ <h3><a id="index_v"></a>- v -</h3><ul>
 : <a class="el" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#abc729cc51d5c90b1d7b0df3092d47cd4">cutlass::platform::alignment_of&lt; value_t &gt;::pad</a>
 </li>
 <li>valid()
-: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a01571b2fc566793fd50a10fa82441951">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1FragmentIterator.html#ab18f8ea676b45831f939715212167a99">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ac4d2c293f9312b673ea29bf79b2882fd">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6594acc213fc8d4289c6c73631f60120">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a468f8f503777e4a2b0089ee2bd6c471a">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1FragmentConstIterator.html#ac4d601998a84a3eac23e3b7a7c8a935b">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1FragmentIterator.html#a8608dd815ed4906d8c82c41a10df23e2">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>value
 : <a class="el" href="structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc">cutlass::divide_assert&lt; Dividend, Divisor &gt;</a>
@@ -102,21 +101,29 @@ <h3><a id="index_v"></a>- v -</h3><ul>
 , <a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html#a2568c1ab218cab6505bd20e3c2c420ffa54f6e1afec0ed30b18ab79fd6faf81b5">cutlass::platform::alignment_of&lt; ulonglong4 &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">cutlass::platform::integral_constant&lt; value_t, V &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;</a>
+, <a class="el" href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">cutlass::ScalarIO&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1sqrt__est.html#abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964">cutlass::sqrt_est&lt; N &gt;</a>
 </li>
 <li>value_type
-: <a class="el" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">cutlass::platform::integral_constant&lt; value_t, V &gt;</a>
+: <a class="el" href="classcutlass_1_1platform_1_1complex.html#aa7c319b0c67f8ffeee3d1bb4b83ea0d6">cutlass::platform::complex&lt; T &gt;</a>
+, <a class="el" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">cutlass::platform::integral_constant&lt; value_t, V &gt;</a>
 </li>
-<li>Vector
-: <a class="el" href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">cutlass::VectorTraits&lt; T &gt;</a>
+<li>Vector()
+: <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1310cf2e92e260cf55cfda1cb2cb7280">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a5feb070268f85bd73c3095eaf2d0e2bb">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a48e193a0b636934ea553c6e60ffef563">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
+, <a class="el" href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">cutlass::VectorTraits&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a>
 </li>
+<li>VectorizedTile
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
+</li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars.html b/docs/functions_vars.html
index 43affc3190..ffc55d8edd 100644
--- a/docs/functions_vars.html
+++ b/docs/functions_vars.html
@@ -71,20 +71,26 @@
 &#160;
 
 <h3><a id="index_a"></a>- a -</h3><ul>
+<li>A
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
 <li>aligned_
 : <a class="el" href="unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1df3324868465331db13bd7775b55e87">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#acc698443a38fd0ad63f931bdf172ad99">cutlass::Vector&lt; half, 1 &gt;</a>
 , <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ad6784e347f068ad20af52379286337c0">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a4eab187b6f7650bd88ccd421c8330d3c">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 </li>
 <li>alpha
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a053c2b529be527f510ee317737fbf7e8">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_b.html b/docs/functions_vars_b.html
index 4b145d14ef..5a07b03020 100644
--- a/docs/functions_vars_b.html
+++ b/docs/functions_vars_b.html
@@ -71,11 +71,31 @@
 &#160;
 
 <h3><a id="index_b"></a>- b -</h3><ul>
+<li>B
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>batch_stride_A
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>batch_stride_B
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>batch_stride_C
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
+<li>batch_stride_D
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
 <li>beta
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab91b702a9932144b388fad3159130332">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a>
 </li>
+<li>block
+: <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">cutlass::KernelLaunchConfiguration</a>
+</li>
+<li>bounds
+: <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a>
+</li>
 <li>byte
 : <a class="el" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#a86f075f91b80918e968951713430f0b4">cutlass::platform::alignment_of&lt; value_t &gt;::pad</a>
 </li>
@@ -83,7 +103,7 @@ <h3><a id="index_b"></a>- b -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_c.html b/docs/functions_vars_c.html
index 5e5a2251e0..271a2dbecb 100644
--- a/docs/functions_vars_c.html
+++ b/docs/functions_vars_c.html
@@ -71,6 +71,9 @@
 &#160;
 
 <h3><a id="index_c"></a>- c -</h3><ul>
+<li>C
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+</li>
 <li>clear
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>
 </li>
@@ -81,7 +84,7 @@ <h3><a id="index_c"></a>- c -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_d.html b/docs/functions_vars_d.html
index df6d2e3e95..dc633e8dcf 100644
--- a/docs/functions_vars_d.html
+++ b/docs/functions_vars_d.html
@@ -71,23 +71,17 @@
 &#160;
 
 <h3><a id="index_d"></a>- d -</h3><ul>
-<li>d_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aae63781de41962f496da469684919447">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
+<li>D
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
 </li>
-<li>d_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a05915032eba39bc9b085bec5ff17257b">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
-<li>d_c
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa2b3126c082d04fd31521cb0e84cf4d5">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
-<li>d_d
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a30326e2d81c8e154d749f35837903216">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
+<li>dynamic_smem
+: <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">cutlass::KernelLaunchConfiguration</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_e.html b/docs/functions_vars_e.html
index f98d4a1b6c..413436f686 100644
--- a/docs/functions_vars_e.html
+++ b/docs/functions_vars_e.html
@@ -79,7 +79,7 @@ <h3><a id="index_e"></a>- e -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_f.html b/docs/functions_vars_f.html
index 71f57760c2..f959f78d1f 100644
--- a/docs/functions_vars_f.html
+++ b/docs/functions_vars_f.html
@@ -71,23 +71,30 @@
 &#160;
 
 <h3><a id="index_f"></a>- f -</h3><ul>
-<li>fetched_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a3147da380e4c1e465aba0b965ac87ab5">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
-</li>
-<li>fetched_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a837fbec1d47ae45480941de6290889c0">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+<li>fetched
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>fetched_fragment
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+</li>
+<li>first
+: <a class="el" href="structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTensorRef.html#a535f0e6fc79d0e305f651efed099275c">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a5dd69883d6b3f16fe28ebfe79235743e">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a>
 </li>
 <li>functor
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#afa888d993b86ed88950a9e5ab7edeb06">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adb04e5990ab7faae9e8c0b110d2e3bee">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_g.html b/docs/functions_vars_g.html
index 712c6b5da9..13c8f617b8 100644
--- a/docs/functions_vars_g.html
+++ b/docs/functions_vars_g.html
@@ -71,20 +71,18 @@
 &#160;
 
 <h3><a id="index_g"></a>- g -</h3><ul>
-<li>global
-: <a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#a3c2980547310ec4307f3a5f9817dfc51">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::StreamSharedStorage&lt; GlobalLoadStream_, SharedLoadStream_ &gt;</a>
+<li>global_to_shared_stream
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a61fcc63cb0df6754eef16f5cf138f3a2">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
 </li>
-<li>global_stream_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a575bcff901d69ae3f46987222f23ab64">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
-</li>
-<li>global_stream_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a46affe35cb16874de5a2b9777aedf596">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
+<li>grid
+: <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">cutlass::KernelLaunchConfiguration</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_i.html b/docs/functions_vars_i.html
index e0bfcd7846..dde35cf405 100644
--- a/docs/functions_vars_i.html
+++ b/docs/functions_vars_i.html
@@ -72,23 +72,21 @@
 
 <h3><a id="index_i"></a>- i -</h3><ul>
 <li>idx
-: <a class="el" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">cutlass::Coord&lt; N_ &gt;</a>
+: <a class="el" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 <li>inc_advance
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a857db0c999250248b104f17f13fe9bd8">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>inc_d
-: <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>inc_h
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>inc_w
-: <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>IsVector
 : <a class="el" href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">cutlass::VectorTraits&lt; T &gt;</a>
@@ -98,18 +96,22 @@ <h3><a id="index_i"></a>- i -</h3><ul>
 <li>iterator
 : <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html#a0430f377595718291f84ef62eb6f4e57">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html#acd106661221997d7c5943daac8eb5088">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params</a>
 </li>
 <li>iterator_c
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a7350ceefcd09a9e3662ca30b780cc2ce">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a0745d33dd881f6ca78b168e05b133ff8">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 </li>
 <li>iterator_d
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a987c179a7e73c2572fe8aef3255668f7">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#abbcccb203f9823e621caa4475aa3d346">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_k.html b/docs/functions_vars_k.html
index 04e3c5d992..189c2ab149 100644
--- a/docs/functions_vars_k.html
+++ b/docs/functions_vars_k.html
@@ -71,10 +71,6 @@
 &#160;
 
 <h3><a id="index_k"></a>- k -</h3><ul>
-<li>k
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ac789a7e5d2db65d006f1e8e3df542a6f">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aae3a008b39f9678a03192f6ff54152d8">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
-</li>
 <li>kAccessSize
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
@@ -83,31 +79,55 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraits.html#a0a494c2eacb51b65487f8405908a0214">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>
+, <a class="el" href="structcutlass_1_1TileTraitsStandard.html#a5e04777205c7a292602880c59d6b43c8">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a>
 </li>
 <li>kAccumulatorsPerLdsA
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kAccumulatorsPerLdsB
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kAdvance
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a8059c57030df99b73309e9210ec5f624">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a44200854ad5b35c1863f73c435b8750b">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>kAlignment
+: <a class="el" href="structcutlass_1_1Fragment.html#a84b6d68a5a24dbd04d842e0755b42bda">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>
+</li>
+<li>kBatch
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad7b490ce2150e54fccad6b0f11932382">cutlass::gemm::GemmCoord</a>
+</li>
+<li>kBlockColumns
+: <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+</li>
+<li>kBlockRows
+: <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
 </li>
 <li>kBytes
 : <a class="el" href="structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
 <li>kC
 : <a class="el" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a8236879e1670072033983b7ec4b7ae32">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
+<li>kColumn
+: <a class="el" href="structcutlass_1_1MatrixCoord.html#a1e096b25138e027c31ea8624729ec433">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#adb3b8cccf1ac91265fff998a3d48f5e7">cutlass::MatrixLayout::ContiguousLayout</a>
 </li>
 <li>kCount
 : <a class="el" href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">cutlass::ShapeCount&lt; Shape &gt;</a>
 </li>
 <li>kD
 : <a class="el" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ab5ebf352327baadcc740175d6b39adcb">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>kDhw
 : <a class="el" href="structcutlass_1_1ShapeCount.html#af7d7ccd42de2c49fe57f03cf0e657fe8">cutlass::ShapeCount&lt; Shape &gt;</a>
@@ -126,11 +146,17 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 : <a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html#a881f84951bc9e47ab2be9ef3f2c1e423">cutlass::gemm::GetExtent&lt; GemmOperand::kA, Tile_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html#a82ff9b447e4a58164b5f7d53d2602930">cutlass::gemm::GetExtent&lt; GemmOperand::kB, Tile_ &gt;</a>
 </li>
+<li>kFragmentElementType
+: <a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
 <li>kFragmentSize
-: <a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>kH
 : <a class="el" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#a24d32587359493bb965745f5551e1624">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>kHw
 : <a class="el" href="structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f">cutlass::ShapeCount&lt; Shape &gt;</a>
@@ -141,6 +167,10 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 <li>kInt8Output
 : <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html#a8609af98d1e43cd25688bae6f33feed4">cutlass::gemm::IgemmEpilogueTraits&lt; IgemmConfig_, EpilogueFunctor_, Index_, Helper_ &gt;</a>
 </li>
+<li>kInterleave
+: <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a>
+</li>
 <li>kIterationsD
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 </li>
@@ -150,10 +180,8 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 <li>kIterationsInHPerWarp
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 </li>
-<li>kIteratorFragment
-: <a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a94c0567316118abfb84fc28560a5a46a">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+<li>kK
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a521d4b8e720d2261c825e05397c92a5e">cutlass::gemm::GemmCoord</a>
 </li>
 <li>kKstrided
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85">cutlass::gemm::GemmMultiplicandTraits&lt; ThreadBlockTile_, Usage, Layout &gt;</a>
@@ -163,6 +191,9 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aca745b59c6c21292f119943e5a480f39">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a43ac200035052a2c352c8c4b84aac73c">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a>
 </li>
+<li>kLaunchBounds
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+</li>
 <li>kLayout
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
@@ -172,7 +203,9 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a807cffc6f69f8d30a2fc94cf49fb904c">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a32729d0fad10fcbbcf2643a2fa5671d6">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a11026d05b2b32f1373020c049f2cfa66">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 <li>kLayoutA
@@ -181,6 +214,9 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 <li>kLayoutB
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a>
 </li>
+<li>kM
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#af1f5c03c35eaa406c6a63082da26bec3">cutlass::gemm::GemmCoord</a>
+</li>
 <li>kMemorySpace
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
@@ -189,14 +225,18 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#adaebec9eacf767f63f048033de73ea5b">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>kN
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a67f08a03dabee497fa5547cff0f1faea">cutlass::gemm::GemmCoord</a>
 </li>
 <li>kOperand
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a30113b850dfd3de60f8778bc7a66f700">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 </li>
 <li>kPredicates
 : <a class="el" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
@@ -207,45 +247,62 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 <li>kPredicateStart
 : <a class="el" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a>
 </li>
+<li>kRank
+: <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+</li>
+<li>kResidueInProlog
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+</li>
+<li>kResidueSeparate
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+</li>
+<li>kRow
+: <a class="el" href="structcutlass_1_1MatrixCoord.html#a5149f4a37407746407251efc0779bb53">cutlass::MatrixCoord</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#ae97a9ba9d5045bef258d8994eb732256">cutlass::MatrixLayout::ContiguousLayout</a>
+</li>
 <li>kScalarsIn4B
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
 </li>
 <li>kScalarsPerLdgA
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerLdgB
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerLdgC
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerLdsA
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerLdsB
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerLdsD
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerRow
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 </li>
 <li>kScalarsPerStgD
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerStsA
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ae396f7301f934c179e054f68f0420edf">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a69775031f651795f697b628677b8e4eb">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aedb61c43d8fb9c4ba18ae72601b9f6e1">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 <li>kScalarsPerStsB
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a47d99d98c783cf1d317698bd465ffa9a">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aaa3228d45ff4428bba0f88a7a6e8b31b">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a8a6cef5e733eab9c0ead20b1e345ad6f">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>
 </li>
 <li>kScalarsPerStsD
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 </li>
 <li>kScalarsPerThread
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
@@ -259,15 +316,39 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aba6decf87d770becaadd610d9fc27491">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a>
 </li>
+<li>kSkewA
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9c296924f9a6c6908f09830bbbf6a775">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac8da30393042cf6e785bdd54b11d9408">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a>
+</li>
+<li>kSkewB
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab35a6b3ff04e4128e4ca4a8cc0459b16">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a6d0f50e83067373b249b38444eb7fe65">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a>
+</li>
+<li>kSplitK
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
+</li>
 <li>kStages
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
+</li>
+<li>kStorageRank
+: <a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html#ac609498e7fe858b4fb3791d1039438f4">cutlass::IdentityTensorMapFunc&lt; Rank &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70">cutlass::MatrixLayout::ColumnMajor</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">cutlass::MatrixLayout::ContiguousLayout</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30">cutlass::MatrixLayout::RowMajor</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>
+, <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>kStrideH
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a>
 </li>
 <li>kThreads
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a>
@@ -286,14 +367,20 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 : <a class="el" href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">cutlass::Extent&lt; T &gt;</a>
 , <a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a10f7184a9a50de0268efa45dab5dc304">cutlass::Extent&lt; Vector&lt; T, Lanes &gt; &gt;</a>
 , <a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a87917a6dfbb1662416c4ea4831669aaf">cutlass::Extent&lt; Vector&lt; T, Lanes &gt; const &gt;</a>
+, <a class="el" href="structcutlass_1_1Max.html#a6ed8be7ed855eea8f8d08921f7b5d763">cutlass::Max&lt; A, B &gt;</a>
+, <a class="el" href="structcutlass_1_1Min.html#a97e6dd3ff6fb5404e8a6e6109f73f429">cutlass::Min&lt; A, B &gt;</a>
 </li>
 <li>kW
 : <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileCoord.html#ac2c14af3ceffd5ef8f17c9e0efb4e5ec">cutlass::TileCoord&lt; Index_ &gt;</a>
 </li>
 <li>kWarpCount
 : <a class="el" href="structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
+<li>kWarpGemmSteps
+: <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
+</li>
 <li>kWarps
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
@@ -302,7 +389,7 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 : <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
 <li>kWarpSize
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a>
 , <a class="el" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a>
 </li>
@@ -319,7 +406,7 @@ <h3><a id="index_k"></a>- k -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_l.html b/docs/functions_vars_l.html
index 78a99ee379..3e59f2c44f 100644
--- a/docs/functions_vars_l.html
+++ b/docs/functions_vars_l.html
@@ -71,31 +71,18 @@
 &#160;
 
 <h3><a id="index_l"></a>- l -</h3><ul>
-<li>lda
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a62ad30ba419ccb661e6700da98221789">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
-<li>ldb
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7591ce0223b0d05c4d6fca6c67b98bfe">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
-<li>ldc
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a0f492560cabc45cd492da65b819d09db">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
-<li>ldd
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a3280e5c5484f5c10d1412bcb70eb77e9">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-</li>
 <li>load
-: <a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#aea5ed35a44624684ffa9ada9d09a8893">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a>
+: <a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#ae7bc498e4976814111114091de4e43af">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a>
 </li>
 <li>load_iterator
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a42ffcba6af2b5ddfb1f4825a34d43532">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
-, <a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a3be938f8661f9cd10966866b7b80b471">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a46f2546f9b88f4fc87f1396d0f08b065">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_m.html b/docs/functions_vars_m.html
index d97d3377e2..c80c0a9454 100644
--- a/docs/functions_vars_m.html
+++ b/docs/functions_vars_m.html
@@ -71,19 +71,20 @@
 &#160;
 
 <h3><a id="index_m"></a>- m -</h3><ul>
-<li>m
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a5c2b3e75cb6873762ba3f85487b78579">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aaf27c0f2f4ab730ed5c865e9f7d2373b">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
-</li>
 <li>main_loop
 : <a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage</a>
 </li>
+<li>mask_
+: <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
+</li>
+<li>multiplicand_bounds
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+</li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_n.html b/docs/functions_vars_n.html
index 60139fe65e..db6ea4f41c 100644
--- a/docs/functions_vars_n.html
+++ b/docs/functions_vars_n.html
@@ -72,18 +72,13 @@
 
 <h3><a id="index_n"></a>- n -</h3><ul>
 <li>N
-: <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">cutlass::Coord&lt; N_ &gt;</a>
-</li>
-<li>n
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#acee9727aa6cb612a25cd6ced4829061a">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a437d4b6f1f149849c5ae635a5993e7ac">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">cutlass::Coord&lt; Rank_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_o.html b/docs/functions_vars_o.html
new file mode 100644
index 0000000000..7e29cdc8a9
--- /dev/null
+++ b/docs/functions_vars_o.html
@@ -0,0 +1,86 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Class Members - Variables</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div class="contents">
+&#160;
+
+<h3><a id="index_o"></a>- o -</h3><ul>
+<li>offset_to_residue
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
+</li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/functions_vars_p.html b/docs/functions_vars_p.html
index 41f8498f9f..bd28154fc0 100644
--- a/docs/functions_vars_p.html
+++ b/docs/functions_vars_p.html
@@ -76,40 +76,46 @@ <h3><a id="index_p"></a>- p -</h3><ul>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
 </li>
 <li>pointer
 : <a class="el" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+</li>
+<li>pointers
+: <a class="el" href="structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>predicate_inc_advance
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa0367d016549cce6bd896bae364fc248">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
 </li>
 <li>predicate_inc_h
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
 </li>
 <li>predicate_offset
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
 </li>
 <li>predicates
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>
+</li>
+<li>problem_size
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_r.html b/docs/functions_vars_r.html
index 034ca3db1e..51923e7733 100644
--- a/docs/functions_vars_r.html
+++ b/docs/functions_vars_r.html
@@ -72,18 +72,22 @@
 
 <h3><a id="index_r"></a>- r -</h3><ul>
 <li>Rank
-: <a class="el" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a>
-, <a class="el" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">cutlass::TensorView&lt; T &gt;</a>
+: <a class="el" href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a233fba9abdbbd0fe3a2cc7465ea76a41">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a>
+, <a class="el" href="classcutlass_1_1TensorView.html#a8dbb7043546fae133547d2c3e46dddab">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 <li>registers
 : <a class="el" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#af27a36f604513f05aebe0624a9c539ab">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>
 , <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#abd116dc7a5b82ac9b1481fb1d2bfc93f">cutlass::Vector&lt; half, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ace5e03860b434b2d2a4590bd2bc8c147">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a15d5103e46d53e030100dedaecb0220a">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_s.html b/docs/functions_vars_s.html
index 52934eee7f..54da9c6780 100644
--- a/docs/functions_vars_s.html
+++ b/docs/functions_vars_s.html
@@ -73,70 +73,83 @@
 <h3><a id="index_s"></a>- s -</h3><ul>
 <li>scalars
 : <a class="el" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a>
+, <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a81709dacea12d6bd3bb328a3f0a519b0">cutlass::Vector&lt; half, 1 &gt;</a>
 , <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3">cutlass::Vector&lt; half, kLanes_ &gt;</a>
 </li>
-<li>shared
-: <a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#afabd328b106d45b156200f73942d211e">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::StreamSharedStorage&lt; GlobalLoadStream_, SharedLoadStream_ &gt;</a>
+<li>second
+: <a class="el" href="structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTensorRef.html#ad981b056cc96709a23e6d51dba4cd451">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>
+, <a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a6eb742dc39b1d776cf5d62719835fe26">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a>
+, <a class="el" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
 </li>
-<li>shared_load_iterator_d
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a1742e43c128665f0ca39cb578291df81">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+<li>shared_load_stream_d
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a5d3d1abd85f18476a74bcf616a717f9d">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 </li>
 <li>shared_storage
 : <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>
 </li>
 <li>shared_store_iterator_d
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#af79a0c74a4c30ccec59b393721b5dfc1">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adfdf3eca06ea4061fbfe016336a3f276">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 </li>
 <li>shared_stream
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#ae63b5a52106dbd37ea304196335ec210">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a64ecac7d5843c38e55df78dcf609d33e">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a50e9cc382a32abd5beab299a79b30b27">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
 </li>
-<li>shared_stream_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aa9937ec51d18aad02398d95095117978">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
-</li>
-<li>shared_stream_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a78f22007632937bbd5f3dab7b097477d">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>
+<li>source_fragment
+: <a class="el" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>stage
-: <a class="el" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+: <a class="el" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>storage
+: <a class="el" href="structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>
 </li>
 <li>store
-: <a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a1f31090613c4e6f0895f598880d6c4e5">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a>
+: <a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a673ddeb91e89c9a39c0a4dbaaa97dd8f">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a>
 </li>
 <li>store_iterator
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a3e5167fa3f2dc0d8b4b903bd4e936969">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
-, <a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a939e9ddecc5ee97882a54211a61f5586">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a289ac736c0c098ae6da6a21c9abfe63f">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 </li>
 <li>stream_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a62d3dcf5d97a0a896b2033e55dfb0811">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a87d507b703a0eb654265f4529ed18f66">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#afb56016927b59b8d5447c3656f0b634e">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
 </li>
 <li>stream_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a0173fcc8856b17a52cc5eee845f101fa">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a6d9444ed13ed544febe196e3e835ea16">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#a4a8f9207ffb3bbcdb000af62808371f5">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>
 </li>
 <li>stride_d
-: <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>stride_h
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae0fdc7426b22ff2c20f077e251ebc823">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a497b91e93d0eb29ca54553f8de4c694f">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
 </li>
 <li>stride_w
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
-, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>
+, <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>
+</li>
+<li>strides
+: <a class="el" href="structcutlass_1_1TensorRefArray.html#a76228819a72b8ed341e680ba84a960be">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_t.html b/docs/functions_vars_t.html
index 4fdfb30331..60a3c45e2a 100644
--- a/docs/functions_vars_t.html
+++ b/docs/functions_vars_t.html
@@ -71,31 +71,40 @@
 &#160;
 
 <h3><a id="index_t"></a>- t -</h3><ul>
+<li>tensor_stride
+: <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>
+</li>
 <li>thread_offset
 : <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
-, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>
+</li>
+<li>threadblock_offset
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 </li>
-<li>transformed_a
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a883b28ca237b1ec076856232cfee0c6f">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+<li>threadblock_tile
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#af8f0050e818b788402526857afc7c919">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>
 </li>
-<li>transformed_b
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a9369a5f819d2a42997491e0df96f47ef">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a>
+<li>transformed
+: <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>transformed_fragment
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 <li>transformer
-: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>
+, <a class="el" href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_vars_v.html b/docs/functions_vars_v.html
index f773cd011f..98e30b7315 100644
--- a/docs/functions_vars_v.html
+++ b/docs/functions_vars_v.html
@@ -77,12 +77,13 @@ <h3><a id="index_v"></a>- v -</h3><ul>
 <li>value
 : <a class="el" href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">cutlass::platform::integral_constant&lt; value_t, V &gt;</a>
 , <a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;</a>
+, <a class="el" href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">cutlass::ScalarIO&lt; T &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_w.html b/docs/functions_w.html
index 9ef19c96f8..a4c7cfbc07 100644
--- a/docs/functions_w.html
+++ b/docs/functions_w.html
@@ -71,21 +71,24 @@
 <div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
 
 <h3><a id="index_w"></a>- w -</h3><ul>
+<li>w()
+: <a class="el" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">cutlass::TileCoord&lt; Index_ &gt;</a>
+</li>
 <li>Warps
-: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>
 , <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a>
 </li>
 <li>WmmaGemmGlobalIteratorCd()
-: <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a505f124fa3f47c6d57b7275e81be6dd3">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
+: <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_y.html b/docs/functions_y.html
index a97be07e0d..5e56a9ab2e 100644
--- a/docs/functions_y.html
+++ b/docs/functions_y.html
@@ -78,7 +78,7 @@ <h3><a id="index_y"></a>- y -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/functions_z.html b/docs/functions_z.html
new file mode 100644
index 0000000000..36fbd32369
--- /dev/null
+++ b/docs/functions_z.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Class Members</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div class="contents">
+<div class="textblock">Here is a list of all class members with links to the classes they belong to:</div>
+
+<h3><a id="index_z"></a>- z -</h3><ul>
+<li>ZipConvert()
+: <a class="el" href="structcutlass_1_1ZipConvert.html#a7aa56d3ea300ebc58493c4d66339fff5">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>
+</li>
+<li>ZipFragment()
+: <a class="el" href="structcutlass_1_1ZipFragment.html#a520318d060123c5870c4153b99cf0427">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>
+</li>
+<li>ZipTensorRef()
+: <a class="el" href="structcutlass_1_1ZipTensorRef.html#a9b4e616da5b0a71ac2d9bd03b4e07b86">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>
+</li>
+<li>ZipTileIterator()
+: <a class="el" href="classcutlass_1_1ZipTileIterator.html#a31553842afd1cfd5a18a2fd6c39e17b5">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a>
+</li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/gemm_8h.html b/docs/gemm_8h.html
index 9996508bc6..8ca7c7a324 100644
--- a/docs/gemm_8h.html
+++ b/docs/gemm_8h.html
@@ -84,19 +84,20 @@
 <p>Implements a software-pipelined efficient GEMM.  
 <a href="#details">More...</a></p>
 <div class="textblock"><code>#include &lt;cuda.h&gt;</code><br />
-<code>#include &lt;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&gt;</code><br />
+<code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&quot;</code><br />
 </div>
 <p><a href="gemm_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html">cutlass::gemm::Launch&lt; Gemm, WithLaunchBounds &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for launching the GEMM kernel with or without launch bounds.  <a href="structcutlass_1_1gemm_1_1Launch.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html">cutlass::gemm::Launch&lt; Gemm, false &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for launching the GEMM kernel with or without launch bounds.  <a href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;::Params</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params.  <a href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -108,14 +109,19 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:ad9577c9086b0f7fd1202d7f8109e4439"><td class="memTemplParams" colspan="2">template&lt;typename Gemm_ &gt; </td></tr>
-<tr class="memitem:ad9577c9086b0f7fd1202d7f8109e4439"><td class="memTemplItemLeft" align="right" valign="top">__global__ void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#ad9577c9086b0f7fd1202d7f8109e4439">cutlass::gemm::gemm_kernel</a> (typename Gemm_::Params params)</td></tr>
-<tr class="separator:ad9577c9086b0f7fd1202d7f8109e4439"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a01dd61085e2b3f578a7fc266b94fac55"><td class="memTemplParams" colspan="2">template&lt;typename Gemm_ &gt; </td></tr>
+<tr class="memitem:a01dd61085e2b3f578a7fc266b94fac55"><td class="memTemplItemLeft" align="right" valign="top">__global__&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a01dd61085e2b3f578a7fc266b94fac55">cutlass::gemm::__launch_bounds__</a> (Gemm_::kThreads) void gemm_kernel(typename Gemm_</td></tr>
+<tr class="memdesc:a01dd61085e2b3f578a7fc266b94fac55"><td class="mdescLeft">&#160;</td><td class="mdescRight">GEMM kernel with launch bounds specified.  <a href="namespacecutlass_1_1gemm.html#a01dd61085e2b3f578a7fc266b94fac55">More...</a><br /></td></tr>
+<tr class="separator:a01dd61085e2b3f578a7fc266b94fac55"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae23b870e60261e2322f3c6edb3d2bcb9"><td class="memTemplParams" colspan="2">template&lt;typename Gemm_ &gt; </td></tr>
+<tr class="memitem:ae23b870e60261e2322f3c6edb3d2bcb9"><td class="memTemplItemLeft" align="right" valign="top">__global__ void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#ae23b870e60261e2322f3c6edb3d2bcb9">cutlass::gemm::gemm_kernel_nolb</a> (typename Gemm_::Params params)</td></tr>
+<tr class="memdesc:ae23b870e60261e2322f3c6edb3d2bcb9"><td class="mdescLeft">&#160;</td><td class="mdescRight">GEMM kernel without launch bounds specified.  <a href="namespacecutlass_1_1gemm.html#ae23b870e60261e2322f3c6edb3d2bcb9">More...</a><br /></td></tr>
+<tr class="separator:ae23b870e60261e2322f3c6edb3d2bcb9"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm_8h_source.html b/docs/gemm_8h_source.html
index 216e9b5abc..f946c39ad2 100644
--- a/docs/gemm_8h_source.html
+++ b/docs/gemm_8h_source.html
@@ -76,53 +76,45 @@
 <div class="title">gemm.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="gemm_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;cuda.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Gemm_&gt;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html#ad9577c9086b0f7fd1202d7f8109e4439">   43</a></span>&#160;__global__ <span class="keywordtype">void</span> <a class="code" href="namespacecutlass_1_1gemm.html#ad9577c9086b0f7fd1202d7f8109e4439">gemm_kernel</a>(<span class="keyword">typename</span> Gemm_::Params params) {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;  <span class="comment">// Declare shared memory.</span></div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;  __shared__ <span class="keyword">typename</span> Gemm_::SharedStorage shared_storage;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;  <span class="comment">// Construct the GEMM object.</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;  Gemm_ gemm(params, shared_storage);</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;  <span class="comment">// Run GEMM.</span></div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  gemm.multiply_add();</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;}</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html">   56</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc</a> {</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#acee9727aa6cb612a25cd6ced4829061a">   58</a></span>&#160;  Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a5c2b3e75cb6873762ba3f85487b78579">m</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#acee9727aa6cb612a25cd6ced4829061a">n</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#ac789a7e5d2db65d006f1e8e3df542a6f">k</a>;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab91b702a9932144b388fad3159130332">   60</a></span>&#160;  Scalar_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a053c2b529be527f510ee317737fbf7e8">alpha</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab91b702a9932144b388fad3159130332">beta</a>;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#aae63781de41962f496da469684919447">   62</a></span>&#160;  <span class="keywordtype">void</span> <span class="keyword">const</span>* <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aae63781de41962f496da469684919447">d_a</a>;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a62ad30ba419ccb661e6700da98221789">   64</a></span>&#160;  Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a62ad30ba419ccb661e6700da98221789">lda</a>;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a05915032eba39bc9b085bec5ff17257b">   66</a></span>&#160;  <span class="keywordtype">void</span> <span class="keyword">const</span>* <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a05915032eba39bc9b085bec5ff17257b">d_b</a>;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7591ce0223b0d05c4d6fca6c67b98bfe">   68</a></span>&#160;  Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7591ce0223b0d05c4d6fca6c67b98bfe">ldb</a>;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa2b3126c082d04fd31521cb0e84cf4d5">   70</a></span>&#160;  <span class="keywordtype">void</span> <span class="keyword">const</span>* <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa2b3126c082d04fd31521cb0e84cf4d5">d_c</a>;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a0f492560cabc45cd492da65b819d09db">   72</a></span>&#160;  Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a0f492560cabc45cd492da65b819d09db">ldc</a>;</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a30326e2d81c8e154d749f35837903216">   74</a></span>&#160;  <span class="keywordtype">void</span>* <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a30326e2d81c8e154d749f35837903216">d_d</a>;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a3280e5c5484f5c10d1412bcb70eb77e9">   76</a></span>&#160;  Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a3280e5c5484f5c10d1412bcb70eb77e9">ldd</a>;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;};</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmTraits_&gt;</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html">   82</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm</a> {</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317">   84</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm&lt;GemmTraits_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317">This_</a>;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff">   86</a></span>&#160;  <span class="keyword">typedef</span> GemmTraits_ <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff">Traits</a>;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">   88</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::SharedStorage <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">SharedStorage</a>;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">   91</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ScalarA <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">ScalarA</a>;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">   93</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ScalarB <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">ScalarB</a>;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936">   95</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Epilogue::Scalar <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936">ScalarEpilogue</a>;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">   97</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Epilogue::ScalarC <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">ScalarC</a>;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694">   99</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Epilogue::ScalarD <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694">ScalarD</a>;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">  101</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Index <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a>;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">  104</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">kThreads</a> = Traits::GemmConfig::kThreads;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">  107</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> : <span class="keyword">public</span> Traits::Params {</div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html#ac00c9d78a187d9c7d53399f971c0e129">  108</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html#ac00c9d78a187d9c7d53399f971c0e129">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> m,</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> n,</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> k,</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936">ScalarEpilogue</a> alpha,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">ScalarA</a> <span class="keyword">const</span>* d_a,</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> lda,</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">ScalarB</a> <span class="keyword">const</span>* d_b,</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> ldb,</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936">ScalarEpilogue</a> beta,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">ScalarC</a> <span class="keyword">const</span>* d_c,</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> ldc,</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694">ScalarD</a>* d_d,</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> ldd) {</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc&lt;ScalarEpilogue, Index&gt;</a> desc;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a5c2b3e75cb6873762ba3f85487b78579">m</a> = m;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#acee9727aa6cb612a25cd6ced4829061a">n</a> = n;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#ac789a7e5d2db65d006f1e8e3df542a6f">k</a> = k;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a053c2b529be527f510ee317737fbf7e8">alpha</a> = alpha;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab91b702a9932144b388fad3159130332">beta</a> = beta;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aae63781de41962f496da469684919447">d_a</a> = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">void</span> const*<span class="keyword">&gt;</span>(d_a);</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a62ad30ba419ccb661e6700da98221789">lda</a> = lda;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a05915032eba39bc9b085bec5ff17257b">d_b</a> = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">void</span> const*<span class="keyword">&gt;</span>(d_b);</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7591ce0223b0d05c4d6fca6c67b98bfe">ldb</a> = ldb;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa2b3126c082d04fd31521cb0e84cf4d5">d_c</a> = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">void</span> const*<span class="keyword">&gt;</span>(d_c);</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a0f492560cabc45cd492da65b819d09db">ldc</a> = ldc;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a30326e2d81c8e154d749f35837903216">d_d</a> = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">void</span>*<span class="keyword">&gt;</span>(d_d);</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;      desc.<a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a3280e5c5484f5c10d1412bcb70eb77e9">ldd</a> = ldd;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      <span class="keywordflow">return</span> Traits::Params::initialize(desc);</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    }</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  };</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  <span class="keyword">static</span> __host__ cudaError_t <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c">launch</a>(Params <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>,</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;                                     cudaStream_t stream = cudaStreamDefault) {</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    <span class="comment">// Setup the grid.</span></div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    dim3 grid;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;    grid.x = (<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.m + Traits::OutputTile::kW - 1) / Traits::OutputTile::kW;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;    grid.y = (<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.n + Traits::OutputTile::kH - 1) / Traits::OutputTile::kH;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    <span class="comment">// The number of threads.</span></div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    dim3 block;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    block.x = <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">kThreads</a>;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    <span class="comment">// Launch the kernel.</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;    <span class="keywordtype">void</span> <span class="keyword">const</span>* params_ = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">void</span> const*<span class="keyword">&gt;</span>(&amp;<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>);</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;    <span class="keywordflow">return</span> cudaLaunchKernel(reinterpret_cast&lt;void*&gt;(&amp;gemm_kernel&lt;This_&gt;),</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;                            grid,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;                            block,</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;                            const_cast&lt;void**&gt;(&amp;params_),</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;                            0,</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;                            stream);</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  }</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906">  164</a></span>&#160;  <span class="keyword">static</span> __host__ cudaError_t <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906">launch</a>(CUfunction kernel,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>,</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;                                     CUstream stream = CU_STREAM_LEGACY) {</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;    <span class="comment">// Setup the grid.</span></div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;    dim3 grid;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;    grid.x = (<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.m + Traits::OutputTile::kW - 1) / Traits::OutputTile::kW;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;    grid.y = (<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.n + Traits::OutputTile::kH - 1) / Traits::OutputTile::kH;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;    <span class="comment">// The number of threads.</span></div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;    dim3 block;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    block.x = <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">kThreads</a>;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;    <span class="comment">// Launch the kernel.</span></div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;    <span class="keywordtype">void</span>* params_[] = {<span class="keyword">const_cast&lt;</span><span class="keywordtype">void</span>*<span class="keyword">&gt;</span>(<span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">void</span> const*<span class="keyword">&gt;</span>(&amp;<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>))};</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    <span class="comment">// return cudaLaunchKernel(reinterpret_cast&lt;void*&gt;(&amp;gemm_kernel&lt;This_&gt;), grid, block,</span></div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    <span class="comment">//  const_cast&lt;void**&gt;(&amp;params_), 0, stream);</span></div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    CUresult result = cuLaunchKernel(</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;        kernel, grid.x, grid.y, grid.z, block.x, block.y, block.z, 0, stream, params_, 0);</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;    <span class="keywordflow">if</span> (result != CUDA_SUCCESS) {</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      <span class="keywordflow">return</span> cudaErrorLaunchFailure;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;    }</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    <span class="keywordflow">return</span> cudaSuccess;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;  }</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">  193</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">Gemm</a>(<a class="code" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; params_, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">SharedStorage</a>&amp; shared_storage_)</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>(params_), <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>(shared_storage_) {}</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;</div><div class="line"><a name="l00197"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">  197</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>() {</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    <span class="comment">// Swizzle the IDs of the block (to enable better cache behavior).</span></div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;    <span class="keyword">typename</span> Traits::BlockSwizzle block_swizzle;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;    dim3 block = block_swizzle.swizzle();</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;    <span class="comment">// Scale the id.</span></div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;    block.x *= Traits::OutputTile::kW;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;    block.y *= Traits::OutputTile::kH;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;    <span class="comment">// We may want to use shared memory to clear the registers.</span></div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ClearAccumulators <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators</a>;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;    <span class="comment">// The streams to read A/B from global memory to shared memory.</span></div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;    <span class="keyword">typename</span> Traits::GlobalLoadStream global_stream(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>, block);</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;    <span class="comment">// Create the accumulator clear.</span></div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators</a> clear(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>.main_loop.clear);</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::MultiplyAdd MultiplyAdd;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;    <span class="comment">// By how much we unroll the main loop.</span></div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> <span class="keyword">const</span> kUnroll = <span class="keyword">static_cast&lt;</span><a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a><span class="keyword">&gt;</span>(MultiplyAdd::AccumulatorsPerWarp::kD);</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;    <span class="comment">// If we do not have enough steps in the main loop, trigger the residue code.</span></div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.k &lt; kUnroll) {</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      global_stream.residue(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.k, <span class="keyword">true</span>);</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    }</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;    <span class="comment">// Fetch the fragments for A and B from global memory.</span></div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;    global_stream.copy();</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;    <span class="comment">// Copy the elements to shared memory (after transformation if needed).</span></div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;    global_stream.commit();</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;    <span class="comment">// Make sure the data is in shared memory.</span></div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;    Traits::shared_store_fence(<span class="keyword">false</span>);</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;    <span class="comment">// The unrolling steps for the main loop.</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> kUnrollingSteps =</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;        MultiplyAdd::AccumulatorsPerWarp::kD / MultiplyAdd::InstructionShape::kD;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;    <span class="comment">// Make sure we have at least 2 unrolling steps or our pipeling is not going to work.</span></div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;    <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(kUnrollingSteps &gt;= 2, <span class="stringliteral">&quot;The pipelining assumes at least two steps&quot;</span>);</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;    <span class="comment">// The stream of data from shared memory to fragments.</span></div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;    <span class="keyword">typename</span> Traits::SharedLoadStream shared_load_stream(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>);</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;    <span class="comment">// Trigger the copy from shared memory for the 1st stream.</span></div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;    shared_load_stream.copy(0);</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;    <span class="comment">// Allocate the accumulators.</span></div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;    <span class="keyword">typename</span> MultiplyAdd::Accumulators accumulators;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;    <span class="comment">// Clear the accumulators.</span></div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;    clear.<a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">clear</a>(accumulators);</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;    <span class="comment">// Enter the main loop and iterate.</span></div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Index <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a>;</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;    <span class="keywordflow">for</span> (<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> outer_k = <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.k - kUnroll; outer_k &gt; -kUnroll; outer_k -= kUnroll) {</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;      <span class="comment">// If that&#39;s the last &quot;load iteration&quot; update the predicates.</span></div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> is_residue = outer_k &lt;= kUnroll;</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;      <span class="keywordflow">if</span> (is_residue) {</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;        global_stream.residue(outer_k);</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;      }</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;      <span class="comment">// Load data for the next iteration of the main loop.</span></div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;      global_stream.copy();</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;      <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> step = 0; step &lt; kUnrollingSteps - 1; ++step) {</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;        <span class="comment">// Trigger the copy from shared memory for the next A/B values.</span></div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;        shared_load_stream.copy(step + 1);</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;        <span class="comment">// Make sure the values are available for the current iteration to do the multiply-add.</span></div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;        shared_load_stream.commit(step);</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;        <span class="comment">// Do the math on the fragments of the current iteration.</span></div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;        MultiplyAdd <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>;</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>.multiply_add(shared_load_stream.fragment_a(step),</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;                                  shared_load_stream.fragment_b(step),</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;                                  accumulators,</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;                                  accumulators);</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;      }</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;      <span class="comment">// Make sure the data from shared memory has been entirely consumed.</span></div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;      Traits::shared_load_fence(<span class="keyword">true</span>);</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;      <span class="comment">// Commit the data in shared memory for A/B.</span></div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;      global_stream.commit();</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;      <span class="comment">// Make sure the data is in shared memory.</span></div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;      Traits::shared_store_fence(<span class="keyword">true</span>);</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;      <span class="comment">// Move to the next stage for the load (if it makes sense).</span></div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;      shared_load_stream.inc_stage();</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;      <span class="comment">// Trigger the copy from shared memory for the next loop iteration.</span></div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;      shared_load_stream.copy(0);</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;      <span class="comment">// Make sure the values are available for the current iteration to do the multiply-add.</span></div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;      shared_load_stream.commit(kUnrollingSteps - 1);</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;      <span class="comment">// Do the math on the fragments of the current iteration.</span></div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;      MultiplyAdd <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>;</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>.multiply_add(shared_load_stream.fragment_a(kUnrollingSteps - 1),</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;                                shared_load_stream.fragment_b(kUnrollingSteps - 1),</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;                                accumulators,</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;                                accumulators);</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;    }</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;    <span class="comment">// Epilogue.</span></div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Epilogue Epilogue;</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;    Epilogue epilogue(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.epilogue, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>.epilogue, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.m, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.n);</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;    epilogue.epilogue(<a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a>(0, block.y, block.x), accumulators);</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;  }</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;</div><div class="line"><a name="l00311"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">  311</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>;</div><div class="line"><a name="l00313"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">  313</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">SharedStorage</a>&amp; <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>;</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;};</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a></div><div class="ttdef"><b>Definition:</b> gemm.h:56</div></div>
-<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a6b0119ed8d92698dab4de68987c8cc1b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">cutlass::gemm::Gemm::shared_storage</a></div><div class="ttdeci">SharedStorage &amp; shared_storage</div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> gemm.h:313</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_ae2aa3663f9f6f5708e816dcf7cd66694"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694">cutlass::gemm::Gemm::ScalarD</a></div><div class="ttdeci">Traits::Epilogue::ScalarD ScalarD</div><div class="ttdoc">The scalar for D. </div><div class="ttdef"><b>Definition:</b> gemm.h:99</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_ab91b702a9932144b388fad3159130332"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#ab91b702a9932144b388fad3159130332">cutlass::gemm::GemmDesc::beta</a></div><div class="ttdeci">Scalar_ beta</div><div class="ttdef"><b>Definition:</b> gemm.h:60</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_ac789a7e5d2db65d006f1e8e3df542a6f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#ac789a7e5d2db65d006f1e8e3df542a6f">cutlass::gemm::GemmDesc::k</a></div><div class="ttdeci">Index_ k</div><div class="ttdef"><b>Definition:</b> gemm.h:58</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_ad10627d508fad0efae1fb91b26d7a6b7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">cutlass::gemm::Gemm::SharedStorage</a></div><div class="ttdeci">Traits::SharedStorage SharedStorage</div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> gemm.h:88</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">cutlass::gemm::Gemm::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm.h:107</div></div>
+<a href="gemm_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;cuda.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Gemm_&gt;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html#a01dd61085e2b3f578a7fc266b94fac55">   43</a></span>&#160;__global__  <a class="code" href="namespacecutlass_1_1gemm.html#a01dd61085e2b3f578a7fc266b94fac55">__launch_bounds__</a>(Gemm_::kThreads)</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keywordtype">void</span> gemm_kernel(<span class="keyword">typename</span> Gemm_::Params params) {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;  <span class="comment">// Declare shared memory.</span></div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;  __shared__ <span class="keyword">typename</span> Gemm_::SharedStorage shared_storage;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;  <span class="comment">// Construct the GEMM object.</span></div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;  Gemm_ gemm(params, shared_storage);</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  <span class="comment">// Run GEMM.</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  gemm.multiply_add();</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;}</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Gemm_&gt;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;__global__ <span class="comment">/* __launch_bounds__(Gemm_::kThreads) */</span></div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html#ae23b870e60261e2322f3c6edb3d2bcb9">   59</a></span>&#160;<span class="keywordtype">void</span> <a class="code" href="namespacecutlass_1_1gemm.html#ae23b870e60261e2322f3c6edb3d2bcb9">gemm_kernel_nolb</a>(<span class="keyword">typename</span> Gemm_::Params params) {</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  <span class="comment">// Declare shared memory.</span></div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  __shared__ <span class="keyword">typename</span> Gemm_::SharedStorage shared_storage;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="comment">// Construct the GEMM object.</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  Gemm_ gemm(params, shared_storage);</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="comment">// Run GEMM.</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  gemm.multiply_add();</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;}</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Gemm, <span class="keywordtype">bool</span> WithLaunchBounds&gt;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Launch.html">   73</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1Launch.html">Launch</a> {</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Launch.html#a8552a524b9419f60bf8ef3c6b8528d27">   74</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1Launch.html#a8552a524b9419f60bf8ef3c6b8528d27">Launch</a>(<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Gemm::Params</a> params, dim3 grid, dim3 block, cudaStream_t stream = 0) {</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    gemm_kernel&lt;Gemm&gt;&lt;&lt;&lt; grid, block, 0, stream &gt;&gt;&gt;(params);</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  }</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;};</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Gemm&gt;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html">   83</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1Launch.html">Launch</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm</a>, false&gt; {</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#ab7a89806834a5fa8022daae4180e6180">   84</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#ab7a89806834a5fa8022daae4180e6180">Launch</a>(<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Gemm::Params</a> params, dim3 grid, dim3 block, cudaStream_t stream = 0) {</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    gemm_kernel_nolb&lt;Gemm&gt;&lt;&lt;&lt; grid, block, 0, stream &gt;&gt;&gt;(params);</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;  }</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;};</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmTraits_&gt;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html">   92</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm</a> {</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317">   94</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm&lt;GemmTraits_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317">This_</a>;</div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff">   96</a></span>&#160;  <span class="keyword">typedef</span> GemmTraits_ <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff">Traits</a>;</div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">   98</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::SharedStorage <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">SharedStorage</a>;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">  101</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ScalarA <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">ScalarA</a>;</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">  103</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ScalarB <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">ScalarB</a>;</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936">  105</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Epilogue::Scalar <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936">ScalarEpilogue</a>;</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">  107</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Epilogue::ScalarC <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">ScalarC</a>;</div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694">  109</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Epilogue::ScalarD <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694">ScalarD</a>;</div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">  111</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Index <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a>;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835">  114</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::MultiplyAdd <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835">MultiplyAdd</a>;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">  117</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">kThreads</a> = Traits::GemmConfig::kThreads;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="comment">// Number of warp-level multiply-accumulate steps executed by each warp.</span></div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">  120</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">kWarpGemmSteps</a> =</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;      Traits::GemmConfig::AccumulatorsPerWarp::kD / MultiplyAdd::InstructionShape::kD;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="comment">// Make sure we have at least 2 unrolling steps or our pipeling is not going to work.</span></div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">  124</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">kWarpGemmSteps</a> &gt;= 2, <span class="stringliteral">&quot;The pipelining assumes at least two steps&quot;</span>);</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Params <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a>;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;<span class="comment">// Static function members</span></div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <span class="keyword">static</span> __host__ cudaError_t <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c">launch</a>(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>,</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;                                     cudaStream_t stream = cudaStreamDefault) {</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    <span class="comment">// Launch the kernel.</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1Launch.html">Launch&lt;This_, GemmTraits_::GemmConfig::kLaunchBounds&gt;</a>(</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.grid, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.block, stream);</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    <span class="keywordflow">return</span> cudaGetLastError();</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  }</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906">  147</a></span>&#160;  <span class="keyword">static</span> __host__ cudaError_t <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906">launch</a>(CUfunction kernel,</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>,</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;                                     CUstream stream = CU_STREAM_LEGACY) {</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    <span class="comment">// Launch the kernel.</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    <span class="keywordtype">void</span>* params_[] = {<span class="keyword">const_cast&lt;</span><span class="keywordtype">void</span>*<span class="keyword">&gt;</span>(<span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">void</span> const*<span class="keyword">&gt;</span>(&amp;<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>))};</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;    CUresult result = cuLaunchKernel(</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;        kernel,</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.grid.x, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.grid.y, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.grid.z,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.block.x, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.block.y, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.block.z,</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;        0, stream, params_, 0);</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    <span class="keywordflow">if</span> (result != CUDA_SUCCESS) {</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      <span class="keywordflow">return</span> cudaErrorLaunchFailure;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    }</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <span class="keywordflow">return</span> cudaSuccess;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;  }</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">  173</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">Gemm</a>(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> <span class="keyword">const</span>&amp; params_, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">SharedStorage</a>&amp; shared_storage_)</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>(params_), <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>(shared_storage_) {}</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> Res<span class="keywordtype">id</span>ue, <span class="keywordtype">bool</span> LastIteration&gt;</div><div class="line"><a name="l00178"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#af8bb78ae198af4dccb0241da44428053">  178</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#af8bb78ae198af4dccb0241da44428053">consume_tile</a>(<span class="keyword">typename</span> Traits::GlobalLoadStream&amp; global_to_shared_stream,</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;                                   <span class="keyword">typename</span> Traits::SharedStream&amp; shared_load_stream,</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;                                   <span class="keyword">typename</span> MultiplyAdd::Accumulators&amp; accumulators,</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;                                   <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> outer_k) {</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    <span class="comment">// If residue portion and not calculating residue in prolog, update residue predicates now.</span></div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    <span class="keywordflow">if</span> (Residue &amp;&amp; outer_k &lt;= Traits::OutputTile::kD) {</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;      global_to_shared_stream.residue(outer_k);</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;    }</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    <span class="comment">// Load data for the next iteration of the main loop (unless it&#39;s the last iteration).</span></div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;    <span class="keywordflow">if</span> (!LastIteration) {</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;      global_to_shared_stream.copy();</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    }</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> step = 0; step &lt; <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">kWarpGemmSteps</a> - 1; ++step) {</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;      <span class="comment">// Trigger the copy from shared memory for the next A/B values.</span></div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      shared_load_stream.copy(step + 1);</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;      <span class="comment">// Make sure the values are available for the current iteration to do the multiply-add.</span></div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;      shared_load_stream.commit(step);</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835">MultiplyAdd</a> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>;</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;      <span class="comment">// Do the math on the fragments of the current iteration.</span></div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>.multiply_add(shared_load_stream.fragment_a(step),</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;                                shared_load_stream.fragment_b(step),</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;                                accumulators,</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;                                accumulators);</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    }</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;    <span class="comment">// Make sure the data from shared memory has been entirely consumed.</span></div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;    Traits::shared_load_fence(<span class="keyword">true</span>);</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;    <span class="comment">// Commit the data in shared memory for A/B.</span></div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;    <span class="keywordflow">if</span> (!LastIteration) {</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      global_to_shared_stream.commit();</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;    }</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;    <span class="comment">// Make sure the data is in shared memory.</span></div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;    Traits::shared_store_fence(<span class="keyword">true</span>);</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;    <span class="keywordflow">if</span> (!LastIteration) {</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;      <span class="comment">// Move to the next stage for the load (if it makes sense).</span></div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;      shared_load_stream.inc_stage();</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;      <span class="comment">// Trigger the copy from shared memory for the next loop iteration.</span></div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      shared_load_stream.copy(0);</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    }</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    <span class="comment">// Make sure the values are available for the current iteration to do the multiply-add.</span></div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;    shared_load_stream.commit(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">kWarpGemmSteps</a> - 1);</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;    <span class="comment">// Do the math on the fragments of the current iteration.</span></div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835">MultiplyAdd</a> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>.multiply_add(shared_load_stream.fragment_a(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">kWarpGemmSteps</a> - 1),</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;                              shared_load_stream.fragment_b(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">kWarpGemmSteps</a> - 1),</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;                              accumulators,</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;                              accumulators);</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;  }</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">  237</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>() {</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <span class="comment">// Swizzle the IDs of the block (to enable better cache behavior).</span></div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;    <span class="keyword">typename</span> Traits::BlockSwizzle block_swizzle;</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> threadblock_offset =</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;        block_swizzle.get_threadblock_offset(make_Coord_from_shape&lt;Traits::OutputTile&gt;());</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;    <span class="comment">// We may want to use shared memory to clear the registers.</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ClearAccumulators <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators</a>;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;    <span class="comment">// The streams to read A/B from global memory to shared memory.</span></div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;    <span class="keyword">typename</span> Traits::GlobalLoadStream global_to_shared_stream(</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.global_to_shared_stream,</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>.main_loop.global_to_shared_stream,</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>.main_loop.threadblock_tile.reference(),</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.problem_size.knm(),</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;        threadblock_offset);</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;    <span class="comment">// update A and B pointer offset based on batch_id and batch_stride_offset</span></div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;    <span class="comment">//global_to_shared_stream.add_pointer_offset(block_swizzle.get_batch_id(), params.batch_stride_A, params.batch_stride_B);</span></div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;    global_to_shared_stream += <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(block_swizzle.get_batch_id(), 0, 0);</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    <span class="comment">// Create the accumulator clear.</span></div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators</a> clear;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    <span class="comment">// Deal with residue in prolog.</span></div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;    global_to_shared_stream.move_to_residue(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.problem_size[0], Traits::OutputTile::kD);</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;    <span class="comment">// Fetch the fragments for A and B from global memory.</span></div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;    global_to_shared_stream.copy();</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;    <span class="comment">// Copy the elements to shared memory (after transformation if needed).</span></div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;    global_to_shared_stream.commit();</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;    <span class="comment">// Make sure the data is in shared memory.</span></div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;    Traits::shared_store_fence(<span class="keyword">false</span>);</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;    <span class="comment">// Rollback to the beginning of the first tile (if residue exists).</span></div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;    global_to_shared_stream.rollback(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.problem_size[0] % Traits::OutputTile::kD);</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;    <span class="comment">// The stream of data from shared memory to fragments.</span></div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;    <span class="keyword">typename</span> Traits::SharedStream shared_load_stream(</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.shared_stream,</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>.main_loop.threadblock_tile.reference());</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;    <span class="comment">// Trigger the copy from shared memory for the 1st stream.</span></div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;    shared_load_stream.copy(0);</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;    <span class="comment">// Allocate the accumulators.</span></div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;    <span class="keyword">typename</span> MultiplyAdd::Accumulators accumulators;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;    <span class="comment">// Clear the accumulators.</span></div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;    clear.clear(accumulators);</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;    <span class="comment">// Initial index</span></div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> outer_k = <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.problem_size[0] - Traits::OutputTile::kD;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;    <span class="comment">// Check if we are computing residue in prolog or not.</span></div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;    <span class="keywordflow">if</span> (Traits::GemmConfig::kResidueInProlog) {</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;      <span class="comment">// Execute all mainloop iterations but the last one.</span></div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;      <a class="code" href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">CUTLASS_GEMM_LOOP</a></div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;      <span class="keywordflow">for</span> (; outer_k &gt; 0; outer_k -= Traits::OutputTile::kD) {</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;        consume_tile&lt;false, false&gt;(</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;            global_to_shared_stream, shared_load_stream, accumulators, outer_k);</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      }</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;      <span class="comment">// Don&#39;t load data for the last &quot;residue&quot; portion since we&#39;ve already computed the residue.</span></div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;      <a class="code" href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">CUTLASS_GEMM_LOOP</a></div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;      <span class="keywordflow">for</span> (; outer_k &gt; -Traits::OutputTile::kD; outer_k -= Traits::OutputTile::kD) {</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;        consume_tile&lt;false, true&gt;(</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;            global_to_shared_stream, shared_load_stream, accumulators, outer_k);</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;      }</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;      <span class="comment">// When kResidueSeparate = true, execute all mainloop iterations but the last two without any</span></div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;      <span class="comment">// consideration for K-residue or predicate updates. This improves the steady state of some</span></div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;      <span class="comment">// kernels.</span></div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;      <span class="keywordflow">if</span> (Traits::GemmConfig::kResidueSeparate) {</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;        <a class="code" href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">CUTLASS_GEMM_LOOP</a></div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;        <span class="keywordflow">for</span> (; outer_k &gt; Traits::OutputTile::kD; outer_k -= Traits::OutputTile::kD) {</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;          consume_tile&lt;false, false&gt;(</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;              global_to_shared_stream, shared_load_stream, accumulators, outer_k);</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;        }</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;      }</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;      <span class="comment">// Execute remaining tiles with K-residue predicate updates enabled.</span></div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;      <a class="code" href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">CUTLASS_GEMM_LOOP</a></div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;      <span class="keywordflow">for</span> (; outer_k &gt; -Traits::OutputTile::kD; outer_k -= Traits::OutputTile::kD) {</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;        consume_tile&lt;true, false&gt;(</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;            global_to_shared_stream, shared_load_stream, accumulators, outer_k);</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;      }</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;    }</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;    <span class="comment">// Epilogue.</span></div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;    <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Epilogue Epilogue;</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;    Epilogue epilogue(<a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.epilogue, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>.epilogue, <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>.problem_size.knm());</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;    epilogue.epilogue(accumulators, threadblock_offset, block_swizzle.get_batch_id());</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;  }</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;</div><div class="line"><a name="l00347"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">  347</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>;</div><div class="line"><a name="l00349"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">  349</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">SharedStorage</a>&amp; <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a>;</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;};</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a6b0119ed8d92698dab4de68987c8cc1b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">cutlass::gemm::Gemm::shared_storage</a></div><div class="ttdeci">SharedStorage &amp; shared_storage</div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> gemm.h:349</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_ae2aa3663f9f6f5708e816dcf7cd66694"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694">cutlass::gemm::Gemm::ScalarD</a></div><div class="ttdeci">Traits::Epilogue::ScalarD ScalarD</div><div class="ttdoc">The scalar for D. </div><div class="ttdef"><b>Definition:</b> gemm.h:109</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_ad10627d508fad0efae1fb91b26d7a6b7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">cutlass::gemm::Gemm::SharedStorage</a></div><div class="ttdeci">Traits::SharedStorage SharedStorage</div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> gemm.h:98</div></div>
 <div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a3c292637ab0ec8e73856d0cf6efb6da2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">cutlass::gemm::Gemm::params</a></div><div class="ttdeci">Params const  &amp; params</div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm.h:311</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a5c2b3e75cb6873762ba3f85487b78579"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a5c2b3e75cb6873762ba3f85487b78579">cutlass::gemm::GemmDesc::m</a></div><div class="ttdeci">Index_ m</div><div class="ttdoc">The dimensions of the GEMM. </div><div class="ttdef"><b>Definition:</b> gemm.h:58</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a71f0c91768a1a87e94030c8c2db51e55"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">cutlass::gemm::Gemm::ScalarC</a></div><div class="ttdeci">Traits::Epilogue::ScalarC ScalarC</div><div class="ttdoc">The scalar for C. </div><div class="ttdef"><b>Definition:</b> gemm.h:97</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a7591ce0223b0d05c4d6fca6c67b98bfe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a7591ce0223b0d05c4d6fca6c67b98bfe">cutlass::gemm::GemmDesc::ldb</a></div><div class="ttdeci">Index_ ldb</div><div class="ttdoc">The stride for B. </div><div class="ttdef"><b>Definition:</b> gemm.h:68</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Launch_html_a8552a524b9419f60bf8ef3c6b8528d27"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Launch.html#a8552a524b9419f60bf8ef3c6b8528d27">cutlass::gemm::Launch::Launch</a></div><div class="ttdeci">Launch(typename Gemm::Params params, dim3 grid, dim3 block, cudaStream_t stream=0)</div><div class="ttdef"><b>Definition:</b> gemm.h:74</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a3c292637ab0ec8e73856d0cf6efb6da2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">cutlass::gemm::Gemm::params</a></div><div class="ttdeci">Params const  &amp; params</div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm.h:347</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a71f0c91768a1a87e94030c8c2db51e55"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55">cutlass::gemm::Gemm::ScalarC</a></div><div class="ttdeci">Traits::Epilogue::ScalarC ScalarC</div><div class="ttdoc">The scalar for C. </div><div class="ttdef"><b>Definition:</b> gemm.h:107</div></div>
 <div class="ttc" id="platform_8h_html"><div class="ttname"><a href="platform_8h.html">platform.h</a></div><div class="ttdoc">C++ features that may be otherwise unimplemented for CUDA device functions. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a2e844037d2527b842de3590cb783a49f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">cutlass::gemm::Gemm::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add()</div><div class="ttdoc">Do the GEMM. </div><div class="ttdef"><b>Definition:</b> gemm.h:197</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a29f52e33e1f1cf150f5062d9ad2590ff"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff">cutlass::gemm::Gemm::Traits</a></div><div class="ttdeci">GemmTraits_ Traits</div><div class="ttdoc">The traits. </div><div class="ttdef"><b>Definition:</b> gemm.h:86</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a9349fc5f20215c1c6508e250b0b4e936"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936">cutlass::gemm::Gemm::ScalarEpilogue</a></div><div class="ttdeci">Traits::Epilogue::Scalar ScalarEpilogue</div><div class="ttdoc">The scalar in the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm.h:95</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_acee9727aa6cb612a25cd6ced4829061a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#acee9727aa6cb612a25cd6ced4829061a">cutlass::gemm::GemmDesc::n</a></div><div class="ttdeci">Index_ n</div><div class="ttdef"><b>Definition:</b> gemm.h:58</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_ae6f11bb666c2c8510e99200a2c0fc2f4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">cutlass::gemm::Gemm::ScalarB</a></div><div class="ttdeci">Traits::ScalarB ScalarB</div><div class="ttdoc">The scalar for B. </div><div class="ttdef"><b>Definition:</b> gemm.h:93</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4_html_ab7a89806834a5fa8022daae4180e6180"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#ab7a89806834a5fa8022daae4180e6180">cutlass::gemm::Launch&lt; Gemm, false &gt;::Launch</a></div><div class="ttdeci">Launch(typename Gemm::Params params, dim3 grid, dim3 block, cudaStream_t stream=0)</div><div class="ttdef"><b>Definition:</b> gemm.h:84</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a2e844037d2527b842de3590cb783a49f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">cutlass::gemm::Gemm::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add()</div><div class="ttdoc">Do the GEMM. </div><div class="ttdef"><b>Definition:</b> gemm.h:237</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a29f52e33e1f1cf150f5062d9ad2590ff"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff">cutlass::gemm::Gemm::Traits</a></div><div class="ttdeci">GemmTraits_ Traits</div><div class="ttdoc">The traits. </div><div class="ttdef"><b>Definition:</b> gemm.h:96</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a9349fc5f20215c1c6508e250b0b4e936"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936">cutlass::gemm::Gemm::ScalarEpilogue</a></div><div class="ttdeci">Traits::Epilogue::Scalar ScalarEpilogue</div><div class="ttdoc">The scalar in the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm.h:105</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_af8bb78ae198af4dccb0241da44428053"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#af8bb78ae198af4dccb0241da44428053">cutlass::gemm::Gemm::consume_tile</a></div><div class="ttdeci">CUTLASS_DEVICE void consume_tile(typename Traits::GlobalLoadStream &amp;global_to_shared_stream, typename Traits::SharedStream &amp;shared_load_stream, typename MultiplyAdd::Accumulators &amp;accumulators, Index outer_k)</div><div class="ttdoc">Computes a warp-level GEMM on data held in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm.h:178</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_ae6f11bb666c2c8510e99200a2c0fc2f4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">cutlass::gemm::Gemm::ScalarB</a></div><div class="ttdeci">Traits::ScalarB ScalarB</div><div class="ttdoc">The scalar for B. </div><div class="ttdef"><b>Definition:</b> gemm.h:103</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ClearAccumulators_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ClearAccumulators.html">cutlass::gemm::ClearAccumulators</a></div><div class="ttdef"><b>Definition:</b> clear_accumulators.h:38</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a30326e2d81c8e154d749f35837903216"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a30326e2d81c8e154d749f35837903216">cutlass::gemm::GemmDesc::d_d</a></div><div class="ttdeci">void * d_d</div><div class="ttdoc">The destination matrix D. </div><div class="ttdef"><b>Definition:</b> gemm.h:74</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a></div><div class="ttdef"><b>Definition:</b> gemm.h:82</div></div>
-<div class="ttc" id="cutlass_8h_html_a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><div class="ttname"><a href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:60</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a4f4122a2ae8b9b09a9660e5c2ca9e906"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906">cutlass::gemm::Gemm::launch</a></div><div class="ttdeci">static __host__ cudaError_t launch(CUfunction kernel, Params const &amp;params, CUstream stream=CU_STREAM_LEGACY)</div><div class="ttdoc">Launch the kernel. </div><div class="ttdef"><b>Definition:</b> gemm.h:164</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_aae63781de41962f496da469684919447"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#aae63781de41962f496da469684919447">cutlass::gemm::GemmDesc::d_a</a></div><div class="ttdeci">void const  * d_a</div><div class="ttdoc">The source matrix A. </div><div class="ttdef"><b>Definition:</b> gemm.h:62</div></div>
-<div class="ttc" id="namespacecutlass_1_1gemm_html_ad9577c9086b0f7fd1202d7f8109e4439"><div class="ttname"><a href="namespacecutlass_1_1gemm.html#ad9577c9086b0f7fd1202d7f8109e4439">cutlass::gemm::gemm_kernel</a></div><div class="ttdeci">__global__ void gemm_kernel(typename Gemm_::Params params)</div><div class="ttdef"><b>Definition:</b> gemm.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_1_1Params_html_ac00c9d78a187d9c7d53399f971c0e129"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html#ac00c9d78a187d9c7d53399f971c0e129">cutlass::gemm::Gemm::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Index m, Index n, Index k, ScalarEpilogue alpha, ScalarA const *d_a, Index lda, ScalarB const *d_b, Index ldb, ScalarEpilogue beta, ScalarC const *d_c, Index ldc, ScalarD *d_d, Index ldd)</div><div class="ttdef"><b>Definition:</b> gemm.h:108</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a62ad30ba419ccb661e6700da98221789"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a62ad30ba419ccb661e6700da98221789">cutlass::gemm::GemmDesc::lda</a></div><div class="ttdeci">Index_ lda</div><div class="ttdoc">The stride for A. </div><div class="ttdef"><b>Definition:</b> gemm.h:64</div></div>
-<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a26c13e8bbad805760443ef6df475e317"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317">cutlass::gemm::Gemm::This_</a></div><div class="ttdeci">Gemm&lt; GemmTraits_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> gemm.h:84</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a0f492560cabc45cd492da65b819d09db"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a0f492560cabc45cd492da65b819d09db">cutlass::gemm::GemmDesc::ldc</a></div><div class="ttdeci">Index_ ldc</div><div class="ttdoc">The stride for C. </div><div class="ttdef"><b>Definition:</b> gemm.h:72</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a8bff0bd32aec05f8c1e282024be0bcfd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">cutlass::gemm::Gemm::Gemm</a></div><div class="ttdeci">CUTLASS_DEVICE Gemm(Params const &amp;params_, SharedStorage &amp;shared_storage_)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm.h:193</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a3280e5c5484f5c10d1412bcb70eb77e9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a3280e5c5484f5c10d1412bcb70eb77e9">cutlass::gemm::GemmDesc::ldd</a></div><div class="ttdeci">Index_ ldd</div><div class="ttdoc">The stride for D. </div><div class="ttdef"><b>Definition:</b> gemm.h:76</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a6fcf9daef57558e1bb932c6eba99721b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">cutlass::gemm::Gemm::ScalarA</a></div><div class="ttdeci">Traits::ScalarA ScalarA</div><div class="ttdoc">The scalar for A. </div><div class="ttdef"><b>Definition:</b> gemm.h:91</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ClearAccumulators_html_adb8026a19b09e9a581ec767c2c2da4ab"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">cutlass::gemm::ClearAccumulators::clear</a></div><div class="ttdeci">CUTLASS_DEVICE void clear(Fragment_ &amp;fragment)</div><div class="ttdoc">Clear the fragment. </div><div class="ttdef"><b>Definition:</b> clear_accumulators.h:47</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a41239809be4ebc730dd8ff28c9efc58b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">cutlass::gemm::Gemm::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">The number of threads. </div><div class="ttdef"><b>Definition:</b> gemm.h:104</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a053c2b529be527f510ee317737fbf7e8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a053c2b529be527f510ee317737fbf7e8">cutlass::gemm::GemmDesc::alpha</a></div><div class="ttdeci">Scalar_ alpha</div><div class="ttdoc">The alpha/beta scaling values. </div><div class="ttdef"><b>Definition:</b> gemm.h:60</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_aa2b3126c082d04fd31521cb0e84cf4d5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#aa2b3126c082d04fd31521cb0e84cf4d5">cutlass::gemm::GemmDesc::d_c</a></div><div class="ttdeci">void const  * d_c</div><div class="ttdoc">The source matrix C. </div><div class="ttdef"><b>Definition:</b> gemm.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a77ae137aec79b4061a9ffa09aabf641c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c">cutlass::gemm::Gemm::launch</a></div><div class="ttdeci">static __host__ cudaError_t launch(Params const &amp;params, cudaStream_t stream=cudaStreamDefault)</div><div class="ttdoc">Launch the kernel. </div><div class="ttdef"><b>Definition:</b> gemm.h:141</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a0aca711d07245f3071adeb1111fedd34"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">cutlass::gemm::Gemm::Index</a></div><div class="ttdeci">Traits::Index Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm.h:101</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a05915032eba39bc9b085bec5ff17257b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a05915032eba39bc9b085bec5ff17257b">cutlass::gemm::GemmDesc::d_b</a></div><div class="ttdeci">void const  * d_b</div><div class="ttdoc">The source matrix B. </div><div class="ttdef"><b>Definition:</b> gemm.h:66</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a></div><div class="ttdef"><b>Definition:</b> gemm.h:92</div></div>
+<div class="ttc" id="cutlass_8h_html_a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><div class="ttname"><a href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_ab806302d059fc7cd113ec0b5ab5a9835"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835">cutlass::gemm::Gemm::MultiplyAdd</a></div><div class="ttdeci">Traits::MultiplyAdd MultiplyAdd</div><div class="ttdoc">Define the mainloop iteration size. </div><div class="ttdef"><b>Definition:</b> gemm.h:114</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a4f4122a2ae8b9b09a9660e5c2ca9e906"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906">cutlass::gemm::Gemm::launch</a></div><div class="ttdeci">static __host__ cudaError_t launch(CUfunction kernel, Params const &amp;params, CUstream stream=CU_STREAM_LEGACY)</div><div class="ttdoc">Launch the kernel. </div><div class="ttdef"><b>Definition:</b> gemm.h:147</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_ada54b3bc2005ed919dbdda9d500a2356"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">cutlass::gemm::Gemm::kWarpGemmSteps</a></div><div class="ttdeci">static Index const kWarpGemmSteps</div><div class="ttdef"><b>Definition:</b> gemm.h:120</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Launch_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Launch.html">cutlass::gemm::Launch</a></div><div class="ttdoc">Partial specialization for launching the GEMM kernel with or without launch bounds. </div><div class="ttdef"><b>Definition:</b> gemm.h:73</div></div>
+<div class="ttc" id="namespacecutlass_1_1gemm_html_a01dd61085e2b3f578a7fc266b94fac55"><div class="ttname"><a href="namespacecutlass_1_1gemm.html#a01dd61085e2b3f578a7fc266b94fac55">cutlass::gemm::__launch_bounds__</a></div><div class="ttdeci">__global__ __launch_bounds__(Gemm_::kThreads) void gemm_kernel(typename Gemm_</div><div class="ttdoc">GEMM kernel with launch bounds specified. </div><div class="ttdef"><b>Definition:</b> gemm.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a26c13e8bbad805760443ef6df475e317"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317">cutlass::gemm::Gemm::This_</a></div><div class="ttdeci">Gemm&lt; GemmTraits_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> gemm.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a8bff0bd32aec05f8c1e282024be0bcfd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">cutlass::gemm::Gemm::Gemm</a></div><div class="ttdeci">CUTLASS_DEVICE Gemm(Params const &amp;params_, SharedStorage &amp;shared_storage_)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm.h:173</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a6fcf9daef57558e1bb932c6eba99721b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">cutlass::gemm::Gemm::ScalarA</a></div><div class="ttdeci">Traits::ScalarA ScalarA</div><div class="ttdoc">The scalar for A. </div><div class="ttdef"><b>Definition:</b> gemm.h:101</div></div>
+<div class="ttc" id="namespacecutlass_1_1gemm_html_ae23b870e60261e2322f3c6edb3d2bcb9"><div class="ttname"><a href="namespacecutlass_1_1gemm.html#ae23b870e60261e2322f3c6edb3d2bcb9">cutlass::gemm::gemm_kernel_nolb</a></div><div class="ttdeci">__global__ void gemm_kernel_nolb(typename Gemm_::Params params)</div><div class="ttdoc">GEMM kernel without launch bounds specified. </div><div class="ttdef"><b>Definition:</b> gemm.h:59</div></div>
+<div class="ttc" id="cutlass_8h_html_a8e18ced39c05ab3304bb4fcdc0cc9f71"><div class="ttname"><a href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">CUTLASS_GEMM_LOOP</a></div><div class="ttdeci">#define CUTLASS_GEMM_LOOP</div><div class="ttdef"><b>Definition:</b> cutlass.h:66</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a41239809be4ebc730dd8ff28c9efc58b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">cutlass::gemm::Gemm::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">The number of threads. </div><div class="ttdef"><b>Definition:</b> gemm.h:117</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a054d5e87f1985ae7e53fc07f4c16d916"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">cutlass::gemm::Gemm::Params</a></div><div class="ttdeci">Traits::Params Params</div><div class="ttdoc">Use the params object defined in traits. </div><div class="ttdef"><b>Definition:</b> gemm.h:124</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a77ae137aec79b4061a9ffa09aabf641c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c">cutlass::gemm::Gemm::launch</a></div><div class="ttdeci">static __host__ cudaError_t launch(Params const &amp;params, cudaStream_t stream=cudaStreamDefault)</div><div class="ttdoc">Support for NVRTC. </div><div class="ttdef"><b>Definition:</b> gemm.h:136</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html_a0aca711d07245f3071adeb1111fedd34"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">cutlass::gemm::Gemm::Index</a></div><div class="ttdeci">Traits::Index Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm.h:111</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__config_8h.html b/docs/gemm__config_8h.html
new file mode 100644
index 0000000000..62f36540b8
--- /dev/null
+++ b/docs/gemm__config_8h.html
@@ -0,0 +1,109 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: gemm_config.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">gemm_config.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Defines properties of GEMM computation that impose some constraints on caller.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&quot;</code><br />
+</div>
+<p><a href="gemm__config_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/gemm__config_8h_source.html b/docs/gemm__config_8h_source.html
new file mode 100644
index 0000000000..847e6f7b42
--- /dev/null
+++ b/docs/gemm__config_8h_source.html
@@ -0,0 +1,123 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: gemm_config.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">gemm_config.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="gemm__config_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *   * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *     conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *   * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *     conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *     provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *   * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *     to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *     permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;    <span class="keyword">typename</span> ScalarA_,</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;    <span class="keyword">typename</span> ScalarB_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;    <span class="keyword">typename</span> ScalarC_,</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keyword">typename</span> ScalarD_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    <span class="keyword">typename</span> MultiplyAdd_,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    <span class="keywordtype">int</span> kScalarsPerStsA_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdsA_,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <span class="keywordtype">int</span> kScalarsPerStsB_,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdsB_,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgCAndStgD_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keywordtype">int</span> kScalarsPerStsD_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdsD_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <span class="keywordtype">int</span> kStages_,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    <span class="keywordtype">bool</span> kResidueSeparate_ = <span class="keyword">false</span>,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    <span class="keywordtype">bool</span> kResidueInProlog_ = <span class="keyword">false</span>,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    <span class="keywordtype">bool</span> kLaunchBounds_ = <span class="keyword">true</span>&gt;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html">   76</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a> {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">   79</a></span>&#160;<span class="comment"></span>  <span class="keyword">typedef</span> ScalarA_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a>;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">   81</a></span>&#160;  <span class="keyword">typedef</span> ScalarB_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a>;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">   83</a></span>&#160;  <span class="keyword">typedef</span> ScalarC_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a>;</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">   85</a></span>&#160;  <span class="keyword">typedef</span> ScalarD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a>;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">   88</a></span>&#160;  <span class="keyword">typedef</span> OutputTile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a>;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">   90</a></span>&#160;  <span class="keyword">typedef</span> MultiplyAdd_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a>;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">   92</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">MultiplyAdd::InstructionShape</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a>;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">   94</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">MultiplyAdd::AccumulatorsPerWarp</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a>;</div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">   96</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Fragment.html">MultiplyAdd::Accumulators</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a>;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">   99</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">ShapeDiv&lt;OutputTile, AccumulatorsPerWarp&gt;::Shape</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a>;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">  101</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a> = cutlass::kWarpSize;</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">  103</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a> = <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Warps&gt;::kCount</a> * <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a>;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">  106</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a> = kScalarsPerLdgA_;</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">  107</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a> = kScalarsPerStsA_;</div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">  108</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a> = kScalarsPerLdsA_;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">  111</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a> = kScalarsPerLdgB_;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">  112</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a> = kScalarsPerStsB_;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">  113</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a> = kScalarsPerLdsB_;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">  116</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a> = kScalarsPerLdgCAndStgD_;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">  119</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a> = kScalarsPerLdgCAndStgD_;</div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">  120</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a> = kScalarsPerStsD_;</div><div class="line"><a name="l00121"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">  121</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a> = kScalarsPerLdsD_;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">  124</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a> / InstructionShape::kD;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">  125</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a> / InstructionShape::kD;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">  128</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a> = kStages_;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <span class="comment">// updates and is more efficient for some kernels. If false, only a single mainloop is</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  <span class="comment">// instantaited.</span></div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">  133</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a> = kResidueSeparate_;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">  136</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a> = kResidueInProlog_;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">  139</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a> = kLaunchBounds_;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;};</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_acf461f0ba3067cc5d66a04f0a176308f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">cutlass::gemm::GemmConfig::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">The numnber of threads. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:103</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a9b987cfb25a32e671a47cb6376a361f3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">cutlass::gemm::GemmConfig::Warps</a></div><div class="ttdeci">ShapeDiv&lt; OutputTile, AccumulatorsPerWarp &gt;::Shape Warps</div><div class="ttdoc">The number of warps. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:99</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_ad83132bd03f8bd844487d1a9da908c8b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">cutlass::gemm::GemmConfig::InstructionShape</a></div><div class="ttdeci">MultiplyAdd::InstructionShape InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:92</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_aa549183981095a3e604974e909a7d396"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">cutlass::gemm::GemmConfig::kWarpSize</a></div><div class="ttdeci">static int const kWarpSize</div><div class="ttdoc">The default warp size (32 threads per warp). </div><div class="ttdef"><b>Definition:</b> gemm_config.h:101</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a26942561aa111089b3ba0f12cf233951"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">cutlass::gemm::GemmConfig::kScalarsPerLdsD</a></div><div class="ttdeci">static int const kScalarsPerLdsD</div><div class="ttdef"><b>Definition:</b> gemm_config.h:121</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_ade9d3c2aeb0e4d73e04a5e9a06ce5203"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">cutlass::gemm::GemmConfig::kScalarsPerStgD</a></div><div class="ttdeci">static int const kScalarsPerStgD</div><div class="ttdoc">The number of scalars per STS/LDS/STG for D. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:119</div></div>
+<div class="ttc" id="structcutlass_1_1Fragment_html"><div class="ttname"><a href="structcutlass_1_1Fragment.html">cutlass::Fragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:99</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_aff7409a9d2666159435d3b9db16443bc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">cutlass::gemm::GemmConfig::kScalarsPerLdgB</a></div><div class="ttdeci">static int const kScalarsPerLdgB</div><div class="ttdoc">The number of scalars per LDG/STS/LDS for B. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:111</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a30d9cfbbede42166e4e1964145dfe05d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">cutlass::gemm::GemmConfig::ScalarC</a></div><div class="ttdeci">ScalarC_ ScalarC</div><div class="ttdoc">The scalar for C. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:83</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a9f90f91f9e5e40496e8a88eb657fd591"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">cutlass::gemm::GemmConfig::Accumulators</a></div><div class="ttdeci">MultiplyAdd::Accumulators Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:96</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_ab26d76515e394118bfc530d6a81b9508"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">cutlass::gemm::GemmConfig::kStages</a></div><div class="ttdeci">static int const kStages</div><div class="ttdoc">The number of stages in shared memory to implement double, triple, more-buffering. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:128</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a9f706e141ec3bc880fa17a5731d8370e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerWarp</a></div><div class="ttdeci">ShapeMul&lt; ThreadGemmShape, ThreadsPerWarp &gt;::Shape AccumulatorsPerWarp</div><div class="ttdoc">The number of accumulators per warp. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:54</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a600746def904eeca46d7f92a4b223b46"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">cutlass::gemm::GemmConfig::kResidueInProlog</a></div><div class="ttdeci">static bool const kResidueInProlog</div><div class="ttdoc">If true, residue is computed in the prologue. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:136</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a54e252cedbfee75e7c4ac2f7fe5ce45b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">cutlass::gemm::GemmConfig::kLaunchBounds</a></div><div class="ttdeci">static bool const kLaunchBounds</div><div class="ttdoc">If true, kernel is launched with launch bounds specified. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:139</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_aedb95febe4a0b2943e233c95c36a22cd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">cutlass::gemm::GemmConfig::MultiplyAdd</a></div><div class="ttdeci">MultiplyAdd_ MultiplyAdd</div><div class="ttdoc">The functor to do D = A*B + C. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_aeb740e4ab9f93f29f1b8ab43ebef68eb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">cutlass::gemm::GemmConfig::kAccumulatorsPerLdsB</a></div><div class="ttdeci">static int const kAccumulatorsPerLdsB</div><div class="ttdef"><b>Definition:</b> gemm_config.h:125</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeDiv_html_a108ded386ef6708afc6fe769a77a234b"><div class="ttname"><a href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">cutlass::ShapeDiv::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD/B_::kD, A_::kH/B_::kH, A_::kW/B_::kW, A_::kC/B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:126</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_aa97b0e7f369f927c4db6d683dbb7f53b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">cutlass::gemm::GemmConfig::ScalarA</a></div><div class="ttdeci">ScalarA_ ScalarA</div><div class="ttdoc">The scalar for A. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:79</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a64c1e0d794c1bdfa8b2f3a53e387155c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">cutlass::gemm::GemmConfig::kResidueSeparate</a></div><div class="ttdeci">static bool const kResidueSeparate</div><div class="ttdoc">If true, mainloop is instantiated twice. The first instantiation contains no predicate. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:133</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_config.h:76</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a32a8979ff618f069665708c7771c3cc3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">cutlass::gemm::GemmConfig::AccumulatorsPerWarp</a></div><div class="ttdeci">MultiplyAdd::AccumulatorsPerWarp AccumulatorsPerWarp</div><div class="ttdoc">The shape of warp-level GEMM. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a9ccd14b44a22dfdfeefabe1e643da65e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">cutlass::gemm::GemmConfig::kScalarsPerLdsB</a></div><div class="ttdeci">static int const kScalarsPerLdsB</div><div class="ttdef"><b>Definition:</b> gemm_config.h:113</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a9c3985d8de485d76a5d72c91c3e3aaff"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">cutlass::gemm::GemmConfig::kScalarsPerLdgC</a></div><div class="ttdeci">static int const kScalarsPerLdgC</div><div class="ttdoc">The number of scalars per LDG for C. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:116</div></div>
+<div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a82295105d7ccbcce057b4c57632a644b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">cutlass::gemm::GemmConfig::kScalarsPerLdsA</a></div><div class="ttdeci">static int const kScalarsPerLdsA</div><div class="ttdef"><b>Definition:</b> gemm_config.h:108</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a60ab48db1b87fb6063d194247bc055f5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">cutlass::gemm::GemmConfig::kAccumulatorsPerLdsA</a></div><div class="ttdeci">static int const kAccumulatorsPerLdsA</div><div class="ttdoc">The number of accumulators that are going to be fed from one LDS A/B. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:124</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_ab2b6167b0165ed544254dc87c2a7db8f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">cutlass::gemm::GemmConfig::kScalarsPerStsA</a></div><div class="ttdeci">static int const kScalarsPerStsA</div><div class="ttdef"><b>Definition:</b> gemm_config.h:107</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a2a424063136c56c5ca6345496485afce"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">cutlass::gemm::GemmConfig::kScalarsPerStsB</a></div><div class="ttdeci">static int const kScalarsPerStsB</div><div class="ttdef"><b>Definition:</b> gemm_config.h:112</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a64e7d66e0646c7044e754b3b6b91e761"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">cutlass::gemm::GemmConfig::kScalarsPerLdgA</a></div><div class="ttdeci">static int const kScalarsPerLdgA</div><div class="ttdoc">The number of scalars per LDG/STS/LDS for A. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:106</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a1e93d0163c0d150d33f4093b4a1ec87f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">cutlass::gemm::GemmConfig::kScalarsPerStsD</a></div><div class="ttdeci">static int const kScalarsPerStsD</div><div class="ttdef"><b>Definition:</b> gemm_config.h:120</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a7ad231b16f05a58900dca8ff0e0e7bfa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">cutlass::gemm::GemmConfig::ScalarD</a></div><div class="ttdeci">ScalarD_ ScalarD</div><div class="ttdoc">The scalar for D. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:85</div></div>
+<div class="ttc" id="shape_8h_html"><div class="ttname"><a href="shape_8h.html">shape.h</a></div><div class="ttdoc">Defines Shape implementing the Layout concept for representing a 4D hypercube of objects. </div></div>
+<div class="ttc" id="structcutlass_1_1ShapeCount_html"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html">cutlass::ShapeCount</a></div><div class="ttdoc">Compute derived counted of a Layout Concept based class. </div><div class="ttdef"><b>Definition:</b> shape.h:79</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a389c0980e978463d3cc126342d8413c6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">cutlass::gemm::GemmConfig::ScalarB</a></div><div class="ttdeci">ScalarB_ ScalarB</div><div class="ttdoc">The scalar for B. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:81</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a9dd9c3efc3dfd9b5c6acd12236697399"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">cutlass::gemm::GemmConfig::OutputTile</a></div><div class="ttdeci">OutputTile_ OutputTile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:88</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/gemm__coord_8h.html b/docs/gemm__coord_8h.html
new file mode 100644
index 0000000000..a464c73354
--- /dev/null
+++ b/docs/gemm__coord_8h.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: gemm_coord.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">gemm_coord.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>GemmCoord is a structure derived from <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> that specifies a location within the coordinate system of a GEMM problem.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&quot;</code><br />
+</div>
+<p><a href="gemm__coord_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/gemm__coord_8h_source.html b/docs/gemm__coord_8h_source.html
new file mode 100644
index 0000000000..4930501b6f
--- /dev/null
+++ b/docs/gemm__coord_8h_source.html
@@ -0,0 +1,131 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: gemm_coord.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">gemm_coord.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="gemm__coord_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html">   43</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&lt;4, int&gt; {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">   46</a></span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">   49</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4, Index&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a>;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a521d4b8e720d2261c825e05397c92a5e">   52</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a521d4b8e720d2261c825e05397c92a5e">kK</a> = 0;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a67f08a03dabee497fa5547cff0f1faea">   55</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a67f08a03dabee497fa5547cff0f1faea">kN</a> = 1;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#af1f5c03c35eaa406c6a63082da26bec3">   58</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#af1f5c03c35eaa406c6a63082da26bec3">kM</a> = 2;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad7b490ce2150e54fccad6b0f11932382">   61</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad7b490ce2150e54fccad6b0f11932382">kBatch</a> = 3;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01">   69</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01">GemmCoord</a>() { }</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a03e6bfa95156962be51e190d381c8b5e">   73</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a03e6bfa95156962be51e190d381c8b5e">GemmCoord</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3, Index&gt;</a> <span class="keyword">const</span> &amp;coord, <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> _batch = 0): <a class="code" href="structcutlass_1_1Coord.html">Base</a>(<a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(coord[0], coord[1], coord[2], _batch)) { }</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a65d1ca12c0f27984920cf1700322a746">   77</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a65d1ca12c0f27984920cf1700322a746">GemmCoord</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4, Index&gt;</a> <span class="keyword">const</span> &amp;coord): <a class="code" href="structcutlass_1_1Coord.html">Base</a>(coord) { }</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a17da9936dbad99f2402c42b1bd6ea5ea">   81</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a17da9936dbad99f2402c42b1bd6ea5ea">GemmCoord</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> coord[4]): <a class="code" href="structcutlass_1_1Coord.html">Base</a>(coord) { }</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac3b1cbdf86bd36d6b4b5e295ef846dfe">   85</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac3b1cbdf86bd36d6b4b5e295ef846dfe">GemmCoord</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">k</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">batch</a> = 0): <a class="code" href="structcutlass_1_1Coord.html">Base</a>(<a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">k</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">batch</a>)) { }</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">   89</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <span class="keyword">const</span> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kM); }</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8199f5e336a20c31e54d68b11e9fa3d3">   93</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8199f5e336a20c31e54d68b11e9fa3d3">m</a>() { <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kM); }</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">   97</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <span class="keyword">const</span> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kN); }</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a1327b9b4b9379df24df3d4b716952d11">  101</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a1327b9b4b9379df24df3d4b716952d11">n</a>() { <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kN); }</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">  105</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <span class="keyword">const</span> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">k</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kK); }</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#ae12eb84ec47ddf01b4d459c7aabc22ad">  109</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ae12eb84ec47ddf01b4d459c7aabc22ad">k</a>() { <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kK); }</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">  113</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <span class="keyword">const</span> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">batch</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kBatch); }</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#adaf31768b8239f497c0ec9b40bad1cb5">  117</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#adaf31768b8239f497c0ec9b40bad1cb5">batch</a>() { <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kBatch); }</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00121"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a4062c040208868c75dbc6ba18910bffb">  121</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a4062c040208868c75dbc6ba18910bffb">knm</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">k</a>(), <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>(), <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>());</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  }</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac4550a7e80e1f0265eacecebe54794d9">  127</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac4550a7e80e1f0265eacecebe54794d9">nm</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>(), <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>());</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  }</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad6c884a5bb6e5edaf371e8af10df367d">  133</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad6c884a5bb6e5edaf371e8af10df367d">km</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">k</a>(), <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>());</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  }</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00139"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a16501265d58ddaca0e2d9bb4e21d66ea">  139</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a16501265d58ddaca0e2d9bb4e21d66ea">kn</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">k</a>(), <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>());</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;  }</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  <span class="comment">// Coord operators</span></div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00149"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a675efbb9ed360888faf3c333708ae4d5">  149</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a675efbb9ed360888faf3c333708ae4d5">operator+</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01">GemmCoord</a>(Base::operator+(b));</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  }</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00155"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a762fd45e61477d700c82bfd67443c6f9">  155</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a762fd45e61477d700c82bfd67443c6f9">operator-</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01">GemmCoord</a>(Base::operator-(b));</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;  }</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00161"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5a158b5f3c0b1779972b25aa52be1164">  161</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5a158b5f3c0b1779972b25aa52be1164">operator*</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01">GemmCoord</a>(Base::operator*(b));</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;  }</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a41770bb99f02f4debbafe95e019ce02b">  167</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a41770bb99f02f4debbafe95e019ce02b">operator/</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01">GemmCoord</a>(Base::operator/(b));</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  }</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5465f7308778eac5d14d8020179a65e0">  173</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5465f7308778eac5d14d8020179a65e0">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">Base::operator+=</a>(b);</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;  }</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00180"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a12ba250be3d5474b7c6fc4eddd4f58d5">  180</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a12ba250be3d5474b7c6fc4eddd4f58d5">operator-=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">Base::operator-=</a>(b);</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;  }</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00187"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#a69fb0bb5e73f35d3c8df71a0174d6520">  187</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a69fb0bb5e73f35d3c8df71a0174d6520">operator*=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">Base::operator*=</a>(b);</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;  }</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmCoord.html#aac1e1bad751237fd76d32a1ea10f6c40">  194</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#aac1e1bad751237fd76d32a1ea10f6c40">operator/=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">Base::operator/=</a>(b);</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;  }</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;};</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;} <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_aac1e1bad751237fd76d32a1ea10f6c40"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#aac1e1bad751237fd76d32a1ea10f6c40">cutlass::gemm::GemmCoord::operator/=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord &amp; operator/=(Base const &amp;b)</div><div class="ttdoc">In-place division. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:194</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a8e3f0250e2265503862354c729dca892"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">cutlass::gemm::GemmCoord::Index</a></div><div class="ttdeci">int Index</div><div class="ttdoc">Integer-valued index. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a4062c040208868c75dbc6ba18910bffb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a4062c040208868c75dbc6ba18910bffb">cutlass::gemm::GemmCoord::knm</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 3 &gt; knm() const</div><div class="ttdoc">Obtains a Coord&lt;3&gt; from GemmCoord. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:121</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_ad6c884a5bb6e5edaf371e8af10df367d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#ad6c884a5bb6e5edaf371e8af10df367d">cutlass::gemm::GemmCoord::km</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 2 &gt; km() const</div><div class="ttdoc">Obtains a Coord&lt;2&gt; from GemmCoord. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:133</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a790f6552ad26964fa808b51f4aba433b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">cutlass::gemm::GemmCoord::Base</a></div><div class="ttdeci">Coord&lt; 4, Index &gt; Base</div><div class="ttdoc">Base type is a Coord of rank=4. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:49</div></div>
+<div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a7c582518db6860e19286361b162c4fcd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">cutlass::gemm::GemmCoord::n</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; n() const</div><div class="ttdoc">Returns the GEMM N coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:97</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a41770bb99f02f4debbafe95e019ce02b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a41770bb99f02f4debbafe95e019ce02b">cutlass::gemm::GemmCoord::operator/</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord operator/(Base const &amp;b) const</div><div class="ttdoc">Element-wise division. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:167</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a8199f5e336a20c31e54d68b11e9fa3d3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a8199f5e336a20c31e54d68b11e9fa3d3">cutlass::gemm::GemmCoord::m</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; m()</div><div class="ttdoc">Returns reference to the GEMM M coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:93</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></div><div class="ttdef"><b>Definition:</b> gemm_coord.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_ad7b490ce2150e54fccad6b0f11932382"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#ad7b490ce2150e54fccad6b0f11932382">cutlass::gemm::GemmCoord::kBatch</a></div><div class="ttdeci">static int const kBatch</div><div class="ttdoc">Batch dimension - for generalizing to larger problems. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:61</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a762fd45e61477d700c82bfd67443c6f9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a762fd45e61477d700c82bfd67443c6f9">cutlass::gemm::GemmCoord::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord operator-(Base const &amp;b) const</div><div class="ttdoc">Element-wise subtraction. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:155</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ad4303b578b72b5cb2a0198375290e168"><div class="ttname"><a href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">cutlass::Coord::operator*=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator*=(Coord const &amp;b)</div><div class="ttdoc">In-place multiplication. </div><div class="ttdef"><b>Definition:</b> coord.h:197</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a65d1ca12c0f27984920cf1700322a746"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a65d1ca12c0f27984920cf1700322a746">cutlass::gemm::GemmCoord::GemmCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord(Coord&lt; 4, Index &gt; const &amp;coord)</div><div class="ttdoc">Constructs from Coord&lt;4&gt; </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:77</div></div>
+<div class="ttc" id="platform_8h_html"><div class="ttname"><a href="platform_8h.html">platform.h</a></div><div class="ttdoc">C++ features that may be otherwise unimplemented for CUDA device functions. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_ae12eb84ec47ddf01b4d459c7aabc22ad"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#ae12eb84ec47ddf01b4d459c7aabc22ad">cutlass::gemm::GemmCoord::k</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; k()</div><div class="ttdoc">Returns reference to the GEMM K coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:109</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a03e6bfa95156962be51e190d381c8b5e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a03e6bfa95156962be51e190d381c8b5e">cutlass::gemm::GemmCoord::GemmCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord(Coord&lt; 3, Index &gt; const &amp;coord, Index _batch=0)</div><div class="ttdoc">Constructs from Coord&lt;3&gt; and a batch. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:73</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a675efbb9ed360888faf3c333708ae4d5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a675efbb9ed360888faf3c333708ae4d5">cutlass::gemm::GemmCoord::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord operator+(Base const &amp;b) const</div><div class="ttdoc">Element-wise addition. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:149</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a304334cbcad636d7b058fdc6310f0e6b"><div class="ttname"><a href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">cutlass::Coord::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator-=(Coord const &amp;b)</div><div class="ttdoc">In-place subtraction. </div><div class="ttdef"><b>Definition:</b> coord.h:188</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a521d4b8e720d2261c825e05397c92a5e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a521d4b8e720d2261c825e05397c92a5e">cutlass::gemm::GemmCoord::kK</a></div><div class="ttdeci">static int const kK</div><div class="ttdoc">GEMM K dimension - inner dimension of the GEMM problem. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a67f08a03dabee497fa5547cff0f1faea"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a67f08a03dabee497fa5547cff0f1faea">cutlass::gemm::GemmCoord::kN</a></div><div class="ttdeci">static int const kN</div><div class="ttdoc">GEMM N dimension - columns of the output C matrix. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:55</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ae4f2cb12b84411118cb93e7c4cb88b20"><div class="ttname"><a href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">cutlass::Coord::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator+=(Coord const &amp;b)</div><div class="ttdoc">In-place addition. </div><div class="ttdef"><b>Definition:</b> coord.h:179</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a16501265d58ddaca0e2d9bb4e21d66ea"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a16501265d58ddaca0e2d9bb4e21d66ea">cutlass::gemm::GemmCoord::kn</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 2 &gt; kn() const</div><div class="ttdoc">Obtains a Coord&lt;2&gt; from GemmCoord. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:139</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a9eff24a3b74b68d11839b92324613c93"><div class="ttname"><a href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">cutlass::Coord&lt; 4, int &gt;::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; at()</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:240</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ac87199c4c9a4e20aac4eb6e3b9a68f28"><div class="ttname"><a href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">cutlass::Coord::operator/=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator/=(Coord const &amp;b)</div><div class="ttdoc">In-place division. </div><div class="ttdef"><b>Definition:</b> coord.h:206</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a5465f7308778eac5d14d8020179a65e0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a5465f7308778eac5d14d8020179a65e0">cutlass::gemm::GemmCoord::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord &amp; operator+=(Base const &amp;b)</div><div class="ttdoc">In-place addition. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:173</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_af1f5c03c35eaa406c6a63082da26bec3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#af1f5c03c35eaa406c6a63082da26bec3">cutlass::gemm::GemmCoord::kM</a></div><div class="ttdeci">static int const kM</div><div class="ttdoc">GEMM M dimension - rows of the output C matrix. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:58</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:49</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_abaa87475d518a2e5cdf44c62122b9e01"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01">cutlass::gemm::GemmCoord::GemmCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord()</div><div class="ttdoc">Default ctor. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a12ba250be3d5474b7c6fc4eddd4f58d5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a12ba250be3d5474b7c6fc4eddd4f58d5">cutlass::gemm::GemmCoord::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord &amp; operator-=(Base const &amp;b)</div><div class="ttdoc">In-place subtraction. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:180</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a9167769a2b915eb92fb4ca37b9212793"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">cutlass::gemm::GemmCoord::m</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; m() const</div><div class="ttdoc">Returns the GEMM M coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:89</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a5a158b5f3c0b1779972b25aa52be1164"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a5a158b5f3c0b1779972b25aa52be1164">cutlass::gemm::GemmCoord::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord operator*(Base const &amp;b) const</div><div class="ttdoc">Element-wise multiplication. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:161</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a646c71e97ef007bde8c101479c528da7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">cutlass::gemm::GemmCoord::k</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; k() const</div><div class="ttdoc">Returns the GEMM K coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:105</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a69fb0bb5e73f35d3c8df71a0174d6520"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a69fb0bb5e73f35d3c8df71a0174d6520">cutlass::gemm::GemmCoord::operator*=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord &amp; operator*=(Base const &amp;b)</div><div class="ttdoc">In-place multiplication. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:187</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_ac441e93411ed6954a93ab36f0c747d26"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">cutlass::gemm::GemmCoord::batch</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; batch() const</div><div class="ttdoc">Returns the GEMM batch coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:113</div></div>
+<div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a1327b9b4b9379df24df3d4b716952d11"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a1327b9b4b9379df24df3d4b716952d11">cutlass::gemm::GemmCoord::n</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; n()</div><div class="ttdoc">Returns reference to the GEMM N coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:101</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_ac4550a7e80e1f0265eacecebe54794d9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#ac4550a7e80e1f0265eacecebe54794d9">cutlass::gemm::GemmCoord::nm</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 2 &gt; nm() const</div><div class="ttdoc">Obtains a Coord&lt;2&gt; from GemmCoord. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:127</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_ac3b1cbdf86bd36d6b4b5e295ef846dfe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#ac3b1cbdf86bd36d6b4b5e295ef846dfe">cutlass::gemm::GemmCoord::GemmCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord(Index k, Index n, Index m, Index batch=0)</div><div class="ttdoc">Helper to construct from a K, N, M, batch variables. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:85</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_adaf31768b8239f497c0ec9b40bad1cb5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#adaf31768b8239f497c0ec9b40bad1cb5">cutlass::gemm::GemmCoord::batch</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; batch()</div><div class="ttdoc">Returns reference to the GEMM batch coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:117</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a17da9936dbad99f2402c42b1bd6ea5ea"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a17da9936dbad99f2402c42b1bd6ea5ea">cutlass::gemm::GemmCoord::GemmCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmCoord(Index coord[4])</div><div class="ttdoc">Constructs from an array of coordinate elements. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:81</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/gemm__desc_8h.html b/docs/gemm__desc_8h.html
new file mode 100644
index 0000000000..deb246cbb4
--- /dev/null
+++ b/docs/gemm__desc_8h.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: gemm_desc.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">gemm_desc.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Implements a software-pipelined efficient GEMM.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="tensor__ref_8h_source.html">cutlass/tensor_ref.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__coord_8h_source.html">cutlass/gemm/gemm_coord.h</a>&quot;</code><br />
+</div>
+<p><a href="gemm__desc_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">GEMM problem description.  <a href="structcutlass_1_1gemm_1_1GemmDesc.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/gemm__desc_8h_source.html b/docs/gemm__desc_8h_source.html
new file mode 100644
index 0000000000..76f0d0725b
--- /dev/null
+++ b/docs/gemm__desc_8h_source.html
@@ -0,0 +1,121 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: gemm_desc.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">gemm_desc.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="gemm__desc_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tensor__ref_8h.html">cutlass/tensor_ref.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__coord_8h.html">cutlass/gemm/gemm_coord.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;    <span class="keyword">typename</span> AType_,</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;    <span class="keyword">typename</span> BType_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;    <span class="keyword">typename</span> CType_,</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keyword">typename</span> DType_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    <span class="keyword">typename</span> SType_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span></div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html">   50</a></span>&#160;&gt; <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc</a> {</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#abd12fea9779ada02c0f2266909602171">   56</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#abd12fea9779ada02c0f2266909602171">Index</a>;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037">   59</a></span>&#160;  <span class="keyword">typedef</span> AType_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037">AType</a>;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">   62</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;AType const, 2&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a>;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49">   65</a></span>&#160;  <span class="keyword">typedef</span> BType_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49">BType</a>;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">   68</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;BType const, 2&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a>;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704">   71</a></span>&#160;  <span class="keyword">typedef</span> CType_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704">CType</a>;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">   74</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;CType const, 2&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a>;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd">   77</a></span>&#160;  <span class="keyword">typedef</span> DType_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd">DType</a>;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">   80</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;DType, 2&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">   83</a></span>&#160;  <span class="keyword">typedef</span> SType_ <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a>;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">   90</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">problem_size</a>;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">   93</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">alpha</a>;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b">   96</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefA</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b">A</a>;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599">   99</a></span>&#160;  <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599">batch_stride_A</a>;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774">  102</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefB</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774">B</a>;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a">  105</a></span>&#160;  <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a">batch_stride_B</a>;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">  108</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">beta</a>;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30">  111</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefC</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30">C</a>;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2">  114</a></span>&#160;  <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2">batch_stride_C</a>;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f">  117</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefD</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f">D</a>;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de">  120</a></span>&#160;  <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de">batch_stride_D</a>;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#ae2708b731cbb99d3e638382ecf599425">  128</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#ae2708b731cbb99d3e638382ecf599425">GemmDesc</a>(): <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">problem_size</a>(0, 0, 0, 1), <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">alpha</a>(1), <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">beta</a>(0) {}</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00132"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a948af4a974f1aa74d3b6da9cd3e185de">  132</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a948af4a974f1aa74d3b6da9cd3e185de">GemmDesc</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> _problem_size,</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;           <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _alpha,</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefA</a> <span class="keyword">const</span> &amp;_A,</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefB</a> <span class="keyword">const</span> &amp;_B,</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;           <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _beta,</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefC</a> <span class="keyword">const</span> &amp;_C,</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefD</a> <span class="keyword">const</span> &amp;_D</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;  ):</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">problem_size</a>(_problem_size[0], _problem_size[1], _problem_size[2], 1),</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">alpha</a>(_alpha),</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b">A</a>(_A),</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599">batch_stride_A</a>(0),</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774">B</a>(_B),</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a">batch_stride_B</a>(0),</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">beta</a>(_beta),</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30">C</a>(_C),</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2">batch_stride_C</a>(0),</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f">D</a>(_D),</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de">batch_stride_D</a>(0) {}</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00154"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7292ac0196f22525b13f223a02271bc3">  154</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7292ac0196f22525b13f223a02271bc3">GemmDesc</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> _problem_size,</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;           <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _alpha,</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefA</a> <span class="keyword">const</span> &amp;_A,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefB</a> <span class="keyword">const</span> &amp;_B,</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;           <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _beta,</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefC</a> <span class="keyword">const</span> &amp;_C,</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefD</a> <span class="keyword">const</span> &amp;_D</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  ):</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">problem_size</a>(_problem_size.k(), _problem_size.n(), _problem_size.m(), 1),</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">alpha</a>(_alpha),</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b">A</a>(_A),</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599">batch_stride_A</a>(0),</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774">B</a>(_B),</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a">batch_stride_B</a>(0),</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">beta</a>(_beta),</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30">C</a>(_C),</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2">batch_stride_C</a>(0),</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f">D</a>(_D),</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de">batch_stride_D</a>(0) {</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    assert(_problem_size.<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">batch</a>() == 1);</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;  }</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmDesc.html#af96cd9c8f2454ea118dfa7358dd24824">  179</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#af96cd9c8f2454ea118dfa7358dd24824">GemmDesc</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> _problem_size,</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;           <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _alpha,</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefA</a> <span class="keyword">const</span> &amp;_A,</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;           <span class="keywordtype">long</span> <span class="keywordtype">long</span> _batch_stride_A,</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefB</a> <span class="keyword">const</span> &amp;_B,</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;           <span class="keywordtype">long</span> <span class="keywordtype">long</span> _batch_stride_B,</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;           <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _beta,</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefC</a> <span class="keyword">const</span> &amp;_C,</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;           <span class="keywordtype">long</span> <span class="keywordtype">long</span> _batch_stride_C,</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;           <a class="code" href="classcutlass_1_1TensorRef.html">TensorRefD</a> <span class="keyword">const</span> &amp;_D,</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;           <span class="keywordtype">long</span> <span class="keywordtype">long</span> _batch_stride_D</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;  ):</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">problem_size</a>(_problem_size),</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">alpha</a>(_alpha),</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b">A</a>(_A),</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599">batch_stride_A</a>(_batch_stride_A),</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774">B</a>(_B),</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a">batch_stride_B</a>(_batch_stride_B),</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">beta</a>(_beta),</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30">C</a>(_C),</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2">batch_stride_C</a>(_batch_stride_C),</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f">D</a>(_D),</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de">batch_stride_D</a>(_batch_stride_D) {}</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;};</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a></div><div class="ttdoc">GEMM problem description. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:50</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a51f77118d545308068b0dc287abf4e8b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">cutlass::gemm::GemmDesc::TensorRefC</a></div><div class="ttdeci">TensorRef&lt; CType const, 2 &gt; TensorRefC</div><div class="ttdoc">Tensor reference to C operand. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:74</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="tensor__ref_8h_html"><div class="ttname"><a href="tensor__ref_8h.html">tensor_ref.h</a></div><div class="ttdoc">Defines a structure containing strides, bounds, and a pointer to tensor data. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_af96cd9c8f2454ea118dfa7358dd24824"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#af96cd9c8f2454ea118dfa7358dd24824">cutlass::gemm::GemmDesc::GemmDesc</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmDesc(GemmCoord _problem_size, SType _alpha, TensorRefA const &amp;_A, long long _batch_stride_A, TensorRefB const &amp;_B, long long _batch_stride_B, SType _beta, TensorRefC const &amp;_C, long long _batch_stride_C, TensorRefD const &amp;_D, long long _batch_stride_D)</div><div class="ttdoc">Constructor for strided batch GEMM GEMM. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:179</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_ab384a226ab370fa5e25468fb99c63e30"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30">cutlass::gemm::GemmDesc::C</a></div><div class="ttdeci">TensorRefC C</div><div class="ttdoc">The source matrix C. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:111</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_aa82600c82e17ea1233f2f74be4aa3785"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">cutlass::gemm::GemmDesc::alpha</a></div><div class="ttdeci">SType alpha</div><div class="ttdoc">The alpha scaling values. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:93</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a80b0aae6e67b733ae5bf289d979a7c9b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b">cutlass::gemm::GemmDesc::A</a></div><div class="ttdeci">TensorRefA A</div><div class="ttdoc">The source matrix A. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:96</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a52a5538b1b5208090417cf98d8735e3f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">cutlass::gemm::GemmDesc::problem_size</a></div><div class="ttdeci">GemmCoord problem_size</div><div class="ttdoc">The dimensions of the GEMM. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></div><div class="ttdef"><b>Definition:</b> gemm_coord.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a7b9afcc7e3105da1d002b1baa68d83de"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de">cutlass::gemm::GemmDesc::batch_stride_D</a></div><div class="ttdeci">long long batch_stride_D</div><div class="ttdoc">batch stride for D operand </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:120</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_af0ac89b161f9cad96307f1ff3c80a774"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774">cutlass::gemm::GemmDesc::B</a></div><div class="ttdeci">TensorRefB B</div><div class="ttdoc">The source matrix B. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:102</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_aea3a523662dc801bf9abf205a8e400fe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">cutlass::gemm::GemmDesc::TensorRefA</a></div><div class="ttdeci">TensorRef&lt; AType const, 2 &gt; TensorRefA</div><div class="ttdoc">Tensor reference to A operand. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a7292ac0196f22525b13f223a02271bc3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a7292ac0196f22525b13f223a02271bc3">cutlass::gemm::GemmDesc::GemmDesc</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmDesc(GemmCoord _problem_size, SType _alpha, TensorRefA const &amp;_A, TensorRefB const &amp;_B, SType _beta, TensorRefC const &amp;_C, TensorRefD const &amp;_D)</div><div class="ttdoc">Constructor for basic GEMM with batch count = 1. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:154</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a837a1c513f71ddb2729f8d2e6320b8cd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd">cutlass::gemm::GemmDesc::DType</a></div><div class="ttdeci">DType_ DType</div><div class="ttdoc">Destination accumulator type. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:77</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a8b5a86d14eba0d3c5173753212d62599"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599">cutlass::gemm::GemmDesc::batch_stride_A</a></div><div class="ttdeci">long long batch_stride_A</div><div class="ttdoc">batch stride for A operand </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:99</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_adac41a0baad9e65aa4a6fe12d249a02b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">cutlass::gemm::GemmDesc::beta</a></div><div class="ttdeci">SType beta</div><div class="ttdoc">The beta scaling values. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:108</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html"><div class="ttname"><a href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; AType const, 2 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a258e8c008db365b88654f46df3017ec2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">cutlass::gemm::GemmDesc::SType</a></div><div class="ttdeci">SType_ SType</div><div class="ttdoc">Scalar type for alpha and beta. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:83</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a22642bd88ccb24fec3df87230537c037"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037">cutlass::gemm::GemmDesc::AType</a></div><div class="ttdeci">AType_ AType</div><div class="ttdoc">Source accumulator matrix type. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:59</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_aa46907b69a3b1d0db5c3db1709867704"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704">cutlass::gemm::GemmDesc::CType</a></div><div class="ttdeci">CType_ CType</div><div class="ttdoc">Source accumulator matrix type. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:71</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a7de7de97d237d9dcc0d89de7b04342ab"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">cutlass::gemm::GemmDesc::TensorRefB</a></div><div class="ttdeci">TensorRef&lt; BType const, 2 &gt; TensorRefB</div><div class="ttdoc">Tensor reference to B operand. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:68</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a95e3fe05e4ca0d4019cbef2b1a54419a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a">cutlass::gemm::GemmDesc::batch_stride_B</a></div><div class="ttdeci">long long batch_stride_B</div><div class="ttdoc">batch stride for B operand </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:105</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_adf95451422c529587d55aac0fecf0d9f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f">cutlass::gemm::GemmDesc::D</a></div><div class="ttdeci">TensorRefD D</div><div class="ttdoc">The destination matrix D. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:117</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a1f59ad60a529aa1db6e66ade3cb65052"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">cutlass::gemm::GemmDesc::TensorRefD</a></div><div class="ttdeci">TensorRef&lt; DType, 2 &gt; TensorRefD</div><div class="ttdoc">Tensor reference to D operand. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:80</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a23317c22122ea2721a7a3e0c12e07a49"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49">cutlass::gemm::GemmDesc::BType</a></div><div class="ttdeci">BType_ BType</div><div class="ttdoc">Destination accumulator type. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_ac441e93411ed6954a93ab36f0c747d26"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">cutlass::gemm::GemmCoord::batch</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; batch() const</div><div class="ttdoc">Returns the GEMM batch coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:113</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_ae2708b731cbb99d3e638382ecf599425"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#ae2708b731cbb99d3e638382ecf599425">cutlass::gemm::GemmDesc::GemmDesc</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmDesc()</div><div class="ttdoc">Default ctor. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:128</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_a948af4a974f1aa74d3b6da9cd3e185de"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#a948af4a974f1aa74d3b6da9cd3e185de">cutlass::gemm::GemmDesc::GemmDesc</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmDesc(Coord&lt; 3 &gt; _problem_size, SType _alpha, TensorRefA const &amp;_A, TensorRefB const &amp;_B, SType _beta, TensorRefC const &amp;_C, TensorRefD const &amp;_D)</div><div class="ttdoc">Constructor for basic GEMM with batch count = 1. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:132</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_aad3590dffa2e1ba82c834efae6b35ad2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2">cutlass::gemm::GemmDesc::batch_stride_C</a></div><div class="ttdeci">long long batch_stride_C</div><div class="ttdoc">batch stride for C operand </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:114</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html_abd12fea9779ada02c0f2266909602171"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html#abd12fea9779ada02c0f2266909602171">cutlass::gemm::GemmDesc::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type for dimensions and strides. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:56</div></div>
+<div class="ttc" id="gemm__coord_8h_html"><div class="ttname"><a href="gemm__coord_8h.html">gemm_coord.h</a></div><div class="ttdoc">GemmCoord is a structure derived from Coord&lt;4&gt; that specifies a location within the coordinate system...</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/gemm__epilogue_8h.html b/docs/gemm__epilogue_8h.html
index ad65bf56a9..7c4213e474 100644
--- a/docs/gemm__epilogue_8h.html
+++ b/docs/gemm__epilogue_8h.html
@@ -74,8 +74,7 @@
 <div class="header">
   <div class="summary">
 <a href="#nested-classes">Classes</a> &#124;
-<a href="#namespaces">Namespaces</a> &#124;
-<a href="#func-members">Functions</a>  </div>
+<a href="#namespaces">Namespaces</a>  </div>
   <div class="headertitle">
 <div class="title">gemm_epilogue.h File Reference</div>  </div>
 </div><!--header-->
@@ -83,9 +82,9 @@
 
 <p>Implements the epilogue phase of the GEMM kernel that efficiently updates global memory with the computed matrix product.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
 </div>
 <p><a href="gemm__epilogue_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -100,19 +99,11 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-</table><table class="memberdecls">
-<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
-Functions</h2></td></tr>
-<tr class="memitem:a3e30ae89e6f7501725028144cd2d88cb"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
-<tr class="memitem:a3e30ae89e6f7501725028144cd2d88cb"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">cutlass::gemm::is_zero</a> (T x)</td></tr>
-<tr class="separator:a3e30ae89e6f7501725028144cd2d88cb"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4a12fcfae60f26efa47bf0a79483d8ac"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a4a12fcfae60f26efa47bf0a79483d8ac">cutlass::gemm::is_zero</a> (half x)</td></tr>
-<tr class="separator:a4a12fcfae60f26efa47bf0a79483d8ac"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__epilogue_8h_source.html b/docs/gemm__epilogue_8h_source.html
index c7be2683bd..87add8a9d0 100644
--- a/docs/gemm__epilogue_8h_source.html
+++ b/docs/gemm__epilogue_8h_source.html
@@ -76,53 +76,46 @@
 <div class="title">gemm_epilogue.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="gemm__epilogue_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">   42</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">is_zero</a>(T x) {</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;  <span class="keywordflow">return</span> x == T(0);</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;}</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)</span></div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html#a4a12fcfae60f26efa47bf0a79483d8ac">   47</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">is_zero</a>(half x) { <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span>int16_t&amp;<span class="keyword">&gt;</span>(x) == int16_t(0); }</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmEpilogueTraits_&gt;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">   53</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a> {</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">   55</a></span>&#160;  <span class="keyword">typedef</span> GemmEpilogueTraits_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">Traits</a>;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">   57</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a>;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">   59</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::SharedStorage <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a>;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">   62</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::OutputTile <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">OutputTile</a>;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">   64</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Iterations <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">Iterations</a>;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">   66</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Accumulators <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a>;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">   68</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">Scalar</a>;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">   70</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Functor <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a>;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">   73</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Iterations::kD == 1 &amp;&amp; Iterations::kC == 1, <span class="stringliteral">&quot;Unsupported 3D/4D shapes&quot;</span>);</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::GlobalLoadIteratorC <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">GlobalLoadIteratorC</a>;</div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">   78</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::GlobalTransformerC <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">GlobalTransformerC</a>;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">   80</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::GlobalTransformerD <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">GlobalTransformerD</a>;</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">   82</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::GlobalStoreIteratorD <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">GlobalStoreIteratorD</a>;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">   84</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::SharedStoreIteratorD <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">SharedStoreIteratorD</a>;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">   86</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::SharedStoreTransformerD <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a>;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">   88</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::SharedLoadIteratorD <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">SharedLoadIteratorD</a>;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">   90</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename SharedLoadIteratorD::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">SharedLoadTransformerD</a>;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">   93</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Index <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a>;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">   96</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalLoadIteratorC::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">ScalarC</a>;</div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">   98</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalStoreIteratorD::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">ScalarD</a>;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">  101</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">GemmEpilogue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> <span class="keyword">const</span>&amp; params_,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a>&amp; shared_storage_,</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> m_,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> n_)</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>(params_), <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a>(shared_storage_), <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">m</a>(m_), <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">n</a>(n_) {}</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">  108</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">epilogue</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; block, <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a>&amp; accumulators) {</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">is_zero</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.functor.beta)) {</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;      epilogue_with_or_without_beta&lt;true&gt;(block, accumulators);</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;      epilogue_with_or_without_beta&lt;false&gt;(block, accumulators);</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;    }</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  }</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> kBetaIsZero_&gt;</div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">  117</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">epilogue_with_or_without_beta</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; block,</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;                                                    <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a>&amp; accumulators) {</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> bounds = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a>(0, <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">n</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">m</a>);</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;    <span class="comment">// The functor.</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a> functor(<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.functor);</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;    <span class="comment">// The C fragment.</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;    <span class="keyword">typename</span> GlobalLoadIteratorC::Fragment fragment_c;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;    <span class="comment">// The transformed C fragment.</span></div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;    <span class="keyword">typename</span> GlobalTransformerC::OutputFragment transformed_c;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      <span class="comment">// Compute pointer and predicate offsets for C and D global iterators.</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> pointer_offset =</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;          ((<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_d.inc_h * (GlobalStoreIteratorD::Iterations::kH - 1) +</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_d.inc_advance) *</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;               Iterations::kW +</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;           <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.stride_h) *</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;          h;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> predicate_offset =</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;          ((<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_d.predicate_inc_h * (GlobalStoreIteratorD::Iterations::kH - 1) +</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_d.predicate_inc_advance) *</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;               Iterations::kW +</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;           Traits::Delta::kH) *</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;          h;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;      <span class="comment">// The iterator to load the elements of the C matrix.</span></div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">GlobalLoadIteratorC</a> global_load_iterator(</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_c, bounds, block, pointer_offset, predicate_offset);</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;      <span class="comment">// The transformer for C.</span></div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">GlobalTransformerC</a> transformer_c;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;      <span class="comment">// The transformer for D.</span></div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">GlobalTransformerD</a> transformer_d;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <span class="comment">// The iterator to store into the D matrix.</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">GlobalStoreIteratorD</a> global_store_iterator(</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_d, bounds, block, pointer_offset, predicate_offset);</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w) {</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;        <span class="comment">// Load the C matrix into fragment.</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;        <span class="keywordflow">if</span> (!kBetaIsZero_) {</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;          <a class="code" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">iterator_load</a>(global_load_iterator, fragment_c);</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;        }</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;        <span class="comment">// Make sure we can write to shared memory.</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">shared_load_fence</a>();</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;        <span class="comment">// Copy the accumulators to shared memory.</span></div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> offset = (h * Iterations::kW + w) * SharedStoreIteratorD::Fragment::kElements;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a> shared_store_transformer;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;        <span class="keyword">typename</span> SharedStoreTransformerD::OutputFragment shared_store_transformed_d;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;        shared_store_transformer.transform(accumulators, offset, shared_store_transformed_d);</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">SharedStoreIteratorD</a> shared_store_iterator(<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.shared_store_iterator_d,</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;                                                   <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a>.shared_stream.store);</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;        <a class="code" href="namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109">shared_iterator_store</a>(shared_store_iterator, shared_store_transformed_d);</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;        <span class="comment">// Make sure the data is in shared memory.</span></div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">shared_store_fence</a>();</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;        <span class="comment">// Copy the accumulators back to registers from shared memory.</span></div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">SharedLoadIteratorD</a> shared_load_iterator(<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.shared_load_iterator_d,</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;                                                 <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a>.shared_stream.load);</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;        <span class="keyword">typename</span> SharedLoadIteratorD::Fragment fetched_d;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;        <a class="code" href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">shared_iterator_load</a>(shared_load_iterator, fetched_d);</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;        <span class="comment">// Do the math.</span></div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;        <span class="keyword">typename</span> GlobalTransformerD::InputFragment fragment_d;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;        <span class="keywordflow">if</span> (kBetaIsZero_) {</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;          functor.evaluate(fetched_d, fragment_d);</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;        } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;          <span class="comment">// Transform C fragment.</span></div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;          transformer_c.transform(fragment_c, transformed_c);</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;          <span class="comment">// Do the math.</span></div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;          functor.evaluate(fetched_d, transformed_c, fragment_d);</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;        }</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;        <span class="comment">// Transform D fragment.</span></div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;        <span class="keyword">typename</span> GlobalTransformerD::OutputFragment transformed_d;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;        transformer_d.transform(fragment_d, transformed_d);</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;        <span class="comment">// Copy the results to global memory.</span></div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;        <a class="code" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">iterator_store</a>(global_store_iterator, transformed_d);</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;      }</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;    }</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  }</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;</div><div class="line"><a name="l00209"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">  209</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">shared_load_fence</a>() { __syncthreads(); }</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00212"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">  212</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">shared_store_fence</a>() { __syncthreads(); }</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;</div><div class="line"><a name="l00215"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">  215</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>;</div><div class="line"><a name="l00217"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">  217</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a>;</div><div class="line"><a name="l00219"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">  219</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">m</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">n</a>;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;};</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a4887b56a96694ce6350db77f78bb505f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">cutlass::gemm::GemmEpilogue::ScalarD</a></div><div class="ttdeci">GlobalStoreIteratorD::Scalar ScalarD</div><div class="ttdoc">The scalar for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:98</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_aab0a964efe223c5c29bc816c393b5a9a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">cutlass::gemm::GemmEpilogue::SharedStoreIteratorD</a></div><div class="ttdeci">Traits::SharedStoreIteratorD SharedStoreIteratorD</div><div class="ttdoc">The iterator to store D in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:84</div></div>
+<a href="gemm__epilogue_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmEpilogueTraits_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">   42</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a> {</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">   44</a></span>&#160;  <span class="keyword">typedef</span> GemmEpilogueTraits_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">Traits</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">   46</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a>;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">   48</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::SharedStorage <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a>;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">   51</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::OutputTile <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">OutputTile</a>;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">   53</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Iterations <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">Iterations</a>;</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">   55</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Accumulators <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a>;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">   57</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">Scalar</a>;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">   59</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Functor <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a>;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">   62</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Iterations::kD == 1 &amp;&amp; Iterations::kC == 1, <span class="stringliteral">&quot;Unsupported 3D/4D shapes&quot;</span>);</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::GlobalLoadIteratorC <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">GlobalLoadIteratorC</a>;</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">   67</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::GlobalTransformerC <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">GlobalTransformerC</a>;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">   69</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::GlobalTransformerD <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">GlobalTransformerD</a>;</div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">   71</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::GlobalStoreIteratorD <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">GlobalStoreIteratorD</a>;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">   73</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::SharedStoreIteratorD <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">SharedStoreIteratorD</a>;</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">   75</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::SharedStoreTransformerD <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a>;</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">   77</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::SharedLoadStreamD <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">SharedLoadStreamD</a>;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">   80</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Index <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">   83</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalLoadIteratorC::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">ScalarC</a>;</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">   85</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalStoreIteratorD::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">ScalarD</a>;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">   88</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">GemmEpilogue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> <span class="keyword">const</span>&amp; params_,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a>&amp; shared_storage_,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;                              <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; _problem_size)</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>(params_), <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a>(shared_storage_), <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">problem_size</a>(_problem_size), <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a>(params_.<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a>) {}</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">   94</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">epilogue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a>&amp; accumulators,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;                               <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; block = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0),</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;                               <span class="keywordtype">int</span> batch_id = 0) {</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a>.source_required()) {</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;      epilogue_with_or_without_beta&lt;true&gt;(accumulators, block, batch_id);</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;      epilogue_with_or_without_beta&lt;false&gt;(accumulators, block, batch_id);</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;    }</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  }</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> kSourceRequired&gt;</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">  105</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">epilogue_with_or_without_beta</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a>&amp; accumulators,</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;                                                    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; block,</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;                                                    <span class="keywordtype">int</span> batch_id) {</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;    <span class="comment">// The C fragment.</span></div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;    <span class="keyword">typename</span> GlobalLoadIteratorC::Fragment fragment_c;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    <span class="comment">// The transformed C fragment.</span></div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;    <span class="keyword">typename</span> GlobalTransformerC::OutputFragment transformed_c;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;      <span class="comment">// Compute pointer and predicate offsets for C and D global iterators.</span></div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> pointer_offset =</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;          ((<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_d.inc_h * (GlobalStoreIteratorD::Iterations::kH - 1) +</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_d.inc_advance) *</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;               Iterations::kW +</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;           <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.stride_h) *</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;          h;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> predicate_offset =</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;          ((<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_d.predicate_inc_h * (GlobalStoreIteratorD::Iterations::kH - 1) +</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_d.predicate_inc_advance) *</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;               Iterations::kW +</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;           Traits::Delta::kH) *</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;          h;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;      <span class="comment">// The iterator to load the elements of the C matrix.</span></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">GlobalLoadIteratorC</a> global_load_iterator(</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_c, <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">problem_size</a>, block, pointer_offset, predicate_offset);</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;      <span class="comment">// update C pointer offset based on batch_id and batch_stride_offset</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;      <span class="comment">//global_load_iterator.add_pointer_offset(batch_id * params.batch_stride_offset_c);</span></div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      global_load_iterator += <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(batch_id, 0, 0);</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;      <span class="comment">// The transformer for C.</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">GlobalTransformerC</a> transformer_c;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;      <span class="comment">// The transformer for D.</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">GlobalTransformerD</a> transformer_d;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      <span class="comment">// The iterator to store into the D matrix.</span></div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">GlobalStoreIteratorD</a> global_store_iterator(</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.iterator_d, <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">problem_size</a>, block, pointer_offset, predicate_offset);</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;      <span class="comment">// update D pointer offset based on batch_id and batch_stride_offset</span></div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;      <span class="comment">//global_store_iterator.add_pointer_offset(batch_id * params.batch_stride_offset_d);</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      global_store_iterator += <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(batch_id, 0, 0);</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a> shared_store_transformer;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;      <span class="keyword">typename</span> SharedStoreTransformerD::OutputFragment shared_store_transformed_d;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">SharedStoreIteratorD</a> shared_store_iterator(</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.shared_store_iterator_d,</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;          reinterpret_cast&lt;typename SharedStoreIteratorD::Scalar*&gt;(<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a>.data()));</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">SharedLoadStreamD</a> shared_load_stream(</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>.shared_load_stream_d,</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;          reinterpret_cast&lt;typename SharedLoadStreamD::Scalar*&gt;(<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a>.data()));</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;      <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w) {</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;        <span class="comment">// Load the C matrix into fragment.</span></div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;        <span class="keywordflow">if</span> (kSourceRequired) {</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;          global_load_iterator.load_post_increment(fragment_c);</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;        }</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;        <span class="comment">// Make sure we can write to shared memory.</span></div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">shared_load_fence</a>();</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;        <span class="comment">// Copy the accumulators to shared memory.</span></div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> offset = (h * Iterations::kW + w) * SharedStoreIteratorD::Fragment::kElements;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;        shared_store_transformer.transform(accumulators, offset, shared_store_transformed_d);</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;        shared_store_iterator.store_post_increment(shared_store_transformed_d);</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;        <span class="comment">// Make sure the data is in shared memory.</span></div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">shared_store_fence</a>();</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;        <span class="comment">// Copy the accumulators back to registers from shared memory.</span></div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;        shared_load_stream.copy();</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;        shared_load_stream.commit();</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;        <span class="comment">// Do the math.</span></div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;        <span class="keyword">typename</span> GlobalTransformerD::InputFragment fragment_d;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;        <span class="keywordflow">if</span> (kSourceRequired) {</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;          <span class="comment">// Transform C fragment.</span></div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;          transformer_c.transform(fragment_c, transformed_c);</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;          <span class="comment">// Do the math.</span></div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a>.evaluate(shared_load_stream.fragment(), transformed_c, fragment_d);</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;        } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a>.evaluate(shared_load_stream.fragment(), fragment_d);</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;        }</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;        <span class="comment">// Transform D fragment.</span></div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;        <span class="keyword">typename</span> GlobalTransformerD::OutputFragment global_transformed_d;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;        transformer_d.transform(fragment_d, global_transformed_d);</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;        <span class="comment">// Copy the results to global memory.</span></div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;        global_store_iterator.store_post_increment(global_transformed_d);</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;      }</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;    }</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;  }</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">  206</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">shared_load_fence</a>() { __syncthreads(); }</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;</div><div class="line"><a name="l00209"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">  209</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">shared_store_fence</a>() { __syncthreads(); }</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00212"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">  212</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a>;</div><div class="line"><a name="l00214"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">  214</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a>;</div><div class="line"><a name="l00216"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">  216</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">problem_size</a>;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;  <span class="comment">// The functor.</span></div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">  218</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a>;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;};</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a4887b56a96694ce6350db77f78bb505f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">cutlass::gemm::GemmEpilogue::ScalarD</a></div><div class="ttdeci">GlobalStoreIteratorD::Scalar ScalarD</div><div class="ttdoc">The scalar for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:85</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a6bea57249e3645a4b08a11619cb1687e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">cutlass::gemm::GemmEpilogue::problem_size</a></div><div class="ttdeci">Coord&lt; 3 &gt; problem_size</div><div class="ttdoc">The dimensions of the GEMM. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:216</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_aab0a964efe223c5c29bc816c393b5a9a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">cutlass::gemm::GemmEpilogue::SharedStoreIteratorD</a></div><div class="ttdeci">Traits::SharedStoreIteratorD SharedStoreIteratorD</div><div class="ttdoc">The iterator to store D in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:73</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="namespacecutlass_html_abcec976c59cab75ca55b338d125154a3"><div class="ttname"><a href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">cutlass::shared_iterator_load</a></div><div class="ttdeci">CUTLASS_DEVICE void shared_iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdoc">Loads a fragment from a shared memory input iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:75</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ae5209fa80705442693833c63d535161e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">cutlass::gemm::GemmEpilogue::Params</a></div><div class="ttdeci">Traits::Params Params</div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:57</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:53</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a0c24dce365565f75e7edc1de1cb50ea4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">cutlass::gemm::GemmEpilogue::epilogue_with_or_without_beta</a></div><div class="ttdeci">CUTLASS_DEVICE void epilogue_with_or_without_beta(Coord&lt; 3 &gt; const &amp;block, Accumulators &amp;accumulators)</div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:117</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ab10147070c3a38fca75397f55dc51925"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">cutlass::gemm::GemmEpilogue::GemmEpilogue</a></div><div class="ttdeci">CUTLASS_DEVICE GemmEpilogue(Params const &amp;params_, SharedStorage &amp;shared_storage_, Index m_, Index n_)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:101</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ae5209fa80705442693833c63d535161e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">cutlass::gemm::GemmEpilogue::Params</a></div><div class="ttdeci">Traits::Params Params</div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a7af2eb421840e037263e6a144cca5c32"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">cutlass::gemm::GemmEpilogue::epilogue_with_or_without_beta</a></div><div class="ttdeci">CUTLASS_DEVICE void epilogue_with_or_without_beta(Accumulators &amp;accumulators, Coord&lt; 3 &gt; const &amp;block, int batch_id)</div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:105</div></div>
 <div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1Copy_html"><div class="ttname"><a href="structcutlass_1_1Copy.html">cutlass::Copy</a></div><div class="ttdef"><b>Definition:</b> convert.h:69</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ac36dad8a7b6bc7fc6ef88e44068468dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">cutlass::gemm::GemmEpilogue::SharedStorage</a></div><div class="ttdeci">Traits::SharedStorage SharedStorage</div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:59</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a32f618ff19d984447fba7355d46a69a7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">cutlass::gemm::GemmEpilogue::GlobalTransformerD</a></div><div class="ttdeci">Traits::GlobalTransformerD GlobalTransformerD</div><div class="ttdoc">The transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:80</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a92a135fac401d43a8d2f14982d90274b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">cutlass::gemm::GemmEpilogue::OutputTile</a></div><div class="ttdeci">Traits::OutputTile OutputTile</div><div class="ttdoc">The output tile. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_afe6bebd94e3379c94054d04c5196edce"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">cutlass::gemm::GemmEpilogue::Accumulators</a></div><div class="ttdeci">Traits::Accumulators Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:66</div></div>
-<div class="ttc" id="cutlass_8h_html_a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><div class="ttname"><a href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:60</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a9b5e42f222fec98ff479bc1650221b84"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">cutlass::gemm::GemmEpilogue::shared_load_fence</a></div><div class="ttdeci">CUTLASS_DEVICE void shared_load_fence()</div><div class="ttdoc">The memory fence for shared loads. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:209</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a442b5b5688cd658c3b3476650c00281e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">cutlass::gemm::GemmEpilogue::shared_storage</a></div><div class="ttdeci">SharedStorage &amp; shared_storage</div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:217</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a645ab6e9e63163ee6bf536717a30fb1b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">cutlass::gemm::GemmEpilogue::Traits</a></div><div class="ttdeci">GemmEpilogueTraits_ Traits</div><div class="ttdoc">The traits class. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:55</div></div>
-<div class="ttc" id="namespacecutlass_1_1gemm_html_a3e30ae89e6f7501725028144cd2d88cb"><div class="ttname"><a href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">cutlass::gemm::is_zero</a></div><div class="ttdeci">CUTLASS_DEVICE bool is_zero(T x)</div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:42</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a81b028a18df51d3caa1b0ba0c990e362"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">cutlass::gemm::GemmEpilogue::params</a></div><div class="ttdeci">Params const  &amp; params</div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:215</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a4a0b439f8a57d8e67174ecbd96183070"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">cutlass::gemm::GemmEpilogue::SharedLoadIteratorD</a></div><div class="ttdeci">Traits::SharedLoadIteratorD SharedLoadIteratorD</div><div class="ttdoc">The iterator to load D in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:88</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a07c93d583bfddd8f916fba6ef809832e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">cutlass::gemm::GemmEpilogue::Index</a></div><div class="ttdeci">Traits::Index Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:93</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a9063e7fc044a679652d5a3a31aa77e7c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">cutlass::gemm::GemmEpilogue::SharedStoreTransformerD</a></div><div class="ttdeci">Traits::SharedStoreTransformerD SharedStoreTransformerD</div><div class="ttdoc">The shared store transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:86</div></div>
-<div class="ttc" id="namespacecutlass_html_a705c6d75513e112d2731d1c40f4cf109"><div class="ttname"><a href="namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109">cutlass::shared_iterator_store</a></div><div class="ttdeci">CUTLASS_DEVICE void shared_iterator_store(OutputIterator &amp;iterator, Fragment const &amp;fragment)</div><div class="ttdoc">Stores a fragment to a shared memory output iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:228</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a1c766374d900535c944cf2a2de6925f4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">cutlass::gemm::GemmEpilogue::GlobalStoreIteratorD</a></div><div class="ttdeci">Traits::GlobalStoreIteratorD GlobalStoreIteratorD</div><div class="ttdoc">The iterator for D in global memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:82</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:48</div></div>
-<div class="ttc" id="namespacecutlass_html_a0cb5bdf7bef498705c51a9cdcbef71f9"><div class="ttname"><a href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">cutlass::iterator_store</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void iterator_store(OutputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdoc">Stores a fragment to an output iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:193</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_abb0741601652df8fdf927d49c2c0e4d0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">cutlass::gemm::GemmEpilogue::ScalarC</a></div><div class="ttdeci">GlobalLoadIteratorC::Scalar ScalarC</div><div class="ttdoc">The scalar for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:96</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a9cc371cd2f1a9485583afdacbb7403ea"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">cutlass::gemm::GemmEpilogue::n</a></div><div class="ttdeci">Index n</div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:219</div></div>
-<div class="ttc" id="namespacecutlass_html_a45dd7add04736cb5c3e69991d2f210be"><div class="ttname"><a href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">cutlass::iterator_load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdoc">Loads a fragment from an input iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:41</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a6c30bea1b2a1bd2e981025851d5b12d1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">cutlass::gemm::GemmEpilogue::Functor</a></div><div class="ttdeci">Traits::Functor Functor</div><div class="ttdoc">The functor in charge of the math. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a8e3c978da6ed56239783bf4db0a936ae"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">cutlass::gemm::GemmEpilogue::Iterations</a></div><div class="ttdeci">Traits::Iterations Iterations</div><div class="ttdoc">The number of iterations. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ae1983e37454ed14272b23b964614c54c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">cutlass::gemm::GemmEpilogue::epilogue</a></div><div class="ttdeci">CUTLASS_DEVICE void epilogue(Coord&lt; 3 &gt; const &amp;block, Accumulators &amp;accumulators)</div><div class="ttdoc">Execute the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:108</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a5aa254702fcf24630e04ceb174aa3d57"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">cutlass::gemm::GemmEpilogue::functor</a></div><div class="ttdeci">Functor functor</div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:218</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ac36dad8a7b6bc7fc6ef88e44068468dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">cutlass::gemm::GemmEpilogue::SharedStorage</a></div><div class="ttdeci">Traits::SharedStorage SharedStorage</div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a32f618ff19d984447fba7355d46a69a7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">cutlass::gemm::GemmEpilogue::GlobalTransformerD</a></div><div class="ttdeci">Traits::GlobalTransformerD GlobalTransformerD</div><div class="ttdoc">The transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_af91ebe8d2ed73808b9ea8846c140d3f8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">cutlass::gemm::GemmEpilogue::GemmEpilogue</a></div><div class="ttdeci">CUTLASS_DEVICE GemmEpilogue(Params const &amp;params_, SharedStorage &amp;shared_storage_, Coord&lt; 3 &gt; const &amp;_problem_size)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a92a135fac401d43a8d2f14982d90274b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">cutlass::gemm::GemmEpilogue::OutputTile</a></div><div class="ttdeci">Traits::OutputTile OutputTile</div><div class="ttdoc">The output tile. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:51</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_afe6bebd94e3379c94054d04c5196edce"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">cutlass::gemm::GemmEpilogue::Accumulators</a></div><div class="ttdeci">Traits::Accumulators Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:55</div></div>
+<div class="ttc" id="cutlass_8h_html_a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><div class="ttname"><a href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a9b5e42f222fec98ff479bc1650221b84"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">cutlass::gemm::GemmEpilogue::shared_load_fence</a></div><div class="ttdeci">CUTLASS_DEVICE void shared_load_fence()</div><div class="ttdoc">The memory fence for shared loads. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:206</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a442b5b5688cd658c3b3476650c00281e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">cutlass::gemm::GemmEpilogue::shared_storage</a></div><div class="ttdeci">SharedStorage &amp; shared_storage</div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:214</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a645ab6e9e63163ee6bf536717a30fb1b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">cutlass::gemm::GemmEpilogue::Traits</a></div><div class="ttdeci">GemmEpilogueTraits_ Traits</div><div class="ttdoc">The traits class. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a81b028a18df51d3caa1b0ba0c990e362"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">cutlass::gemm::GemmEpilogue::params</a></div><div class="ttdeci">Params const  &amp; params</div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:212</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a07c93d583bfddd8f916fba6ef809832e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">cutlass::gemm::GemmEpilogue::Index</a></div><div class="ttdeci">Traits::Index Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:80</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a9063e7fc044a679652d5a3a31aa77e7c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">cutlass::gemm::GemmEpilogue::SharedStoreTransformerD</a></div><div class="ttdeci">Traits::SharedStoreTransformerD SharedStoreTransformerD</div><div class="ttdoc">The shared store transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:75</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a1c766374d900535c944cf2a2de6925f4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">cutlass::gemm::GemmEpilogue::GlobalStoreIteratorD</a></div><div class="ttdeci">Traits::GlobalStoreIteratorD GlobalStoreIteratorD</div><div class="ttdoc">The iterator for D in global memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:71</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_abb0741601652df8fdf927d49c2c0e4d0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">cutlass::gemm::GemmEpilogue::ScalarC</a></div><div class="ttdeci">GlobalLoadIteratorC::Scalar ScalarC</div><div class="ttdoc">The scalar for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:83</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a8e5d38a7795b50a021fc43dc7424288b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">cutlass::gemm::GemmEpilogue::SharedLoadStreamD</a></div><div class="ttdeci">Traits::SharedLoadStreamD SharedLoadStreamD</div><div class="ttdoc">The iterator to load D in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:77</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a6c30bea1b2a1bd2e981025851d5b12d1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">cutlass::gemm::GemmEpilogue::Functor</a></div><div class="ttdeci">Traits::Functor Functor</div><div class="ttdoc">The functor in charge of the math. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:59</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a6f1f96715425b7196e960907676a7db3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">cutlass::gemm::GemmEpilogue::epilogue</a></div><div class="ttdeci">CUTLASS_DEVICE void epilogue(Accumulators &amp;accumulators, Coord&lt; 3 &gt; const &amp;block=make_Coord(0, 0, 0), int batch_id=0)</div><div class="ttdoc">Execute the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a8e3c978da6ed56239783bf4db0a936ae"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">cutlass::gemm::GemmEpilogue::Iterations</a></div><div class="ttdeci">Traits::Iterations Iterations</div><div class="ttdoc">The number of iterations. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:53</div></div>
 <div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a132cabbc1402c87c7b35dea427001a13"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">cutlass::gemm::GemmEpilogue::SharedLoadTransformerD</a></div><div class="ttdeci">Copy&lt; typename SharedLoadIteratorD::Fragment &gt; SharedLoadTransformerD</div><div class="ttdoc">The shared load transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:90</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a0d38914bf97084e04102e7897aee4295"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">cutlass::gemm::GemmEpilogue::Scalar</a></div><div class="ttdeci">Traits::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:68</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a0d38914bf97084e04102e7897aee4295"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">cutlass::gemm::GemmEpilogue::Scalar</a></div><div class="ttdeci">Traits::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:57</div></div>
 <div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ac344bf5ca318dc343bd6fa6bf52d2e22"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">cutlass::gemm::GemmEpilogue::m</a></div><div class="ttdeci">Index m</div><div class="ttdoc">The dimensions of the GEMM. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:219</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ac1b2a16b4ccf3e9617faf4d8a2c43691"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">cutlass::gemm::GemmEpilogue::shared_store_fence</a></div><div class="ttdeci">CUTLASS_DEVICE void shared_store_fence()</div><div class="ttdoc">The memory fence for shared stores. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:212</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a41edfd24b7dd2759f8b72ae8534182a9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">cutlass::gemm::GemmEpilogue::GlobalTransformerC</a></div><div class="ttdeci">Traits::GlobalTransformerC GlobalTransformerC</div><div class="ttdoc">The transformer for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:78</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_aecb5429363c7156ee3ad596fe250120a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">cutlass::gemm::GemmEpilogue::GlobalLoadIteratorC</a></div><div class="ttdeci">Traits::GlobalLoadIteratorC GlobalLoadIteratorC</div><div class="ttdoc">We do not support 3D or 4D shapes. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:73</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ac1b2a16b4ccf3e9617faf4d8a2c43691"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">cutlass::gemm::GemmEpilogue::shared_store_fence</a></div><div class="ttdeci">CUTLASS_DEVICE void shared_store_fence()</div><div class="ttdoc">The memory fence for shared stores. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:209</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a41edfd24b7dd2759f8b72ae8534182a9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">cutlass::gemm::GemmEpilogue::GlobalTransformerC</a></div><div class="ttdeci">Traits::GlobalTransformerC GlobalTransformerC</div><div class="ttdoc">The transformer for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:67</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_aecb5429363c7156ee3ad596fe250120a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">cutlass::gemm::GemmEpilogue::GlobalLoadIteratorC</a></div><div class="ttdeci">Traits::GlobalLoadIteratorC GlobalLoadIteratorC</div><div class="ttdoc">We do not support 3D or 4D shapes. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:62</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__epilogue__traits_8h.html b/docs/gemm__epilogue__traits_8h.html
index cdb9863633..3dceb74429 100644
--- a/docs/gemm__epilogue__traits_8h.html
+++ b/docs/gemm__epilogue__traits_8h.html
@@ -82,27 +82,27 @@
 
 <p>Defines structural properties of the GEMM epilogue.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__global__stream_8h_source.html">cutlass/gemm/gemm_global_stream.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__shared__stream_8h_source.html">cutlass/gemm/gemm_shared_stream.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="linear__scaling_8h_source.html">cutlass/gemm/linear_scaling.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__stream_8h_source.html">cutlass/gemm/gemm_global_stream.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__shared__stream_8h_source.html">cutlass/gemm/gemm_shared_stream.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="linear__scaling_8h_source.html">cutlass/gemm/linear_scaling.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&quot;</code><br />
 </div>
 <p><a href="gemm__epilogue__traits_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared memory storage to exchange data.  <a href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared memory to swizzle the data in the epilogue.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td></tr>
@@ -120,7 +120,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__epilogue__traits_8h_source.html b/docs/gemm__epilogue__traits_8h_source.html
index 3e10e801ba..2471d16ad9 100644
--- a/docs/gemm__epilogue__traits_8h_source.html
+++ b/docs/gemm__epilogue__traits_8h_source.html
@@ -76,83 +76,86 @@
 <div class="title">gemm_epilogue_traits.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="gemm__epilogue__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__stream_8h.html">cutlass/gemm/gemm_global_stream.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__shared__stream_8h.html">cutlass/gemm/gemm_shared_stream.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="linear__scaling_8h.html">cutlass/gemm/linear_scaling.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    <span class="keyword">typename</span> Accumulators_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    <span class="keyword">typename</span> GlobalLoadIteratorC_,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <span class="keyword">typename</span> GlobalTransformerC_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    <span class="keyword">typename</span> GlobalTransformerD_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;    <span class="keyword">typename</span> GlobalStoreIteratorD_,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;    <span class="keyword">typename</span> SharedStoreIteratorD_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <span class="keyword">typename</span> SharedStoreTransformerD_,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    <span class="keyword">typename</span> SharedLoadIteratorD_,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;    <span class="keyword">typename</span> Iterations_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keyword">typename</span> Delta_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    <span class="keyword">typename</span> Functor_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">   70</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">GemmEpilogueTraits</a> {</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">   73</a></span>&#160;<span class="comment"></span>  <span class="keyword">typedef</span> OutputTile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">OutputTile</a>;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">   76</a></span>&#160;  <span class="keyword">typedef</span> Accumulators_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">Accumulators</a>;</div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">   78</a></span>&#160;  <span class="keyword">typedef</span> GlobalLoadIteratorC_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">GlobalLoadIteratorC</a>;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">   80</a></span>&#160;  <span class="keyword">typedef</span> GlobalTransformerC_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">GlobalTransformerC</a>;</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">   82</a></span>&#160;  <span class="keyword">typedef</span> GlobalTransformerD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">GlobalTransformerD</a>;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">   84</a></span>&#160;  <span class="keyword">typedef</span> GlobalStoreIteratorD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">GlobalStoreIteratorD</a>;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">   86</a></span>&#160;  <span class="keyword">typedef</span> SharedStoreIteratorD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">SharedStoreIteratorD</a>;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">   88</a></span>&#160;  <span class="keyword">typedef</span> SharedStoreTransformerD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">SharedStoreTransformerD</a>;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">   90</a></span>&#160;  <span class="keyword">typedef</span> SharedLoadIteratorD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">SharedLoadIteratorD</a>;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">   92</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">Iterations</a>;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">   94</a></span>&#160;  <span class="keyword">typedef</span> Delta_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">Delta</a>;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">   97</a></span>&#160;  <span class="keyword">typedef</span> Functor_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">Functor</a>;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">   99</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a>;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">  102</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Iterations::kD == 1 &amp;&amp; Iterations::kC == 1, <span class="stringliteral">&quot;Unsupported 3D/4D shapes&quot;</span>);</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Functor::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">Scalar</a>;</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">  107</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalLoadIteratorC::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">ScalarC</a>;</div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">  109</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalStoreIteratorD::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">ScalarD</a>;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">  112</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">Params</a> {</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2">  114</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae0fdc7426b22ff2c20f077e251ebc823">stride_h</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2">stride_w</a>;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a7350ceefcd09a9e3662ca30b780cc2ce">  116</a></span>&#160;    <span class="keyword">typename</span> GlobalLoadIteratorC::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a7350ceefcd09a9e3662ca30b780cc2ce">iterator_c</a>;</div><div class="line"><a name="l00118"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a987c179a7e73c2572fe8aef3255668f7">  118</a></span>&#160;    <span class="keyword">typename</span> GlobalStoreIteratorD::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a987c179a7e73c2572fe8aef3255668f7">iterator_d</a>;</div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#af79a0c74a4c30ccec59b393721b5dfc1">  120</a></span>&#160;    <span class="keyword">typename</span> SharedStoreIteratorD::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#af79a0c74a4c30ccec59b393721b5dfc1">shared_store_iterator_d</a>;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a1742e43c128665f0ca39cb578291df81">  122</a></span>&#160;    <span class="keyword">typename</span> SharedLoadIteratorD::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a1742e43c128665f0ca39cb578291df81">shared_load_iterator_d</a>;</div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#afa888d993b86ed88950a9e5ab7edeb06">  124</a></span>&#160;    <span class="keyword">typename</span> Functor::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#afa888d993b86ed88950a9e5ab7edeb06">functor</a>;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmDesc_&gt;</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a3e9d0fd2989fea776b0cab0e0f2813ce">  128</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a3e9d0fd2989fea776b0cab0e0f2813ce">initialize</a>(GemmDesc_ <span class="keyword">const</span>&amp; desc) {</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;      <span class="comment">// The parameters for the functor.</span></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;      <span class="keywordtype">int</span> error_code = <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#afa888d993b86ed88950a9e5ab7edeb06">functor</a>.initialize(desc);</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      <span class="keywordflow">if</span> (error_code) {</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;        <span class="keywordflow">return</span> error_code;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;      }</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      <span class="comment">// At the end of the H iteration, we jump over a number of columns.</span></div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;      this-&gt;stride_h = desc.ldd * Delta::kH;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;      <span class="comment">// Nothing to do here.</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      this-&gt;stride_w = 0;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <span class="comment">// Setup the params for the global memory iterator for C.</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      error_code = <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a7350ceefcd09a9e3662ca30b780cc2ce">iterator_c</a>.initialize(</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;          reinterpret_cast&lt;ScalarC const*&gt;(desc.d_c), desc.ldc, desc.n, <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2">stride_w</a>, Delta::kW);</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;      <span class="keywordflow">if</span> (error_code) {</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;        <span class="keywordflow">return</span> error_code;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;      }</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      <span class="comment">// Setup the params for the global memory iterator for D.</span></div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a987c179a7e73c2572fe8aef3255668f7">iterator_d</a>.initialize(</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;          reinterpret_cast&lt;ScalarD*&gt;(desc.d_d), desc.ldd, desc.n, <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2">stride_w</a>, Delta::kW);</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    }</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  };</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;</div><div class="line"><a name="l00154"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">  154</a></span>&#160;  <span class="keyword">union </span><a class="code" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a> {</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;    <span class="comment">// The storage for the store iterator.</span></div><div class="line"><a name="l00156"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a1f31090613c4e6f0895f598880d6c4e5">  156</a></span>&#160;    <span class="keyword">typename</span> SharedStoreIteratorD::SharedStorage <a class="code" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a1f31090613c4e6f0895f598880d6c4e5">store</a>;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    <span class="comment">// The storage for the store iterator.</span></div><div class="line"><a name="l00158"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#aea5ed35a44624684ffa9ada9d09a8893">  158</a></span>&#160;    <span class="keyword">typename</span> SharedLoadIteratorD::SharedStorage <a class="code" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#aea5ed35a44624684ffa9ada9d09a8893">load</a>;</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;  };</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">  162</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">SharedStorage</a> {</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <span class="comment">// The storage for the shared stream D.</span></div><div class="line"><a name="l00164"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#ae63b5a52106dbd37ea304196335ec210">  164</a></span>&#160;    <a class="code" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#ae63b5a52106dbd37ea304196335ec210">shared_stream</a>;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;  };</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;};</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> EpilogueFunctor_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00171"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">  171</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">GemmEpilogueTraitsHelper</a> {</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">  173</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> EpilogueFunctor_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">Scalar</a>;</div><div class="line"><a name="l00175"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">  175</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::OutputTile <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">OutputTile</a>;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1,</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;                GemmConfig_::MultiplyAdd::AccumulatorsPerThread::kH /</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;                    GemmConfig_::kAccumulatorsPerLdsB,</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;                GemmConfig_::kAccumulatorsPerLdsB&gt;</div><div class="line"><a name="l00182"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">  182</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a>;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;  <span class="comment">// The iteration strides in the H/W dimension.</span></div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;0,</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;                GemmConfig_::kAccumulatorsPerLdsB*(</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;                    GemmConfig_::Warps::kH* GemmConfig_::MultiplyAdd::ThreadsPerWarp::kH - 1),</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;                0&gt;</div><div class="line"><a name="l00188"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aede069e51e0732a9648c437261bd4d66">  188</a></span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Delta</a>;</div><div class="line"><a name="l00190"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">  190</a></span>&#160;  <span class="keyword">typedef</span> EpilogueFunctor_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">Functor</a>;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a>&lt;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      <span class="keyword">typename</span> Functor::Scalar,</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;      <span class="comment">// The number of scalars per STS.</span></div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;      GemmConfig_::kScalarsPerStsD,</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;      <span class="comment">// The skew -- 128 / sizeof(ScalarD) / kScalarsPerStsD is the number of threads involved in</span></div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;      <span class="comment">// a single STS. We divide by 2 as our objective is to add a skew to the odd threads to</span></div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;      <span class="comment">// avoid bank conflicts between odd and even threads.</span></div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;      128 / <span class="keyword">sizeof</span>(<span class="keyword">typename</span> GemmConfig_::ScalarD) / GemmConfig_::kScalarsPerStsD / 2 *</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;          GemmConfig_::kScalarsPerStsD&gt;</div><div class="line"><a name="l00209"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">  209</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">SharedStoreTileTraits</a>,</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;                            <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>,</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00216"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">  216</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">SharedStoreIteratorD</a>;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;</div><div class="line"><a name="l00219"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">  219</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename SharedStoreIteratorD::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">SharedStoreTransformerD</a>;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a>&lt;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;      <span class="keyword">typename</span> Functor::Scalar,</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;      <span class="comment">// The number of columns of the output tile written by iteration.</span></div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;      GemmConfig_::OutputTile::kH / <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Iterations&gt;::kCount</a>,</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;      GemmConfig_::kScalarsPerLdsD,</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">SharedStoreTileTraits::kSkew</a>&gt;</div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">  237</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">SharedLoadTileTraits</a>,</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;                           <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>,</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00244"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">  244</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a>;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a>&lt;</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <span class="keyword">typename</span> GemmConfig_::ScalarC <span class="keyword">const</span>,</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;      <span class="comment">// The tile has size (N / Iterations)xM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1,</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;            GemmConfig_::OutputTile::kH / <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Iterations&gt;::kCount</a>,</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;            GemmConfig_::OutputTile::kW&gt;,</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;      <span class="comment">// How many elements do we jump over at each iteration?</span></div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Iterations::kW</a>,</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;      GemmConfig_::kScalarsPerLdgC&gt;</div><div class="line"><a name="l00260"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">  260</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">GlobalLoadTileTraits</a>;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;</div><div class="line"><a name="l00263"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">  263</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;GlobalLoadTileTraits, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">GlobalLoadIteratorC</a>;</div><div class="line"><a name="l00265"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">  265</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename GlobalLoadIteratorC::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">GlobalTransformerC</a>;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a>&lt;</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;      <span class="keyword">typename</span> GemmConfig_::ScalarD,</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;      <span class="comment">// The tile has size (N / Iterations)xM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1,</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;            GemmConfig_::OutputTile::kH / <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Iterations&gt;::kCount</a>,</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;            GemmConfig_::OutputTile::kW&gt;,</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;      <span class="comment">// How many elements do we jump over at each iteration?</span></div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Iterations::kW</a>,</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;      GemmConfig_::kScalarsPerStgD&gt;</div><div class="line"><a name="l00281"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee">  281</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee">GlobalStoreTileTraits</a>;</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;</div><div class="line"><a name="l00284"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">  284</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;GlobalStoreTileTraits, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">GlobalStoreIteratorD</a>;</div><div class="line"><a name="l00286"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">  286</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename GlobalStoreIteratorD::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">GlobalTransformerD</a>;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;};</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;    <span class="keyword">typename</span> GemmConfig_,</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;    <span class="keyword">typename</span> Helper_ = <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">GemmEpilogueTraitsHelper&lt;GemmConfig_, EpilogueFunctor_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00300"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">  300</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">GemmEpilogueTraits</a>&lt;</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;                                          <span class="comment">// The output tile.</span></div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;                                          typename GemmConfig_::OutputTile,</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;                                          <span class="comment">// The accumulators.</span></div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;                                          typename GemmConfig_::Accumulators,</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;                                          <span class="comment">// The global iterator for C.</span></div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;                                          typename Helper_::GlobalLoadIteratorC,</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;                                          <span class="comment">// The transformer for C.</span></div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;                                          typename Helper_::GlobalTransformerC,</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;                                          <span class="comment">// The transformer for D.</span></div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;                                          typename Helper_::GlobalTransformerD,</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;                                          <span class="comment">// The global iterator for D.</span></div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;                                          typename Helper_::GlobalStoreIteratorD,</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;                                          <span class="comment">// The iterator to store D to shared memory.</span></div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;                                          typename Helper_::SharedStoreIteratorD,</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;                                          <span class="comment">// The shared store transformer for D.</span></div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;                                          typename Helper_::SharedStoreTransformerD,</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;                                          <span class="comment">// The iterator to load D from shared memory.</span></div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;                                          typename Helper_::SharedLoadIteratorD,</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;                                          <span class="comment">// The number of iterations.</span></div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;                                          typename Helper_::Iterations,</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;                                          <span class="comment">// The strides between iterations.</span></div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;                                          typename Helper_::Delta,</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;                                          <span class="comment">// The functor to be used in the epilogue.</span></div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;                                          EpilogueFunctor_,</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;                                          <span class="comment">// The index.</span></div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;                                          Index_&gt; {};</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:116</div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage_html_aea5ed35a44624684ffa9ada9d09a8893"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#aea5ed35a44624684ffa9ada9d09a8893">cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage::load</a></div><div class="ttdeci">SharedLoadIteratorD::SharedStorage load</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:158</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_af1f105d4712f01880b0944666e2f81ae"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">cutlass::gemm::GemmEpilogueTraits::Delta</a></div><div class="ttdeci">Delta_ Delta</div><div class="ttdoc">The iterations strides. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:94</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
+<a href="gemm__epilogue__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__stream_8h.html">cutlass/gemm/gemm_global_stream.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__stream_8h.html">cutlass/gemm/gemm_shared_stream.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="linear__scaling_8h.html">cutlass/gemm/linear_scaling.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    <span class="keyword">typename</span> Accumulators_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    <span class="keyword">typename</span> GlobalLoadIteratorC_,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <span class="keyword">typename</span> GlobalTransformerC_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    <span class="keyword">typename</span> GlobalTransformerD_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;    <span class="keyword">typename</span> GlobalStoreIteratorD_,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;    <span class="keyword">typename</span> SharedStoreIteratorD_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <span class="keyword">typename</span> SharedStoreTransformerD_,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    <span class="keyword">typename</span> SharedLoadStreamD_,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;    <span class="keyword">typename</span> Iterations_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keyword">typename</span> Delta_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    <span class="keyword">typename</span> Functor_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">   70</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">GemmEpilogueTraits</a> {</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">   73</a></span>&#160;<span class="comment"></span>  <span class="keyword">typedef</span> OutputTile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">OutputTile</a>;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">   76</a></span>&#160;  <span class="keyword">typedef</span> Accumulators_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">Accumulators</a>;</div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">   78</a></span>&#160;  <span class="keyword">typedef</span> GlobalLoadIteratorC_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">GlobalLoadIteratorC</a>;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">   80</a></span>&#160;  <span class="keyword">typedef</span> GlobalTransformerC_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">GlobalTransformerC</a>;</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">   82</a></span>&#160;  <span class="keyword">typedef</span> GlobalTransformerD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">GlobalTransformerD</a>;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">   84</a></span>&#160;  <span class="keyword">typedef</span> GlobalStoreIteratorD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">GlobalStoreIteratorD</a>;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">   86</a></span>&#160;  <span class="keyword">typedef</span> SharedStoreIteratorD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">SharedStoreIteratorD</a>;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">   88</a></span>&#160;  <span class="keyword">typedef</span> SharedStoreTransformerD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">SharedStoreTransformerD</a>;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">   90</a></span>&#160;  <span class="keyword">typedef</span> SharedLoadStreamD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">SharedLoadStreamD</a>;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">   92</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">Iterations</a>;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">   94</a></span>&#160;  <span class="keyword">typedef</span> Delta_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">Delta</a>;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">   97</a></span>&#160;  <span class="keyword">typedef</span> Functor_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">Functor</a>;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">   99</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a>;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">  102</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Iterations::kD == 1 &amp;&amp; Iterations::kC == 1, <span class="stringliteral">&quot;Unsupported 3D/4D shapes&quot;</span>);</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Functor::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">Scalar</a>;</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">  107</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalLoadIteratorC::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">ScalarC</a>;</div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">  109</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalStoreIteratorD::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a>;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">  112</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">Params</a> {</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68">  114</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a497b91e93d0eb29ca54553f8de4c694f">stride_h</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68">stride_w</a>;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a0745d33dd881f6ca78b168e05b133ff8">  116</a></span>&#160;    <span class="keyword">typename</span> GlobalLoadIteratorC::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a0745d33dd881f6ca78b168e05b133ff8">iterator_c</a>;</div><div class="line"><a name="l00118"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#abbcccb203f9823e621caa4475aa3d346">  118</a></span>&#160;    <span class="keyword">typename</span> GlobalStoreIteratorD::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#abbcccb203f9823e621caa4475aa3d346">iterator_d</a>;</div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adfdf3eca06ea4061fbfe016336a3f276">  120</a></span>&#160;    <span class="keyword">typename</span> SharedStoreIteratorD::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adfdf3eca06ea4061fbfe016336a3f276">shared_store_iterator_d</a>;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a5d3d1abd85f18476a74bcf616a717f9d">  122</a></span>&#160;    <span class="keyword">typename</span> SharedLoadStreamD::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a5d3d1abd85f18476a74bcf616a717f9d">shared_load_stream_d</a>;</div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adb04e5990ab7faae9e8c0b110d2e3bee">  124</a></span>&#160;    <span class="keyword">typename</span> Functor::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adb04e5990ab7faae9e8c0b110d2e3bee">functor</a>;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmDesc_&gt;</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a13395bf81eabdc539c935e179c31d7ca">  128</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a13395bf81eabdc539c935e179c31d7ca">initialize</a>(GemmDesc_ <span class="keyword">const</span>&amp; desc) {</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;      <span class="comment">// The parameters for the functor.</span></div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      <span class="keywordtype">int</span> error_code = <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adb04e5990ab7faae9e8c0b110d2e3bee">functor</a>.initialize(desc);</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;      <span class="keywordflow">if</span> (error_code) {</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;        <span class="keywordflow">return</span> error_code;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;      }</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;      <span class="comment">// At the end of the H iteration, we jump over a number of columns.</span></div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;      this-&gt;stride_h = desc.D.leading_dim() * Delta::kH;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      <span class="comment">// Nothing to do here.</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;      this-&gt;stride_w = 0;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <span class="comment">// Setup the params for the global memory iterator for C.</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      error_code = <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a0745d33dd881f6ca78b168e05b133ff8">iterator_c</a>.initialize(desc.C.data(),</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;                                         desc.batch_stride_C,</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;                                         desc.C.leading_dim(),</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;                                         desc.problem_size[1],</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;                                         <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68">stride_w</a>,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;                                         Delta::kW);</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      <span class="keywordflow">if</span> (error_code) {</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;        <span class="keywordflow">return</span> error_code;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;      }</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;      <span class="comment">// Setup the params for the global memory iterator for D.</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#abbcccb203f9823e621caa4475aa3d346">iterator_d</a>.initialize(desc.D.data(),</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;                                   desc.batch_stride_D,</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;                                   desc.D.leading_dim(),</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;                                   desc.problem_size[1],</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;                                   <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68">stride_w</a>,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;                                   Delta::kW);</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;    }</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;  };</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">  162</a></span>&#160;  <span class="keyword">union </span><a class="code" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a> {</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <span class="comment">// The storage for the store iterator.</span></div><div class="line"><a name="l00164"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a673ddeb91e89c9a39c0a4dbaaa97dd8f">  164</a></span>&#160;    <span class="keyword">typename</span> SharedStoreIteratorD::SharedStorage <a class="code" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a673ddeb91e89c9a39c0a4dbaaa97dd8f">store</a>;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;    <span class="comment">// The storage for the store iterator.</span></div><div class="line"><a name="l00166"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#ae7bc498e4976814111114091de4e43af">  166</a></span>&#160;    <span class="keyword">typename</span> SharedLoadStreamD::SharedStorage <a class="code" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#ae7bc498e4976814111114091de4e43af">load</a>;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;  };</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">  170</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">SharedStorage</a> {</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;    <span class="comment">// The storage for the shared stream D.</span></div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a64ecac7d5843c38e55df78dcf609d33e">  172</a></span>&#160;    <a class="code" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a64ecac7d5843c38e55df78dcf609d33e">shared_stream</a>;</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;    CUTLASS_DEVICE</div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a0e05007f939b27e6a17dce5c2a49e3e0">  179</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a>* <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a0e05007f939b27e6a17dce5c2a49e3e0">data</a>() { <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a>*<span class="keyword">&gt;</span>(&amp;<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a64ecac7d5843c38e55df78dcf609d33e">shared_stream</a>.<a class="code" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#ae7bc498e4976814111114091de4e43af">load</a>); }</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;  };</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;};</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> EpilogueFunctor_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">  186</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">GemmEpilogueTraitsHelper</a> {</div><div class="line"><a name="l00188"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">  188</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> EpilogueFunctor_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">Scalar</a>;</div><div class="line"><a name="l00190"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">  190</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::OutputTile <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">OutputTile</a>;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1,</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;                GemmConfig_::MultiplyAdd::AccumulatorsPerThread::kH /</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;                    GemmConfig_::kAccumulatorsPerLdsB,</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;                GemmConfig_::kAccumulatorsPerLdsB&gt;</div><div class="line"><a name="l00197"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">  197</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a>;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;  <span class="comment">// The iteration strides in the H/W dimension.</span></div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;0,</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;                GemmConfig_::kAccumulatorsPerLdsB*(</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;                    GemmConfig_::Warps::kH* GemmConfig_::MultiplyAdd::ThreadsPerWarp::kH - 1),</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;                0&gt;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aede069e51e0732a9648c437261bd4d66">  203</a></span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Delta</a>;</div><div class="line"><a name="l00205"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">  205</a></span>&#160;  <span class="keyword">typedef</span> EpilogueFunctor_ <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">Functor</a>;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a>&lt;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;      <span class="comment">// typename Functor::Scalar,</span></div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      <span class="comment">// Functor::Scalar is alpha, beta type, in mixed precision, alpha and beta may not be the same with accumulation.</span></div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;      <span class="comment">// In this case Functor::ScalarAccum is needed</span></div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;      <span class="keyword">typename</span> Functor::ScalarAccum,</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;      <span class="comment">// The number of scalars per STS.</span></div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;      GemmConfig_::kScalarsPerStsD,</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;      <span class="comment">// The skew -- 128 / sizeof(ScalarD) / kScalarsPerStsD is the number of threads involved in</span></div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      <span class="comment">// a single STS. We divide by 2 as our objective is to add a skew to the odd threads to</span></div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;      <span class="comment">// avoid bank conflicts between odd and even threads.</span></div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;      128 / <span class="keyword">sizeof</span>(<span class="keyword">typename</span> GemmConfig_::ScalarD) / GemmConfig_::kScalarsPerStsD / 2 *</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;          GemmConfig_::kScalarsPerStsD&gt;</div><div class="line"><a name="l00227"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">  227</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">SharedStoreTileTraits</a>,</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;                            <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>,</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00234"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">  234</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">SharedStoreIteratorD</a>;</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">  237</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename SharedStoreIteratorD::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">SharedStoreTransformerD</a>;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a>&lt;</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;      <span class="comment">// typename Functor::Scalar,</span></div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;      <span class="comment">// Functor::Scalar is alpha, beta type, in mixed precision, alpha and beta may not be the same with accumulation.</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      <span class="comment">// In this case Functor::ScalarAccum is needed</span></div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      <span class="keyword">typename</span> Functor::ScalarAccum,</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;      <span class="comment">// The number of columns of the output tile written by iteration.</span></div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;      GemmConfig_::OutputTile::kH / <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Iterations&gt;::kCount</a>,</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;      GemmConfig_::kScalarsPerLdsD,</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">SharedStoreTileTraits::kSkew</a>&gt;</div><div class="line"><a name="l00258"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">  258</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">SharedLoadTileTraits</a>,</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;                           <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>,</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00265"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">  265</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a>;</div><div class="line"><a name="l00267"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">  267</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorD&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">SharedLoadStreamD</a>;</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a>&lt;</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;      <span class="keyword">typename</span> GemmConfig_::ScalarC <span class="keyword">const</span>,</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;      <span class="comment">// The tile has size (N / Iterations)xM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1,</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;            GemmConfig_::OutputTile::kH / <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Iterations&gt;::kCount</a>,</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;            GemmConfig_::OutputTile::kW&gt;,</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;      <span class="comment">// How many elements do we jump over at each iteration?</span></div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Iterations::kW</a>,</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;      GemmConfig_::kScalarsPerLdgC&gt;</div><div class="line"><a name="l00283"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">  283</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">GlobalLoadTileTraits</a>;</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;</div><div class="line"><a name="l00286"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">  286</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;GlobalLoadTileTraits, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">GlobalLoadIteratorC</a>;</div><div class="line"><a name="l00288"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">  288</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename GlobalLoadIteratorC::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">GlobalTransformerC</a>;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a>&lt;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;      <span class="keyword">typename</span> GemmConfig_::ScalarD,</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;      <span class="comment">// The tile has size (N / Iterations)xM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1,</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;            GemmConfig_::OutputTile::kH / <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Iterations&gt;::kCount</a>,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;            GemmConfig_::OutputTile::kW&gt;,</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;      <span class="comment">// How many elements do we jump over at each iteration?</span></div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Iterations::kW</a>,</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      GemmConfig_::kScalarsPerStgD&gt;</div><div class="line"><a name="l00304"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee">  304</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee">GlobalStoreTileTraits</a>;</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div><div class="line"><a name="l00307"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">  307</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;GlobalStoreTileTraits, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">GlobalStoreIteratorD</a>;</div><div class="line"><a name="l00309"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">  309</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename GlobalStoreIteratorD::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">GlobalTransformerD</a>;</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;};</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;    <span class="keyword">typename</span> GemmConfig_,</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_,</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;    <span class="keyword">typename</span> Helper_ = <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">GemmEpilogueTraitsHelper&lt;GemmConfig_, EpilogueFunctor_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00323"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">  323</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">GemmEpilogueTraits</a>&lt;</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;                                          <span class="comment">// The output tile.</span></div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;                                          typename GemmConfig_::OutputTile,</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;                                          <span class="comment">// The accumulators.</span></div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;                                          typename GemmConfig_::Accumulators,</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;                                          <span class="comment">// The global iterator for C.</span></div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;                                          typename Helper_::GlobalLoadIteratorC,</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;                                          <span class="comment">// The transformer for C.</span></div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;                                          typename Helper_::GlobalTransformerC,</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;                                          <span class="comment">// The transformer for D.</span></div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;                                          typename Helper_::GlobalTransformerD,</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;                                          <span class="comment">// The global iterator for D.</span></div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;                                          typename Helper_::GlobalStoreIteratorD,</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;                                          <span class="comment">// The iterator to store D to shared memory.</span></div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;                                          typename Helper_::SharedStoreIteratorD,</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;                                          <span class="comment">// The shared store transformer for D.</span></div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;                                          typename Helper_::SharedStoreTransformerD,</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;                                          <span class="comment">// The stream to load D from shared memory.</span></div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;                                          typename Helper_::SharedLoadStreamD,</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;                                          <span class="comment">// The number of iterations.</span></div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;                                          typename Helper_::Iterations,</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;                                          <span class="comment">// The strides between iterations.</span></div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;                                          typename Helper_::Delta,</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;                                          <span class="comment">// The functor to be used in the epilogue.</span></div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;                                          EpilogueFunctor_,</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;                                          <span class="comment">// The index.</span></div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;                                          Index_&gt; {};</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:120</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a685d59ee03a226e62660e83c4c60ca69"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">cutlass::gemm::GemmEpilogueTraits::SharedStoreTransformerD</a></div><div class="ttdeci">SharedStoreTransformerD_ SharedStoreTransformerD</div><div class="ttdoc">The shared store transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a7cf2e703f78b877ad551d0516982da10"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">cutlass::gemm::GemmEpilogueTraits::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">typedef typename GemmConfig::EpilogueIterations Iterations; </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:92</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage_html_a0e05007f939b27e6a17dce5c2a49e3e0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a0e05007f939b27e6a17dce5c2a49e3e0">cutlass::gemm::GemmEpilogueTraits::SharedStorage::data</a></div><div class="ttdeci">CUTLASS_DEVICE ScalarD * data()</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:179</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a94f00f94a88588522ca3f9f0197a5a9b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalLoadTileTraits</a></div><div class="ttdeci">GemmGlobalTileCdTraits&lt; typename GemmConfig_::ScalarC const, Shape&lt; 1, GemmConfig_::OutputTile::kH/ShapeCount&lt; Iterations &gt;::kCount, GemmConfig_::OutputTile::kW &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, Iterations::kW, GemmConfig_::kScalarsPerLdgC &gt; GlobalLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for C^N. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:260</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:171</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a94f00f94a88588522ca3f9f0197a5a9b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalLoadTileTraits</a></div><div class="ttdeci">GemmGlobalTileCdTraits&lt; typename GemmConfig_::ScalarC const, Shape&lt; 1, GemmConfig_::OutputTile::kH/ShapeCount&lt; Iterations &gt;::kCount, GemmConfig_::OutputTile::kW &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, Iterations::kW, GemmConfig_::kScalarsPerLdgC &gt; GlobalLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for C^N. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:283</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a4de6207ce3843d6c4325abc7d7abcf24"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">cutlass::gemm::GemmEpilogueTraits::GlobalLoadIteratorC</a></div><div class="ttdeci">GlobalLoadIteratorC_ GlobalLoadIteratorC</div><div class="ttdoc">The iterator for C in global memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:78</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:186</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_adb04e5990ab7faae9e8c0b110d2e3bee"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adb04e5990ab7faae9e8c0b110d2e3bee">cutlass::gemm::GemmEpilogueTraits::Params::functor</a></div><div class="ttdeci">Functor::Params functor</div><div class="ttdoc">The functor params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:124</div></div>
 <div class="ttc" id="tile__iterator_8h_html"><div class="ttname"><a href="tile__iterator_8h.html">tile_iterator.h</a></div><div class="ttdoc">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a051f25a4aa3ea71ff400582228adbdaa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">cutlass::gemm::GemmEpilogueTraits::GlobalTransformerC</a></div><div class="ttdeci">GlobalTransformerC_ GlobalTransformerC</div><div class="ttdoc">The transformer for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:80</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_a987c179a7e73c2572fe8aef3255668f7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a987c179a7e73c2572fe8aef3255668f7">cutlass::gemm::GemmEpilogueTraits::Params::iterator_d</a></div><div class="ttdeci">GlobalStoreIteratorD::Params iterator_d</div><div class="ttdoc">The params for the D global iterator. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:118</div></div>
+<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage_html_ae7bc498e4976814111114091de4e43af"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#ae7bc498e4976814111114091de4e43af">cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage::load</a></div><div class="ttdeci">SharedLoadStreamD::SharedStorage load</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:166</div></div>
 <div class="ttc" id="linear__scaling_8h_html"><div class="ttname"><a href="linear__scaling_8h.html">linear_scaling.h</a></div><div class="ttdoc">Implements the BLAS linear scaling function alpha*AB + beta*C. </div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage_html"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage</a></div><div class="ttdoc">The shared memory storage to exchange data. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:154</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_abf97949c238d72854225c1c6131b5cbc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">cutlass::gemm::GemmEpilogueTraits::ScalarC</a></div><div class="ttdeci">GlobalLoadIteratorC::Scalar ScalarC</div><div class="ttdoc">The scalar for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:107</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ae2b82b9b62aefa15005091bb84ac20e8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">cutlass::gemm::GemmEpilogueTraitsHelper::Scalar</a></div><div class="ttdeci">EpilogueFunctor_::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:173</div></div>
+<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage_html"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage</a></div><div class="ttdoc">The shared memory storage to exchange data. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:162</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ae2b82b9b62aefa15005091bb84ac20e8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">cutlass::gemm::GemmEpilogueTraitsHelper::Scalar</a></div><div class="ttdeci">EpilogueFunctor_::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:188</div></div>
 <div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_ae0fdc7426b22ff2c20f077e251ebc823"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae0fdc7426b22ff2c20f077e251ebc823">cutlass::gemm::GemmEpilogueTraits::Params::stride_h</a></div><div class="ttdeci">Index stride_h</div><div class="ttdoc">The strides for H and W in the different iterations of the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:114</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_ab430d05bd17efd60c28077c87b5ca331"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">cutlass::gemm::GemmEpilogueTraits::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:99</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_aeef5745d149770c9f79e12f6d97ffce1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">cutlass::gemm::GemmEpilogueTraits::GlobalStoreIteratorD</a></div><div class="ttdeci">GlobalStoreIteratorD_ GlobalStoreIteratorD</div><div class="ttdoc">The iterator for D in global memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:84</div></div>
 <div class="ttc" id="structcutlass_1_1Copy_html"><div class="ttname"><a href="structcutlass_1_1Copy.html">cutlass::Copy</a></div><div class="ttdef"><b>Definition:</b> convert.h:69</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_aed1bd9df5ff579ba3e36ae5ba781c075"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">cutlass::gemm::GemmEpilogueTraits::OutputTile</a></div><div class="ttdeci">OutputTile_ OutputTile</div><div class="ttdoc">The output tile. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:73</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_aeea13630bb281834b717f8d9d13a9319"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalLoadIteratorC</a></div><div class="ttdeci">GemmGlobalIteratorCd&lt; GlobalLoadTileTraits, Index_ &gt; GlobalLoadIteratorC</div><div class="ttdoc">The iterator to load C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:263</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a1ee74d6f89b044578e1cd6dd210ce5fe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">cutlass::gemm::GemmEpilogueTraits::ScalarD</a></div><div class="ttdeci">GlobalStoreIteratorD::Scalar ScalarD</div><div class="ttdoc">The scalar for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:109</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a02a517fd246fb961727d3bd1b4f954be"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreIteratorD</a></div><div class="ttdeci">TileStoreIterator&lt; SharedStoreTileTraits, typename SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorD</div><div class="ttdoc">The iterator to store D to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:216</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a23be7b4b498c17f9235a2b4896f1bffb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalStoreIteratorD</a></div><div class="ttdeci">GemmGlobalIteratorCd&lt; GlobalStoreTileTraits, Index_ &gt; GlobalStoreIteratorD</div><div class="ttdoc">The iterator to store D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:284</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_aa5cea8dbebda9a12a503ae1416c4da33"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTransformerD</a></div><div class="ttdeci">Copy&lt; typename SharedStoreIteratorD::Fragment &gt; SharedStoreTransformerD</div><div class="ttdoc">The shared store transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:219</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ad7b23352072b1509d3383ee775756d2a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">cutlass::gemm::GemmEpilogueTraitsHelper::Iterations</a></div><div class="ttdeci">Shape&lt; 1, GemmConfig_::MultiplyAdd::AccumulatorsPerThread::kH/GemmConfig_::kAccumulatorsPerLdsB, GemmConfig_::kAccumulatorsPerLdsB &gt; Iterations</div><div class="ttdoc">The number of iterations in the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:182</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_a7350ceefcd09a9e3662ca30b780cc2ce"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a7350ceefcd09a9e3662ca30b780cc2ce">cutlass::gemm::GemmEpilogueTraits::Params::iterator_c</a></div><div class="ttdeci">GlobalLoadIteratorC::Params iterator_c</div><div class="ttdoc">The params for the C iterator. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:116</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a0b8ac1972b2f2cff48070f8b862ed25c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">cutlass::gemm::GemmEpilogueTraits::SharedStoreTransformerD</a></div><div class="ttdeci">SharedStoreTransformerD_ SharedStoreTransformerD</div><div class="ttdoc">The shared store transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:88</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_a3e9d0fd2989fea776b0cab0e0f2813ce"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a3e9d0fd2989fea776b0cab0e0f2813ce">cutlass::gemm::GemmEpilogueTraits::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const &amp;desc)</div><div class="ttdoc">Setup the params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:128</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a16d7df2934c3c59d9b8f36f7a2137aee"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalStoreTileTraits</a></div><div class="ttdeci">GemmGlobalTileCdTraits&lt; typename GemmConfig_::ScalarD, Shape&lt; 1, GemmConfig_::OutputTile::kH/ShapeCount&lt; Iterations &gt;::kCount, GemmConfig_::OutputTile::kW &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, Iterations::kW, GemmConfig_::kScalarsPerStgD &gt; GlobalStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to global memory for D^N. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:281</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:302</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a74f4beb86447f6b613e9b60234cb27bc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">cutlass::gemm::GemmEpilogueTraits::SharedStoreIteratorD</a></div><div class="ttdeci">SharedStoreIteratorD_ SharedStoreIteratorD</div><div class="ttdoc">The iterator to store D in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:86</div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage_html_a1f31090613c4e6f0895f598880d6c4e5"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a1f31090613c4e6f0895f598880d6c4e5">cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage::store</a></div><div class="ttdeci">SharedStoreIteratorD::SharedStorage store</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:156</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a3a0fb3a914bfd009ff2e3918bcd231a9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreTileDTraits&lt; typename Functor::Scalar, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::kScalarsPerStsD, 128/sizeof(typename GemmConfig_::ScalarD)/GemmConfig_::kScalarsPerStsD/2 *GemmConfig_::kScalarsPerStsD &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store to shared memory for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:209</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a48baee6541e6359753f1bae5bd864029"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">cutlass::gemm::GemmSharedStoreTileDTraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:278</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a853b7ad3afb06fd720afc4559df2198d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">cutlass::gemm::GemmEpilogueTraits::GlobalTransformerC</a></div><div class="ttdeci">GlobalTransformerC_ GlobalTransformerC</div><div class="ttdoc">The transformer for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:80</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_aeea13630bb281834b717f8d9d13a9319"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalLoadIteratorC</a></div><div class="ttdeci">GemmGlobalIteratorCd&lt; GlobalLoadTileTraits, Index_ &gt; GlobalLoadIteratorC</div><div class="ttdoc">The iterator to load C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:286</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_adb4eb47c84dc1c6df2556e72ff5800e6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">cutlass::gemm::GemmEpilogueTraits::GlobalTransformerD</a></div><div class="ttdeci">GlobalTransformerD_ GlobalTransformerD</div><div class="ttdoc">The transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:82</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a02a517fd246fb961727d3bd1b4f954be"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreIteratorD</a></div><div class="ttdeci">TileStoreIterator&lt; SharedStoreTileTraits, typename SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorD</div><div class="ttdoc">The iterator to store D to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:234</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a9e511e1852668e0a242315c24888dee3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadStreamD</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorD &gt; SharedLoadStreamD</div><div class="ttdoc">The stream to load D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:267</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_ad9a81c3ff36a4f3aa376e2cff94cbb50"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">cutlass::gemm::GemmEpilogueTraits::ScalarD</a></div><div class="ttdeci">GlobalStoreIteratorD::Scalar ScalarD</div><div class="ttdoc">The scalar for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:109</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a23be7b4b498c17f9235a2b4896f1bffb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalStoreIteratorD</a></div><div class="ttdeci">GemmGlobalIteratorCd&lt; GlobalStoreTileTraits, Index_ &gt; GlobalStoreIteratorD</div><div class="ttdoc">The iterator to store D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:307</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_abbcccb203f9823e621caa4475aa3d346"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#abbcccb203f9823e621caa4475aa3d346">cutlass::gemm::GemmEpilogueTraits::Params::iterator_d</a></div><div class="ttdeci">GlobalStoreIteratorD::Params iterator_d</div><div class="ttdoc">The params for the D global iterator. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:118</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_a5d3d1abd85f18476a74bcf616a717f9d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a5d3d1abd85f18476a74bcf616a717f9d">cutlass::gemm::GemmEpilogueTraits::Params::shared_load_stream_d</a></div><div class="ttdeci">SharedLoadStreamD::Params shared_load_stream_d</div><div class="ttdoc">The params for the D shared load stream. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:122</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_aa5cea8dbebda9a12a503ae1416c4da33"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTransformerD</a></div><div class="ttdeci">Copy&lt; typename SharedStoreIteratorD::Fragment &gt; SharedStoreTransformerD</div><div class="ttdoc">The shared store transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:237</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ad7b23352072b1509d3383ee775756d2a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">cutlass::gemm::GemmEpilogueTraitsHelper::Iterations</a></div><div class="ttdeci">Shape&lt; 1, GemmConfig_::MultiplyAdd::AccumulatorsPerThread::kH/GemmConfig_::kAccumulatorsPerLdsB, GemmConfig_::kAccumulatorsPerLdsB &gt; Iterations</div><div class="ttdoc">The number of iterations in the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:197</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a16d7df2934c3c59d9b8f36f7a2137aee"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalStoreTileTraits</a></div><div class="ttdeci">GemmGlobalTileCdTraits&lt; typename GemmConfig_::ScalarD, Shape&lt; 1, GemmConfig_::OutputTile::kH/ShapeCount&lt; Iterations &gt;::kCount, GemmConfig_::OutputTile::kW &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, Iterations::kW, GemmConfig_::kScalarsPerStgD &gt; GlobalStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to global memory for D^N. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:304</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:399</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_a497b91e93d0eb29ca54553f8de4c694f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a497b91e93d0eb29ca54553f8de4c694f">cutlass::gemm::GemmEpilogueTraits::Params::stride_h</a></div><div class="ttdeci">Index stride_h</div><div class="ttdoc">The strides for H and W in the different iterations of the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:114</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a8acbe7bfa905258a964ef56e634d4c99"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">cutlass::gemm::GemmEpilogueTraits::Functor</a></div><div class="ttdeci">Functor_ Functor</div><div class="ttdoc">The functor in charge of the math. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:97</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:45</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_af27cfae15beafcfbaf6d660781cbe5c4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">cutlass::gemm::GemmEpilogueTraits::Accumulators</a></div><div class="ttdeci">Accumulators_ Accumulators</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:76</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a48baee6541e6359753f1bae5bd864029"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">cutlass::gemm::GemmSharedStoreTileDTraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:284</div></div>
 <div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_ab00969bdda930eeb7b82985c476adf7d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">cutlass::gemm::GemmEpilogueTraits::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">typedef typename GemmConfig::EpilogueIterations Iterations; </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:92</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:335</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_a0745d33dd881f6ca78b168e05b133ff8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a0745d33dd881f6ca78b168e05b133ff8">cutlass::gemm::GemmEpilogueTraits::Params::iterator_c</a></div><div class="ttdeci">GlobalLoadIteratorC::Params iterator_c</div><div class="ttdoc">The params for the C iterator. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:116</div></div>
+<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage_html_a673ddeb91e89c9a39c0a4dbaaa97dd8f"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a673ddeb91e89c9a39c0a4dbaaa97dd8f">cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage::store</a></div><div class="ttdeci">SharedStoreIteratorD::SharedStorage store</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:164</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_ae814ac640d05358a3ce0ea70ed13ea68"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68">cutlass::gemm::GemmEpilogueTraits::Params::stride_w</a></div><div class="ttdeci">Index stride_w</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:114</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a5bb3232a2f15d8263d058c69b0839e2f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">cutlass::gemm::GemmEpilogueTraits::SharedLoadStreamD</a></div><div class="ttdeci">SharedLoadStreamD_ SharedLoadStreamD</div><div class="ttdoc">The stream to store D in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_af4d17d3774382fc0ba63d329bd12772c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">cutlass::gemm::GemmEpilogueTraits::OutputTile</a></div><div class="ttdeci">OutputTile_ OutputTile</div><div class="ttdoc">The output tile. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:73</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:339</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">cutlass::gemm::SimplifiedGemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:300</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage_html_ae63b5a52106dbd37ea304196335ec210"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#ae63b5a52106dbd37ea304196335ec210">cutlass::gemm::GemmEpilogueTraits::SharedStorage::shared_stream</a></div><div class="ttdeci">StreamSharedStorage shared_stream</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:164</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a981134cf87d85aa28570a62d9e878b10"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">cutlass::gemm::GemmEpilogueTraitsHelper::Functor</a></div><div class="ttdeci">EpilogueFunctor_ Functor</div><div class="ttdoc">The functor to do the math in the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:190</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_adbff60de6f90ef4d5ae0c7096692e2c0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadIteratorD</a></div><div class="ttdeci">TileLoadIterator&lt; SharedLoadTileTraits, typename SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorD</div><div class="ttdoc">The iterator to load D from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:244</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ac30a062bed1a65e45961c4f301b69101"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">cutlass::gemm::GemmEpilogueTraitsHelper::OutputTile</a></div><div class="ttdeci">GemmConfig_::OutputTile OutputTile</div><div class="ttdoc">The output tile. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:175</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a8409d84ee282a4d6953bd41149d8b9c2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">cutlass::gemm::GemmEpilogueTraits::GlobalLoadIteratorC</a></div><div class="ttdeci">GlobalLoadIteratorC_ GlobalLoadIteratorC</div><div class="ttdoc">The iterator for C in global memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:78</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a261e526c6a8e832bc483bf4e486cc9d7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">cutlass::gemm::GemmEpilogueTraits::GlobalTransformerD</a></div><div class="ttdeci">GlobalTransformerD_ GlobalTransformerD</div><div class="ttdoc">The transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:82</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">cutlass::gemm::SimplifiedGemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:323</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a981134cf87d85aa28570a62d9e878b10"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">cutlass::gemm::GemmEpilogueTraitsHelper::Functor</a></div><div class="ttdeci">EpilogueFunctor_ Functor</div><div class="ttdoc">The functor to do the math in the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:205</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_adbff60de6f90ef4d5ae0c7096692e2c0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadIteratorD</a></div><div class="ttdeci">TileLoadIterator&lt; SharedLoadTileTraits, typename SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorD</div><div class="ttdoc">The iterator to load D from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:265</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ac30a062bed1a65e45961c4f301b69101"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">cutlass::gemm::GemmEpilogueTraitsHelper::OutputTile</a></div><div class="ttdeci">GemmConfig_::OutputTile OutputTile</div><div class="ttdoc">The output tile. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:190</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_a13395bf81eabdc539c935e179c31d7ca"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a13395bf81eabdc539c935e179c31d7ca">cutlass::gemm::GemmEpilogueTraits::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const &amp;desc)</div><div class="ttdoc">Setup the params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:128</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage_html_a64ecac7d5843c38e55df78dcf609d33e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a64ecac7d5843c38e55df78dcf609d33e">cutlass::gemm::GemmEpilogueTraits::SharedStorage::shared_stream</a></div><div class="ttdeci">StreamSharedStorage shared_stream</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:172</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a23b0e6a448e51f2e0837af95802c23b0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">cutlass::gemm::GemmEpilogueTraits::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:99</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:348</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_a565f6cab8925d632dcf24bd1974caca2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2">cutlass::gemm::GemmEpilogueTraits::Params::stride_w</a></div><div class="ttdeci">Index stride_w</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:114</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a076ea17d901d22d3b69bf9c621858235"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileDTraits&lt; typename Functor::ScalarAccum, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::OutputTile::kH/ShapeCount&lt; Iterations &gt;::kCount, GemmConfig_::kScalarsPerLdsD, SharedStoreTileTraits::kSkew &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:258</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:396</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a78836a20250ff24c25a6622ad818b421"><div class="ttname"><a href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">cutlass::Shape::kW</a></div><div class="ttdeci">static int const kW</div><div class="ttdoc">The width of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a006e50cf5fb67407d41c60d6d08b8b66"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">cutlass::gemm::GemmEpilogueTraits::Scalar</a></div><div class="ttdeci">Functor::Scalar Scalar</div><div class="ttdoc">We do not support 3D or 4D shapes. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:102</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ae96c5a3d58dc7a95543f8749f762ca43"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerD</a></div><div class="ttdeci">Copy&lt; typename GlobalStoreIteratorD::Fragment &gt; GlobalTransformerD</div><div class="ttdoc">The transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:286</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a84b89d856f548a26fa1dc15bfd2940da"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">cutlass::gemm::GemmEpilogueTraits::Delta</a></div><div class="ttdeci">Delta_ Delta</div><div class="ttdoc">The iterations strides. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_ada036c0457773a42fb18bc0463071d02"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">cutlass::gemm::GemmEpilogueTraits::GlobalStoreIteratorD</a></div><div class="ttdeci">GlobalStoreIteratorD_ GlobalStoreIteratorD</div><div class="ttdoc">The iterator for D in global memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:84</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ae96c5a3d58dc7a95543f8749f762ca43"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerD</a></div><div class="ttdeci">Copy&lt; typename GlobalStoreIteratorD::Fragment &gt; GlobalTransformerD</div><div class="ttdoc">The transformer for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:309</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_aa794b5f04ce736cdba0d778861ce3a9c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">cutlass::gemm::GemmEpilogueTraits::ScalarC</a></div><div class="ttdeci">GlobalLoadIteratorC::Scalar ScalarC</div><div class="ttdoc">The scalar for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:107</div></div>
 <div class="ttc" id="gemm__global__stream_8h_html"><div class="ttname"><a href="gemm__global__stream_8h.html">gemm_global_stream.h</a></div><div class="ttdoc">Implements efficient loading of the thread block-level tile from global memory and storing to shared ...</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:112</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">cutlass::gemm::GemmEpilogueTraits::SharedStorage</a></div><div class="ttdoc">The shared memory to swizzle the data in the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:162</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a9822fa405b32cc2f471c9fdd37585cb5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">cutlass::gemm::GemmEpilogueTraits::SharedLoadIteratorD</a></div><div class="ttdeci">SharedLoadIteratorD_ SharedLoadIteratorD</div><div class="ttdoc">The iterator to store D in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:90</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_afa888d993b86ed88950a9e5ab7edeb06"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#afa888d993b86ed88950a9e5ab7edeb06">cutlass::gemm::GemmEpilogueTraits::Params::functor</a></div><div class="ttdeci">Functor::Params functor</div><div class="ttdoc">The functor params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:124</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a0682b61d1a1a951026ff026bff9361bb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerC</a></div><div class="ttdeci">Copy&lt; typename GlobalLoadIteratorC::Fragment &gt; GlobalTransformerC</div><div class="ttdoc">The transformer for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:265</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_a1742e43c128665f0ca39cb578291df81"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a1742e43c128665f0ca39cb578291df81">cutlass::gemm::GemmEpilogueTraits::Params::shared_load_iterator_d</a></div><div class="ttdeci">SharedLoadIteratorD::Params shared_load_iterator_d</div><div class="ttdoc">The params for the D shared load iterator. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:122</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ab8ba28fd1da48fcabbafc0de91281b46"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileDTraits&lt; typename Functor::Scalar, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::OutputTile::kH/ShapeCount&lt; Iterations &gt;::kCount, GemmConfig_::kScalarsPerLdsD, SharedStoreTileTraits::kSkew &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:237</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_af7ff579ccb4269bfa5e9ae297260f7a2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">cutlass::gemm::GemmEpilogueTraits::Accumulators</a></div><div class="ttdeci">Accumulators_ Accumulators</div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:76</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a9a2218b570dada2f1e3ccd8004c47856"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">cutlass::gemm::GemmSharedStoreTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:266</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">cutlass::gemm::GemmEpilogueTraits::SharedStorage</a></div><div class="ttdoc">The shared memory to swizzle the data in the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:170</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_a0682b61d1a1a951026ff026bff9361bb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerC</a></div><div class="ttdeci">Copy&lt; typename GlobalLoadIteratorC::Fragment &gt; GlobalTransformerC</div><div class="ttdoc">The transformer for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:288</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_adfdf3eca06ea4061fbfe016336a3f276"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adfdf3eca06ea4061fbfe016336a3f276">cutlass::gemm::GemmEpilogueTraits::Params::shared_store_iterator_d</a></div><div class="ttdeci">SharedStoreIteratorD::Params shared_store_iterator_d</div><div class="ttdoc">The params for the D shared store iterator. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:120</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a9a2218b570dada2f1e3ccd8004c47856"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">cutlass::gemm::GemmSharedStoreTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:272</div></div>
 <div class="ttc" id="gemm__shared__stream_8h_html"><div class="ttname"><a href="gemm__shared__stream_8h.html">gemm_shared_stream.h</a></div><div class="ttdoc">Defines abstractions for managing loading and storing fragments to shared memory in the efficient GEM...</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html">cutlass::ShapeCount</a></div><div class="ttdoc">Compute derived counted of a Layout Concept based class. </div><div class="ttdef"><b>Definition:</b> shape.h:79</div></div>
 <div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a1b025cb056729706f36469e74a9799dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">cutlass::gemm::GemmSharedLoadTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:337</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params_html_af79a0c74a4c30ccec59b393721b5dfc1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#af79a0c74a4c30ccec59b393721b5dfc1">cutlass::gemm::GemmEpilogueTraits::Params::shared_store_iterator_d</a></div><div class="ttdeci">SharedStoreIteratorD::Params shared_store_iterator_d</div><div class="ttdoc">The params for the D shared store iterator. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:120</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a7cdb30f17692e8fdb3dd4cf4c0b8e9ee"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">cutlass::gemm::GemmEpilogueTraits::Functor</a></div><div class="ttdeci">Functor_ Functor</div><div class="ttdoc">The functor in charge of the math. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:97</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">cutlass::gemm::GemmSharedStoreTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:264</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:620</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a8f15d59a7571d406d5ef593c342f0d4a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">cutlass::gemm::GemmEpilogueTraits::Scalar</a></div><div class="ttdeci">Functor::Scalar Scalar</div><div class="ttdoc">We do not support 3D or 4D shapes. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:102</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a1b025cb056729706f36469e74a9799dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">cutlass::gemm::GemmSharedLoadTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:341</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html_a48dee5c2aafb86e999732a1347c9f668"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">cutlass::gemm::GemmEpilogueTraits::SharedStoreIteratorD</a></div><div class="ttdeci">SharedStoreIteratorD_ SharedStoreIteratorD</div><div class="ttdoc">The iterator to store D in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:86</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_aad9a6190cccbc5c23a86f09c45c0e507"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreTileDTraits&lt; typename Functor::ScalarAccum, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::kScalarsPerStsD, 128/sizeof(typename GemmConfig_::ScalarD)/GemmConfig_::kScalarsPerStsD/2 *GemmConfig_::kScalarsPerStsD &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store to shared memory for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:227</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">cutlass::gemm::GemmSharedStoreTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:270</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:836</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__global__stream_8h.html b/docs/gemm__global__stream_8h.html
index 544d0f8b3e..5be9d29d9b 100644
--- a/docs/gemm__global__stream_8h.html
+++ b/docs/gemm__global__stream_8h.html
@@ -82,23 +82,21 @@
 
 <p>Implements efficient loading of the thread block-level tile from global memory and storing to shared memory.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="iterator__access_8h_source.html">cutlass/iterator_access.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tile__allocation_8h_source.html">cutlass/tile_allocation.h</a>&quot;</code><br />
 </div>
 <p><a href="gemm__global__stream_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage in shared memory needed by that stream.  <a href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -111,7 +109,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__global__stream_8h_source.html b/docs/gemm__global__stream_8h_source.html
index 4eff93c20c..d028554c33 100644
--- a/docs/gemm__global__stream_8h_source.html
+++ b/docs/gemm__global__stream_8h_source.html
@@ -76,53 +76,66 @@
 <div class="title">gemm_global_stream.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="gemm__global__stream_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="iterator__access_8h.html">cutlass/iterator_access.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;    <span class="keyword">typename</span> LoadIterator_,</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keyword">typename</span> StoreIterator_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    <span class="keyword">typename</span> Transformer_&gt;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">   49</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">GlobalLoadStreamBase</a> {</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe">   51</a></span>&#160;  <span class="keyword">typedef</span> LoadIterator_ <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe">LoadIterator</a>;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe">   53</a></span>&#160;  <span class="keyword">typedef</span> Transformer_ <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe">Transformer</a>;</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834">   55</a></span>&#160;  <span class="keyword">typedef</span> StoreIterator_ <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834">StoreIterator</a>;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36">   58</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> LoadIterator::Fragment <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36">FetchedFragment</a>;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">   60</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Transformer::OutputFragment <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">TransformedFragment</a>;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;FetchedFragment, typename Transformer::InputFragment&gt;::value</a>),</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a32687e2aa49dfa251eab14d5cd2036be">   63</a></span>&#160;                <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">TransformedFragment</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a32687e2aa49dfa251eab14d5cd2036be">Fragment</a>;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;TransformedFragment, typename StoreIterator::Fragment&gt;::value</a>),</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;                <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a807cffc6f69f8d30a2fc94cf49fb904c">   71</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a807cffc6f69f8d30a2fc94cf49fb904c">kLayout</a> = LoadIterator::kLayout;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afbbf15a7b5e4c38e59bf1debf67f04d6">   73</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> LoadIterator::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afbbf15a7b5e4c38e59bf1debf67f04d6">Scalar</a>;</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1">   75</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> LoadIterator::Pointer <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1">Pointer</a>;</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">   77</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> LoadIterator::Index <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">Index</a>;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html">   80</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html">Params</a> {</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    <span class="comment">// The load iterator.</span></div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a42ffcba6af2b5ddfb1f4825a34d43532">   82</a></span>&#160;    <span class="keyword">typename</span> LoadIterator::Params <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a42ffcba6af2b5ddfb1f4825a34d43532">load_iterator</a>;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;    <span class="comment">// The store iterator.</span></div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a3e5167fa3f2dc0d8b4b903bd4e936969">   84</a></span>&#160;    <span class="keyword">typename</span> StoreIterator::Params <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a3e5167fa3f2dc0d8b4b903bd4e936969">store_iterator</a>;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a7c7e448384156c801ed362359a1a6a40">   87</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a7c7e448384156c801ed362359a1a6a40">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1">Pointer</a> pointer, <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">Index</a> ld) {</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;      <span class="keywordtype">int</span> error_code = <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a42ffcba6af2b5ddfb1f4825a34d43532">load_iterator</a>.initialize(pointer, ld);</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;      <span class="keywordflow">if</span> (error_code) {</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;        <span class="keywordflow">return</span> error_code;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;      }</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a3e5167fa3f2dc0d8b4b903bd4e936969">store_iterator</a>.initialize();</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;    }</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  };</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa">   98</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> StoreIterator::SharedStorage <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa">SharedStoreStorage</a>;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html">  101</a></span>&#160;  <span class="keyword">union </span><a class="code" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html">SharedStorage</a> {</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    <span class="comment">// The load iterator.</span></div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a3be938f8661f9cd10966866b7b80b471">  103</a></span>&#160;    <span class="keyword">typename</span> LoadIterator::SharedStorage <a class="code" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a3be938f8661f9cd10966866b7b80b471">load_iterator</a>;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    <span class="comment">// The store iterator.</span></div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a939e9ddecc5ee97882a54211a61f5586">  105</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa">SharedStoreStorage</a> <a class="code" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a939e9ddecc5ee97882a54211a61f5586">store_iterator</a>;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  };</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0fdc0f56d1352b5ad41fd4985edd3278">  109</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0fdc0f56d1352b5ad41fd4985edd3278">GlobalLoadStreamBase</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; params,</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;                                      <a class="code" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html">SharedStorage</a>&amp; shared_storage,</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;                                      <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> bounds,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;                                      <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; block)</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">load_iterator</a>(params.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">load_iterator</a>, bounds, block),</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9">transformer</a>(),</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">store_iterator</a>(params.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">store_iterator</a>, shared_storage.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">store_iterator</a>)</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;  {</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">fetched_fragment</a>.clear();</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  }</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#af7a15b4456cda01c1ffbb2fdc532e87e">  122</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#af7a15b4456cda01c1ffbb2fdc532e87e">copy</a>() { <a class="code" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">iterator_load</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">load_iterator</a>, <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">fetched_fragment</a>); }</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6ce2c6e81d159d8e9ab736cb263f44ae">  125</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6ce2c6e81d159d8e9ab736cb263f44ae">commit</a>() {</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9">transformer</a>.transform(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">fetched_fragment</a>, <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf">transformed_fragment</a>);</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;    <a class="code" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">iterator_store</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">store_iterator</a>, <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf">transformed_fragment</a>);</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">store_iterator</a>.inc_stage();</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  }</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aae1adef6312e069e59a83d38c03116f9">  132</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aae1adef6312e069e59a83d38c03116f9">residue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">Index</a> k, <span class="keywordtype">bool</span> skip_clear = <span class="keyword">false</span>) {</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">load_iterator</a>.residue(k);</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    <span class="keywordflow">if</span> (!skip_clear) {</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">fetched_fragment</a>.clear();</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    }</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  }</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">  140</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe">LoadIterator</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">load_iterator</a>;</div><div class="line"><a name="l00142"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">  142</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36">FetchedFragment</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">fetched_fragment</a>;</div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9">  144</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe">Transformer</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9">transformer</a>;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf">  146</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">TransformedFragment</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf">transformed_fragment</a>;</div><div class="line"><a name="l00148"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">  148</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834">StoreIterator</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">store_iterator</a>;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;};</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;    <span class="keyword">typename</span> LoadIterator_,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    <span class="keyword">typename</span> StoreIterator_,</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;    <span class="keyword">typename</span> Transformer_ = <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename LoadIterator_::Fragment&gt;</a> &gt;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00161"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">  161</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">GlobalLoadStreamBase</a>&lt;LoadIterator_, StoreIterator_, Transformer_&gt; {</div><div class="line"><a name="l00163"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a507f825824e624d80a34ea9395934160">  163</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">GlobalLoadStreamBase&lt;LoadIterator_, StoreIterator_, Transformer_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a507f825824e624d80a34ea9395934160">Base</a>;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a4dd11a75375b6b9d7b8dcbd4d402d8d6">  166</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a4dd11a75375b6b9d7b8dcbd4d402d8d6">GlobalLoadStream</a>(<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html">Base::Params</a> <span class="keyword">const</span>&amp; params,</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;                                  <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html">Base::SharedStorage</a>&amp; shared_storage,</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;                                  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; bounds,</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;                                  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; block)</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">Base</a>(params, shared_storage, bounds, block) {}</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;};</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a807cffc6f69f8d30a2fc94cf49fb904c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a807cffc6f69f8d30a2fc94cf49fb904c">cutlass::gemm::GlobalLoadStreamBase::kLayout</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayout</div><div class="ttdoc">Make sure the transformed fragment is the same as the store fragment. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:71</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params_html_a3e5167fa3f2dc0d8b4b903bd4e936969"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a3e5167fa3f2dc0d8b4b903bd4e936969">cutlass::gemm::GlobalLoadStreamBase::Params::store_iterator</a></div><div class="ttdeci">StoreIterator::Params store_iterator</div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:84</div></div>
+<a href="gemm__global__stream_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__allocation_8h.html">cutlass/tile_allocation.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;    <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> Operand,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;    <span class="keyword">typename</span> LoadIterator_,</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;    <span class="keyword">typename</span> StoreIterator_,</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;    <span class="keyword">typename</span> Transformer_&gt;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">   52</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a> {</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a30113b850dfd3de60f8778bc7a66f700">   54</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a30113b850dfd3de60f8778bc7a66f700">kOperand</a> = Operand;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">   56</a></span>&#160;  <span class="keyword">typedef</span> LoadIterator_ <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">LoadIterator</a>;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">   58</a></span>&#160;  <span class="keyword">typedef</span> Transformer_ <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">Transformer</a>;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">   60</a></span>&#160;  <span class="keyword">typedef</span> StoreIterator_ <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">StoreIterator</a>;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">   63</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> LoadIterator::Fragment <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">FetchedFragment</a>;</div><div class="line"><a name="l00065"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">   65</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Transformer::OutputFragment <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">TransformedFragment</a>;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;FetchedFragment, typename Transformer::InputFragment&gt;::value</a>),</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab7e315253b3301c191581bce05644106">   68</a></span>&#160;                <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">TransformedFragment</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab7e315253b3301c191581bce05644106">Fragment</a>;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;TransformedFragment, typename StoreIterator::Fragment&gt;::value</a>),</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db">   76</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db">kLayout</a> = LoadIterator::kLayout;</div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7073b32c2cc62ffcad70a9ca46995c4c">   78</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> LoadIterator::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7073b32c2cc62ffcad70a9ca46995c4c">Scalar</a>;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">   80</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> LoadIterator::Pointer <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">Pointer</a>;</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">   82</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> LoadIterator::Index <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a>;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a260543a618fb187c2da40c9f630925ec">   84</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> LoadIterator::Tile <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a260543a618fb187c2da40c9f630925ec">Tile</a>;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileAllocation.html">TileAllocation&lt;typename StoreIterator::Scalar, typename StoreIterator::Tile&gt;</a></div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a17804b01904a9a4ee7a857905833f7a8">   88</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a17804b01904a9a4ee7a857905833f7a8">ThreadblockTileStorage</a>;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">   91</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">ThreadblockTileStorage::TensorRef</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">ThreadblockTileRef</a>;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">   94</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">Params</a> {</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    <span class="comment">// The load iterator.</span></div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a46f2546f9b88f4fc87f1396d0f08b065">   96</a></span>&#160;    <span class="keyword">typename</span> LoadIterator::Params <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a46f2546f9b88f4fc87f1396d0f08b065">load_iterator</a>;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    <span class="comment">// The store iterator.</span></div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a289ac736c0c098ae6da6a21c9abfe63f">   98</a></span>&#160;    <span class="keyword">typename</span> StoreIterator::Params <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a289ac736c0c098ae6da6a21c9abfe63f">store_iterator</a>;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <span class="comment">// Offset to residue.</span></div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1">  100</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1">offset_to_residue</a>;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a054aee5b4bf288cc1f5945f2521ef835">  103</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a054aee5b4bf288cc1f5945f2521ef835">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">Pointer</a> pointer,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;                                       <span class="keywordtype">long</span> <span class="keywordtype">long</span> batch_stride,</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> ldm,</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> _offset_to_residue) {</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1">offset_to_residue</a> = _offset_to_residue;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;      <span class="keywordtype">int</span> error_code = <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a46f2546f9b88f4fc87f1396d0f08b065">load_iterator</a>.initialize(pointer, batch_stride, ldm);</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;      <span class="keywordflow">if</span> (error_code) {</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;        <span class="keywordflow">return</span> error_code;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;      }</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a289ac736c0c098ae6da6a21c9abfe63f">store_iterator</a>.initialize();</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    }</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;  };</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html">  120</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html">SharedStorage</a> {};</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="comment">// Static member functions</span></div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">  127</a></span>&#160;  CUTLASS_DEVICE <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">project_coordinate</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; coord, <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> d_offset = 0) {</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;    <span class="keywordtype">bool</span> <span class="keyword">const</span> kKstrided =</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits&lt;typename LoadIterator::Tile, kOperand, kLayout&gt;::kKstrided</a>;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> tile_coord = <a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand&lt;kOperand, kKstrided&gt;::project</a>(coord);</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;        tile_coord[0] + d_offset, tile_coord[1], tile_coord[2] / LoadIterator::Tile::kC);</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  }</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aec86bdf5d7d4ad1f7b6ebebcf2da8395">  136</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aec86bdf5d7d4ad1f7b6ebebcf2da8395">GlobalLoadStream</a>(</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; _params,</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html">SharedStorage</a>&amp; shared_storage,</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">ThreadblockTileRef</a> <span class="keyword">const</span>&amp; threadblock_tile_ref,</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> bounds,</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; _threadblock_offset)</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">params</a>(_params),</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1">multiplicand_bounds</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">project_coordinate</a>(bounds, 1)),</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a">threadblock_offset</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">project_coordinate</a>(_threadblock_offset)),</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">project_coordinate</a>(bounds, 1), <span class="comment">/*multiplicant_bounds*/</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">project_coordinate</a>(_threadblock_offset) <span class="comment">/*threablock_offset*/</span>),</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4">transformer</a>(),</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">store_iterator</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">store_iterator</a>, threadblock_tile_ref.data())</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;  {</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>.initialize_predicates(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1">multiplicand_bounds</a>, <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a">threadblock_offset</a>);</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">fetched_fragment</a>.clear();</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  }</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a3784dbb3efe0865ffa946419111c824a">  157</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a3784dbb3efe0865ffa946419111c824a">copy</a>() { <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>.load_post_increment(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">fetched_fragment</a>); }</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab39c82ac1a8138c4b6d69dab9d48bdbc">  160</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab39c82ac1a8138c4b6d69dab9d48bdbc">commit</a>() {</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4">transformer</a>.transform(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">fetched_fragment</a>, <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1">transformed_fragment</a>);</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">store_iterator</a>.store_post_increment(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1">transformed_fragment</a>);</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">store_iterator</a>.inc_stage();</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;  }</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a235adaea5d4f01232c79cb6109dc6d17">  167</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a235adaea5d4f01232c79cb6109dc6d17">residue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> k, <span class="keywordtype">bool</span> skip_clear = <span class="keyword">false</span>) {</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>.residue(k);</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;    <span class="keywordflow">if</span> (!skip_clear) {</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">fetched_fragment</a>.clear();</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;    }</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;  }</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;</div><div class="line"><a name="l00175"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac269a9280a55d3988ca60f571bdf7f29">  175</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac269a9280a55d3988ca60f571bdf7f29">move_to_residue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> k, <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> kTileK) {</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> kResidue = k % kTileK;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;    <span class="keywordflow">if</span> (kResidue) {</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a235adaea5d4f01232c79cb6109dc6d17">residue</a>(kResidue);</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    }</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>.add_pointer_offset(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1">offset_to_residue</a> * <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>.stride_advance());</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;  }</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00184"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1e2eecdba1871fc11aa43a06edf6ed34">  184</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1e2eecdba1871fc11aa43a06edf6ed34">rollback</a>(<span class="keywordtype">void</span>) {</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>.initialize_predicates(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1">multiplicand_bounds</a>, <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a">threadblock_offset</a>);</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> kBlock = <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a30113b850dfd3de60f8778bc7a66f700">kOperand</a> == <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a></div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;                           ? (<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db">kLayout</a> == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a> ? Tile::kH : Tile::kW)</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;                           : (<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db">kLayout</a> == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a> ? Tile::kH : Tile::kW);</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>.add_pointer_offset(-(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1">offset_to_residue</a> + kBlock) *</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>.stride_advance());</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;  }</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a8e79a153de72eef10d90bfd02b5dd27e">  196</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a> &amp;<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a8e79a153de72eef10d90bfd02b5dd27e">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;offset) {</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a> += offset;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;  }</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">  206</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">Params</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">params</a>;</div><div class="line"><a name="l00208"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1">  208</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1">multiplicand_bounds</a>;</div><div class="line"><a name="l00210"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a">  210</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a">threadblock_offset</a>;</div><div class="line"><a name="l00212"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">  212</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">LoadIterator</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a>;</div><div class="line"><a name="l00214"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">  214</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">FetchedFragment</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">fetched_fragment</a>;</div><div class="line"><a name="l00216"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4">  216</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">Transformer</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4">transformer</a>;</div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1">  218</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">TransformedFragment</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1">transformed_fragment</a>;</div><div class="line"><a name="l00220"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">  220</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">StoreIterator</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">store_iterator</a>;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;};</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a011287c8289b7b026f9993da663abd77"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">cutlass::gemm::GlobalLoadStream::ThreadblockTileRef</a></div><div class="ttdeci">ThreadblockTileStorage::TensorRef ThreadblockTileRef</div><div class="ttdoc">Tensor reference to threadblock tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:91</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_ac4452df991f57f9bb0b86dfd380179b2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">cutlass::gemm::GlobalLoadStream::Pointer</a></div><div class="ttdeci">LoadIterator::Pointer Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:80</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a5ef4cc42c7cec73523550e5ea56df88c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">cutlass::gemm::GlobalLoadStream::load_iterator</a></div><div class="ttdeci">LoadIterator load_iterator</div><div class="ttdoc">The iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:212</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a45a4bceb72fcb856e32eaa20eec11e9d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">cutlass::gemm::GlobalLoadStream::store_iterator</a></div><div class="ttdeci">StoreIterator store_iterator</div><div class="ttdoc">The store iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:220</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_ac8ff1a3e10b25c212cd3cf5ed997fc0e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">cutlass::gemm::GlobalLoadStream::params</a></div><div class="ttdeci">Params params</div><div class="ttdoc">Parameters. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:206</div></div>
 <div class="ttc" id="gemm__global__tile_8h_html"><div class="ttname"><a href="gemm__global__tile_8h.html">gemm_global_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing to global memory. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_aa24bd9f94bea04a148b49b2a97b63fbe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe">cutlass::gemm::GlobalLoadStreamBase::Transformer</a></div><div class="ttdeci">Transformer_ Transformer</div><div class="ttdoc">The transformer. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:53</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a15eee5bf6367a36a5b5c8024437f4834"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834">cutlass::gemm::GlobalLoadStreamBase::StoreIterator</a></div><div class="ttdeci">StoreIterator_ StoreIterator</div><div class="ttdoc">The store iterator to write to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:55</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:412</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a69092e298d5723028fc24235d72f87fa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa">cutlass::gemm::GlobalLoadStreamBase::SharedStoreStorage</a></div><div class="ttdeci">StoreIterator::SharedStorage SharedStoreStorage</div><div class="ttdoc">The amount of storage in shared memory needed to store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:98</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a32687e2aa49dfa251eab14d5cd2036be"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a32687e2aa49dfa251eab14d5cd2036be">cutlass::gemm::GlobalLoadStreamBase::Fragment</a></div><div class="ttdeci">TransformedFragment Fragment</div><div class="ttdoc">Make sure the fragments match. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:63</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_afa97cb1cfebca0d6977b1c8318bedddf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf">cutlass::gemm::GlobalLoadStreamBase::transformed_fragment</a></div><div class="ttdeci">TransformedFragment transformed_fragment</div><div class="ttdoc">The fragment to convert the data after it has been fetched from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:146</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_aae1adef6312e069e59a83d38c03116f9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aae1adef6312e069e59a83d38c03116f9">cutlass::gemm::GlobalLoadStreamBase::residue</a></div><div class="ttdeci">CUTLASS_DEVICE void residue(Index k, bool skip_clear=false)</div><div class="ttdoc">Execute the residue code. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:132</div></div>
-<div class="ttc" id="structcutlass_1_1Copy_html"><div class="ttname"><a href="structcutlass_1_1Copy.html">cutlass::Copy</a></div><div class="ttdef"><b>Definition:</b> convert.h:69</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params_html_a7c7e448384156c801ed362359a1a6a40"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a7c7e448384156c801ed362359a1a6a40">cutlass::gemm::GlobalLoadStreamBase::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Pointer pointer, Index ld)</div><div class="ttdoc">Setup the params. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:87</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_ad2381f2311ee8400a2dc57c19084ef5e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">cutlass::gemm::GlobalLoadStreamBase::load_iterator</a></div><div class="ttdeci">LoadIterator load_iterator</div><div class="ttdoc">The iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:140</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params_html_a42ffcba6af2b5ddfb1f4825a34d43532"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a42ffcba6af2b5ddfb1f4825a34d43532">cutlass::gemm::GlobalLoadStreamBase::Params::load_iterator</a></div><div class="ttdeci">LoadIterator::Params load_iterator</div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:82</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:161</div></div>
-<div class="ttc" id="iterator__access_8h_html"><div class="ttname"><a href="iterator__access_8h.html">iterator_access.h</a></div><div class="ttdoc">Free functions for loading and storing to implementations of tile iteartor concepts. </div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage_html_a3be938f8661f9cd10966866b7b80b471"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a3be938f8661f9cd10966866b7b80b471">cutlass::gemm::GlobalLoadStreamBase::SharedStorage::load_iterator</a></div><div class="ttdeci">LoadIterator::SharedStorage load_iterator</div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:103</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a4dd11a75375b6b9d7b8dcbd4d402d8d6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a4dd11a75375b6b9d7b8dcbd4d402d8d6">cutlass::gemm::GlobalLoadStream::GlobalLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE GlobalLoadStream(typename Base::Params const &amp;params, typename Base::SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:166</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase</a></div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:49</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a0eafd1e245946bd1b9d228ad7d2d0dae"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">cutlass::gemm::GlobalLoadStreamBase::store_iterator</a></div><div class="ttdeci">StoreIterator store_iterator</div><div class="ttdoc">The store iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:148</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_adcbf24c1b7f45ab5fe8f3ad94154b4d1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1">cutlass::gemm::GlobalLoadStreamBase::Pointer</a></div><div class="ttdeci">LoadIterator::Pointer Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:75</div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage_html_a939e9ddecc5ee97882a54211a61f5586"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a939e9ddecc5ee97882a54211a61f5586">cutlass::gemm::GlobalLoadStreamBase::SharedStorage::store_iterator</a></div><div class="ttdeci">SharedStoreStorage store_iterator</div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:105</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_afe7503a3304eefd633581d6bc73a0108"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">cutlass::gemm::GlobalLoadStreamBase::TransformedFragment</a></div><div class="ttdeci">Transformer::OutputFragment TransformedFragment</div><div class="ttdoc">The fragment that is obtained after the transformation by the transformer. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:60</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_afbbf15a7b5e4c38e59bf1debf67f04d6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afbbf15a7b5e4c38e59bf1debf67f04d6">cutlass::gemm::GlobalLoadStreamBase::Scalar</a></div><div class="ttdeci">LoadIterator::Scalar Scalar</div><div class="ttdoc">The scalar type of the iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:73</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:420</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_aa0bf6caeab13dc004350c6c0cfe0df80"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">cutlass::TileAllocation::TensorRef</a></div><div class="ttdeci">TensorRef&lt; Scalar, 4 &gt; TensorRef</div><div class="ttdoc">Defines the tensor reference for this allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a30113b850dfd3de60f8778bc7a66f700"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a30113b850dfd3de60f8778bc7a66f700">cutlass::gemm::GlobalLoadStream::kOperand</a></div><div class="ttdeci">static GemmOperand::Kind const kOperand</div><div class="ttdoc">Indicates the type of GEMM operand. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:54</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a8e79a153de72eef10d90bfd02b5dd27e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a8e79a153de72eef10d90bfd02b5dd27e">cutlass::gemm::GlobalLoadStream::operator+=</a></div><div class="ttdeci">CUTLASS_DEVICE GlobalLoadStream &amp; operator+=(Coord&lt; 3 &gt; const &amp;offset)</div><div class="ttdoc">Adds a Coord&lt;3&gt; to the underlying global load iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:196</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a3784dbb3efe0865ffa946419111c824a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a3784dbb3efe0865ffa946419111c824a">cutlass::gemm::GlobalLoadStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy()</div><div class="ttdoc">Load the data from shared memory to the fetch fragment. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:157</div></div>
+<div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a386f2f4d2e239075f0fe1489ed7788c1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1">cutlass::gemm::GlobalLoadStream::multiplicand_bounds</a></div><div class="ttdeci">Coord&lt; 3 &gt; multiplicand_bounds</div><div class="ttdoc">Multiplicand bounds. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:208</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_ac29cd1ba94e802762d665c300e22e7db"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db">cutlass::gemm::GlobalLoadStream::kLayout</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayout</div><div class="ttdoc">Make sure the transformed fragment is the same as the store fragment. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:76</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params_html_a289ac736c0c098ae6da6a21c9abfe63f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a289ac736c0c098ae6da6a21c9abfe63f">cutlass::gemm::GlobalLoadStream::Params::store_iterator</a></div><div class="ttdeci">StoreIterator::Params store_iterator</div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:98</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a1c117b87024937f1dc3da128795b6e03"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">cutlass::gemm::GlobalLoadStream::fetched_fragment</a></div><div class="ttdeci">FetchedFragment fetched_fragment</div><div class="ttdoc">The fragment to fetch from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:214</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params_html_a054aee5b4bf288cc1f5945f2521ef835"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a054aee5b4bf288cc1f5945f2521ef835">cutlass::gemm::GlobalLoadStream::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Pointer pointer, long long batch_stride, Index ldm, Index _offset_to_residue)</div><div class="ttdoc">Setup the params. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:103</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html">cutlass::gemm::GlobalLoadStream::SharedStorage</a></div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:120</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a7073b32c2cc62ffcad70a9ca46995c4c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7073b32c2cc62ffcad70a9ca46995c4c">cutlass::gemm::GlobalLoadStream::Scalar</a></div><div class="ttdeci">LoadIterator::Scalar Scalar</div><div class="ttdoc">The scalar type of the iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:78</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a235adaea5d4f01232c79cb6109dc6d17"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a235adaea5d4f01232c79cb6109dc6d17">cutlass::gemm::GlobalLoadStream::residue</a></div><div class="ttdeci">CUTLASS_DEVICE void residue(Index k, bool skip_clear=false)</div><div class="ttdoc">Execute the residue code. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:167</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a7d7042e60aaab0dd00772b239e1f1db1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1">cutlass::gemm::GlobalLoadStream::transformed_fragment</a></div><div class="ttdeci">TransformedFragment transformed_fragment</div><div class="ttdoc">The fragment to convert the data after it has been fetched from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:218</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="tile__allocation_8h_html"><div class="ttname"><a href="tile__allocation_8h.html">tile_allocation.h</a></div><div class="ttdoc">Defines a fragment based on a Shape&lt;&gt; template. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params_html_a73bb518f85aee62310b3c886a1fba3f1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1">cutlass::gemm::GlobalLoadStream::Params::offset_to_residue</a></div><div class="ttdeci">Index offset_to_residue</div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:100</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_ab7e315253b3301c191581bce05644106"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab7e315253b3301c191581bce05644106">cutlass::gemm::GlobalLoadStream::Fragment</a></div><div class="ttdeci">TransformedFragment Fragment</div><div class="ttdoc">Make sure the fragments match. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:68</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a905c219287a7342b2ddb58b84e413d64"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">cutlass::gemm::GlobalLoadStream::LoadIterator</a></div><div class="ttdeci">LoadIterator_ LoadIterator</div><div class="ttdoc">The load iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:56</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmMultiplicandTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">cutlass::gemm::GemmMultiplicandTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_operand.h:67</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_ab39c82ac1a8138c4b6d69dab9d48bdbc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab39c82ac1a8138c4b6d69dab9d48bdbc">cutlass::gemm::GlobalLoadStream::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit()</div><div class="ttdoc">Commit the data. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:160</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a6a6e38022606dd8d41cf7264fb059cc2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">cutlass::gemm::GlobalLoadStreamBase::Index</a></div><div class="ttdeci">LoadIterator::Index Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:77</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a868f82ee87aba37b05721fe8210221c9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9">cutlass::gemm::GlobalLoadStreamBase::transformer</a></div><div class="ttdeci">Transformer transformer</div><div class="ttdoc">The transformer. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:144</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a507f825824e624d80a34ea9395934160"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a507f825824e624d80a34ea9395934160">cutlass::gemm::GlobalLoadStream::Base</a></div><div class="ttdeci">GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:163</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:48</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a0a7f6ae85cfb162b1facf24dff8bab36"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36">cutlass::gemm::GlobalLoadStreamBase::FetchedFragment</a></div><div class="ttdeci">LoadIterator::Fragment FetchedFragment</div><div class="ttdoc">The fragment that is copied from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:58</div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage_html"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html">cutlass::gemm::GlobalLoadStreamBase::SharedStorage</a></div><div class="ttdoc">The storage in shared memory needed by that stream. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:101</div></div>
-<div class="ttc" id="namespacecutlass_html_a0cb5bdf7bef498705c51a9cdcbef71f9"><div class="ttname"><a href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">cutlass::iterator_store</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void iterator_store(OutputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdoc">Stores a fragment to an output iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:193</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a26aa580a2697ad02c27f868e7779348d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">cutlass::gemm::GlobalLoadStreamBase::fetched_fragment</a></div><div class="ttdeci">FetchedFragment fetched_fragment</div><div class="ttdoc">The fragment to fetch from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:142</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_acff2a1ab180eec672714cd587a28f9fe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe">cutlass::gemm::GlobalLoadStreamBase::LoadIterator</a></div><div class="ttdeci">LoadIterator_ LoadIterator</div><div class="ttdoc">The load iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:51</div></div>
-<div class="ttc" id="namespacecutlass_html_a45dd7add04736cb5c3e69991d2f210be"><div class="ttname"><a href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">cutlass::iterator_load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdoc">Loads a fragment from an input iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:41</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a6ce2c6e81d159d8e9ab736cb263f44ae"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6ce2c6e81d159d8e9ab736cb263f44ae">cutlass::gemm::GlobalLoadStreamBase::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit()</div><div class="ttdoc">Commit the data. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:125</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_af7a15b4456cda01c1ffbb2fdc532e87e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#af7a15b4456cda01c1ffbb2fdc532e87e">cutlass::gemm::GlobalLoadStreamBase::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy()</div><div class="ttdoc">Load the data from shared memory to the fetch fragment. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:122</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_html_a0fdc0f56d1352b5ad41fd4985edd3278"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0fdc0f56d1352b5ad41fd4985edd3278">cutlass::gemm::GlobalLoadStreamBase::GlobalLoadStreamBase</a></div><div class="ttdeci">CUTLASS_DEVICE GlobalLoadStreamBase(Params const &amp;params, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const bounds, Coord&lt; 3 &gt; const &amp;block)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:109</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a></div><div class="ttdoc">Class for storing a tile in memory and accessing it through a tensor ref. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:41</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_ab68ba57fe69430c557379b3457faebc4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4">cutlass::gemm::GlobalLoadStream::transformer</a></div><div class="ttdeci">Transformer transformer</div><div class="ttdoc">The transformer. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:216</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ProjectOperand_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ProjectOperand.html">cutlass::gemm::ProjectOperand</a></div><div class="ttdef"><b>Definition:</b> gemm_operand.h:96</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_ac16e31930c346068d7522dd8de9d93d2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">cutlass::gemm::GlobalLoadStream::StoreIterator</a></div><div class="ttdeci">StoreIterator_ StoreIterator</div><div class="ttdoc">The store iterator to write to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a17804b01904a9a4ee7a857905833f7a8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a17804b01904a9a4ee7a857905833f7a8">cutlass::gemm::GlobalLoadStream::ThreadblockTileStorage</a></div><div class="ttdeci">TileAllocation&lt; typename StoreIterator::Scalar, typename StoreIterator::Tile &gt; ThreadblockTileStorage</div><div class="ttdoc">Shared memory allocation for the tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params_html_a46f2546f9b88f4fc87f1396d0f08b065"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a46f2546f9b88f4fc87f1396d0f08b065">cutlass::gemm::GlobalLoadStream::Params::load_iterator</a></div><div class="ttdeci">LoadIterator::Params load_iterator</div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:96</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">cutlass::gemm::GlobalLoadStream::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_aa79a27cbe2420882fbaca55e42803f02"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">cutlass::gemm::GlobalLoadStream::Transformer</a></div><div class="ttdeci">Transformer_ Transformer</div><div class="ttdoc">The transformer. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:58</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a563961c326d2e55f5b8682a30b64a24a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a">cutlass::gemm::GlobalLoadStream::threadblock_offset</a></div><div class="ttdeci">Coord&lt; 3 &gt; threadblock_offset</div><div class="ttdoc">Threadblock offset. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:210</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a7c46d6eb83b43e099d53784bb2a09f02"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">cutlass::gemm::GlobalLoadStream::Index</a></div><div class="ttdeci">LoadIterator::Index Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:82</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_aa634e3f786d5bf5707b94e522a10a001"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">cutlass::gemm::GlobalLoadStream::project_coordinate</a></div><div class="ttdeci">static CUTLASS_DEVICE Coord&lt; 3 &gt; project_coordinate(Coord&lt; 3 &gt; const &amp;coord, Index d_offset=0)</div><div class="ttdoc">Maps a coordinate in the GEMM&amp;#39;s (K, N, M) coordinate system to global memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:127</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_ac269a9280a55d3988ca60f571bdf7f29"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac269a9280a55d3988ca60f571bdf7f29">cutlass::gemm::GlobalLoadStream::move_to_residue</a></div><div class="ttdeci">CUTLASS_DEVICE void move_to_residue(Index k, Index kTileK)</div><div class="ttdoc">Move to the residue portion. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:175</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a7d9b4339129c1ab4f21f1df1144faddf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">cutlass::gemm::GlobalLoadStream::FetchedFragment</a></div><div class="ttdeci">LoadIterator::Fragment FetchedFragment</div><div class="ttdoc">The fragment that is copied from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:63</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a9eb2fb49698d0d018c04e7712e239ce9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">cutlass::gemm::GlobalLoadStream::TransformedFragment</a></div><div class="ttdeci">Transformer::OutputFragment TransformedFragment</div><div class="ttdoc">The fragment that is obtained after the transformation by the transformer. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_aec86bdf5d7d4ad1f7b6ebebcf2da8395"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aec86bdf5d7d4ad1f7b6ebebcf2da8395">cutlass::gemm::GlobalLoadStream::GlobalLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE GlobalLoadStream(Params const &amp;_params, SharedStorage &amp;shared_storage, ThreadblockTileRef const &amp;threadblock_tile_ref, Coord&lt; 3 &gt; const bounds, Coord&lt; 3 &gt; const &amp;_threadblock_offset)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:136</div></div>
 <div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html">cutlass::gemm::GlobalLoadStreamBase::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:80</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a260543a618fb187c2da40c9f630925ec"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a260543a618fb187c2da40c9f630925ec">cutlass::gemm::GlobalLoadStream::Tile</a></div><div class="ttdeci">LoadIterator::Tile Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:84</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html_a1e2eecdba1871fc11aa43a06edf6ed34"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1e2eecdba1871fc11aa43a06edf6ed34">cutlass::gemm::GlobalLoadStream::rollback</a></div><div class="ttdeci">CUTLASS_DEVICE void rollback(void)</div><div class="ttdoc">Rollback to the beginning of the first tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:184</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__global__tile_8h.html b/docs/gemm__global__tile_8h.html
index 39d4a36125..2618ca58b0 100644
--- a/docs/gemm__global__tile_8h.html
+++ b/docs/gemm__global__tile_8h.html
@@ -82,13 +82,13 @@
 
 <p>Defines iterators for efficiently loading and storing to global memory.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__operand_8h_source.html">cutlass/gemm/gemm_operand.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="predicate__vector_8h_source.html">cutlass/predicate_vector.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__operand_8h_source.html">cutlass/gemm/gemm_operand.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="predicate__vector_8h_source.html">cutlass/predicate_vector.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&quot;</code><br />
 </div>
 <p><a href="gemm__global__tile_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -128,7 +128,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__global__tile_8h_source.html b/docs/gemm__global__tile_8h_source.html
index d44c18ec4b..8aac5bbcef 100644
--- a/docs/gemm__global__tile_8h_source.html
+++ b/docs/gemm__global__tile_8h_source.html
@@ -76,138 +76,169 @@
 <div class="title">gemm_global_tile.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="gemm__global__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__operand_8h.html">cutlass/gemm/gemm_operand.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="predicate__vector_8h.html">cutlass/predicate_vector.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&gt;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="comment">// The following functor reshapes a tile of threads to match a tile of data. The idea is that when</span></div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="comment">// the user wants to build the iterator traits, he/she may want to specify the tile independently</span></div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="comment">// from the number of scalars loaded/stored per instruction. For example, in the row-major version</span></div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="comment">// with a tile of size 128x8 - the user may want to that the iterator works with 32x8 threads if</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="comment">// each thread loads 1 scalar per LDG. If the user changes to 4 scalars per LDG, then the tile of</span></div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="comment">// threads has to change. The code below detects that and correct the code automatically - it is</span></div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="comment">// a helper when the user does not specify the right configuration.</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">bool</span> = (Tile_::kW &lt; Threads_::kW)&gt;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">   53</a></span>&#160;struct ReshapeThreads {</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57">   54</a></span>&#160;  typedef Threads_ Threads;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;};</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_&gt;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html">   58</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html">ReshapeThreads&lt;Tile_, Threads_, true&gt;</a> {</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c">   59</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;Threads_::kD, Threads_::kH * Threads_::kW / Tile_::kW, Tile_::kW, 1&gt; <a class="code" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c">Threads</a>;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;};</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> kOperand_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;          <span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;          <span class="keyword">typename</span> Threads_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;          <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">   70</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a> {</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">   72</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a> = kOperand_;</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">   74</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> = kLayout_;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">   76</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">Scalar</a>;</div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">   78</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a>;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">   80</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> = kAccessSize_;</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">   82</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">   85</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;Tile_, kAccessSize_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>;</div><div class="line"><a name="l00087"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">   87</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57">ReshapeThreads&lt;Tile, Threads_&gt;::Threads</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a>;</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">   89</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, Tile::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">ThreadsDelta</a>;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">   92</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, Threads::kH, Threads::kW * kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">Delta</a>;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">   94</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Threads::kW * ThreadsDelta::kW, kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, Tile::kH / Threads::kH, Tile::kW / Threads::kW, Tile::kC / <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a>&gt;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">   97</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Iterations</a>;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">   99</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits&lt;Tile, kOperand, kLayout&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a>;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html">  102</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html#ab8adb983c0573a0015469f40a75287be">  104</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html#ab8adb983c0573a0015469f40a75287be">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      <span class="keywordtype">int</span> thread_offset_h = threadIdx.x / Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">ThreadsDelta::kH</a>;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      <span class="keywordtype">int</span> thread_offset_w = threadIdx.x % Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, thread_offset_h, thread_offset_w, 0);</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;    }</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  };</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;};</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>eH_, <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">  116</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;GemmOperand::kC,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;                                                            MatrixLayout::kColumnMajor,</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;                                                            Scalar_,</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;                                                            Tile_,</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;                                                            Threads_,</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;                                                            kAccessSize_&gt; {</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>,</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;                               <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;                               Scalar_,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;                               Tile_,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;                               Threads_,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                               kAccessSize_&gt;</div><div class="line"><a name="l00129"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a">  129</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a">Base</a>;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97">  132</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97">kStrideH</a> = kStrideH_;</div><div class="line"><a name="l00134"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4">  134</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Base::Delta::kW, Base::Delta::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4">Delta</a>;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">  136</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::Iterations</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">Iterations</a>;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">  138</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Base::Threads</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">Threads</a>;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">  140</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::ThreadsDelta</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">ThreadsDelta</a>;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c">  142</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::ImmediateOffsetStrides</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;</div><div class="line"><a name="l00145"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html">  145</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00147"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html#abaf0d4459a64b3e9533758b59600bd52">  147</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html#abaf0d4459a64b3e9533758b59600bd52">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;      <span class="keywordtype">int</span> thread_offset_h = threadIdx.x / Threads::kW * <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97">kStrideH</a> * <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Iterations::kH</a>;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;      <span class="keywordtype">int</span> thread_offset_w = threadIdx.x % Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, thread_offset_h, thread_offset_w, 0);</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    }</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  };</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;};</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> TileTraits_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">  159</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a></div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;TileTraits_,</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;                              typename TileTraits_::Scalar,</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;                              TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;                                                                         : IteratorAdvance::kW,</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;                              MemorySpace::kGlobal,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;                              Index_&gt; {</div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">  167</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;TileTraits_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">This_</a>;  </div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;TileTraits_,</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;                           <span class="keyword">typename</span> TileTraits_::Scalar,</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;                           TileTraits_::MultiplicandTraits::kKstrided ? <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a></div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;                                                                      : <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">IteratorAdvance::kW</a>,</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>,</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;                           Index_&gt;</div><div class="line"><a name="l00175"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">  175</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">Base</a>;</div><div class="line"><a name="l00177"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">  177</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">kLayout</a> = TileTraits_::kLayout;</div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">  179</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">Base::Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a>;</div><div class="line"><a name="l00181"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">  181</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a>;</div><div class="line"><a name="l00183"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">  183</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Threads <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">Threads</a>;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">  185</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a>;</div><div class="line"><a name="l00187"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">  187</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::ThreadOffset <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a>;</div><div class="line"><a name="l00189"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">  189</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> = <a class="code" href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">Base::kAdvance</a>;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">  191</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector&lt;ShapeCount&lt;typename Base::Iterations&gt;::kCount</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a>;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">  194</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Base::Params</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">BaseParams</a>;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">  196</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html">BaseParams</a> {</div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#a73091e07b6d4c99f6e0319fbf6bd1709">  198</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#a73091e07b6d4c99f6e0319fbf6bd1709">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> <span class="keyword">const</span>* ptr, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>) {</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a> = 0;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a> = 0;</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;      <span class="comment">// Move by some columns for each iteration in the H dimension.</span></div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a> = Base::Delta::kH * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;      <span class="comment">// Move by some more columns in the number of iterations if the D dimension is &gt; 1.</span></div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;      <span class="keywordflow">if</span> (Base::Delta::kD &gt; 0) {</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a> = Base::Delta::kD * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a> - (Base::Iterations::kH - 1) * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a>;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;      }</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      <span class="comment">// Move to the beginning of the next iteration.</span></div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a> &amp;&amp; Base::Delta::kD &gt; 0) {</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a>;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;      } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a>;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (Base::Delta::kD &gt; 0) {</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a> = (Base::Iterations::kW + 0) * <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;typename Base::Delta&gt;::kWc</a> -</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;                      (Base::Iterations::kH - 1) * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a> -</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;                      (Base::Iterations::kD - 1) * Base::Delta::kD * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a> = (Base::Iterations::kW + 0) * <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;typename Base::Delta&gt;::kWc</a> -</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;                      (Base::Iterations::kH - 1) * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a>;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;      }</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8">Base::Params::initialize</a>(ptr, 0, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>, 0, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a>, 0, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a>);</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    }</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;  };</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">  229</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>;</div><div class="line"><a name="l00231"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">  231</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00233"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab9375d9e779dcda79a5cd561bb3762ff">  233</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab9375d9e779dcda79a5cd561bb3762ff">initialize_predicates</a>(<span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; bounds, <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; block) {</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;    <span class="comment">// Setup the masks to control loads.</span></div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">fill</a>(0);</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;    <span class="keywordtype">int</span> bounds_h, bounds_w;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;      bounds_w = bounds[2] - block[2];</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;      bounds_h = bounds[1];</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;      bounds_w = bounds[1];</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      bounds_h = bounds[2] - block[1];</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;    }</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;    <span class="comment">// Fill in the bits of the predicate vector.</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Base::Iterations::kD; ++d) {</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Base::Iterations::kH; ++h) {</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Base::Iterations::kW; ++w) {</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Base::Iterations::kC; ++c) {</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;            <span class="keywordtype">bool</span> flag = w * Base::Delta::kW &lt; bounds_w;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;            <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;              flag = flag &amp;&amp; (h * Base::Delta::kH + d * Base::Delta::kD) &lt; bounds_h;</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;            } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;              flag = flag &amp;&amp; (h * Base::Delta::kH) &lt; bounds_h;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;            }</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;            <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">ComputeOffsetFromShape&lt;typename Base::Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">set</a>(bit, flag);</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;          }</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;        }</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;      }</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;    }</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;  }</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;</div><div class="line"><a name="l00267"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a34cb153d311377388e7819296a84d07e">  267</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a34cb153d311377388e7819296a84d07e">GemmGlobalIteratorAb</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; _params,</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;                                      <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; bounds,</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;                                      <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; block,</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;                                      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a>())</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>(_params) {</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a> = thread_offset_func();</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;    <span class="comment">// The column.</span></div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> block_h = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[1];</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;    <span class="comment">// The contiguous dimension.</span></div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> block_w = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[2];</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;    <span class="comment">// Add the blocks indices.</span></div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;      block_h += block[1];</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;      block_w += block[2];</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;      block_h += block[2];</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;      block_w += block[1];</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;    }</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;    <span class="comment">// Setup the pointer.</span></div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> += (block_h * <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a> + block_w);</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;    <span class="comment">// Initialize predicates</span></div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab9375d9e779dcda79a5cd561bb3762ff">initialize_predicates</a>(bounds, <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, block_h, block_w));</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;  }</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;</div><div class="line"><a name="l00296"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aa24336597f4a3316d94df6ab0c20f714">  296</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aa24336597f4a3316d94df6ab0c20f714">inc_h</a>() { <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a>; }</div><div class="line"><a name="l00298"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1e42503e5a54cdc01308e9030aebdd35">  298</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1e42503e5a54cdc01308e9030aebdd35">inc_d</a>() { <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a>; }</div><div class="line"><a name="l00300"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a9dea455aa86bb59517b4a4d0309e424b">  300</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a9dea455aa86bb59517b4a4d0309e424b">inc_advance</a>() { <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a>; }</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00304"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3af66b82b1a0cc5bf6141f940553e048">  304</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> <span class="keyword">const</span>* <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3af66b82b1a0cc5bf6141f940553e048">data</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a>; }</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div><div class="line"><a name="l00307"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aab37ea6c47e34466371314ed3971dc7b">  307</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aab37ea6c47e34466371314ed3971dc7b">residue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> k) {</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;    <span class="comment">// The coordinates of the thread.</span></div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> block_h = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[1];</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;    <span class="comment">// The contiguous dimension.</span></div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> block_w = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[2];</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;    <span class="comment">// Update the predicate vector.</span></div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Base::Iterations::kD; ++d) {</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Base::Iterations::kH; ++h) {</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Base::Iterations::kW; ++w) {</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Base::Iterations::kC; ++c) {</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> offset = 0;</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;            <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;              offset += block_h + h * Base::Delta::kH + d * Base::Delta::kD;</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;            } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;              offset += block_w + w * Base::Delta::kW;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;            }</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;            <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">ComputeOffsetFromShape&lt;typename Base::Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;            <span class="keywordflow">if</span> (offset &gt;= k) {</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;              <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">set</a>(bit, <span class="keyword">false</span>);</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;            }</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;          }</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;        }</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;      }</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;    }</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;  }</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;</div><div class="line"><a name="l00336"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ac4d2c293f9312b673ea29bf79b2882fd">  336</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ac4d2c293f9312b673ea29bf79b2882fd">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">ComputeOffsetFromShape&lt;typename Base::Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a>[bit];</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;  }</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;</div><div class="line"><a name="l00342"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">  342</a></span>&#160;  <a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a>;</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;};</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> TileTraits_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00348"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">  348</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;TileTraits_,</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;                                                      typename TileTraits_::Scalar,</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;                                                      IteratorAdvance::kH,</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;                                                      MemorySpace::kGlobal,</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;                                                      Index_&gt; {</div><div class="line"><a name="l00354"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">  354</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;TileTraits_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">This_</a>;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;TileTraits_,</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;                           <span class="keyword">typename</span> TileTraits_::Scalar,</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>,</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;                           Index_&gt;</div><div class="line"><a name="l00361"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">  361</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">Base</a>;</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;</div><div class="line"><a name="l00364"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">  364</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">kLayout</a> = TileTraits_::kLayout;</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;</div><div class="line"><a name="l00367"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">  367</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">Scalar</a>;</div><div class="line"><a name="l00369"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">  369</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Pointer <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a>;</div><div class="line"><a name="l00371"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">  371</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Threads <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">Threads</a>;</div><div class="line"><a name="l00373"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">  373</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>;</div><div class="line"><a name="l00375"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">  375</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::ThreadOffset <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>;</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;</div><div class="line"><a name="l00378"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">  378</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> {</div><div class="line"><a name="l00380"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">  380</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>;</div><div class="line"><a name="l00382"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">  382</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a>;</div><div class="line"><a name="l00384"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">  384</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">inc_advance</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">inc_h</a>;</div><div class="line"><a name="l00386"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">  386</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">predicate_inc_advance</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">predicate_inc_h</a>;</div><div class="line"><a name="l00388"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">  388</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a>;</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;</div><div class="line"><a name="l00391"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#af5a496f1b6a46ea6a9894512029add6a">  391</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#af5a496f1b6a46ea6a9894512029add6a">initialize</a>(</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> ld, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> bound, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_stride_w, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_delta_w) {</div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;      this-&gt;pointer = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>;</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;      <span class="comment">// Each column of the matrix.</span></div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a> = TileTraits_::ThreadsDelta::kH * ld;</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;      <span class="comment">// Each thread output 1 column per iteration. The stride between columns is given by the</span></div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;      <span class="comment">// number of scalars that are loaded per LDS for B.</span></div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">inc_h</a> = ld * TileTraits_::kStrideH;</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">inc_advance</a> =</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;          (ld - ld * TileTraits_::kStrideH * (Base::Iterations::kH - 1)) + epilogue_stride_w;</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a> = bound;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">predicate_inc_h</a> = TileTraits_::kStrideH;</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">predicate_inc_advance</a> =</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;          -((TileTraits_::kStrideH * (Base::Iterations::kH - 1) - 1) + epilogue_delta_w);</div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;    }</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;  };</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;</div><div class="line"><a name="l00412"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">  412</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>;</div><div class="line"><a name="l00414"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">  414</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a>;</div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;</div><div class="line"><a name="l00417"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6dae81995ab94c0b7f28eeeeb84a6c8d">  417</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6dae81995ab94c0b7f28eeeeb84a6c8d">GemmGlobalIteratorCd</a>() {}</div><div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;</div><div class="line"><a name="l00420"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a64f1df43acb37a1901f0b55becaa9557">  420</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a64f1df43acb37a1901f0b55becaa9557">GemmGlobalIteratorCd</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>,</div><div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;                                      <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; bounds,</div><div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;                                      <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; block,</div><div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;                                      <span class="keywordtype">int</span> offset = 0,</div><div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;                                      <span class="keywordtype">int</span> pred_offset = 0,</div><div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;                                      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>())</div><div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>) {</div><div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a> = thread_offset_func();</div><div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;    <span class="comment">// Each warp works on a different column of the tile.</span></div><div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> h = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a>[1] + block[1];</div><div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;    <span class="comment">// Each lane writes a different element.</span></div><div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> w = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a>[2] + block[2];</div><div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;    <span class="comment">// Setup the pointer.</span></div><div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;    this-&gt;params.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a> += ((h * <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a> + w) + offset);</div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;</div><div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;    <span class="comment">// Prepare the vector of predicates.</span></div><div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Base::Iterations::kW; ++i) {</div><div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">set</a>(i, w + i * Base::Delta::kW &lt; bounds[2]);</div><div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;    }</div><div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;    this-&gt;params.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a> -= (h + pred_offset);</div><div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;  }</div><div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;</div><div class="line"><a name="l00443"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a12ead84ea9634e963d10c6df7b7792c9">  443</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a12ead84ea9634e963d10c6df7b7792c9">inc_c</a>() {}</div><div class="line"><a name="l00445"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a622a4dd27162854ec96efea93cdd4380">  445</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a622a4dd27162854ec96efea93cdd4380">inc_w</a>() {}</div><div class="line"><a name="l00447"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ae07fa10a53d44471a04275145201299e">  447</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ae07fa10a53d44471a04275145201299e">inc_h</a>() {</div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">inc_h</a>;</div><div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a> -= <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">predicate_inc_h</a>;</div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;  }</div><div class="line"><a name="l00452"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad26ab8d8010c9a1d7f3b91f60940b460">  452</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad26ab8d8010c9a1d7f3b91f60940b460">inc_d</a>() {}</div><div class="line"><a name="l00454"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab4b8150f19c9f8649d75c69ec0a76e1a">  454</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab4b8150f19c9f8649d75c69ec0a76e1a">inc_advance</a>() {</div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">inc_advance</a>;</div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;    this-&gt;params.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a> -= <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">predicate_inc_advance</a>;</div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;  }</div><div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;</div><div class="line"><a name="l00460"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6594acc213fc8d4289c6c73631f60120">  460</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6594acc213fc8d4289c6c73631f60120">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">at</a>(w) &amp;&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a> &gt; 0;</div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;  }</div><div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00466"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a0d3c1a58f23957f9850d1b22992a981a">  466</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a0d3c1a58f23957f9850d1b22992a981a">data</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>; }</div><div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;</div><div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00469"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6fd4e62eb280a5b8c17eb79141414581">  469</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6fd4e62eb280a5b8c17eb79141414581">data</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>; }</div><div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;</div><div class="line"><a name="l00472"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">  472</a></span>&#160;  <a class="code" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector&lt;Base::Iterations::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">predicates</a>;</div><div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;};</div><div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;</div><div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;</div><div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:116</div></div>
+<a href="gemm__global__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__operand_8h.html">cutlass/gemm/gemm_operand.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="predicate__vector_8h.html">cutlass/predicate_vector.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="comment">// The following functor reshapes a tile of threads to match a tile of data. The idea is that when</span></div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="comment">// the user wants to build the iterator traits, he/she may want to specify the tile independently</span></div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="comment">// from the number of scalars loaded/stored per instruction. For example, in the row-major version</span></div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="comment">// with a tile of size 128x8 - the user may want to that the iterator works with 32x8 threads if</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="comment">// each thread loads 1 scalar per LDG. If the user changes to 4 scalars per LDG, then the tile of</span></div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="comment">// threads has to change. The code below detects that and correct the code automatically - it is</span></div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="comment">// a helper when the user does not specify the right configuration.</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">bool</span> = (Tile_::kW &lt; Threads_::kW)&gt;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">   53</a></span>&#160;struct ReshapeThreads {</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57">   54</a></span>&#160;  typedef Threads_ Threads;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;};</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_&gt;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html">   58</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html">ReshapeThreads&lt;Tile_, Threads_, true&gt;</a> {</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c">   59</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;Threads_::kD, Threads_::kH * Threads_::kW / Tile_::kW, Tile_::kW, 1&gt; <a class="code" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c">Threads</a>;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;};</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> kOperand_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;          <span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;          <span class="keyword">typename</span> Threads_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;          <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">   70</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a> {</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">   72</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a> = kOperand_;</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">   74</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> = kLayout_;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">   76</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">Scalar</a>;</div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">   78</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a>;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">   80</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> = kAccessSize_;</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">   82</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">   84</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">   86</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;Tile_, kAccessSize_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a>;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">   88</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57">ReshapeThreads&lt;VectorizedTile, Threads_&gt;::Threads</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a>;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">   90</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, VectorizedTile::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a>;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">   92</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, Threads::kH, Threads::kW * kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">Delta</a>;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">   95</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Threads::kW * ThreadsDelta::kW, kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1,</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;                VectorizedTile::kH / Threads::kH,</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;                VectorizedTile::kW / Threads::kW,</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;                VectorizedTile::kC / <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a>&gt;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">  101</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a>;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">  103</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits&lt;Tile, kOperand, kLayout&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a>;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html">  106</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html#ab8adb983c0573a0015469f40a75287be">  108</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html#ab8adb983c0573a0015469f40a75287be">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;      <span class="keywordtype">int</span> thread_offset_h = threadIdx.x / Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">ThreadsDelta::kH</a>;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;      <span class="keywordtype">int</span> thread_offset_w = threadIdx.x % Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, thread_offset_h, thread_offset_w, 0);</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;    }</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  };</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;};</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>eH_, <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">  120</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;GemmOperand::kC,</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;                                                            MatrixLayout::kColumnMajor,</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;                                                            Scalar_,</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;                                                            Tile_,</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;                                                            Threads_,</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;                                                            kAccessSize_&gt; {</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                               <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;                               Scalar_,</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;                               Tile_,</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;                               Threads_,</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;                               kAccessSize_&gt;</div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a">  133</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a">Base</a>;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97">  136</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97">kStrideH</a> = kStrideH_;</div><div class="line"><a name="l00138"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4">  138</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Base::Delta::kW, Base::Delta::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4">Delta</a>;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">  140</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::Iterations</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">Iterations</a>;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">  142</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Base::Threads</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">Threads</a>;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">  144</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::ThreadsDelta</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">ThreadsDelta</a>;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c">  146</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::ImmediateOffsetStrides</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html">  149</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00151"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html#abaf0d4459a64b3e9533758b59600bd52">  151</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html#abaf0d4459a64b3e9533758b59600bd52">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <span class="keywordtype">int</span> thread_offset_h = threadIdx.x / Threads::kW * <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97">kStrideH</a> * <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Iterations::kH</a>;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      <span class="keywordtype">int</span> thread_offset_w = threadIdx.x % Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, thread_offset_h, thread_offset_w, 0);</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;    }</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;  };</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;};</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> TileTraits_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00163"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">  163</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;TileTraits_,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;                              typename TileTraits_::Scalar,</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;                              TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;                                                                         : IteratorAdvance::kW,</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;                              MemorySpace::kGlobal,</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;                              Index_&gt; {</div><div class="line"><a name="l00171"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">  171</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;TileTraits_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">This_</a>;  </div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;TileTraits_,</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;                           <span class="keyword">typename</span> TileTraits_::Scalar,</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;                           TileTraits_::MultiplicandTraits::kKstrided ? <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a></div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;                                                                      : <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">IteratorAdvance::kW</a>,</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>,</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;                           Index_&gt;</div><div class="line"><a name="l00178"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">  178</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">Base</a>;</div><div class="line"><a name="l00180"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">  180</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">kLayout</a> = TileTraits_::kLayout;</div><div class="line"><a name="l00182"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">  182</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Tile <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">Tile</a>;</div><div class="line"><a name="l00184"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">  184</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">Base::Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a>;</div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">  186</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a>;</div><div class="line"><a name="l00188"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">  188</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Threads <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">Threads</a>;</div><div class="line"><a name="l00190"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">  190</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a>;</div><div class="line"><a name="l00192"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">  192</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::ThreadOffset <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a>;</div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">  194</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> = <a class="code" href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">Base::kAdvance</a>;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">  196</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector&lt;ShapeCount&lt;typename Base::Iterations&gt;::kCount</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a>;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">  199</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Base::Params</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">BaseParams</a>;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">  201</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html">BaseParams</a> {</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#ad0602cf5d322e98e3e5990c84ae1e3f3">  203</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#ad0602cf5d322e98e3e5990c84ae1e3f3">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> <span class="keyword">const</span>* ptr,</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;                                       <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>,</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>) {</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a> = 0;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = 0;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;      <span class="comment">// Move by some columns for each iteration in the H dimension.</span></div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a> = Base::Delta::kH * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      <span class="comment">// Move by some more columns in the number of iterations if the D dimension is &gt; 1.</span></div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;      <span class="keywordflow">if</span> (Base::Delta::kD &gt; 0) {</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a> = Base::Delta::kD * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> - (Base::Iterations::kH - 1) * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a>;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      }</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;      <span class="comment">// Move to the beginning of the next iteration.</span></div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a> &amp;&amp; Base::Delta::kD &gt; 0) {</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a>;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a>;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;      } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (Base::Delta::kD &gt; 0) {</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = (Base::Iterations::kW + 0) * <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;typename Base::Delta&gt;::kWc</a> -</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;                      (Base::Iterations::kH - 1) * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a> -</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;                      (Base::Iterations::kD - 1) * Base::Delta::kD * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>;</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = (Base::Iterations::kW + 0) * <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;typename Base::Delta&gt;::kWc</a> -</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;                      (Base::Iterations::kH - 1) * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a>;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;      }</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d">Base::Params::initialize</a>(</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;          ptr, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, 1, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a>, 0, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a>);</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;    }</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;  };</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">  237</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>;</div><div class="line"><a name="l00239"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">  239</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>;</div><div class="line"><a name="l00241"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">  241</a></span>&#160;  <a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a>;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;</div><div class="line"><a name="l00243"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018">  243</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018">initialize_predicates</a>(<span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; bounds, <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; block_offset) {</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;    <span class="comment">// Setup the masks to control loads.</span></div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">fill</a>(0);</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;    <span class="comment">// Fill in the bits of the predicate vector.</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Base::Iterations::kD; ++d) {</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Base::Iterations::kH; ++h) {</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Base::Iterations::kW; ++w) {</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Base::Iterations::kC; ++c) {</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;            <span class="keywordtype">bool</span> flag = w * Base::Delta::kW + <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[2] + block_offset[2] &lt; bounds[2];</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;            <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;              flag =</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;                  flag &amp;&amp;</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;                  (h * Base::Delta::kH + d * Base::Delta::kD) + <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[1] + block_offset[1] &lt;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;                      bounds[1];</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;            } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;              flag = flag &amp;&amp; (h * Base::Delta::kH) + <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[1] + block_offset[1] &lt; bounds[1];</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;            }</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;            <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">ComputeOffsetFromShape&lt;typename Base::Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">set</a>(bit, flag);</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;          }</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;        }</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;      }</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;    }</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;  }</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;</div><div class="line"><a name="l00270"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5">  270</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5">GemmGlobalIteratorAb</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; _params,</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;                                           <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; bounds,</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;                                           <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; threadblock_offset,</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;                                           <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a>())</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>(_params) {</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a> = thread_offset_func();</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;    <span class="comment">// Setup the pointer.</span></div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += ((threadblock_offset[1] + <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[1]) * <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> +</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;                       (threadblock_offset[2] + <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[2]));</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;  }</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;</div><div class="line"><a name="l00283"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">  283</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">inc_w</a>() { <a class="code" href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">Base::inc_w</a>(); }</div><div class="line"><a name="l00285"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">  285</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">inc_h</a>() { <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a>; }</div><div class="line"><a name="l00287"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">  287</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">inc_d</a>() { <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a>; }</div><div class="line"><a name="l00289"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">  289</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">inc_advance</a>() { <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a>; }</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;</div><div class="line"><a name="l00292"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">  292</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">load_element</a>(</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;      <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Base::AccessType</a>&amp; value, <span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;        <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">ComputeOffsetFromStrides&lt;typename Base::ImmediateOffsetStrides&gt;::get</a>(0, 0, w, c);</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;    <a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a>,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;         <a class="code" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">Base::kAccessSize</a>,</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;         <a class="code" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">Base::kMemorySpace</a>,</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;         <a class="code" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">Base::kFragmentElementType</a>,</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;         <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">Base::FragmentElement</a>,</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;         Base::Tile::kW,</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;         <a class="code" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">Base::kAccessSize</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a>)&gt;::<a class="code" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">load</a>(value, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a>, offset);</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;  }</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;</div><div class="line"><a name="l00306"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593">  306</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593">residue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> k) {</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;    <span class="comment">// The coordinates of the thread.</span></div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> block_h = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[1];</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;    <span class="comment">// The contiguous dimension.</span></div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> block_w = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a>[2];</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;    <span class="comment">// Update the predicate vector.</span></div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Base::Iterations::kD; ++d) {</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Base::Iterations::kH; ++h) {</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Base::Iterations::kW; ++w) {</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Base::Iterations::kC; ++c) {</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> offset = 0;</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;            <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;              offset += block_h + h * Base::Delta::kH + d * Base::Delta::kD;</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;            } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;              offset += block_w + w * Base::Delta::kW;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;            }</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;            <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">ComputeOffsetFromShape&lt;typename Base::Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;            <span class="keywordflow">if</span> (offset &gt;= k) {</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;              <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">set</a>(bit, <span class="keyword">false</span>);</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;            }</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;          }</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;        }</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;      }</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;    }</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;  }</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;</div><div class="line"><a name="l00335"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">  335</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">ComputeOffsetFromShape&lt;typename Base::Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a>[bit];</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;  }</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;</div><div class="line"><a name="l00341"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af">  341</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;offset) {</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;    <span class="keywordtype">long</span> <span class="keywordtype">long</span> _offset = offset.template dot&lt;long long&gt;(</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;      <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>)</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;    );</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += _offset;</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;  }</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;</div><div class="line"><a name="l00351"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6">  351</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6">add_pointer_offset</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> offset) { <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += offset; }</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;</div><div class="line"><a name="l00353"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7">  353</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7">stride_advance</a>(<span class="keywordtype">void</span>) {</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> stride = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>;</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">IteratorAdvance::kW</a>) {</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;      stride = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>;</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;    }</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;    <span class="keywordflow">return</span> stride;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;  }</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00362"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7">  362</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7">load_post_increment</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a>&amp; fragment) {</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">Base::FragmentIterator</a> frag_iterator(fragment);</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Base::Iterations::kD; ++d) {</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Base::Iterations::kH; ++h) {</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Base::Iterations::kW; ++w) {</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Base::Iterations::kC; ++c) {</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;            <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">valid</a>(d, h, w, c)) {</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;              <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">load_element</a>(</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;                  reinterpret_cast&lt;typename Base::AccessType&amp;&gt;(frag_iterator.at(d, h, w, c)),</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;                  d,</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;                  h,</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;                  w,</div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;                  c);</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;            }</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;          }</div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;          <span class="keywordflow">if</span> (w &lt; Base::Iterations::kW - 1) {</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">inc_w</a>();</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;          }</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;        }</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;        <span class="keywordflow">if</span> (h &lt; Base::Iterations::kH - 1) {</div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">inc_h</a>();</div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;        }</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;      }</div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;      <span class="keywordflow">if</span> (d &lt; Base::Iterations::kD - 1) {</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">inc_d</a>();</div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;      }</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;    }</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">inc_advance</a>();</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;  }</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;};</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> TileTraits_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00396"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">  396</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;TileTraits_,</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;                                                      typename TileTraits_::Scalar,</div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;                                                      IteratorAdvance::kH,</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;                                                      MemorySpace::kGlobal,</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;                                                      Index_&gt; {</div><div class="line"><a name="l00402"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">  402</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;TileTraits_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">This_</a>;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;TileTraits_,</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;                           <span class="keyword">typename</span> TileTraits_::Scalar,</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>,</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;                           Index_&gt;</div><div class="line"><a name="l00409"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">  409</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">Base</a>;</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;</div><div class="line"><a name="l00412"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">  412</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">kLayout</a> = TileTraits_::kLayout;</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;</div><div class="line"><a name="l00415"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">  415</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">Scalar</a>;</div><div class="line"><a name="l00417"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">  417</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Pointer <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a>;</div><div class="line"><a name="l00419"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">  419</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Threads <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">Threads</a>;</div><div class="line"><a name="l00421"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">  421</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>;</div><div class="line"><a name="l00423"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">  423</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::ThreadOffset <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>;</div><div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;</div><div class="line"><a name="l00426"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">  426</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> {</div><div class="line"><a name="l00428"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">  428</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>;</div><div class="line"><a name="l00430"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">  430</a></span>&#160;    <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">stride_d</a>;</div><div class="line"><a name="l00432"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">  432</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a>;</div><div class="line"><a name="l00434"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">  434</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">inc_advance</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">inc_h</a>;</div><div class="line"><a name="l00436"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">  436</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">predicate_inc_advance</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">predicate_inc_h</a>;</div><div class="line"><a name="l00438"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">  438</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a>;</div><div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;</div><div class="line"><a name="l00441"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5">  441</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>,</div><div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;                                       <span class="keywordtype">long</span> <span class="keywordtype">long</span> batch_stride,</div><div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> ldm,</div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> bound,</div><div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_stride_w,</div><div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_delta_w) {</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;      this-&gt;pointer = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>;</div><div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;      <span class="comment">// Stride per batch</span></div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">stride_d</a> = batch_stride;</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;      <span class="comment">// Each column of the matrix.</span></div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a> = TileTraits_::ThreadsDelta::kH * ldm;</div><div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;      <span class="comment">// Each thread output 1 column per iteration. The stride between columns is given by the</span></div><div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;      <span class="comment">// number of scalars that are loaded per LDS for B.</span></div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">inc_h</a> = ldm * TileTraits_::kStrideH;</div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">inc_advance</a> =</div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;          (ldm - ldm * TileTraits_::kStrideH * (Base::Iterations::kH - 1)) + epilogue_stride_w;</div><div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;</div><div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a> = bound;</div><div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">predicate_inc_h</a> = TileTraits_::kStrideH;</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">predicate_inc_advance</a> =</div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;          -((TileTraits_::kStrideH * (Base::Iterations::kH - 1) - 1) + epilogue_delta_w);</div><div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;</div><div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;    }</div><div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;  };</div><div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;</div><div class="line"><a name="l00469"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">  469</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>;</div><div class="line"><a name="l00471"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">  471</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a>;</div><div class="line"><a name="l00473"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">  473</a></span>&#160;  <a class="code" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector&lt;Base::Iterations::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">predicates</a>;</div><div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;</div><div class="line"><a name="l00476"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff">  476</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff">GemmGlobalIteratorCd</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; _params,</div><div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;                                           <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; bounds,</div><div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;                                           <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; block_offset,</div><div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;                                           <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>())</div><div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>(_params) {</div><div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a> = thread_offset_func();</div><div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;    <span class="comment">// Prepare the vector of predicates.</span></div><div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Base::Iterations::kW; ++i) {</div><div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">set</a>(i, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a>[2] + i * Base::Delta::kW &lt; bounds[2]);</div><div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;    }</div><div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160;  }</div><div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;</div><div class="line"><a name="l00489"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a15d3244546d1c8f4727e84b27a8b7fc6">  489</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a15d3244546d1c8f4727e84b27a8b7fc6">GemmGlobalIteratorCd</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; _params,</div><div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;                                           <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; bounds,</div><div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160;                                           <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; block,</div><div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;                                           <span class="keywordtype">int</span> offset = 0,</div><div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;                                           <span class="keywordtype">int</span> pred_offset = 0,</div><div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;                                           <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>())</div><div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>(_params) {</div><div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a> = thread_offset_func();</div><div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;    <span class="comment">// Each warp works on a different column of the tile.</span></div><div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> h = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a>[1] + block[1];</div><div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;    <span class="comment">// Each lane writes a different element.</span></div><div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> w = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a>[2] + block[2];</div><div class="line"><a name="l00501"></a><span class="lineno">  501</span>&#160;    <span class="comment">// Setup the pointer.</span></div><div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a> += ((h * <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a> + w) + offset);</div><div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;</div><div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;    <span class="comment">// Prepare the vector of predicates.</span></div><div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Base::Iterations::kW; ++i) {</div><div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">set</a>(i, w + i * Base::Delta::kW &lt; bounds[2]);</div><div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;    }</div><div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a> -= (h + pred_offset);</div><div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;  }</div><div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;</div><div class="line"><a name="l00512"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316">  512</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316">inc_c</a>() {}</div><div class="line"><a name="l00514"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">  514</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">inc_w</a>() {}</div><div class="line"><a name="l00516"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">  516</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">inc_h</a>() {</div><div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">inc_h</a>;</div><div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a> -= <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">predicate_inc_h</a>;</div><div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;  }</div><div class="line"><a name="l00521"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">  521</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">inc_d</a>() {}</div><div class="line"><a name="l00523"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">  523</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">inc_advance</a>() {</div><div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">inc_advance</a>;</div><div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a> -= <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">predicate_inc_advance</a>;</div><div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;  }</div><div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;</div><div class="line"><a name="l00529"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec">  529</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;offset) {</div><div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;    <span class="keywordtype">long</span> <span class="keywordtype">long</span> _offset = offset.template dot&lt;long long&gt;(</div><div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;      <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">stride_d</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a>, 1)</div><div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;    );</div><div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a> += _offset;</div><div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;  }</div><div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;</div><div class="line"><a name="l00538"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">  538</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">load_element</a>(</div><div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;      <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Base::AccessType</a>&amp; value, <span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;        <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">ComputeOffsetFromStrides&lt;typename Base::ImmediateOffsetStrides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;    <a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">Scalar</a>,</div><div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;         <a class="code" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">Base::kAccessSize</a>,</div><div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;         <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">Base::kMemorySpace</a>,</div><div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;         <a class="code" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">Base::kFragmentElementType</a>,</div><div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;         <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">Base::FragmentElement</a>,</div><div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;         Base::Tile::kW,</div><div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;         <a class="code" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">Base::kAccessSize</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">Scalar</a>)&gt;::load(value, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>, offset);</div><div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;  }</div><div class="line"><a name="l00550"></a><span class="lineno">  550</span>&#160;</div><div class="line"><a name="l00552"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d">  552</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d">store_element</a>(</div><div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160;      <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Base::AccessType</a> <span class="keyword">const</span>&amp; value, <span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) {</div><div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;        <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">ComputeOffsetFromStrides&lt;typename Base::ImmediateOffsetStrides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;    <a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">Scalar</a>,</div><div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">Base::kAccessSize</a>,</div><div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">Base::kMemorySpace</a>,</div><div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">Base::kFragmentElementType</a>,</div><div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160;          <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">Base::FragmentElement</a>,</div><div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;          Base::Tile::kW,</div><div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">Base::kAccessSize</a> * <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">Scalar</a>)&gt;::store(value, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>, offset);</div><div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;  }</div><div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;</div><div class="line"><a name="l00566"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">  566</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">at</a>(w) &amp;&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a> &gt; 0;</div><div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;  }</div><div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;</div><div class="line"><a name="l00571"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db">  571</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db">add_pointer_offset</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> offset) { <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a> += offset; }</div><div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;</div><div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00575"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">  575</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">load_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&amp; fragment) {</div><div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">Base::FragmentIterator</a> frag_iterator(fragment);</div><div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Base::Iterations::kD; ++d) {</div><div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Base::Iterations::kH; ++h) {</div><div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Base::Iterations::kW; ++w) {</div><div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Base::Iterations::kC; ++c) {</div><div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;            <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">valid</a>(d, h, w, c)) {</div><div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;              <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">load_element</a>(</div><div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;                  reinterpret_cast&lt;typename Base::AccessType&amp;&gt;(frag_iterator.at(d, h, w, c)),</div><div class="line"><a name="l00584"></a><span class="lineno">  584</span>&#160;                  d,</div><div class="line"><a name="l00585"></a><span class="lineno">  585</span>&#160;                  h,</div><div class="line"><a name="l00586"></a><span class="lineno">  586</span>&#160;                  w,</div><div class="line"><a name="l00587"></a><span class="lineno">  587</span>&#160;                  c);</div><div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;            }</div><div class="line"><a name="l00589"></a><span class="lineno">  589</span>&#160;          }</div><div class="line"><a name="l00590"></a><span class="lineno">  590</span>&#160;          <span class="keywordflow">if</span> (w &lt; Base::Iterations::kW - 1) {</div><div class="line"><a name="l00591"></a><span class="lineno">  591</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">inc_w</a>();</div><div class="line"><a name="l00592"></a><span class="lineno">  592</span>&#160;          }</div><div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;        }</div><div class="line"><a name="l00594"></a><span class="lineno">  594</span>&#160;        <span class="keywordflow">if</span> (h &lt; Base::Iterations::kH - 1) {</div><div class="line"><a name="l00595"></a><span class="lineno">  595</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">inc_h</a>();</div><div class="line"><a name="l00596"></a><span class="lineno">  596</span>&#160;        }</div><div class="line"><a name="l00597"></a><span class="lineno">  597</span>&#160;      }</div><div class="line"><a name="l00598"></a><span class="lineno">  598</span>&#160;      <span class="keywordflow">if</span> (d &lt; Base::Iterations::kD - 1) {</div><div class="line"><a name="l00599"></a><span class="lineno">  599</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">inc_d</a>();</div><div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;      }</div><div class="line"><a name="l00601"></a><span class="lineno">  601</span>&#160;    }</div><div class="line"><a name="l00602"></a><span class="lineno">  602</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">inc_advance</a>();</div><div class="line"><a name="l00603"></a><span class="lineno">  603</span>&#160;  }</div><div class="line"><a name="l00604"></a><span class="lineno">  604</span>&#160;</div><div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00606"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a">  606</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a">store_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&amp; fragment) {</div><div class="line"><a name="l00607"></a><span class="lineno">  607</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">Base::FragmentIterator</a> frag_iterator(fragment);</div><div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Base::Iterations::kD; ++d) {</div><div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Base::Iterations::kH; ++h) {</div><div class="line"><a name="l00610"></a><span class="lineno">  610</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Base::Iterations::kW; ++w) {</div><div class="line"><a name="l00611"></a><span class="lineno">  611</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Base::Iterations::kC; ++c) {</div><div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;            <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">valid</a>(d, h, w, c)) {</div><div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;              <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d">store_element</a>(</div><div class="line"><a name="l00614"></a><span class="lineno">  614</span>&#160;                  reinterpret_cast&lt;typename Base::AccessType&amp;&gt;(frag_iterator.at(d, h, w, c)),</div><div class="line"><a name="l00615"></a><span class="lineno">  615</span>&#160;                  d,</div><div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;                  h,</div><div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;                  w,</div><div class="line"><a name="l00618"></a><span class="lineno">  618</span>&#160;                  c);</div><div class="line"><a name="l00619"></a><span class="lineno">  619</span>&#160;            }</div><div class="line"><a name="l00620"></a><span class="lineno">  620</span>&#160;          }</div><div class="line"><a name="l00621"></a><span class="lineno">  621</span>&#160;          <span class="keywordflow">if</span> (w &lt; Base::Iterations::kW - 1) {</div><div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160;            <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">inc_w</a>();</div><div class="line"><a name="l00623"></a><span class="lineno">  623</span>&#160;          }</div><div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;        }</div><div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160;        <span class="keywordflow">if</span> (h &lt; Base::Iterations::kH - 1) {</div><div class="line"><a name="l00626"></a><span class="lineno">  626</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">inc_h</a>();</div><div class="line"><a name="l00627"></a><span class="lineno">  627</span>&#160;        }</div><div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;      }</div><div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;      <span class="keywordflow">if</span> (d &lt; Base::Iterations::kD - 1) {</div><div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">inc_d</a>();</div><div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160;      }</div><div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;    }</div><div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">inc_advance</a>();</div><div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;  }</div><div class="line"><a name="l00635"></a><span class="lineno">  635</span>&#160;};</div><div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;</div><div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;</div><div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00640"></a><span class="lineno">  640</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:120</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a07bb48f99000256f04f00564a4371c2f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">cutlass::gemm::GemmGlobalTileTraits::Delta</a></div><div class="ttdeci">Shape&lt; 0, Threads::kH, Threads::kW *kAccessSize &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:92</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a8c2618ac16362a8362dcddeed71c41d4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">cutlass::gemm::GemmGlobalIteratorCd::Params::inc_advance</a></div><div class="ttdeci">Index inc_advance</div><div class="ttdoc">The strides to increment the pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:384</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_ad26ab8d8010c9a1d7f3b91f60940b460"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad26ab8d8010c9a1d7f3b91f60940b460">cutlass::gemm::GemmGlobalIteratorCd::inc_d</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_d()</div><div class="ttdoc">Increment the pointer in the D dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:452</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_aa6845b5a0fa36eb185caafea791e53ec"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec">cutlass::gemm::GemmGlobalIteratorCd::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmGlobalIteratorCd &amp; operator+=(Coord&lt; 3 &gt; const &amp;offset)</div><div class="ttdoc">Adds a vector offset to the iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:529</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a07989416829cbe7efecb56456c99adf7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7">cutlass::gemm::GemmGlobalIteratorAb::load_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_post_increment(Fragment &amp;fragment)</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:362</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a8c2618ac16362a8362dcddeed71c41d4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">cutlass::gemm::GemmGlobalIteratorCd::Params::inc_advance</a></div><div class="ttdeci">Index inc_advance</div><div class="ttdoc">The strides to increment the pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:434</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a3dd74f6e12339a87c0eb8f75fbdc7b9c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">cutlass::gemm::GemmGlobalIteratorAb::PredicateVector</a></div><div class="ttdeci">cutlass::PredicateVector&lt; ShapeCount&lt; typename Base::Iterations &gt;::kCount &gt; PredicateVector</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:191</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_afe016e0c6234075a8d69ba7341555ece"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">cutlass::gemm::GemmGlobalIteratorAb::kLayout</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayout</div><div class="ttdoc">The layout. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:177</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_html_ac3662947fa50251daf58240a9c798085"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">cutlass::platform::remove_const::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:369</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a09268125f1e323874f6c12b50185c517"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">cutlass::gemm::GemmGlobalIteratorAb::BaseParams</a></div><div class="ttdeci">Base::Params BaseParams</div><div class="ttdoc">Iterator parameters type. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:194</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aaf6410f99d7f995792d0ac34efd3a82f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">cutlass::gemm::GemmGlobalTileTraits::Iterations</a></div><div class="ttdeci">Shape&lt; 1, Tile::kH/Threads::kH, Tile::kW/Threads::kW, Tile::kC/kAccessSize &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:97</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a56847e834b31b88544093c3df54d299f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">cutlass::gemm::GemmGlobalIteratorCd::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:373</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a3dd74f6e12339a87c0eb8f75fbdc7b9c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">cutlass::gemm::GemmGlobalIteratorAb::PredicateVector</a></div><div class="ttdeci">cutlass::PredicateVector&lt; ShapeCount&lt; typename Base::Iterations &gt;::kCount &gt; PredicateVector</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:196</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_afe016e0c6234075a8d69ba7341555ece"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">cutlass::gemm::GemmGlobalIteratorAb::kLayout</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayout</div><div class="ttdoc">The layout. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:180</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_ab61ce6b04d72d2652ee3bffca3885fe5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5">cutlass::gemm::GemmGlobalIteratorAb::GemmGlobalIteratorAb</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmGlobalIteratorAb(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;threadblock_offset, ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:270</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_html_ac3662947fa50251daf58240a9c798085"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">cutlass::platform::remove_const::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:377</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a84f2f19069c3b003b1fcad438f690bc8"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">cutlass::TileLoadIterator::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars accessed per load/store. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:461</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a09268125f1e323874f6c12b50185c517"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">cutlass::gemm::GemmGlobalIteratorAb::BaseParams</a></div><div class="ttdeci">Base::Params BaseParams</div><div class="ttdoc">Iterator parameters type. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:199</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a365eb7c90a79c9ab32f603c6985a0316"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316">cutlass::gemm::GemmGlobalIteratorCd::inc_c</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_c()</div><div class="ttdoc">Increment the pointer in the C dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:512</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a56847e834b31b88544093c3df54d299f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">cutlass::gemm::GemmGlobalIteratorCd::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:421</div></div>
 <div class="ttc" id="tile__iterator_8h_html"><div class="ttname"><a href="tile__iterator_8h.html">tile_iterator.h</a></div><div class="ttdoc">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6a745d66c4c7de352041f779e54e6b2b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">cutlass::gemm::GemmGlobalIteratorCd::This_</a></div><div class="ttdeci">GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:354</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a27b88818f5b094372bf2c6e090c9148a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">cutlass::gemm::GemmGlobalIteratorCd::kLayout</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayout</div><div class="ttdoc">The layout. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:364</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a6cb3196f1fe3958d1656ba8b493c82ac"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">cutlass::gemm::GemmGlobalTileTraits::VectorizedTile</a></div><div class="ttdeci">ReshapeTile&lt; Tile_, kAccessSize_ &gt;::Tile VectorizedTile</div><div class="ttdoc">The vectorized tile shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:86</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6a745d66c4c7de352041f779e54e6b2b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">cutlass::gemm::GemmGlobalIteratorCd::This_</a></div><div class="ttdeci">GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:402</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a27b88818f5b094372bf2c6e090c9148a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">cutlass::gemm::GemmGlobalIteratorCd::kLayout</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayout</div><div class="ttdoc">The layout. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:412</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:70</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a3ff6f630b6b317ace1cf6e13fdf3a0cd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">cutlass::gemm::GemmGlobalTileTraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:78</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a59d40c5bd544fdabf42787b9f11cce51"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">cutlass::TileIteratorBase::FragmentIterator</a></div><div class="ttdeci">FragmentIterator&lt; Fragment, Iterations, AccessType &gt; FragmentIterator</div><div class="ttdoc">The fragment iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:199</div></div>
 <div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738dda"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">cutlass::IteratorAdvance::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_ac8eca7087d1f7575b0c6beeb5f907bfd"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">cutlass::PredicateVector::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool at(int idx) const</div><div class="ttdoc">Accesses a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:356</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">cutlass::MemorySpace::kGlobal</a></div><div class="ttdef"><b>Definition:</b> load_store.h:43</div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a21a3524edaf002b5e5878df3c7eae7e7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">cutlass::gemm::GemmGlobalTileTraits::MultiplicandTraits</a></div><div class="ttdeci">GemmMultiplicandTraits&lt; Tile, kOperand, kLayout &gt; MultiplicandTraits</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:99</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738dda"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">cutlass::IteratorAdvance::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_ac8eca7087d1f7575b0c6beeb5f907bfd"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">cutlass::PredicateVector::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool at(int idx) const</div><div class="ttdoc">Accesses a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">cutlass::MemorySpace::kGlobal</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a428750e54eabd15b2a3f7ac2a96af0a9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">cutlass::gemm::GemmGlobalTileTraits::ThreadsDelta</a></div><div class="ttdeci">Shape&lt; 1, 1, VectorizedTile::kC &gt; ThreadsDelta</div><div class="ttdoc">The relative offset between two elements in the H/W dimension in adjacent threads. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a21a3524edaf002b5e5878df3c7eae7e7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">cutlass::gemm::GemmGlobalTileTraits::MultiplicandTraits</a></div><div class="ttdeci">GemmMultiplicandTraits&lt; Tile, kOperand, kLayout &gt; MultiplicandTraits</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:103</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a70dfd0b62feb082d8da34af09d9524a6"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">cutlass::TileLoadIterator::FragmentElement</a></div><div class="ttdeci">FragmentElement_ FragmentElement</div><div class="ttdoc">Fragment element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:425</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_af219ece6e66e2866169e06e15cc4472d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">cutlass::gemm::GemmGlobalTileTraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:82</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a8f8fbb65070589769468c6b1ac6ba7a5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">cutlass::gemm::GemmGlobalIteratorCd::Base</a></div><div class="ttdeci">TileIteratorBase&lt; TileTraits_, typename TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:361</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a65f9ccd630dde0c9db5358cfc951583d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">cutlass::gemm::GemmGlobalTileTraits::ThreadsDelta</a></div><div class="ttdeci">Shape&lt; 1, 1, Tile::kC &gt; ThreadsDelta</div><div class="ttdoc">The relative offset between two elements in the H/W dimension in adjacent threads. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:89</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_aba61fb6e93a6423ab72c082c280f5db4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4">cutlass::gemm::GemmGlobalTileCdTraits::Delta</a></div><div class="ttdeci">Shape&lt; 0, 0, Base::Delta::kW, Base::Delta::kC &gt; Delta</div><div class="ttdoc">Override the strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:134</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a36afe18f94aacd0746c8946866371d3c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_inc_h</a></div><div class="ttdeci">Index predicate_inc_h</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:386</div></div>
-<div class="ttc" id="structcutlass_1_1ComputeOffsetFromShape_html_a3c6f60a59178ffb84899aa449bd51d38"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">cutlass::ComputeOffsetFromShape::get</a></div><div class="ttdeci">static CUTLASS_DEVICE int get(int d, int h, int w, int c)</div><div class="ttdef"><b>Definition:</b> shape.h:166</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6fd4e62eb280a5b8c17eb79141414581"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6fd4e62eb280a5b8c17eb79141414581">cutlass::gemm::GemmGlobalIteratorCd::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Pointer const data() const</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:469</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_ab9375d9e779dcda79a5cd561bb3762ff"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab9375d9e779dcda79a5cd561bb3762ff">cutlass::gemm::GemmGlobalIteratorAb::initialize_predicates</a></div><div class="ttdeci">CUTLASS_DEVICE void initialize_predicates(const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block)</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:233</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a69d2f21c8188fb3229af8c2dbe0a23b6"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">cutlass::TileLoadIterator::kAdvance</a></div><div class="ttdeci">static IteratorAdvance::Kind const kAdvance</div><div class="ttdoc">Specifies in which dimension post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:331</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_ae13e0d30a941e16875f196b4844b03ed"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">cutlass::gemm::GemmGlobalIteratorAb::Base</a></div><div class="ttdeci">TileLoadIterator&lt; TileTraits_, typename TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:175</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_ac4d2c293f9312b673ea29bf79b2882fd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ac4d2c293f9312b673ea29bf79b2882fd">cutlass::gemm::GemmGlobalIteratorAb::valid</a></div><div class="ttdeci">CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Is the iterator valid? </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:336</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">cutlass::gemm::GemmGlobalIteratorAb::Params</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:196</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a85afb31647e5cac591b76959a102cd06"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">cutlass::gemm::GemmGlobalIteratorAb::load_element</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_element(typename Base::AccessType &amp;value, int d, int h, int w, int c) const</div><div class="ttdoc">Loads a single fragment element from memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:292</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a8f8fbb65070589769468c6b1ac6ba7a5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">cutlass::gemm::GemmGlobalIteratorCd::Base</a></div><div class="ttdeci">TileIteratorBase&lt; TileTraits_, typename TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:409</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a9ffa12dcd7ed1e96845e1cd273d9f219"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::Fragment</a></div><div class="ttdeci">Fragment&lt; FragmentElement, ShapeCount&lt; Iterations &gt;::kCount *kAccessSize &gt; Fragment</div><div class="ttdoc">The fragment. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:196</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_aba61fb6e93a6423ab72c082c280f5db4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4">cutlass::gemm::GemmGlobalTileCdTraits::Delta</a></div><div class="ttdeci">Shape&lt; 0, 0, Base::Delta::kW, Base::Delta::kC &gt; Delta</div><div class="ttdoc">Override the strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:138</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a36afe18f94aacd0746c8946866371d3c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_inc_h</a></div><div class="ttdeci">Index predicate_inc_h</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:436</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a3175746438646453e93e6e08e954bc8d"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize()</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:584</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a44424164c9347f9916b2b86858706043"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">cutlass::TileLoadIterator::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">Source or destination memory space. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:434</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a7b4293bf8291b0383dee695a60f2e0fd"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">cutlass::TileIteratorBase::Params::inc_d</a></div><div class="ttdeci">long long inc_d</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:223</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a52ba72984ea8ce84eda28d07c6c8ec19"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">cutlass::gemm::GemmGlobalTileTraits::Tile</a></div><div class="ttdeci">Tile_ Tile</div><div class="ttdoc">The tile shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:84</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a4604b230174b11bc7ddf5f3e9a922139"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">cutlass::TileLoadIterator::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:464</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a6d8f1e07f286ed8d5761e2a878b807d3"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">cutlass::TileIteratorBase::Params::inc_advance</a></div><div class="ttdeci">long long inc_advance</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:227</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a1a587af6edd528a02679c0decc31cdd1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">cutlass::gemm::GemmGlobalIteratorCd::load_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_post_increment(Fragment &amp;fragment)</div><div class="ttdoc">Loads and increments iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:575</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_ae13e0d30a941e16875f196b4844b03ed"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">cutlass::gemm::GemmGlobalIteratorAb::Base</a></div><div class="ttdeci">TileLoadIterator&lt; TileTraits_, typename TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:178</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">cutlass::gemm::GemmGlobalIteratorAb::Params</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:201</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a15d3244546d1c8f4727e84b27a8b7fc6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a15d3244546d1c8f4727e84b27a8b7fc6">cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmGlobalIteratorCd(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:489</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1ComputeOffsetFromShape_html_a7bc0bc7e03cd974a05d00e98a72ee78b"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">cutlass::ComputeOffsetFromShape::get</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE int get(int d, int h, int w, int c)</div><div class="ttdef"><b>Definition:</b> shape.h:181</div></div>
 <div class="ttc" id="platform_8h_html"><div class="ttname"><a href="platform_8h.html">platform.h</a></div><div class="ttdoc">C++ features that may be otherwise unimplemented for CUDA device functions. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:159</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_ab4b8150f19c9f8649d75c69ec0a76e1a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab4b8150f19c9f8649d75c69ec0a76e1a">cutlass::gemm::GemmGlobalIteratorCd::inc_advance</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_advance()</div><div class="ttdoc">Increment the pointer to move to the next iteration. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:454</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_a581b7cdeef3e620f246923fa07f9db5a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a">cutlass::gemm::GemmGlobalTileCdTraits::Base</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:129</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03c"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:40</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a58e8c883aea4cfdfa5a84c25a4704ebc"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">cutlass::TileIteratorBase::Params::stride_h</a></div><div class="ttdeci">Index stride_h</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:172</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a8c1e871f17685b16a7a41fcc888f0125"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">cutlass::gemm::GemmGlobalIteratorAb::kAdvance</a></div><div class="ttdeci">static IteratorAdvance::Kind const kAdvance</div><div class="ttdoc">Specifies in which dimension post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:189</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a33e4dcd4449f324fed5ceaa2cde01b50"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">cutlass::gemm::GemmGlobalIteratorAb::Threads</a></div><div class="ttdeci">TileTraits_::Threads Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:183</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params_html_a73091e07b6d4c99f6e0319fbf6bd1709"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#a73091e07b6d4c99f6e0319fbf6bd1709">cutlass::gemm::GemmGlobalIteratorAb::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar const *ptr, Index stride_h)</div><div class="ttdoc">Initializes params to load a strip-mined tile, given pointer and stride_h. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:198</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_aebaecd0f971245ffc5a50fe5f7a9b4e8"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize()</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:425</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_a87918f4d67a9c1e19dcd3c6bfc243e97"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97">cutlass::gemm::GemmGlobalTileCdTraits::kStrideH</a></div><div class="ttdeci">static int const kStrideH</div><div class="ttdoc">The stride in the H dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:132</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:163</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_a581b7cdeef3e620f246923fa07f9db5a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a">cutlass::gemm::GemmGlobalTileCdTraits::Base</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:133</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03c"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:39</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a2ad473e8f2fa2694617ee39ead5c41b3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">cutlass::gemm::GemmGlobalIteratorAb::inc_d</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_d()</div><div class="ttdoc">Increment the pointer in the D dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:287</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a8c1e871f17685b16a7a41fcc888f0125"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">cutlass::gemm::GemmGlobalIteratorAb::kAdvance</a></div><div class="ttdeci">static IteratorAdvance::Kind const kAdvance</div><div class="ttdoc">Specifies in which dimension post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:194</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a33e4dcd4449f324fed5ceaa2cde01b50"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">cutlass::gemm::GemmGlobalIteratorAb::Threads</a></div><div class="ttdeci">TileTraits_::Threads Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:188</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_a87918f4d67a9c1e19dcd3c6bfc243e97"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97">cutlass::gemm::GemmGlobalTileCdTraits::kStrideH</a></div><div class="ttdeci">static int const kStrideH</div><div class="ttdoc">The stride in the H dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:136</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a3a20d9062bba613c160bb2cd14f80a5e"><div class="ttname"><a href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">cutlass::Shape::kH</a></div><div class="ttdeci">static int const kH</div><div class="ttdoc">The height of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:68</div></div>
+<div class="ttc" id="structcutlass_1_1Store_html"><div class="ttname"><a href="structcutlass_1_1Store.html">cutlass::Store</a></div><div class="ttdef"><b>Definition:</b> load_store.h:178</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4_html_a894932ad04fae3aea06eb6d259e01c1c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c">cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, true &gt;::Threads</a></div><div class="ttdeci">Shape&lt; Threads_::kD, Threads_::kH *Threads_::kW/Tile_::kW, Tile_::kW, 1 &gt; Threads</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:59</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a2b5d2b02d241e89677c41eb658ace129"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_inc_advance</a></div><div class="ttdeci">Index predicate_inc_advance</div><div class="ttdoc">The strides to increment the predicate offset. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:386</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a2b5d2b02d241e89677c41eb658ace129"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_inc_advance</a></div><div class="ttdeci">Index predicate_inc_advance</div><div class="ttdoc">The strides to increment the predicate offset. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:436</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_ae0bca976b7cfba8561db4cccc16e99e1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">cutlass::gemm::GemmGlobalTileTraits::kOperand</a></div><div class="ttdeci">static GemmOperand::Kind const kOperand</div><div class="ttdoc">Identity of the operand. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:72</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_aea591d4278a8338ae8b50fa0b8f3a366"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">cutlass::TileIteratorBase::Params::inc_h</a></div><div class="ttdeci">Index inc_h</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:176</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a4f029a268387bd63112d9074c185c623"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">cutlass::TileIteratorBase::Params::stride_h</a></div><div class="ttdeci">Index stride_h</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:220</div></div>
 <div class="ttc" id="predicate__vector_8h_html"><div class="ttname"><a href="predicate__vector_8h.html">predicate_vector.h</a></div><div class="ttdoc">Defines container classes and iterators for managing a statically sized vector of boolean predicates...</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:302</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_ab224a0a6ab8ce7fc4e76b06fb7679fa0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">cutlass::gemm::GemmGlobalIteratorCd::valid</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Test the validity of the. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:566</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_af405f6c5f0bd8f04487d8a7f41dc1826"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">cutlass::TileIteratorBase::kFragmentElementType</a></div><div class="ttdeci">static FragmentElementType::Kind const kFragmentElementType</div><div class="ttdoc">Specifies iterator storage fragment type (Scalar or WmmaMatrix) </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:158</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a49d7db2dab7a6d1e496ebff0e67039bc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">cutlass::gemm::GemmGlobalIteratorCd::inc_d</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_d()</div><div class="ttdoc">Increment the pointer in the D dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:521</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:399</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html">cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, true &gt;</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:58</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_af323c9db74f0de3376edd35eb377bc9c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">cutlass::gemm::GemmGlobalIteratorAb::predicates</a></div><div class="ttdeci">PredicateVector predicates</div><div class="ttdoc">The predicates. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:342</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_ae24453fcdf9f21385b2637476746bbe5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5">cutlass::gemm::GemmGlobalIteratorCd::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Pointer pointer, long long batch_stride, Index ldm, Index bound, Index epilogue_stride_w, Index epilogue_delta_w)</div><div class="ttdoc">Setup the params. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:441</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_af323c9db74f0de3376edd35eb377bc9c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">cutlass::gemm::GemmGlobalIteratorAb::predicates</a></div><div class="ttdeci">PredicateVector predicates</div><div class="ttdoc">The predicates. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:241</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a6894b653fffa59bcb847bc3295643d6b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">cutlass::gemm::GemmGlobalTileTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:76</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a3af66b82b1a0cc5bf6141f940553e048"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3af66b82b1a0cc5bf6141f940553e048">cutlass::gemm::GemmGlobalIteratorAb::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar const  * data() const</div><div class="ttdoc">Returns the current pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:304</div></div>
 <div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
 <div class="ttc" id="gemm__operand_8h_html"><div class="ttname"><a href="gemm__operand_8h.html">gemm_operand.h</a></div><div class="ttdoc">Defines constant expressions for mapping GEMM problem size and strides onto pitch-linear memory...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a2180cfbb482d300472ad2993e4b555d4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">cutlass::gemm::GemmGlobalIteratorAb::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment type loaded by the iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:179</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_afdd08b4f4c1feaa426f997d15cd28c02"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">cutlass::gemm::GemmGlobalIteratorCd::Threads</a></div><div class="ttdeci">TileTraits_::Threads Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:371</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset_html_abaf0d4459a64b3e9533758b59600bd52"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html#abaf0d4459a64b3e9533758b59600bd52">cutlass::gemm::GemmGlobalTileCdTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:147</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_ae07fa10a53d44471a04275145201299e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ae07fa10a53d44471a04275145201299e">cutlass::gemm::GemmGlobalIteratorCd::inc_h</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_h()</div><div class="ttdoc">Increment the pointer in the H dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:447</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a64f1df43acb37a1901f0b55becaa9557"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a64f1df43acb37a1901f0b55becaa9557">cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd</a></div><div class="ttdeci">CUTLASS_DEVICE GemmGlobalIteratorCd(Params const &amp;params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:420</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a1d86f7e16bd11e10c94b0c14111c8c14"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">cutlass::gemm::GemmGlobalIteratorAb::inc_h</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_h()</div><div class="ttdoc">Increment the pointer in the H dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:285</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a32cd0a03868f52b172d031f23e2c08af"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af">cutlass::gemm::GemmGlobalIteratorAb::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmGlobalIteratorAb &amp; operator+=(Coord&lt; 3 &gt; const &amp;offset)</div><div class="ttdoc">Adds a vector offset to the iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:341</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a2180cfbb482d300472ad2993e4b555d4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">cutlass::gemm::GemmGlobalIteratorAb::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment type loaded by the iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:184</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_afdd08b4f4c1feaa426f997d15cd28c02"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">cutlass::gemm::GemmGlobalIteratorCd::Threads</a></div><div class="ttdeci">TileTraits_::Threads Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:419</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset_html_abaf0d4459a64b3e9533758b59600bd52"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html#abaf0d4459a64b3e9533758b59600bd52">cutlass::gemm::GemmGlobalTileCdTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:151</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmMultiplicandTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">cutlass::gemm::GemmMultiplicandTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_operand.h:67</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html">cutlass::gemm::GemmGlobalTileTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:102</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a1187258cd4068a627e73bee0302f1fc2"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">cutlass::TileIteratorBase::Params::inc_advance</a></div><div class="ttdeci">Index inc_advance</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:179</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_aab37ea6c47e34466371314ed3971dc7b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aab37ea6c47e34466371314ed3971dc7b">cutlass::gemm::GemmGlobalIteratorAb::residue</a></div><div class="ttdeci">CUTLASS_DEVICE void residue(Index k)</div><div class="ttdoc">That&amp;#39;s the residue! Update the predicates. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:307</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a236bd1a822479750a809452fd58dd917"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">cutlass::PredicateVector::fill</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void fill(bool value=true)</div><div class="ttdoc">Fills all predicates with a given value. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:343</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a34cb153d311377388e7819296a84d07e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a34cb153d311377388e7819296a84d07e">cutlass::gemm::GemmGlobalIteratorAb::GemmGlobalIteratorAb</a></div><div class="ttdeci">CUTLASS_DEVICE GemmGlobalIteratorAb(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:267</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_af5a496f1b6a46ea6a9894512029add6a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#af5a496f1b6a46ea6a9894512029add6a">cutlass::gemm::GemmGlobalIteratorCd::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Pointer pointer, Index ld, Index bound, Index epilogue_stride_w, Index epilogue_delta_w)</div><div class="ttdoc">Setup the params. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:391</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a12ead84ea9634e963d10c6df7b7792c9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a12ead84ea9634e963d10c6df7b7792c9">cutlass::gemm::GemmGlobalIteratorCd::inc_c</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_c()</div><div class="ttdoc">Increment the pointer in the C dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:443</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a0d3c1a58f23957f9850d1b22992a981a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a0d3c1a58f23957f9850d1b22992a981a">cutlass::gemm::GemmGlobalIteratorCd::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Pointer data()</div><div class="ttdoc">Returns the raw pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:466</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a6608f7027994aaebdefd004fe94153d9"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">cutlass::TileLoadIterator::Params::pointer</a></div><div class="ttdeci">Scalar const  * pointer</div><div class="ttdoc">Pointer to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:390</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_a9aff3e2ff0db5a5169257e964e5895c6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">cutlass::gemm::GemmGlobalTileCdTraits::Threads</a></div><div class="ttdeci">Base::Threads Threads</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:138</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a0c6b03c635e14ad4424a83f8c7f8025e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">cutlass::gemm::GemmGlobalIteratorCd::Params::stride_h</a></div><div class="ttdeci">Index stride_h</div><div class="ttdoc">The stride in the H dimension to setup the thread in the block. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:382</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html">cutlass::gemm::GemmGlobalTileTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:106</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a760404b7879a38364d7eef47fc1fe209"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">cutlass::gemm::GemmGlobalIteratorAb::inc_w</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_w()</div><div class="ttdoc">Increment the pointer in the W dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:283</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aa856180123f8d50a00222542fa6345cf"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load(Fragment &amp;fragment, PredicateIterator pred_it) const</div><div class="ttdoc">Loads a fragment without advancing the iterator.. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:771</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_a236bd1a822479750a809452fd58dd917"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">cutlass::PredicateVector::fill</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void fill(bool value=true)</div><div class="ttdoc">Fills all predicates with a given value. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:344</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_aafa962f7e63da77c9904d438ab94347a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a">cutlass::gemm::GemmGlobalIteratorCd::store_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store_post_increment(Fragment &amp;fragment)</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:606</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_a9aff3e2ff0db5a5169257e964e5895c6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">cutlass::gemm::GemmGlobalTileCdTraits::Threads</a></div><div class="ttdeci">Base::Threads Threads</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:142</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a0c6b03c635e14ad4424a83f8c7f8025e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">cutlass::gemm::GemmGlobalIteratorCd::Params::stride_h</a></div><div class="ttdeci">Index stride_h</div><div class="ttdoc">The stride in the H dimension to setup the thread in the block. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:432</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset_html_ab8adb983c0573a0015469f40a75287be"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html#ab8adb983c0573a0015469f40a75287be">cutlass::gemm::GemmGlobalTileTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:104</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_abc47717230ddde3edc88d2770f6841bf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">cutlass::gemm::GemmGlobalTileTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; 0, 0, Threads::kW *ThreadsDelta::kW, kAccessSize &gt; ImmediateOffsetStrides</div><div class="ttdoc">Strides for immediate offset computation. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:94</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a></div><div class="ttdoc">Statically sized array of bits implementing. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:104</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_aa24336597f4a3316d94df6ab0c20f714"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aa24336597f4a3316d94df6ab0c20f714">cutlass::gemm::GemmGlobalIteratorAb::inc_h</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_h()</div><div class="ttdoc">Increment the pointer in the H dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:296</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6d985f8e93be21e56f72ec1400d73df1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">cutlass::gemm::GemmGlobalIteratorCd::ThreadOffset</a></div><div class="ttdeci">TileTraits_::ThreadOffset ThreadOffset</div><div class="ttdoc">The thread offset. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:375</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_ae3ecef6501f0761051f298eb7cefcacf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">cutlass::gemm::GemmGlobalIteratorAb::inc_advance</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_advance()</div><div class="ttdoc">Increment the pointer to move to the next iteration. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:289</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset_html_ab8adb983c0573a0015469f40a75287be"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html#ab8adb983c0573a0015469f40a75287be">cutlass::gemm::GemmGlobalTileTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:108</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6034b7229e4aca05f63c39560f219433"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">cutlass::gemm::GemmGlobalIteratorCd::load_element</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_element(typename Base::AccessType &amp;value, int d, int h, int w, int c) const</div><div class="ttdoc">Loads a single fragment element from memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:538</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a15227102466522445261b6ea65c89c06"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">cutlass::TileIteratorBase::Params::inc_h</a></div><div class="ttdeci">Index inc_h</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:224</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_abc47717230ddde3edc88d2770f6841bf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">cutlass::gemm::GemmGlobalTileTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; 0, 0, Threads::kW *ThreadsDelta::kW, kAccessSize &gt; ImmediateOffsetStrides</div><div class="ttdoc">Strides for immediate offset computation. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:95</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a></div><div class="ttdoc">Statically sized array of bits implementing. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:105</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html"><div class="ttname"><a href="unioncutlass_1_1Vector.html">cutlass::Vector</a></div><div class="ttdef"><b>Definition:</b> vector.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1Load_html"><div class="ttname"><a href="structcutlass_1_1Load.html">cutlass::Load</a></div><div class="ttdef"><b>Definition:</b> load_store.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6d985f8e93be21e56f72ec1400d73df1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">cutlass::gemm::GemmGlobalIteratorCd::ThreadOffset</a></div><div class="ttdeci">TileTraits_::ThreadOffset ThreadOffset</div><div class="ttdoc">The thread offset. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:423</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_a14e9713b0cd34af433c3cae9b283b54c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c">cutlass::gemm::GemmGlobalTileCdTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Base::ImmediateOffsetStrides ImmediateOffsetStrides</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:142</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6b5b207eb1147e9669215e192901df9e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">cutlass::gemm::GemmGlobalIteratorCd::Scalar</a></div><div class="ttdeci">TileTraits_::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:367</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_aed94505e5a269d5f33499e71284104f5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">cutlass::gemm::GemmGlobalIteratorCd::Params::inc_h</a></div><div class="ttdeci">Index inc_h</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:384</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_ad23e6224e37ec1d13dc237ce8ec6e977"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">cutlass::gemm::GemmGlobalIteratorCd::predicates</a></div><div class="ttdeci">cutlass::PredicateVector&lt; Base::Iterations::kW &gt; predicates</div><div class="ttdoc">The predicates for the row. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:472</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a1e42503e5a54cdc01308e9030aebdd35"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1e42503e5a54cdc01308e9030aebdd35">cutlass::gemm::GemmGlobalIteratorAb::inc_d</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_d()</div><div class="ttdoc">Increment the pointer in the D dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:298</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_ad764f98e770d4685006e6888214dcd4d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">cutlass::gemm::GemmGlobalIteratorCd::Params::pointer</a></div><div class="ttdeci">Pointer pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:380</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a2892be253a3de5bffc3edcef2890d3a8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">cutlass::gemm::GemmGlobalIteratorAb::This_</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:167</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_a14e9713b0cd34af433c3cae9b283b54c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c">cutlass::gemm::GemmGlobalTileCdTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Base::ImmediateOffsetStrides ImmediateOffsetStrides</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:146</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a235647baff946e483dd61a2069aa01d2"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">cutlass::TileIteratorBase::Params::stride_d</a></div><div class="ttdeci">long long stride_d</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:219</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6b5b207eb1147e9669215e192901df9e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">cutlass::gemm::GemmGlobalIteratorCd::Scalar</a></div><div class="ttdeci">TileTraits_::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:415</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_aed94505e5a269d5f33499e71284104f5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">cutlass::gemm::GemmGlobalIteratorCd::Params::inc_h</a></div><div class="ttdeci">Index inc_h</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:434</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_ad23e6224e37ec1d13dc237ce8ec6e977"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">cutlass::gemm::GemmGlobalIteratorCd::predicates</a></div><div class="ttdeci">cutlass::PredicateVector&lt; Base::Iterations::kW &gt; predicates</div><div class="ttdoc">The predicates for the row. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:473</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ab8bfa9914c4ba49a583d1cfaa8a62d56"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">cutlass::TileIteratorBase::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">Source or destination memory space. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:161</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_ad764f98e770d4685006e6888214dcd4d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">cutlass::gemm::GemmGlobalIteratorCd::Params::pointer</a></div><div class="ttdeci">Pointer pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:428</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a2892be253a3de5bffc3edcef2890d3a8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">cutlass::gemm::GemmGlobalIteratorAb::This_</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:171</div></div>
 <div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4 &gt;</a></div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aebbf8834d0d88f0e5b3e1926db5e6758"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">cutlass::gemm::GemmGlobalTileTraits::Tile</a></div><div class="ttdeci">ReshapeTile&lt; Tile_, kAccessSize_ &gt;::Tile Tile</div><div class="ttdoc">The tile shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:85</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aaf72c4897641080b1d84c0bbd8d813cc"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">cutlass::TileLoadIterator::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:364</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a></div><div class="ttdoc">Iterator for accessing a stripmined tile in memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:102</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a622a4dd27162854ec96efea93cdd4380"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a622a4dd27162854ec96efea93cdd4380">cutlass::gemm::GemmGlobalIteratorCd::inc_w</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_w()</div><div class="ttdoc">Increment the pointer in the W dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:445</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_ac368b1ea1c5ad2209a6ac6bec597600f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">cutlass::gemm::GemmGlobalIteratorCd::params</a></div><div class="ttdeci">Params params</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:412</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:348</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a56601dc34e8f9a070db5dc48c37d55a0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">cutlass::gemm::GemmGlobalIteratorCd::thread_offset</a></div><div class="ttdeci">Coord&lt; 4 &gt; thread_offset</div><div class="ttdoc">Offset of an individual lane from the start of the tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:414</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_afd09d3b8e5ca04eab7edc2e5723816e5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">cutlass::gemm::GemmGlobalIteratorAb::ThreadOffset</a></div><div class="ttdeci">TileTraits_::ThreadOffset ThreadOffset</div><div class="ttdoc">The thread offset. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:187</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a646bd38ab95cdf0379ecb372839a9111"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">cutlass::gemm::GemmGlobalIteratorAb::Tile</a></div><div class="ttdeci">TileTraits_::Tile Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:182</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aae7128f5522383c857d2639031b64c30"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; VectorizedTile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a893cb2cc67676b44c1f3ad5908a4ab0c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">cutlass::gemm::GemmGlobalTileTraits::Iterations</a></div><div class="ttdeci">Shape&lt; 1, VectorizedTile::kH/Threads::kH, VectorizedTile::kW/Threads::kW, VectorizedTile::kC/kAccessSize &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:101</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_aeeed9a3582a879d9da77191df88e83ff"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff">cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE GemmGlobalIteratorCd(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block_offset, ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:476</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_aeac77cdc31ce151634b7c27ccdaf5552"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">cutlass::gemm::GemmGlobalIteratorCd::inc_advance</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_advance()</div><div class="ttdoc">Increment the pointer to move to the next iteration. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:523</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a40144d869b56b46cf1dd8f9941e61e77"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">cutlass::gemm::GemmGlobalIteratorCd::inc_h</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_h()</div><div class="ttdoc">Increment the pointer in the H dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:516</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_ab1d9e606a89d3dd315df3d3efa48bcc2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">cutlass::gemm::GemmGlobalIteratorCd::inc_w</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_w()</div><div class="ttdoc">Increment the pointer in the W dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:514</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a></div><div class="ttdoc">Iterator for accessing a stripmined tile in memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:144</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a388d464c35cc1bcd509d22937f38dcf6"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">cutlass::TileLoadIterator::Params::pointer</a></div><div class="ttdeci">Scalar const  * pointer</div><div class="ttdoc">Pointer to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:493</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_ac368b1ea1c5ad2209a6ac6bec597600f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">cutlass::gemm::GemmGlobalIteratorCd::params</a></div><div class="ttdeci">Params params</div><div class="ttdoc">Parameters. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:469</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:396</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aea9fbc738003a7424cfa9b0527d4a352"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">cutlass::TileLoadIterator::kAdvance</a></div><div class="ttdeci">static IteratorAdvance::Kind const kAdvance</div><div class="ttdoc">Specifies in which dimension post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:428</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a56601dc34e8f9a070db5dc48c37d55a0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">cutlass::gemm::GemmGlobalIteratorCd::thread_offset</a></div><div class="ttdeci">Coord&lt; 4 &gt; thread_offset</div><div class="ttdoc">Offset of an individual lane from the start of the tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:471</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a7f2fe3fa2eb764bf664817097d22fe45"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">cutlass::TileIteratorBase::FragmentElement</a></div><div class="ttdeci">FragmentElement_ FragmentElement</div><div class="ttdoc">Fragment element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:152</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_afd09d3b8e5ca04eab7edc2e5723816e5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">cutlass::gemm::GemmGlobalIteratorAb::ThreadOffset</a></div><div class="ttdeci">TileTraits_::ThreadOffset ThreadOffset</div><div class="ttdoc">The thread offset. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:192</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a78836a20250ff24c25a6622ad818b421"><div class="ttname"><a href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">cutlass::Shape::kW</a></div><div class="ttdeci">static int const kW</div><div class="ttdoc">The width of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a062fa8a8df725ef08ced2ffcca8336af"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">cutlass::PredicateVector::set</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void set(int idx, bool value=true)</div><div class="ttdoc">Set a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:364</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator::Params</a></div><div class="ttdoc">Parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:388</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html">cutlass::gemm::GemmGlobalTileCdTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:145</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_a062fa8a8df725ef08ced2ffcca8336af"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">cutlass::PredicateVector::set</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void set(int idx, bool value=true)</div><div class="ttdoc">Set a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:365</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a5940e491967e265630dc0a4b448791d6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6">cutlass::gemm::GemmGlobalIteratorAb::add_pointer_offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void add_pointer_offset(Index offset)</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:351</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a8a4edd46b8cad3eeafc2a3dc3a344499"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">cutlass::TileIteratorBase::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars accessed per load/store. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:185</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator::Params</a></div><div class="ttdoc">Parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:491</div></div>
+<div class="ttc" id="structcutlass_1_1ComputeOffsetFromStrides_html_aa28231590bfa0ced0f317e6a4d52dc1e"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">cutlass::ComputeOffsetFromStrides::get</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE int get(int d, int h, int w, int c)</div><div class="ttdef"><b>Definition:</b> shape.h:199</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html">cutlass::gemm::GemmGlobalTileCdTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:149</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a1a53695ce7f3cb267225d3ab86a0d5aa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">cutlass::gemm::GemmGlobalIteratorCd::Params::stride_d</a></div><div class="ttdeci">long long stride_d</div><div class="ttdoc">The stride in the D dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:430</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_adfb9a7df1b900e4f6ee59c72aabdebd7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7">cutlass::gemm::GemmGlobalIteratorAb::stride_advance</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index stride_advance(void)</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:353</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_af4f964364fc54a2b9a431fa529f6c44c"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">cutlass::TileLoadIterator::inc_w</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_w()</div><div class="ttdoc">Increment in the W dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:680</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aa001e09b246fdd8259cbda6a500cad5f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">cutlass::gemm::GemmGlobalTileTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:80</div></div>
 <div class="ttc" id="structcutlass_1_1ReshapeTile_html_a8d57fe6422aa920d9815a66e5a85b5f5"><div class="ttname"><a href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">cutlass::ReshapeTile::Tile</a></div><div class="ttdeci">Tile_ Tile</div><div class="ttdef"><b>Definition:</b> reshape_tile.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">cutlass::IteratorAdvance::kW</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_a72eebc18d31900db57fa77508016f64a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">cutlass::gemm::GemmGlobalTileCdTraits::Iterations</a></div><div class="ttdeci">Base::Iterations Iterations</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:136</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a7ff9cae930c8a6bb9c8ee6d81cb1953f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">cutlass::gemm::GemmGlobalIteratorAb::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:185</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a3abcfa68ae9904a13195d32d6e6c4bc6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">cutlass::gemm::GemmGlobalIteratorCd::Pointer</a></div><div class="ttdeci">TileTraits_::Pointer Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:369</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a5817b81c7013db9a3f7394ad4b1db79a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">cutlass::gemm::GemmGlobalIteratorAb::Scalar</a></div><div class="ttdeci">TileTraits_::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:181</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">cutlass::IteratorAdvance::kW</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_a72eebc18d31900db57fa77508016f64a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">cutlass::gemm::GemmGlobalTileCdTraits::Iterations</a></div><div class="ttdeci">Base::Iterations Iterations</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:140</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a7ff9cae930c8a6bb9c8ee6d81cb1953f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">cutlass::gemm::GemmGlobalIteratorAb::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:190</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a3abcfa68ae9904a13195d32d6e6c4bc6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">cutlass::gemm::GemmGlobalIteratorCd::Pointer</a></div><div class="ttdeci">TileTraits_::Pointer Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:417</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a6ebdbdce88f040fffd3eb60622c6d7e0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">cutlass::gemm::GemmGlobalIteratorAb::valid</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Is the valid? </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:335</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a2af872794b35a631f9c1a97df0c6d177"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">cutlass::TileLoadIterator::kFragmentElementType</a></div><div class="ttdeci">static FragmentElementType::Kind const kFragmentElementType</div><div class="ttdoc">Specifies type of iterator fragment storage (Salar or WmmaMatrix) </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:431</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a5817b81c7013db9a3f7394ad4b1db79a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">cutlass::gemm::GemmGlobalIteratorAb::Scalar</a></div><div class="ttdeci">TileTraits_::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:186</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ReshapeThreads_html_afd3614ff45f0fc77ad4967951cb5ab57"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57">cutlass::gemm::ReshapeThreads::Threads</a></div><div class="ttdeci">Threads_ Threads</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:54</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a29bd05960cc541bb67098f5483c84cf6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; Tile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:87</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a9dea455aa86bb59517b4a4d0309e424b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a9dea455aa86bb59517b4a4d0309e424b">cutlass::gemm::GemmGlobalIteratorAb::inc_advance</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_advance()</div><div class="ttdoc">Increment the pointer to move to the next iteration. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:300</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6dae81995ab94c0b7f28eeeeb84a6c8d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6dae81995ab94c0b7f28eeeeb84a6c8d">cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd</a></div><div class="ttdeci">CUTLASS_DEVICE GemmGlobalIteratorCd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:417</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_ab8c79cb1a8157dd00429c93cb4a41322"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">cutlass::gemm::GemmGlobalIteratorAb::params</a></div><div class="ttdeci">Params params</div><div class="ttdoc">The parameters. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:231</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params_html_ad0602cf5d322e98e3e5990c84ae1e3f3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#ad0602cf5d322e98e3e5990c84ae1e3f3">cutlass::gemm::GemmGlobalIteratorAb::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar const *ptr, long long stride_d, Index stride_h)</div><div class="ttdoc">Initializes params to load a strip-mined tile, given pointer and stride_h. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:203</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a8fd617565db6eb9c6fb99de868c389db"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db">cutlass::gemm::GemmGlobalIteratorCd::add_pointer_offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void add_pointer_offset(Index offset)</div><div class="ttdoc">add pointer offset </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:571</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_ab8c79cb1a8157dd00429c93cb4a41322"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">cutlass::gemm::GemmGlobalIteratorAb::params</a></div><div class="ttdeci">Params params</div><div class="ttdoc">The parameters. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:239</div></div>
 <div class="ttc" id="matrix__traits_8h_html"><div class="ttname"><a href="matrix__traits_8h.html">matrix_traits.h</a></div><div class="ttdoc">Defines properties of matrices used to denote layout and operands to GEMM kernels. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:378</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_ae2f8331619e735e620f8a8cf2cdde077"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">cutlass::gemm::GemmGlobalTileCdTraits::ThreadsDelta</a></div><div class="ttdeci">Base::ThreadsDelta ThreadsDelta</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:140</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6594acc213fc8d4289c6c73631f60120"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6594acc213fc8d4289c6c73631f60120">cutlass::gemm::GemmGlobalIteratorCd::valid</a></div><div class="ttdeci">CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Test the validity of the iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:460</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a1864c5556529afdc8445021cad780b04"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">cutlass::gemm::GemmGlobalIteratorAb::thread_offset</a></div><div class="ttdeci">Coord&lt; 4 &gt; thread_offset</div><div class="ttdoc">Offset of an individual lane from the start of the tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:229</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_aba8142a7a3b43da97f7968d98f3ba018"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018">cutlass::gemm::GemmGlobalIteratorAb::initialize_predicates</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void initialize_predicates(const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block_offset)</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:243</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:426</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html_ae2f8331619e735e620f8a8cf2cdde077"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">cutlass::gemm::GemmGlobalTileCdTraits::ThreadsDelta</a></div><div class="ttdeci">Base::ThreadsDelta ThreadsDelta</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:144</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a1864c5556529afdc8445021cad780b04"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">cutlass::gemm::GemmGlobalIteratorAb::thread_offset</a></div><div class="ttdeci">Coord&lt; 4 &gt; thread_offset</div><div class="ttdoc">Offset of an individual lane from the start of the tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:237</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ad9c77ca0521d18a90dd3542a3941f016"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">cutlass::TileLoadIterator::FragmentIterator</a></div><div class="ttdeci">Base::FragmentIterator FragmentIterator</div><div class="ttdoc">Fragment iterator definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:467</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html">cutlass::ShapeCount</a></div><div class="ttdoc">Compute derived counted of a Layout Concept based class. </div><div class="ttdef"><b>Definition:</b> shape.h:79</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a3e8f6cf08d23318f3e3263b55cf3b84a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_offset</a></div><div class="ttdeci">Index predicate_offset</div><div class="ttdoc">The column offset to compute the predicate for the columns. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:388</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_af95fa1b5102176a0fa9b17713fd48150"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">cutlass::TileIteratorBase::Params::inc_d</a></div><div class="ttdeci">Index inc_d</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:175</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_ab2bad39cd9e9d27382cf8fb9e05ed593"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593">cutlass::gemm::GemmGlobalIteratorAb::residue</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void residue(Index k)</div><div class="ttdoc">That&amp;#39;s the residue! Update the predicates. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:306</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a3e8f6cf08d23318f3e3263b55cf3b84a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_offset</a></div><div class="ttdeci">Index predicate_offset</div><div class="ttdoc">The column offset to compute the predicate for the columns. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:438</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a74bc07cb021a73513ab2fbacd572be90"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">cutlass::gemm::GemmGlobalTileTraits::kLayout</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayout</div><div class="ttdoc">The layout. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:74</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a5de982aed44932da3b265f8bb520249d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d">cutlass::gemm::GemmGlobalIteratorCd::store_element</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store_element(typename Base::AccessType const &amp;value, int d, int h, int w, int c)</div><div class="ttdoc">Stores a single fragment element into memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:552</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_af7e7a71a9fa41cc3f6d0e5963963339d"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">cutlass::TileIteratorBase::Params::stride_w</a></div><div class="ttdeci">Index stride_w</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:221</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__operand_8h.html b/docs/gemm__operand_8h.html
index 17d7ebd303..07eefb28d1 100644
--- a/docs/gemm__operand_8h.html
+++ b/docs/gemm__operand_8h.html
@@ -82,9 +82,9 @@
 
 <p>Defines constant expressions for mapping GEMM problem size and strides onto pitch-linear memory.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&quot;</code><br />
 </div>
 <p><a href="gemm__operand_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -126,7 +126,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__operand_8h_source.html b/docs/gemm__operand_8h_source.html
index 83b58f2b67..a53c3f1148 100644
--- a/docs/gemm__operand_8h_source.html
+++ b/docs/gemm__operand_8h_source.html
@@ -76,40 +76,40 @@
 <div class="title">gemm_operand.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="gemm__operand_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html">   42</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html">GemmOperandTraitsAb</a> {</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html#abe4eb7f9a0ed7d48a81029e88849dcf2">   43</a></span>&#160;  <span class="keyword">static</span> <span class="keyword">const</span> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html#abe4eb7f9a0ed7d48a81029e88849dcf2">Congruous</a> =</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;      (kOperand_ == <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a> ^ kLayout_ == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>);</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;};</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmOperand::Kind kOperand_, <span class="keyword">typename</span> Tile_&gt;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GetExtent.html">   50</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent</a>;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_&gt;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html">   53</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kA, Tile_&gt; {</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html#a881f84951bc9e47ab2be9ef3f2c1e423">   54</a></span>&#160;  <span class="keyword">static</span> <span class="keyword">const</span> <span class="keywordtype">int</span> kExtent = Tile_::kW;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;};</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_&gt;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html">   58</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kB, Tile_&gt; {</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html#a82ff9b447e4a58164b5f7d53d2602930">   59</a></span>&#160;  <span class="keyword">static</span> <span class="keyword">const</span> <span class="keywordtype">int</span> kExtent = Tile_::kH;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;};</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> ThreadBlockTile_, GemmOperand::Kind Usage, MatrixLayout::Kind Layout&gt;</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">   67</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a> {</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  <span class="comment">// Only defined for A or B</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Usage == <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a> || Usage == <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a5e43f3c9aa8d7dc5f01dfc63b1ea97dc">   70</a></span>&#160;                <span class="stringliteral">&quot;MultiplicandTileShape defined only for A or B operands.&quot;</span>);</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  <span class="keyword">typedef</span> ThreadBlockTile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a5e43f3c9aa8d7dc5f01dfc63b1ea97dc">ThreadBlockTile</a>;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a962ffde3b3db78792b67dd1f57ab0a05">   76</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a962ffde3b3db78792b67dd1f57ab0a05">kUsage</a> = Usage;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd">   79</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd">kLayout</a> = Layout;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;  <span class="comment">// True if K is the strided dimension</span></div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85">   82</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85">kKstrided</a> = (<a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a962ffde3b3db78792b67dd1f57ab0a05">kUsage</a> == <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a> ^ <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd">kLayout</a> == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>);</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1conditional.html">platform::conditional</a>&lt;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85">kKstrided</a>,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ThreadBlockTile::kD, GetExtent&lt;Usage, ThreadBlockTile&gt;::kExtent</a>&gt;,</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e">   88</a></span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GetExtent&lt;Usage, ThreadBlockTile&gt;::kExtent</a>, ThreadBlockTile::kD&gt; &gt;::type <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e">Shape</a>;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;};</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;<span class="keyword">template</span> &lt;GemmOperand::Kind operand, <span class="keywordtype">bool</span> Kstr<span class="keywordtype">id</span>ed = true&gt;</div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand.html">   96</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a>;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> Kstr<span class="keywordtype">id</span>ed&gt;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html">  100</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kA, Kstrided&gt; {</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html#ae91b2350374f1734a30cbed45e14b8e3">  102</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html#ae91b2350374f1734a30cbed45e14b8e3">project</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;coord) {</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <span class="keywordflow">if</span> (Kstrided) {</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[0], coord[2]);</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[2], coord[0]);</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  }</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;};</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> Kstr<span class="keywordtype">id</span>ed&gt;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html">  113</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kB, Kstrided&gt; {</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html#a0f1579013f56fe16ebc147271f163c3c">  115</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html#a0f1579013f56fe16ebc147271f163c3c">project</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;coord) {</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <span class="keywordflow">if</span> (Kstrided) {</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[0], coord[1]);</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[1], coord[0]);</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    }</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;};</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html">  126</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kC, true&gt; {</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html#af2a323461334a6b55b95074a1973d250">  128</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html#af2a323461334a6b55b95074a1973d250">project</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;coord) { <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[1], coord[2]); }</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;};</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html">  133</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kD, true&gt; {</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00135"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html#ace04040ccb13af5f9a283ca80ffe93d1">  135</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html#ace04040ccb13af5f9a283ca80ffe93d1">project</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;coord) { <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[1], coord[2]); }</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;};</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmMultiplicandTraits_html_a1984c9ef6abfd029acbc3f702593ab85"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85">cutlass::gemm::GemmMultiplicandTraits::kKstrided</a></div><div class="ttdeci">static bool const kKstrided</div><div class="ttdef"><b>Definition:</b> gemm_operand.h:82</div></div>
+<a href="gemm__operand_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html">   42</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html">GemmOperandTraitsAb</a> {</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html#abe4eb7f9a0ed7d48a81029e88849dcf2">   43</a></span>&#160;  <span class="keyword">static</span> <span class="keyword">const</span> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html#abe4eb7f9a0ed7d48a81029e88849dcf2">Congruous</a> =</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;      (kOperand_ == <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a> ^ kLayout_ == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>);</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;};</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmOperand::Kind kOperand_, <span class="keyword">typename</span> Tile_&gt;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GetExtent.html">   50</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent</a>;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_&gt;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html">   53</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kA, Tile_&gt; {</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html#a881f84951bc9e47ab2be9ef3f2c1e423">   54</a></span>&#160;  <span class="keyword">static</span> <span class="keyword">const</span> <span class="keywordtype">int</span> kExtent = Tile_::kW;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;};</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_&gt;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html">   58</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kB, Tile_&gt; {</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html#a82ff9b447e4a58164b5f7d53d2602930">   59</a></span>&#160;  <span class="keyword">static</span> <span class="keyword">const</span> <span class="keywordtype">int</span> kExtent = Tile_::kH;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;};</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> ThreadBlockTile_, GemmOperand::Kind Usage, MatrixLayout::Kind Layout&gt;</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">   67</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a> {</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  <span class="comment">// Only defined for A or B</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Usage == <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a> || Usage == <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a5e43f3c9aa8d7dc5f01dfc63b1ea97dc">   70</a></span>&#160;                <span class="stringliteral">&quot;MultiplicandTileShape defined only for A or B operands.&quot;</span>);</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  <span class="keyword">typedef</span> ThreadBlockTile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a5e43f3c9aa8d7dc5f01dfc63b1ea97dc">ThreadBlockTile</a>;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a962ffde3b3db78792b67dd1f57ab0a05">   76</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a962ffde3b3db78792b67dd1f57ab0a05">kUsage</a> = Usage;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd">   79</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd">kLayout</a> = Layout;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;  <span class="comment">// True if K is the strided dimension</span></div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85">   82</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85">kKstrided</a> = (<a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a962ffde3b3db78792b67dd1f57ab0a05">kUsage</a> == <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a> ^ <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd">kLayout</a> == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>);</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1conditional.html">platform::conditional</a>&lt;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85">kKstrided</a>,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ThreadBlockTile::kD, GetExtent&lt;Usage, ThreadBlockTile&gt;::kExtent</a>&gt;,</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e">   88</a></span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GetExtent&lt;Usage, ThreadBlockTile&gt;::kExtent</a>, ThreadBlockTile::kD&gt; &gt;::type <a class="code" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e">Shape</a>;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;};</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;<span class="keyword">template</span> &lt;GemmOperand::Kind operand, <span class="keywordtype">bool</span> Kstr<span class="keywordtype">id</span>ed = true&gt;</div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand.html">   96</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a>;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> Kstr<span class="keywordtype">id</span>ed&gt;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html">  100</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kA, Kstrided&gt; {</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html#ae91b2350374f1734a30cbed45e14b8e3">  102</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html#ae91b2350374f1734a30cbed45e14b8e3">project</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;coord) {</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <span class="keywordflow">if</span> (Kstrided) {</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[0], coord[2]);</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[2], coord[0]);</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  }</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;};</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> Kstr<span class="keywordtype">id</span>ed&gt;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html">  113</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kB, Kstrided&gt; {</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html#a0f1579013f56fe16ebc147271f163c3c">  115</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html#a0f1579013f56fe16ebc147271f163c3c">project</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;coord) {</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <span class="keywordflow">if</span> (Kstrided) {</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[0], coord[1]);</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[1], coord[0]);</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    }</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;};</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html">  126</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kC, true&gt; {</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html#af2a323461334a6b55b95074a1973d250">  128</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html#af2a323461334a6b55b95074a1973d250">project</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;coord) { <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[1], coord[2]); }</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;};</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html">  133</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a>::kD, true&gt; {</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00135"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html#ace04040ccb13af5f9a283ca80ffe93d1">  135</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html#ace04040ccb13af5f9a283ca80ffe93d1">project</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;coord) { <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, coord[1], coord[2]); }</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;};</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmMultiplicandTraits_html_a1984c9ef6abfd029acbc3f702593ab85"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85">cutlass::gemm::GemmMultiplicandTraits::kKstrided</a></div><div class="ttdeci">static bool const kKstrided</div><div class="ttdef"><b>Definition:</b> gemm_operand.h:82</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4_html_a0f1579013f56fe16ebc147271f163c3c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html#a0f1579013f56fe16ebc147271f163c3c">cutlass::gemm::ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;::project</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE Coord&lt; 3 &gt; project(Coord&lt; 3 &gt; const &amp;coord)</div><div class="ttdef"><b>Definition:</b> gemm_operand.h:115</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4_html_af2a323461334a6b55b95074a1973d250"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html#af2a323461334a6b55b95074a1973d250">cutlass::gemm::ProjectOperand&lt; GemmOperand::kC, true &gt;::project</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE Coord&lt; 3 &gt; project(Coord&lt; 3 &gt; const &amp;coord)</div><div class="ttdef"><b>Definition:</b> gemm_operand.h:128</div></div>
 <div class="ttc" id="platform_8h_html"><div class="ttname"><a href="platform_8h.html">platform.h</a></div><div class="ttdoc">C++ features that may be otherwise unimplemented for CUDA device functions. </div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmMultiplicandTraits_html_a5e43f3c9aa8d7dc5f01dfc63b1ea97dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a5e43f3c9aa8d7dc5f01dfc63b1ea97dc">cutlass::gemm::GemmMultiplicandTraits::ThreadBlockTile</a></div><div class="ttdeci">ThreadBlockTile_ ThreadBlockTile</div><div class="ttdoc">Shape of GEMM thread block tile (K, N, M) </div><div class="ttdef"><b>Definition:</b> gemm_operand.h:70</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmMultiplicandTraits_html_a89f1d9599b418c8bb81c104ca86cf00e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e">cutlass::gemm::GemmMultiplicandTraits::Shape</a></div><div class="ttdeci">platform::conditional&lt; kKstrided, Shape&lt; 1, ThreadBlockTile::kD, GetExtent&lt; Usage, ThreadBlockTile &gt;::kExtent &gt;, Shape&lt; 1, GetExtent&lt; Usage, ThreadBlockTile &gt;::kExtent, ThreadBlockTile::kD &gt; &gt;::type Shape</div><div class="ttdoc">Map the ThreadBlockShape onto (kH, kW) dimensions for A and B operand. </div><div class="ttdef"><b>Definition:</b> gemm_operand.h:88</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
 <div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmMultiplicandTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">cutlass::gemm::GemmMultiplicandTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_operand.h:67</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmOperandTraitsAb_html_abe4eb7f9a0ed7d48a81029e88849dcf2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html#abe4eb7f9a0ed7d48a81029e88849dcf2">cutlass::gemm::GemmOperandTraitsAb::Congruous</a></div><div class="ttdeci">static const bool Congruous</div><div class="ttdef"><b>Definition:</b> gemm_operand.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1conditional_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1conditional.html">cutlass::platform::conditional</a></div><div class="ttdoc">std::conditional (true specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:343</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1conditional_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1conditional.html">cutlass::platform::conditional</a></div><div class="ttdoc">std::conditional (true specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:351</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmMultiplicandTraits_html_a19076e58e60d296da74cf504e2a473fd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd">cutlass::gemm::GemmMultiplicandTraits::kLayout</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayout</div><div class="ttdoc">Layout of tile. </div><div class="ttdef"><b>Definition:</b> gemm_operand.h:79</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4_html_ae91b2350374f1734a30cbed45e14b8e3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html#ae91b2350374f1734a30cbed45e14b8e3">cutlass::gemm::ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;::project</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE Coord&lt; 3 &gt; project(Coord&lt; 3 &gt; const &amp;coord)</div><div class="ttdef"><b>Definition:</b> gemm_operand.h:102</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ProjectOperand_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ProjectOperand.html">cutlass::gemm::ProjectOperand</a></div><div class="ttdef"><b>Definition:</b> gemm_operand.h:96</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GetExtent_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GetExtent.html">cutlass::gemm::GetExtent</a></div><div class="ttdef"><b>Definition:</b> gemm_operand.h:50</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:48</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html">cutlass::GemmOperand</a></div><div class="ttdoc">Gemm operand - D = A * B + C. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:42</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html">cutlass::GemmOperand</a></div><div class="ttdoc">Gemm operand - D = A * B + C. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:356</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4_html_ace04040ccb13af5f9a283ca80ffe93d1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html#ace04040ccb13af5f9a283ca80ffe93d1">cutlass::gemm::ProjectOperand&lt; GemmOperand::kD, true &gt;::project</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE Coord&lt; 3 &gt; project(Coord&lt; 3 &gt; const &amp;coord)</div><div class="ttdef"><b>Definition:</b> gemm_operand.h:135</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmMultiplicandTraits_html_a962ffde3b3db78792b67dd1f57ab0a05"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a962ffde3b3db78792b67dd1f57ab0a05">cutlass::gemm::GemmMultiplicandTraits::kUsage</a></div><div class="ttdeci">static GemmOperand::Kind const kUsage</div><div class="ttdoc">Identifies multiplicand. </div><div class="ttdef"><b>Definition:</b> gemm_operand.h:76</div></div>
 <div class="ttc" id="matrix__traits_8h_html"><div class="ttname"><a href="matrix__traits_8h.html">matrix_traits.h</a></div><div class="ttdoc">Defines properties of matrices used to denote layout and operands to GEMM kernels. </div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmOperandTraitsAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html">cutlass::gemm::GemmOperandTraitsAb</a></div><div class="ttdoc">Helper to describe attributes of GEMM matrix operands. </div><div class="ttdef"><b>Definition:</b> gemm_operand.h:42</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__shared__stream_8h.html b/docs/gemm__shared__stream_8h.html
index 314df24b74..55312ff8ea 100644
--- a/docs/gemm__shared__stream_8h.html
+++ b/docs/gemm__shared__stream_8h.html
@@ -82,7 +82,8 @@
 
 <p>Defines abstractions for managing loading and storing fragments to shared memory in the efficient GEMM pipeline.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="tensor__ref_8h_source.html">cutlass/tensor_ref.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</code><br />
 </div>
 <p><a href="gemm__shared__stream_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -104,7 +105,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__shared__stream_8h_source.html b/docs/gemm__shared__stream_8h_source.html
index 8a0ec9da8d..eadc63d24a 100644
--- a/docs/gemm__shared__stream_8h_source.html
+++ b/docs/gemm__shared__stream_8h_source.html
@@ -76,35 +76,42 @@
 <div class="title">gemm_shared_stream.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="gemm__shared__stream_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;    <span class="keyword">typename</span> Iterator_,</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;    <span class="keyword">typename</span> Transformer_ = Copy&lt;typename Iterator_::Fragment&gt; &gt;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">   44</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a> {</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">   46</a></span>&#160;  <span class="keyword">typedef</span> Iterator_ <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">Iterator</a>;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">   48</a></span>&#160;  <span class="keyword">typedef</span> Transformer_ <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">Transformer</a>;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">   51</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Iterator::Fragment <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a>;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">   53</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Transformer::OutputFragment <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a>;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;FetchedFragment, typename Transformer::InputFragment&gt;::value</a>),</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">   56</a></span>&#160;                <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">Fragment</a>;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">   61</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">Params</a> {</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">   63</a></span>&#160;    <span class="keyword">typename</span> Iterator::Params <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">iterator</a>;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a">   66</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a">initialize</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">iterator</a>.initialize(); }</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  };</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">   70</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Iterator::Storage <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a>;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">   73</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">SharedLoadStream</a>() {}</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a93e9bcdca4ceb68754fb1f73e2b25d25">   76</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a93e9bcdca4ceb68754fb1f73e2b25d25">SharedLoadStream</a>(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;params, <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a> &amp;shared_storage) {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    this-&gt;<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8e4d277325bb5e56c718a2298b60d3cf">initialize</a>(params, shared_storage);</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;  }</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8e4d277325bb5e56c718a2298b60d3cf">   81</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8e4d277325bb5e56c718a2298b60d3cf">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;params, <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a> &amp;shared_storage) {</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    <span class="comment">// The iterator.</span></div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a> = <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">Iterator</a>(params.<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">iterator</a>, shared_storage);</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    <span class="comment">// The transformer.</span></div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">transformer</a> = <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">Transformer</a>();</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;  }</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7f6bf3b8d70bcd74d84519decd9f0d8e">   89</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7f6bf3b8d70bcd74d84519decd9f0d8e">copy</a>(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> &amp;fetched) { <a class="code" href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">shared_iterator_load</a>(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a>, fetched); }</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a279144e9722055d4b862e3fa25948762">   92</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a279144e9722055d4b862e3fa25948762">copy</a>(<span class="keywordtype">int</span> d, <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> &amp;fetched) {</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;    <a class="code" href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">shared_iterator_load</a>(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a>, fetched, d);</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;  }</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9cc435369c7fc76d0bb6233a8258e257">   97</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9cc435369c7fc76d0bb6233a8258e257">commit</a>(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> &amp;fetched, <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> &amp;transformed) {</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">transformer</a>.transform(fetched, transformed);</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;  }</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">  102</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">inc_stage</a>() { <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a>.inc_stage(); }</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">  105</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">Iterator</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a>;</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">  107</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">Transformer</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">transformer</a>;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;};</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a7f6bf3b8d70bcd74d84519decd9f0d8e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7f6bf3b8d70bcd74d84519decd9f0d8e">cutlass::gemm::SharedLoadStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy(FetchedFragment &amp;fetched)</div><div class="ttdoc">Load the data from shared memory to the fetch fragment. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:89</div></div>
+<a href="gemm__shared__stream_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tensor__ref_8h.html">cutlass/tensor_ref.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;    <span class="keyword">typename</span> Iterator_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;    <span class="keyword">typename</span> Transformer_ = Copy&lt;typename Iterator_::Fragment&gt; &gt;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">   45</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a> {</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">   47</a></span>&#160;  <span class="keyword">typedef</span> Iterator_ <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">Iterator</a>;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">   49</a></span>&#160;  <span class="keyword">typedef</span> Transformer_ <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">Transformer</a>;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">   52</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Iterator::Fragment <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a>;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">   54</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Transformer::OutputFragment <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a>;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;FetchedFragment, typename Transformer::InputFragment&gt;::value</a>),</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">   57</a></span>&#160;                <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">Fragment</a>;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429">   61</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Iterator::Scalar <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429">Scalar</a>;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">   64</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef&lt;Scalar, 4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a>;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">   67</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">Params</a> {</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">   69</a></span>&#160;    <span class="keyword">typename</span> Iterator::Params <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">iterator</a>;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a">   72</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a">initialize</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">iterator</a>.initialize(); }</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  };</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">   76</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Iterator::Storage <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a>;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">   79</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">SharedLoadStream</a>() {}</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad2f619712c817f91d62a13db0476a627">   82</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad2f619712c817f91d62a13db0476a627">SharedLoadStream</a>(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;params, <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a> <span class="keyword">const</span> &amp;ref) {</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;    this-&gt;<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9b62788c187fff49b0250c0070a41fa0">initialize</a>(params, ref);</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  }</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9b62788c187fff49b0250c0070a41fa0">   87</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9b62788c187fff49b0250c0070a41fa0">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;params, <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a> <span class="keyword">const</span> &amp;ref) {</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;    <span class="comment">// The iterator.</span></div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a> = <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">Iterator</a>(params.<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">iterator</a>, ref.data());</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;    <span class="comment">// The transformer.</span></div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">transformer</a> = <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">Transformer</a>();</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  }</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a4b919d229e259909efbf994ff2c09339">   95</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a4b919d229e259909efbf994ff2c09339">copy</a>() { <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a>.load_post_increment(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">fetched</a>[0]); }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a99039d115a539fc99e2235c12ac57eed">   98</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a99039d115a539fc99e2235c12ac57eed">copy</a>(<span class="keywordtype">int</span> step) { <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a>.load(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">fetched</a>[step % 2], step); }</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa3aa987bf0fd6303e06f46e2f54e47e4">  101</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa3aa987bf0fd6303e06f46e2f54e47e4">commit</a>() { <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">transformer</a>.transform(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">fetched</a>[0], <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">transformed</a>[0]); }</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6be479189765a1803ceced424561466b">  104</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6be479189765a1803ceced424561466b">commit</a>(<span class="keywordtype">int</span> step) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">transformer</a>.transform(<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">fetched</a>[step % 2], <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">transformed</a>[step % 2]);</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  }</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad5cb076de46e841a165bd43924dab463">  109</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> &amp;<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad5cb076de46e841a165bd43924dab463">fragment</a>(<span class="keywordtype">int</span> step = 0) { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">transformed</a>[step % 2]; }</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a30e815fcee63b5a99b2797464b6a3192">  112</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> <span class="keyword">const</span> &amp;<a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a30e815fcee63b5a99b2797464b6a3192">fragment</a>(<span class="keywordtype">int</span> step = 0)<span class="keyword"> const </span>{</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">transformed</a>[step % 2];</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  }</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">  117</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">inc_stage</a>() { <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a>.inc_stage(); }</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">  120</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">Iterator</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a>;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">  122</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">fetched</a>[2];</div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">  124</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">Transformer</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">transformer</a>;</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">  126</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">transformed</a>[2];</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;};</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_aa3aa987bf0fd6303e06f46e2f54e47e4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa3aa987bf0fd6303e06f46e2f54e47e4">cutlass::gemm::SharedLoadStream::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit()</div><div class="ttdoc">Commit the data. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:101</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="namespacecutlass_html_abcec976c59cab75ca55b338d125154a3"><div class="ttname"><a href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">cutlass::shared_iterator_load</a></div><div class="ttdeci">CUTLASS_DEVICE void shared_iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdoc">Loads a fragment from a shared memory input iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:75</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a8e4d277325bb5e56c718a2298b60d3cf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8e4d277325bb5e56c718a2298b60d3cf">cutlass::gemm::SharedLoadStream::initialize</a></div><div class="ttdeci">CUTLASS_DEVICE void initialize(Params const &amp;params, SharedStorage &amp;shared_storage)</div><div class="ttdoc">Initialize the stream. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:81</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:412</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a22c671494d487511c71f2b0f26fdb404"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">cutlass::gemm::SharedLoadStream::SharedStorage</a></div><div class="ttdeci">Iterator::Storage SharedStorage</div><div class="ttdoc">The storage in shared memory needed by that stream. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a9cc435369c7fc76d0bb6233a8258e257"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9cc435369c7fc76d0bb6233a8258e257">cutlass::gemm::SharedLoadStream::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit(FetchedFragment &amp;fetched, TransformedFragment &amp;transformed)</div><div class="ttdoc">Commit the data. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:97</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_acf22fd09aa537943c16b900d66f1ec6f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">cutlass::gemm::SharedLoadStream::inc_stage</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_stage()</div><div class="ttdoc">Increment the stage. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:102</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a6e097738679436d580e8dc6ac70efaad"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">cutlass::gemm::SharedLoadStream::SharedLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE SharedLoadStream()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:73</div></div>
+<div class="ttc" id="tensor__ref_8h_html"><div class="ttname"><a href="tensor__ref_8h.html">tensor_ref.h</a></div><div class="ttdoc">Defines a structure containing strides, bounds, and a pointer to tensor data. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a8ae6f60b5fb3642542a6cb833d83c8e4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">cutlass::gemm::SharedLoadStream::fetched</a></div><div class="ttdeci">FetchedFragment fetched[2]</div><div class="ttdoc">Fetched fragment. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:122</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:420</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a6be479189765a1803ceced424561466b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6be479189765a1803ceced424561466b">cutlass::gemm::SharedLoadStream::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit(int step)</div><div class="ttdoc">Commit the data. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:104</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a22c671494d487511c71f2b0f26fdb404"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">cutlass::gemm::SharedLoadStream::SharedStorage</a></div><div class="ttdeci">Iterator::Storage SharedStorage</div><div class="ttdoc">The storage in shared memory needed by that stream. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:76</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_acf22fd09aa537943c16b900d66f1ec6f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">cutlass::gemm::SharedLoadStream::inc_stage</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_stage()</div><div class="ttdoc">Increment the stage. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:117</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_aff5202428b0e7207456c97204d4d219a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">cutlass::gemm::SharedLoadStream::TensorRef</a></div><div class="ttdeci">TensorRef&lt; Scalar, 4 &gt; TensorRef</div><div class="ttdoc">Reference type to a tensor. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:64</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a6e097738679436d580e8dc6ac70efaad"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">cutlass::gemm::SharedLoadStream::SharedLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE SharedLoadStream()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:79</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a7583af38ca0fb446882b28c0e2dcae88"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">cutlass::gemm::SharedLoadStream::transformed</a></div><div class="ttdeci">TransformedFragment transformed[2]</div><div class="ttdoc">Transformed fragment. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:126</div></div>
 <div class="ttc" id="gemm__shared__tile_8h_html"><div class="ttname"><a href="gemm__shared__tile_8h.html">gemm_shared_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing tiles to and from shared memory. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:44</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_af846390ad0e5b80ccb4e8b95c5fe64a7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">cutlass::gemm::SharedLoadStream::transformer</a></div><div class="ttdeci">Transformer transformer</div><div class="ttdoc">The transformer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:107</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a9f025ed2609bf33230f6a390c22b11b7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">cutlass::gemm::SharedLoadStream::Fragment</a></div><div class="ttdeci">TransformedFragment Fragment</div><div class="ttdoc">Make sure the fragments match. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:56</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:45</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a30e815fcee63b5a99b2797464b6a3192"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a30e815fcee63b5a99b2797464b6a3192">cutlass::gemm::SharedLoadStream::fragment</a></div><div class="ttdeci">CUTLASS_DEVICE TransformedFragment const  &amp; fragment(int step=0) const</div><div class="ttdoc">Returns the fragment for the given step. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:112</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_af846390ad0e5b80ccb4e8b95c5fe64a7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">cutlass::gemm::SharedLoadStream::transformer</a></div><div class="ttdeci">Transformer transformer</div><div class="ttdoc">The transformer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:124</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a9f025ed2609bf33230f6a390c22b11b7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">cutlass::gemm::SharedLoadStream::Fragment</a></div><div class="ttdeci">TransformedFragment Fragment</div><div class="ttdoc">Make sure the fragments match. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:57</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a279144e9722055d4b862e3fa25948762"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a279144e9722055d4b862e3fa25948762">cutlass::gemm::SharedLoadStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy(int d, FetchedFragment &amp;fetched)</div><div class="ttdoc">Load the data from shared memory to the fetch fragment. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:92</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params_html_ae59f871c06a0ac7b9224f0de923082d7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">cutlass::gemm::SharedLoadStream::Params::iterator</a></div><div class="ttdeci">Iterator::Params iterator</div><div class="ttdoc">The iterator params. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:63</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a54481a42d4125e3693a086269d9a7b10"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">cutlass::gemm::SharedLoadStream::iterator</a></div><div class="ttdeci">Iterator iterator</div><div class="ttdoc">The iterator. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:105</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params_html_adb66103b905b35a1594c6f0bab65758a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a">cutlass::gemm::SharedLoadStream::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize()</div><div class="ttdoc">Setup the params. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:66</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_aa2227d7fa1edef3f6730c7db41b132b4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">cutlass::gemm::SharedLoadStream::TransformedFragment</a></div><div class="ttdeci">Transformer::OutputFragment TransformedFragment</div><div class="ttdoc">The fragment that is obtained after the transformation by the transformer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:53</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">cutlass::gemm::SharedLoadStream::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:61</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a41b45085f17532a6394de3f5ccf201e7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">cutlass::gemm::SharedLoadStream::FetchedFragment</a></div><div class="ttdeci">Iterator::Fragment FetchedFragment</div><div class="ttdoc">The fragment that is copied from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:51</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_ad1f70f0dd1027da1353ff7a38f524904"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">cutlass::gemm::SharedLoadStream::Transformer</a></div><div class="ttdeci">Transformer_ Transformer</div><div class="ttdoc">The transformer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:48</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a6925270c4ad157554ab155cddc7b46e6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">cutlass::gemm::SharedLoadStream::Iterator</a></div><div class="ttdeci">Iterator_ Iterator</div><div class="ttdoc">The load iterator. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a93e9bcdca4ceb68754fb1f73e2b25d25"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a93e9bcdca4ceb68754fb1f73e2b25d25">cutlass::gemm::SharedLoadStream::SharedLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE SharedLoadStream(Params const &amp;params, SharedStorage &amp;shared_storage)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:76</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params_html_ae59f871c06a0ac7b9224f0de923082d7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7">cutlass::gemm::SharedLoadStream::Params::iterator</a></div><div class="ttdeci">Iterator::Params iterator</div><div class="ttdoc">The iterator params. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a54481a42d4125e3693a086269d9a7b10"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">cutlass::gemm::SharedLoadStream::iterator</a></div><div class="ttdeci">Iterator iterator</div><div class="ttdoc">The iterator. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:120</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params_html_adb66103b905b35a1594c6f0bab65758a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a">cutlass::gemm::SharedLoadStream::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize()</div><div class="ttdoc">Setup the params. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:72</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_aa2227d7fa1edef3f6730c7db41b132b4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">cutlass::gemm::SharedLoadStream::TransformedFragment</a></div><div class="ttdeci">Transformer::OutputFragment TransformedFragment</div><div class="ttdoc">The fragment that is obtained after the transformation by the transformer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:54</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_ad2f619712c817f91d62a13db0476a627"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad2f619712c817f91d62a13db0476a627">cutlass::gemm::SharedLoadStream::SharedLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE SharedLoadStream(Params const &amp;params, TensorRef const &amp;ref)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:82</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_ad5cb076de46e841a165bd43924dab463"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad5cb076de46e841a165bd43924dab463">cutlass::gemm::SharedLoadStream::fragment</a></div><div class="ttdeci">CUTLASS_DEVICE TransformedFragment &amp; fragment(int step=0)</div><div class="ttdoc">Returns the fragment for the given step. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:109</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a99039d115a539fc99e2235c12ac57eed"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a99039d115a539fc99e2235c12ac57eed">cutlass::gemm::SharedLoadStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy(int step)</div><div class="ttdoc">Load the data from shared memory to the fetch fragment. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:98</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">cutlass::gemm::SharedLoadStream::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:67</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a9b62788c187fff49b0250c0070a41fa0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9b62788c187fff49b0250c0070a41fa0">cutlass::gemm::SharedLoadStream::initialize</a></div><div class="ttdeci">CUTLASS_DEVICE void initialize(Params const &amp;params, TensorRef const &amp;ref)</div><div class="ttdoc">Initialize the stream. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:87</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a5da116ae7e3f8ac2168bcf9bb964a429"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429">cutlass::gemm::SharedLoadStream::Scalar</a></div><div class="ttdeci">Iterator::Scalar Scalar</div><div class="ttdoc">Scalar data type. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:61</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a41b45085f17532a6394de3f5ccf201e7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">cutlass::gemm::SharedLoadStream::FetchedFragment</a></div><div class="ttdeci">Iterator::Fragment FetchedFragment</div><div class="ttdoc">The fragment that is copied from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_ad1f70f0dd1027da1353ff7a38f524904"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">cutlass::gemm::SharedLoadStream::Transformer</a></div><div class="ttdeci">Transformer_ Transformer</div><div class="ttdoc">The transformer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:49</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a6925270c4ad157554ab155cddc7b46e6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">cutlass::gemm::SharedLoadStream::Iterator</a></div><div class="ttdeci">Iterator_ Iterator</div><div class="ttdoc">The load iterator. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:47</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html_a4b919d229e259909efbf994ff2c09339"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a4b919d229e259909efbf994ff2c09339">cutlass::gemm::SharedLoadStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy()</div><div class="ttdoc">Load the data from shared memory to the fetch fragment. </div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:95</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__shared__tile_8h.html b/docs/gemm__shared__tile_8h.html
index cf63242a39..bb3cd68764 100644
--- a/docs/gemm__shared__tile_8h.html
+++ b/docs/gemm__shared__tile_8h.html
@@ -82,7 +82,7 @@
 
 <p>Defines iterators for efficiently loading and storing tiles to and from shared memory.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="gemm__operand_8h_source.html">cutlass/gemm/gemm_operand.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="gemm__operand_8h_source.html">cutlass/gemm/gemm_operand.h</a>&quot;</code><br />
 </div>
 <p><a href="gemm__shared__tile_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -127,7 +127,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__shared__tile_8h_source.html b/docs/gemm__shared__tile_8h_source.html
index 7fe9d1ffff..7f572ff541 100644
--- a/docs/gemm__shared__tile_8h_source.html
+++ b/docs/gemm__shared__tile_8h_source.html
@@ -76,137 +76,138 @@
 <div class="title">gemm_shared_tile.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="gemm__shared__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__operand_8h.html">cutlass/gemm/gemm_operand.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">int</span> kScalarsPerSts_&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a> {</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a8b04fd003fc2db46d749360e8838438b">   40</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a8b04fd003fc2db46d749360e8838438b">Scalar</a>;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00">   42</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00">Pointer</a>;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7">   44</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;Tile_, kScalarsPerSts_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7">Tile</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2">   46</a></span>&#160;  <span class="keyword">typedef</span> Threads_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2">Threads</a>;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae540e7ea7106552682aa4c97b833b3b1">   48</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, ShapeCount&lt;Tile&gt;::kWc</a>, Tile::kC, kScalarsPerSts_&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae540e7ea7106552682aa4c97b833b3b1">ThreadsStrides</a>;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ace14ca9ad11e2cdafcd4a4b63c0df591">   50</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ace14ca9ad11e2cdafcd4a4b63c0df591">kSkew</a> = 0;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">   52</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">kAccessSize</a> = kScalarsPerSts_;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab">   54</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1,</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;                Tile::kH / Threads::kH,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;                Tile::kW / Threads::kW,</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;                Tile::kC / Threads::kC / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">kAccessSize</a>&gt;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b">   61</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b">Iterations</a>;</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224">   63</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, Threads::kH * ShapeCount&lt;Tile&gt;::kWc</a>, Threads::kW * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224">Delta</a>;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, Threads::kH * ShapeCount&lt;Tile&gt;::kWc</a>, Threads::kW * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">kAccessSize</a>&gt;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7">   66</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html">   68</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html#a1e357fe5bc1daef333e6be776a21a2ca">   70</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html#a1e357fe5bc1daef333e6be776a21a2ca">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;      <span class="keywordtype">int</span> offset = <a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">ComputeThreadOffsetFromStrides&lt;Threads, ThreadsStrides&gt;::get</a>();</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    }</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;  };</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;};</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">int</span> kScalarsPerSts_, <span class="keywordtype">int</span> kSkew_&gt;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">   80</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a> {</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aaa439a0bb6b9de5e2722ea7b011effea">   82</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aaa439a0bb6b9de5e2722ea7b011effea">Scalar</a>;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4">   84</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4">Pointer</a>;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a050cf5964a2d3683491bc4313ead5450">   86</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;Tile_, kScalarsPerSts_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a050cf5964a2d3683491bc4313ead5450">TileWithoutSkew</a>;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html">ReshapeTile&lt;Shape&lt;Tile_::kD, Tile_::kH, Tile_::kW + kSkew_&gt;</a>,</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471">   89</a></span>&#160;                               kScalarsPerSts_&gt;<a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471">::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471">Tile</a>;</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06">   91</a></span>&#160;  <span class="keyword">typedef</span> Threads_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06">Threads</a>;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aba6decf87d770becaadd610d9fc27491">   93</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aba6decf87d770becaadd610d9fc27491">kSkew</a> = kSkew_;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">   95</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">kAccessSize</a> = kScalarsPerSts_;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20">   97</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea">  100</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, TileWithoutSkew::kH / Threads::kW, TileWithoutSkew::kW / Threads::kH&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea">Iterations</a>;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71">  102</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, ShapeCount&lt;Tile&gt;::kWc</a>, Threads::kH * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71">Delta</a>;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614">  104</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, ShapeCount&lt;Tile&gt;::kWc</a>, Threads::kH * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html">  106</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726">  108</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;      <span class="keywordtype">int</span> offset = <a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">ComputeThreadOffsetFromStrides&lt;Threads, ThreadsStrides&gt;::get</a>();</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;    }</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;  };</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160; <span class="keyword">protected</span>:</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29">  116</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, kScalarsPerSts_, ShapeCount&lt;Tile&gt;::kHwc</a> / Threads::kW&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29">ThreadsStrides</a>;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;};</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;          <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_,</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;          <span class="keyword">typename</span> InstructionShape_,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;          <span class="keywordtype">int</span> kStages_,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;          <span class="keywordtype">int</span> kScalarsPerLds_,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;          <span class="keywordtype">int</span> kSkew_ = 0&gt;</div><div class="line"><a name="l00129"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">  129</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a> {</div><div class="line"><a name="l00130"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851">  130</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851">kOperand</a> = <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>;</div><div class="line"><a name="l00132"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a1b6956adc65254202864520b668edd14">  132</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a1b6956adc65254202864520b668edd14">Scalar</a>;</div><div class="line"><a name="l00134"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#adc4946dfbe914140c6852d0c05b30864">  134</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#adc4946dfbe914140c6852d0c05b30864">Pointer</a>;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;kStages_,</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;                OutputTile_::kD / InstructionShape_::kD,</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;                <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, OutputTile_&gt;::kExtent</a> * InstructionShape_::kD&gt;</div><div class="line"><a name="l00139"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a93ae99460695718babaef6d1ef597e38">  139</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a93ae99460695718babaef6d1ef597e38">TileWithoutSkew_</a>;</div><div class="line"><a name="l00141"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a72e0214f86cf8b3711d006dcd69d7a17">  141</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;kStages_, TileWithoutSkew_::kH, TileWithoutSkew_::kW + kSkew_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a72e0214f86cf8b3711d006dcd69d7a17">TileWithSkew</a>;</div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a5a5a36fc570e1225b20ce0a48c89d213">  143</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;TileWithoutSkew_, kScalarsPerLds_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a5a5a36fc570e1225b20ce0a48c89d213">TileWithoutSkew</a>;</div><div class="line"><a name="l00145"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc">  145</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;TileWithSkew, kScalarsPerLds_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc">Tile</a>;</div><div class="line"><a name="l00147"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4">  147</a></span>&#160;  <span class="keyword">typedef</span> Warps_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4">Warps</a>;</div><div class="line"><a name="l00149"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0761c497c41a45652368fc0d54def98f">  149</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0761c497c41a45652368fc0d54def98f">ThreadsPerWarp</a>;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  <span class="comment">// static int const kScalarsPerLds = kScalarsPerLds_;</span></div><div class="line"><a name="l00152"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">  152</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a> = kScalarsPerLds_;</div><div class="line"><a name="l00154"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaffe67e519e919bf561142e05da6e6c8">  154</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaffe67e519e919bf561142e05da6e6c8">kSkew</a> = kSkew_;</div><div class="line"><a name="l00156"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5">  156</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">  159</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> = <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, Warps&gt;::kExtent</a>;</div><div class="line"><a name="l00161"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">  161</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> = <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, ThreadsPerWarp&gt;::kExtent</a>;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, TileWithoutSkew::kW / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> <span class="comment">/* / kScalarsPerLds*/</span>&gt;</div><div class="line"><a name="l00165"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b">  165</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b">Iterations</a>;</div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a2ee87510d2deccf8b9633aaa4f6340ea">  167</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;TileWithSkew::kW, 0, kWarps * kThreadsPerWarp * kAccessSize, 0&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a2ee87510d2deccf8b9633aaa4f6340ea">Delta</a>;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;TileWithSkew::kW, 0, kWarps * kThreadsPerWarp * kAccessSize, 0&gt;</a></div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a8e767b5e2fb95b0b02a0ea3e8ea58368">  170</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a8e767b5e2fb95b0b02a0ea3e8ea58368">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html">  173</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00175"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html#a51a325b435b9a53effaa003b3670e410">  175</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html#a51a325b435b9a53effaa003b3670e410">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;      <span class="comment">// Extract the warp.</span></div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / kWarpSize % Warps::kW;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      <span class="comment">// Compute the row offset for each thread</span></div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> lane = (threadIdx.x &amp; 0x0e) / 2;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset = (warp * ThreadsPerWarp::kW + lane) * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a>;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;    }</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;  };</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;};</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;          <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_,</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;          <span class="keyword">typename</span> InstructionShape_,</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;          <span class="keywordtype">int</span> kStages_,</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;          <span class="keywordtype">int</span> kScalarsPerLds_,</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;          <span class="keywordtype">int</span> kSkew_ = 0&gt;</div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">  198</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a> {</div><div class="line"><a name="l00199"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4">  199</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4">kOperand</a> = <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>;</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a2a6065e583155b3e389253d3bfb64d73">  201</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a2a6065e583155b3e389253d3bfb64d73">Scalar</a>;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afafb3d9ae470c8ef56ec4ca5e66e2182">  203</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afafb3d9ae470c8ef56ec4ca5e66e2182">Pointer</a>;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;kStages_,</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;                OutputTile_::kD / InstructionShape_::kD,</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;                <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, OutputTile_&gt;::kExtent</a> * InstructionShape_::kD&gt;</div><div class="line"><a name="l00208"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a3d8be9ddea1cab53d1b4b3d508f9eab8">  208</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a3d8be9ddea1cab53d1b4b3d508f9eab8">TileWithoutSkew_</a>;</div><div class="line"><a name="l00210"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a69c7ec2a779718556e6d9119588e791c">  210</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;kStages_, TileWithoutSkew_::kH, TileWithoutSkew_::kW + kSkew_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a69c7ec2a779718556e6d9119588e791c">TileWithSkew</a>;</div><div class="line"><a name="l00212"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a1f35981a6d661635dfbcf7c7a76056a2">  212</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;TileWithoutSkew_, kScalarsPerLds_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a1f35981a6d661635dfbcf7c7a76056a2">TileWithoutSkew</a>;</div><div class="line"><a name="l00214"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4">  214</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;TileWithSkew, kScalarsPerLds_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4">Tile</a>;</div><div class="line"><a name="l00216"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b">  216</a></span>&#160;  <span class="keyword">typedef</span> Warps_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b">Warps</a>;</div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66">  218</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66">ThreadsPerWarp</a>;</div><div class="line"><a name="l00220"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">  220</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a> = kScalarsPerLds_;</div><div class="line"><a name="l00222"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac9cd90ecd02809060a2fe6e2da4210f9">  222</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac9cd90ecd02809060a2fe6e2da4210f9">kSkew</a> = kSkew_;</div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620">  224</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;</div><div class="line"><a name="l00227"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">  227</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> = <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, Warps&gt;::kExtent</a>;</div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">  229</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> = <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, ThreadsPerWarp&gt;::kExtent</a>;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;</div><div class="line"><a name="l00232"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5">  232</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, TileWithoutSkew::kW / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> <span class="comment">/* / kAccessSize*/</span>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5">Iterations</a>;</div><div class="line"><a name="l00234"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ad029d098ba13543bf99c728e6b93006d">  234</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;TileWithSkew::kW, 0, kWarps * kThreadsPerWarp * kAccessSize, 0&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ad029d098ba13543bf99c728e6b93006d">Delta</a>;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;TileWithSkew::kW, 0, kWarps * kThreadsPerWarp * kAccessSize, 0&gt;</a></div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a5e4204b52ee081a37e824ca71c291c03">  237</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a5e4204b52ee081a37e824ca71c291c03">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;</div><div class="line"><a name="l00240"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html">  240</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00242"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html#a5b4a635a521364357386259b0f84c0ba">  242</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html#a5b4a635a521364357386259b0f84c0ba">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;      <span class="comment">// The position of the warp.</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / (Warps::kW * kWarpSize);</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;      <span class="comment">// Compute the column offset for each thread</span></div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> lane = (threadIdx.x &amp; 0x10) / 8 + (threadIdx.x &amp; 0x01);</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset = (warp * ThreadsPerWarp::kH + lane) * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a>;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;    }</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;  };</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;};</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;          <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_,</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;          <span class="keywordtype">int</span> kScalarsPerSts_,</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;          <span class="keywordtype">int</span> kSkew_ = 0&gt;</div><div class="line"><a name="l00264"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">  264</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a> {</div><div class="line"><a name="l00266"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">  266</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">Scalar</a>;</div><div class="line"><a name="l00268"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624">  268</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624">Pointer</a>;</div><div class="line"><a name="l00270"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d">  270</a></span>&#160;  <span class="keyword">typedef</span> OutputTile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d">OutputTile</a>;</div><div class="line"><a name="l00272"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703">  272</a></span>&#160;  <span class="keyword">typedef</span> Warps_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703">Warps</a>;</div><div class="line"><a name="l00274"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543">  274</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543">ThreadsPerWarp</a>;</div><div class="line"><a name="l00276"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">  276</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">kAccessSize</a> = kScalarsPerSts_;</div><div class="line"><a name="l00278"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">  278</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">kSkew</a> = kSkew_;</div><div class="line"><a name="l00280"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39">  280</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;</div><div class="line"><a name="l00283"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1">  283</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1">kScalarsPerThread</a> = OutputTile_::kW / Warps::kW / ThreadsPerWarp::kW;</div><div class="line"><a name="l00285"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e">  285</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e">kThreads</a> = <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Warps&gt;::kCount</a> * kWarpSize;</div><div class="line"><a name="l00287"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">  287</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">kScalarsPerRow</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e">kThreads</a> / 2 * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1">kScalarsPerThread</a> + <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">kSkew</a>;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00290"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc">  290</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 2, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">kScalarsPerRow</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">kAccessSize</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc">Tile</a>;</div><div class="line"><a name="l00292"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336">  292</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1">kScalarsPerThread</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336">Iterations</a>;</div><div class="line"><a name="l00294"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57">  294</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Warps::kW * ThreadsPerWarp::kW * kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57">Delta</a>;</div><div class="line"><a name="l00296"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4">  296</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Warps::kW * ThreadsPerWarp::kW * kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;</div><div class="line"><a name="l00299"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html">  299</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00301"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6">  301</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;      <span class="comment">// We issue STS.128 in the epilogue to store the accumulators to shared memory. When we use</span></div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      <span class="comment">// STS.128, we have to guarantee that threads in groups of 8 do not have bank conflicts (i.e</span></div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;      <span class="comment">// they write to different banks).</span></div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;      <span class="comment">// Odd threads go to the second half of shared memory.</span></div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> row = threadIdx.x &amp; 0x01;</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp_id = (threadIdx.x &gt;&gt; 5);</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp_row = (warp_id % Warps::kW);</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp_col = (warp_id / Warps::kW);</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;      <span class="keywordtype">int</span> hi_halfwarp_offset = OutputTile::kW * ((threadIdx.x &gt;&gt; 4) &amp; 1);</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;      <span class="keywordtype">int</span> lo_halfwarp_offset = (((threadIdx.x &gt;&gt; 1) &amp; 0x7) + warp_row * ThreadsPerWarp::kW);</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;      <span class="keywordtype">int</span> col = <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">kAccessSize</a> * lo_halfwarp_offset +</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;                warp_col * (ThreadsPerWarp::kH / 2) * OutputTile::kW + hi_halfwarp_offset;</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;      <span class="keywordtype">int</span> offset = row * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">kScalarsPerRow</a> + col;</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;    }</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;  };</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;};</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;          <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_,</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;          <span class="keywordtype">int</span> kTileH_,</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;          <span class="keywordtype">int</span> kScalarsPerLds_,</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;          <span class="keywordtype">int</span> kSkew_ = 0&gt;</div><div class="line"><a name="l00335"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">  335</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a> {</div><div class="line"><a name="l00337"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">  337</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">Scalar</a>;</div><div class="line"><a name="l00339"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920">  339</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920">Pointer</a>;</div><div class="line"><a name="l00341"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899">  341</a></span>&#160;  <span class="keyword">typedef</span> OutputTile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899">OutputTile</a>;</div><div class="line"><a name="l00343"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f">  343</a></span>&#160;  <span class="keyword">typedef</span> Warps_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f">Warps</a>;</div><div class="line"><a name="l00345"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3">  345</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3">ThreadsPerWarp</a>;</div><div class="line"><a name="l00347"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">  347</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a> = kScalarsPerLds_;</div><div class="line"><a name="l00349"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf">  349</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf">kSkew</a> = kSkew_;</div><div class="line"><a name="l00351"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#afb4687520eff9c6a21c35a5e04f69de8">  351</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#afb4687520eff9c6a21c35a5e04f69de8">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;</div><div class="line"><a name="l00354"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">  354</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">kScalarsPerThread</a> = OutputTile_::kW / Warps::kW / ThreadsPerWarp::kW;</div><div class="line"><a name="l00356"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">  356</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">kThreads</a> = <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Warps&gt;::kCount</a> * kWarpSize;</div><div class="line"><a name="l00358"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">  358</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">kThreads</a> / 2 * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">kScalarsPerThread</a> + <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf">kSkew</a>;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;</div><div class="line"><a name="l00361"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">  361</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 2, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">Tile</a>;</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;  <span class="comment">// Compute the number of iterations per warp in the Tile::kH dimension.</span></div><div class="line"><a name="l00364"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">  364</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">kIterationsInHPerWarp</a> = kTileH_ / <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Warps&gt;::kCount</a>;</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;  <span class="comment">// As shown above, the shared memory tile is composed of 2 rows and each rows is made of</span></div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;  <span class="comment">// kScalarsPerRow. A warp is expected to read from the 1st row, then move to the 2nd row and go</span></div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;  <span class="comment">// back to the 1st row. To model that scheme we define the Iterations shape as Shape&lt;X, 2, ...&gt;.</span></div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;  <span class="comment">// However, in some cases, we have only 1 iteration per warp. In that case, we must define the</span></div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;  <span class="comment">// shape as Shape&lt;1, 1, ...&gt;. The following code does that.</span></div><div class="line"><a name="l00371"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">  371</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">kIterationsInHPerWarp</a> == 1 ? 1 : 2;</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;  <span class="comment">// As soon as we know kIterationsH, it is trivial to compute kIterationsD:</span></div><div class="line"><a name="l00373"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">  373</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">kIterationsD</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">kIterationsInHPerWarp</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a>;</div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;</div><div class="line"><a name="l00376"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a81ca35e0c5d9553d1dccc981cbd89d47">  376</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">kIterationsD</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a>, OutputTile::kW / kWarpSize / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a81ca35e0c5d9553d1dccc981cbd89d47">Iterations</a>;</div><div class="line"><a name="l00378"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#ac5578da2577cddd5a38cb628f894f644">  378</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;OutputTile::kW, kScalarsPerRow, kWarpSize * kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#ac5578da2577cddd5a38cb628f894f644">Delta</a>;</div><div class="line"><a name="l00380"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9cfb32f902593e7dc018ee802c3520b8">  380</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;OutputTile::kW, kScalarsPerRow, kWarpSize * kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9cfb32f902593e7dc018ee802c3520b8">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;</div><div class="line"><a name="l00383"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html">  383</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00385"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html#ace1b936cab289c6884e673312283d422">  385</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html#ace1b936cab289c6884e673312283d422">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;      <span class="comment">// Each warp works on a different column.</span></div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> h = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;      <span class="comment">// Compute the row.</span></div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> w = (threadIdx.x &amp; (kWarpSize - 1)) * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>;</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;      <span class="keywordtype">int</span> offset = 0;</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Iterations::kH</a> == 1) {</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> row = h &amp; 0x1;</div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> col = h / 2;</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;        offset = row * <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Tile&gt;::kWc</a> + col * OutputTile::kW * <a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Iterations::kD</a> + w;</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;        offset = h * OutputTile::kW * <a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Iterations::kD</a> + w;</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;      }</div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;    }</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;  };</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;};</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_a846e6d8d06be0ba6fa41b1431c8ec061"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per STS. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:95</div></div>
-<div class="ttc" id="structcutlass_1_1ComputeThreadOffsetFromStrides_html_a1744bfe277cbe0c642cce4a48c1dd9ad"><div class="ttname"><a href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">cutlass::ComputeThreadOffsetFromStrides::get</a></div><div class="ttdeci">static CUTLASS_DEVICE int get()</div><div class="ttdef"><b>Definition:</b> shape.h:253</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_ac242508ec46db0493a69a589dbfc19e4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4">cutlass::gemm::GemmSharedLoadTileBTraits::Tile</a></div><div class="ttdeci">ReshapeTile&lt; TileWithSkew, kScalarsPerLds_ &gt;::Tile Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:214</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a9a00be672617162c4c7ac94c7d8980cc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc">cutlass::gemm::GemmSharedLoadTileATraits::Tile</a></div><div class="ttdeci">ReshapeTile&lt; TileWithSkew, kScalarsPerLds_ &gt;::Tile Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:145</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a1f35981a6d661635dfbcf7c7a76056a2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a1f35981a6d661635dfbcf7c7a76056a2">cutlass::gemm::GemmSharedLoadTileBTraits::TileWithoutSkew</a></div><div class="ttdeci">ReshapeTile&lt; TileWithoutSkew_, kScalarsPerLds_ &gt;::Tile TileWithoutSkew</div><div class="ttdoc">The tile without skew after reshaping. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:212</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_afb4687520eff9c6a21c35a5e04f69de8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#afb4687520eff9c6a21c35a5e04f69de8">cutlass::gemm::GemmSharedLoadTileDTraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:351</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_abb5fdb164b09c8f74f92278f3d68b95f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">cutlass::gemm::GemmSharedLoadTileDTraits::kScalarsPerThread</a></div><div class="ttdeci">static int const kScalarsPerThread</div><div class="ttdoc">The number of scalars per thread. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:354</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
+<a href="gemm__shared__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__operand_8h.html">cutlass/gemm/gemm_operand.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">int</span> kScalarsPerSts_&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a> {</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a8b04fd003fc2db46d749360e8838438b">   40</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a8b04fd003fc2db46d749360e8838438b">Scalar</a>;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00">   42</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00">Pointer</a>;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7">   44</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;Tile_, kScalarsPerSts_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7">Tile</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2">   46</a></span>&#160;  <span class="keyword">typedef</span> Threads_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2">Threads</a>;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae540e7ea7106552682aa4c97b833b3b1">   48</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, ShapeCount&lt;Tile&gt;::kWc</a>, Tile::kC, kScalarsPerSts_&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae540e7ea7106552682aa4c97b833b3b1">ThreadsStrides</a>;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ace14ca9ad11e2cdafcd4a4b63c0df591">   50</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ace14ca9ad11e2cdafcd4a4b63c0df591">kSkew</a> = 0;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">   52</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">kAccessSize</a> = kScalarsPerSts_;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab">   54</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1,</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;                Tile::kH / Threads::kH,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;                Tile::kW / Threads::kW,</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;                Tile::kC / Threads::kC / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">kAccessSize</a>&gt;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b">   61</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b">Iterations</a>;</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224">   63</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, Threads::kH * ShapeCount&lt;Tile&gt;::kWc</a>, Threads::kW * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224">Delta</a>;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, Threads::kH * ShapeCount&lt;Tile&gt;::kWc</a>, Threads::kW * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">kAccessSize</a>&gt;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7">   66</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html">   68</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html#a1e357fe5bc1daef333e6be776a21a2ca">   70</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html#a1e357fe5bc1daef333e6be776a21a2ca">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;      <span class="keywordtype">int</span> offset = <a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">ComputeThreadOffsetFromStrides&lt;Threads, ThreadsStrides&gt;::get</a>();</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    }</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;  };</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;};</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">int</span> kScalarsPerSts_, <span class="keywordtype">int</span> kSkew_&gt;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">   80</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a> {</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aaa439a0bb6b9de5e2722ea7b011effea">   82</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aaa439a0bb6b9de5e2722ea7b011effea">Scalar</a>;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4">   84</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4">Pointer</a>;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a050cf5964a2d3683491bc4313ead5450">   86</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;Tile_, kScalarsPerSts_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a050cf5964a2d3683491bc4313ead5450">TileWithoutSkew</a>;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html">ReshapeTile&lt;Shape&lt;Tile_::kD, Tile_::kH, Tile_::kW + kSkew_&gt;</a>,</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471">   89</a></span>&#160;                               kScalarsPerSts_&gt;<a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471">::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471">Tile</a>;</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06">   91</a></span>&#160;  <span class="keyword">typedef</span> Threads_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06">Threads</a>;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aba6decf87d770becaadd610d9fc27491">   93</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aba6decf87d770becaadd610d9fc27491">kSkew</a> = kSkew_;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">   95</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">kAccessSize</a> = kScalarsPerSts_;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20">   97</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea">  100</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, TileWithoutSkew::kH / Threads::kW, TileWithoutSkew::kW / Threads::kH&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea">Iterations</a>;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71">  102</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, ShapeCount&lt;Tile&gt;::kWc</a>, Threads::kH * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71">Delta</a>;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614">  104</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, ShapeCount&lt;Tile&gt;::kWc</a>, Threads::kH * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html">  106</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726">  107</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;      <span class="keywordtype">int</span> offset = <a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">ComputeThreadOffsetFromStrides&lt;Threads, ThreadsStrides&gt;::get</a>();</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    }</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;  };</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160; <span class="keyword">protected</span>:</div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29">  115</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, kScalarsPerSts_, ShapeCount&lt;Tile&gt;::kHwc</a> / Threads::kW&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29">ThreadsStrides</a>;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;};</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;          <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_,</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;          <span class="keyword">typename</span> InstructionShape_,</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;          <span class="keywordtype">int</span> kStages_,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;          <span class="keywordtype">int</span> kScalarsPerLds_,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;          <span class="keywordtype">int</span> kSkew_ = 0&gt;</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">  128</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a> {</div><div class="line"><a name="l00129"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851">  129</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851">kOperand</a> = <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>;</div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a1b6956adc65254202864520b668edd14">  131</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a1b6956adc65254202864520b668edd14">Scalar</a>;</div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#adc4946dfbe914140c6852d0c05b30864">  133</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#adc4946dfbe914140c6852d0c05b30864">Pointer</a>;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;kStages_,</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;                OutputTile_::kD / InstructionShape_::kD,</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;                <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, OutputTile_&gt;::kExtent</a> * InstructionShape_::kD&gt;</div><div class="line"><a name="l00138"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a93ae99460695718babaef6d1ef597e38">  138</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a93ae99460695718babaef6d1ef597e38">TileWithoutSkew_</a>;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a72e0214f86cf8b3711d006dcd69d7a17">  140</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;kStages_, TileWithoutSkew_::kH, TileWithoutSkew_::kW + kSkew_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a72e0214f86cf8b3711d006dcd69d7a17">TileWithSkew</a>;</div><div class="line"><a name="l00142"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a5a5a36fc570e1225b20ce0a48c89d213">  142</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;TileWithoutSkew_, kScalarsPerLds_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a5a5a36fc570e1225b20ce0a48c89d213">TileWithoutSkew</a>;</div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc">  144</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;TileWithSkew, kScalarsPerLds_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc">Tile</a>;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4">  146</a></span>&#160;  <span class="keyword">typedef</span> Warps_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4">Warps</a>;</div><div class="line"><a name="l00148"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0761c497c41a45652368fc0d54def98f">  148</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0761c497c41a45652368fc0d54def98f">ThreadsPerWarp</a>;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;  <span class="comment">// static int const kScalarsPerLds = kScalarsPerLds_;</span></div><div class="line"><a name="l00151"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">  151</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a> = kScalarsPerLds_;</div><div class="line"><a name="l00153"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaffe67e519e919bf561142e05da6e6c8">  153</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaffe67e519e919bf561142e05da6e6c8">kSkew</a> = kSkew_;</div><div class="line"><a name="l00155"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5">  155</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">  158</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> = <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, Warps&gt;::kExtent</a>;</div><div class="line"><a name="l00160"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">  160</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> = <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, ThreadsPerWarp&gt;::kExtent</a>;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, TileWithoutSkew::kW / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> <span class="comment">/* / kScalarsPerLds*/</span>&gt;</div><div class="line"><a name="l00164"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b">  164</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b">Iterations</a>;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;TileWithSkew::kW * Warps::kD, 0, kWarps * kThreadsPerWarp * kAccessSize, 0&gt;</a></div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ad012add21d9393d136720f609467e121">  167</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ad012add21d9393d136720f609467e121">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00168"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a134a02091bf4360d2cbca56624e52024">  168</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;TileWithSkew::kW * Warps::kD, 0, kWarps * kThreadsPerWarp * kAccessSize, 0&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a134a02091bf4360d2cbca56624e52024">Delta</a>;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;</div><div class="line"><a name="l00171"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html">  171</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html#a51a325b435b9a53effaa003b3670e410">  172</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html#a51a325b435b9a53effaa003b3670e410">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;      <span class="comment">// Extract the warp.</span></div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;      <span class="comment">// Extract the slice.</span></div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> slice = warp / (Warps::kH * Warps::kW);</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <span class="comment">// Compute the row offset for each warp.</span></div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp_row = warp % Warps::kW;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;      <span class="comment">// Compute the row offset for each thread.</span></div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> lane_row = (threadIdx.x &amp; 0x0e) / 2;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;          slice * Tile::kW * Tile::kC + (warp_row * ThreadsPerWarp::kW + lane_row) * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a>;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;      <span class="comment">// Embed the offset in a 4D coordinate vector.</span></div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;    }</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  };</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;};</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;          <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_,</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;          <span class="keyword">typename</span> InstructionShape_,</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;          <span class="keywordtype">int</span> kStages_,</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;          <span class="keywordtype">int</span> kScalarsPerLds_,</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;          <span class="keywordtype">int</span> kSkew_ = 0&gt;</div><div class="line"><a name="l00200"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">  200</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a> {</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4">  201</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4">kOperand</a> = <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a2a6065e583155b3e389253d3bfb64d73">  203</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a2a6065e583155b3e389253d3bfb64d73">Scalar</a>;</div><div class="line"><a name="l00205"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afafb3d9ae470c8ef56ec4ca5e66e2182">  205</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afafb3d9ae470c8ef56ec4ca5e66e2182">Pointer</a>;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;kStages_,</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;                OutputTile_::kD / InstructionShape_::kD,</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;                <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, OutputTile_&gt;::kExtent</a> * InstructionShape_::kD&gt;</div><div class="line"><a name="l00210"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a3d8be9ddea1cab53d1b4b3d508f9eab8">  210</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a3d8be9ddea1cab53d1b4b3d508f9eab8">TileWithoutSkew_</a>;</div><div class="line"><a name="l00212"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a69c7ec2a779718556e6d9119588e791c">  212</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;kStages_, TileWithoutSkew_::kH, TileWithoutSkew_::kW + kSkew_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a69c7ec2a779718556e6d9119588e791c">TileWithSkew</a>;</div><div class="line"><a name="l00214"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a1f35981a6d661635dfbcf7c7a76056a2">  214</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;TileWithoutSkew_, kScalarsPerLds_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a1f35981a6d661635dfbcf7c7a76056a2">TileWithoutSkew</a>;</div><div class="line"><a name="l00216"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4">  216</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;TileWithSkew, kScalarsPerLds_&gt;::Tile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4">Tile</a>;</div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b">  218</a></span>&#160;  <span class="keyword">typedef</span> Warps_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b">Warps</a>;</div><div class="line"><a name="l00220"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66">  220</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66">ThreadsPerWarp</a>;</div><div class="line"><a name="l00222"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">  222</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a> = kScalarsPerLds_;</div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac9cd90ecd02809060a2fe6e2da4210f9">  224</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac9cd90ecd02809060a2fe6e2da4210f9">kSkew</a> = kSkew_;</div><div class="line"><a name="l00226"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620">  226</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">  229</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> = <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, Warps&gt;::kExtent</a>;</div><div class="line"><a name="l00231"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">  231</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> = <a class="code" href="structcutlass_1_1gemm_1_1GetExtent.html">GetExtent&lt;kOperand, ThreadsPerWarp&gt;::kExtent</a>;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00234"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5">  234</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, TileWithoutSkew::kW / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> <span class="comment">/* / kAccessSize*/</span>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5">Iterations</a>;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;TileWithSkew::kW * Warps::kD, 0, kWarps * kThreadsPerWarp * kAccessSize, 0&gt;</a></div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a99017ecc737060f53fd9804ea6f9583f">  237</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a99017ecc737060f53fd9804ea6f9583f">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00238"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#adcede218eec980903221feb664cad3a1">  238</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;TileWithSkew::kW * Warps::kD, 0, kWarps * kThreadsPerWarp * kAccessSize, 0&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#adcede218eec980903221feb664cad3a1">Delta</a>;</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;</div><div class="line"><a name="l00241"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html">  241</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00242"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html#a5b4a635a521364357386259b0f84c0ba">  242</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html#a5b4a635a521364357386259b0f84c0ba">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;      <span class="comment">// Extract the warp.</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      <span class="comment">// Extract the slice.</span></div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> slice = warp / (Warps::kH * Warps::kW);</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      <span class="comment">// The warp in the slice.</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp_in_slice = warp % (Warps::kH * Warps::kW);</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <span class="comment">// Compute the row offset for each warp.</span></div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp_col = warp_in_slice / Warps::kW;</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <span class="comment">// Compute the row offset for each thread.</span></div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> lane_col = (threadIdx.x &amp; 0x10) / 8 + (threadIdx.x &amp; 0x01);</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;          slice * Tile::kW * Tile::kC + (warp_col * ThreadsPerWarp::kH + lane_col) * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a>;</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;      <span class="comment">// Embed the offset in a 4D coordinate.</span></div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    }</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;  };</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;};</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;          <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_,</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;          <span class="keywordtype">int</span> kScalarsPerSts_,</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;          <span class="keywordtype">int</span> kSkew_ = 0&gt;</div><div class="line"><a name="l00270"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">  270</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a> {</div><div class="line"><a name="l00272"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">  272</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">Scalar</a>;</div><div class="line"><a name="l00274"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624">  274</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624">Pointer</a>;</div><div class="line"><a name="l00276"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d">  276</a></span>&#160;  <span class="keyword">typedef</span> OutputTile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d">OutputTile</a>;</div><div class="line"><a name="l00278"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703">  278</a></span>&#160;  <span class="keyword">typedef</span> Warps_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703">Warps</a>;</div><div class="line"><a name="l00280"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543">  280</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543">ThreadsPerWarp</a>;</div><div class="line"><a name="l00282"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">  282</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">kAccessSize</a> = kScalarsPerSts_;</div><div class="line"><a name="l00284"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">  284</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">kSkew</a> = kSkew_;</div><div class="line"><a name="l00286"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39">  286</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1">  289</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1">kScalarsPerThread</a> = OutputTile_::kW / Warps::kW / ThreadsPerWarp::kW;</div><div class="line"><a name="l00291"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e">  291</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e">kThreads</a> = <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Warps&gt;::kCount</a> * kWarpSize;</div><div class="line"><a name="l00293"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">  293</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">kScalarsPerRow</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e">kThreads</a> / 2 * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1">kScalarsPerThread</a> + <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">kSkew</a>;</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;</div><div class="line"><a name="l00296"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc">  296</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 2, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">kScalarsPerRow</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">kAccessSize</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc">Tile</a>;</div><div class="line"><a name="l00298"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336">  298</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1">kScalarsPerThread</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336">Iterations</a>;</div><div class="line"><a name="l00300"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57">  300</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Warps::kW * ThreadsPerWarp::kW * kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57">Delta</a>;</div><div class="line"><a name="l00302"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4">  302</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Warps::kW * ThreadsPerWarp::kW * kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;</div><div class="line"><a name="l00305"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html">  305</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00306"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6">  306</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;      <span class="comment">// The warp.</span></div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;      <span class="comment">// The position of the warp in the 2D tile.</span></div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp_row = warp % Warps::kW;</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp_col = warp / Warps::kW;</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;      <span class="comment">// We assume that the elements are distributed in a warps as 4 columns of 8 elements. The</span></div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;      <span class="comment">// columns are stored in threads col0=[0, 2, 4, 6, 8, 10, 12, 14], col1=[1, 3, 5, 7, .., 15],</span></div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;      <span class="comment">// col2=[16, 18, 20, ..., 30] and col3=[17, 19, ..., 31].</span></div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;      <span class="keywordtype">int</span> hi_halfwarp_offset = ((threadIdx.x &gt;&gt; 4) &amp; 0x1) * OutputTile::kW;</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;      <span class="keywordtype">int</span> lo_halfwarp_offset = ((threadIdx.x &gt;&gt; 1) &amp; 0x7) + ThreadsPerWarp::kW * warp_row;</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;      <span class="comment">// Odd threads go to the second half of shared memory.</span></div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> row = threadIdx.x &amp; 0x01;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;      <span class="keywordtype">int</span> col = warp_col * (ThreadsPerWarp::kH / 2) * OutputTile::kW +</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;                lo_halfwarp_offset * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">kAccessSize</a> + hi_halfwarp_offset;</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;      <span class="comment">// Embed the offset in a 4D coords.</span></div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, row * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">kScalarsPerRow</a> + col, 0);</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;    }</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;  };</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;};</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;          <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_,</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;          <span class="keywordtype">int</span> kTileH_,</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;          <span class="keywordtype">int</span> kScalarsPerLds_,</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;          <span class="keywordtype">int</span> kSkew_ = 0&gt;</div><div class="line"><a name="l00339"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">  339</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a> {</div><div class="line"><a name="l00341"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">  341</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Scalar_&gt;::type</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">Scalar</a>;</div><div class="line"><a name="l00343"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920">  343</a></span>&#160;  <span class="keyword">typedef</span> Scalar_* <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920">Pointer</a>;</div><div class="line"><a name="l00345"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899">  345</a></span>&#160;  <span class="keyword">typedef</span> OutputTile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899">OutputTile</a>;</div><div class="line"><a name="l00347"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f">  347</a></span>&#160;  <span class="keyword">typedef</span> Warps_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f">Warps</a>;</div><div class="line"><a name="l00349"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3">  349</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3">ThreadsPerWarp</a>;</div><div class="line"><a name="l00351"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">  351</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a> = kScalarsPerLds_;</div><div class="line"><a name="l00353"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf">  353</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf">kSkew</a> = kSkew_;</div><div class="line"><a name="l00355"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#afb4687520eff9c6a21c35a5e04f69de8">  355</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#afb4687520eff9c6a21c35a5e04f69de8">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;</div><div class="line"><a name="l00358"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">  358</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">kScalarsPerThread</a> = OutputTile_::kW / Warps::kW / ThreadsPerWarp::kW;</div><div class="line"><a name="l00360"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">  360</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">kThreads</a> = <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Warps&gt;::kCount</a> * kWarpSize;</div><div class="line"><a name="l00362"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">  362</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">kThreads</a> / 2 * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">kScalarsPerThread</a> + <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf">kSkew</a>;</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;</div><div class="line"><a name="l00366"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">  366</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 2, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">Tile</a>;</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;  <span class="comment">// Compute the number of iterations per warp in the Tile::kH dimension.</span></div><div class="line"><a name="l00369"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">  369</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">kIterationsInHPerWarp</a> = kTileH_ / <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Warps&gt;::kCount</a>;</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;  <span class="comment">// As explained above, the shared memory tile is composed of 2 rows and each rows is made of</span></div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;  <span class="comment">// kScalarsPerRow. A warp is expected to read from the 1st row, then move to the 2nd row and go</span></div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;  <span class="comment">// back to the 1st row. To model that scheme we define the Iterations shape as Shape&lt;X, 2, ...&gt;.</span></div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;  <span class="comment">// However, in some cases, we have only 1 iteration per warp. In that case, we must define the</span></div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;  <span class="comment">// shape as Shape&lt;1, 1, ...&gt;. The following code does that except that we hijack the kH dimension</span></div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;  <span class="comment">// to keep the number of elements to reduce for split-K.</span></div><div class="line"><a name="l00377"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">  377</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">kIterationsInHPerWarp</a> == 1 ? 1 : 2;</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;  <span class="comment">// As soon as we know kIterationsH, it is trivial to compute kIterationsD:</span></div><div class="line"><a name="l00379"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">  379</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">kIterationsD</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">kIterationsInHPerWarp</a> / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a>;</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;  <span class="comment">// If we have split-K enabled, we have to jump over the elements from the &quot;odd/even&quot; column of</span></div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;  <span class="comment">// threads to grab the other elements.</span></div><div class="line"><a name="l00383"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">  383</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">kSplitK</a> = OutputTile::kW * ThreadsPerWarp::kH / 2 * Warps::kH;</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">kIterationsD</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a>, OutputTile::kW / kWarpSize / <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>, Warps::kD&gt;</div><div class="line"><a name="l00387"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b33700f904dd15e3533fec15d9d71bd">  387</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b33700f904dd15e3533fec15d9d71bd">Iterations</a>;</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;OutputTile::kW, kScalarsPerRow, kWarpSize * kAccessSize, kSplitK&gt;</a></div><div class="line"><a name="l00390"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a57b065abb737bee1c17398c90b5bc39b">  390</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a57b065abb737bee1c17398c90b5bc39b">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00392"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce">  392</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;OutputTile::kW, kScalarsPerRow, kWarpSize * kAccessSize, kSplitK&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce">Delta</a>;</div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;</div><div class="line"><a name="l00395"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html">  395</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00396"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html#ace1b936cab289c6884e673312283d422">  396</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html#ace1b936cab289c6884e673312283d422">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;      <span class="comment">// Each warp works on a different column.</span></div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> h = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;      <span class="comment">// Compute the row.</span></div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> w = (threadIdx.x &amp; (kWarpSize - 1)) * <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>;</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;      <span class="keywordtype">int</span> offset = 0;</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Iterations::kH</a> == 1) {</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> row = h &amp; 0x1;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> col = h / 2;</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;        offset = row * <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Tile&gt;::kWc</a> + col * OutputTile::kW * <a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Iterations::kD</a> + w;</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;        offset = h * OutputTile::kW * <a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Iterations::kD</a> + w;</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;      }</div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;    }</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;  };</div><div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;};</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;</div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;</div><div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_a846e6d8d06be0ba6fa41b1431c8ec061"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per STS. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:95</div></div>
+<div class="ttc" id="structcutlass_1_1ComputeThreadOffsetFromStrides_html_a1744bfe277cbe0c642cce4a48c1dd9ad"><div class="ttname"><a href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">cutlass::ComputeThreadOffsetFromStrides::get</a></div><div class="ttdeci">static CUTLASS_DEVICE int get()</div><div class="ttdef"><b>Definition:</b> shape.h:214</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_ac242508ec46db0493a69a589dbfc19e4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4">cutlass::gemm::GemmSharedLoadTileBTraits::Tile</a></div><div class="ttdeci">ReshapeTile&lt; TileWithSkew, kScalarsPerLds_ &gt;::Tile Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:216</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a9a00be672617162c4c7ac94c7d8980cc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc">cutlass::gemm::GemmSharedLoadTileATraits::Tile</a></div><div class="ttdeci">ReshapeTile&lt; TileWithSkew, kScalarsPerLds_ &gt;::Tile Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:144</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a1f35981a6d661635dfbcf7c7a76056a2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a1f35981a6d661635dfbcf7c7a76056a2">cutlass::gemm::GemmSharedLoadTileBTraits::TileWithoutSkew</a></div><div class="ttdeci">ReshapeTile&lt; TileWithoutSkew_, kScalarsPerLds_ &gt;::Tile TileWithoutSkew</div><div class="ttdoc">The tile without skew after reshaping. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:214</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_afb4687520eff9c6a21c35a5e04f69de8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#afb4687520eff9c6a21c35a5e04f69de8">cutlass::gemm::GemmSharedLoadTileDTraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:355</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_abb5fdb164b09c8f74f92278f3d68b95f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">cutlass::gemm::GemmSharedLoadTileDTraits::kScalarsPerThread</a></div><div class="ttdeci">static int const kScalarsPerThread</div><div class="ttdoc">The number of scalars per thread. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:358</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset_html_a5b4a635a521364357386259b0f84c0ba"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html#a5b4a635a521364357386259b0f84c0ba">cutlass::gemm::GemmSharedLoadTileBTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:242</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a27bc06b72a94e34d5da6fbfb950459b5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5">cutlass::gemm::GemmSharedLoadTileBTraits::Iterations</a></div><div class="ttdeci">Shape&lt; 1, 1, TileWithoutSkew::kW/kWarps/kThreadsPerWarp &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:232</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a27bc06b72a94e34d5da6fbfb950459b5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5">cutlass::gemm::GemmSharedLoadTileBTraits::Iterations</a></div><div class="ttdeci">Shape&lt; 1, 1, TileWithoutSkew::kW/kWarps/kThreadsPerWarp &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:234</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a8b8d6a26a29d5477f526d9ce8c27e3e2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">cutlass::gemm::GemmSharedLoadTileBTraits::kWarps</a></div><div class="ttdeci">static int const kWarps</div><div class="ttdoc">The number of warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:227</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:129</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a8b8d6a26a29d5477f526d9ce8c27e3e2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">cutlass::gemm::GemmSharedLoadTileBTraits::kWarps</a></div><div class="ttdeci">static int const kWarps</div><div class="ttdoc">The number of warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:229</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:128</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_a5be0c995c57faafaad7ae55ae015fc00"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00">cutlass::gemm::GemmSharedStoreTileAbTraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:42</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:80</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_af1c981ec89a9cabaf5d34231d51a029c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">cutlass::gemm::GemmSharedStoreTileDTraits::kScalarsPerRow</a></div><div class="ttdeci">static int const kScalarsPerRow</div><div class="ttdoc">The number of scalars per row. We build a tile with 2 rows (to avoid bank conflicts). </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:287</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_html_ac3662947fa50251daf58240a9c798085"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">cutlass::platform::remove_const::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:369</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a1b6956adc65254202864520b668edd14"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a1b6956adc65254202864520b668edd14">cutlass::gemm::GemmSharedLoadTileATraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:132</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_af1c981ec89a9cabaf5d34231d51a029c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c">cutlass::gemm::GemmSharedStoreTileDTraits::kScalarsPerRow</a></div><div class="ttdeci">static int const kScalarsPerRow</div><div class="ttdoc">The number of scalars per row. We build a tile with 2 rows (to avoid bank conflicts). </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:293</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_html_ac3662947fa50251daf58240a9c798085"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">cutlass::platform::remove_const::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:377</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a1b6956adc65254202864520b668edd14"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a1b6956adc65254202864520b668edd14">cutlass::gemm::GemmSharedLoadTileATraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:131</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadOffset</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:106</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a6bacc866485330f80596f634e6d14336"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336">cutlass::gemm::GemmSharedStoreTileDTraits::Iterations</a></div><div class="ttdeci">Shape&lt; 1, 1, kScalarsPerThread/kAccessSize &gt; Iterations</div><div class="ttdoc">The number of iterations needed to store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:292</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a8d308d593b59624abe3e228d588be61d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">cutlass::gemm::GemmSharedLoadTileDTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:347</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a0761c497c41a45652368fc0d54def98f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0761c497c41a45652368fc0d54def98f">cutlass::gemm::GemmSharedLoadTileATraits::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The threads in a warp. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:149</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a6bacc866485330f80596f634e6d14336"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336">cutlass::gemm::GemmSharedStoreTileDTraits::Iterations</a></div><div class="ttdeci">Shape&lt; 1, 1, kScalarsPerThread/kAccessSize &gt; Iterations</div><div class="ttdoc">The number of iterations needed to store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:298</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_adcede218eec980903221feb664cad3a1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#adcede218eec980903221feb664cad3a1">cutlass::gemm::GemmSharedLoadTileBTraits::Delta</a></div><div class="ttdeci">Shape&lt; TileWithSkew::kW *Warps::kD, 0, kWarps *kThreadsPerWarp *kAccessSize, 0 &gt; Delta</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:238</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a8d308d593b59624abe3e228d588be61d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">cutlass::gemm::GemmSharedLoadTileDTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:351</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a0761c497c41a45652368fc0d54def98f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0761c497c41a45652368fc0d54def98f">cutlass::gemm::GemmSharedLoadTileATraits::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The threads in a warp. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:148</div></div>
 <div class="ttc" id="structcutlass_1_1ReshapeTile_html"><div class="ttname"><a href="structcutlass_1_1ReshapeTile.html">cutlass::ReshapeTile</a></div><div class="ttdef"><b>Definition:</b> reshape_tile.h:42</div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_ae540e7ea7106552682aa4c97b833b3b1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae540e7ea7106552682aa4c97b833b3b1">cutlass::gemm::GemmSharedStoreTileAbTraits::ThreadsStrides</a></div><div class="ttdeci">Shape&lt; 0, ShapeCount&lt; Tile &gt;::kWc, Tile::kC, kScalarsPerSts_ &gt; ThreadsStrides</div><div class="ttdoc">The strides to compute the base position of the thread. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:48</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a9521c4017e227b2511891a7fb18513e1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">cutlass::gemm::GemmSharedStoreTileDTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:276</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a81ca35e0c5d9553d1dccc981cbd89d47"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a81ca35e0c5d9553d1dccc981cbd89d47">cutlass::gemm::GemmSharedLoadTileDTraits::Iterations</a></div><div class="ttdeci">Shape&lt; kIterationsD, kIterationsH, OutputTile::kW/kWarpSize/kAccessSize &gt; Iterations</div><div class="ttdoc">The number of iterations needed to store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:376</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a7e9ce187e12575f0ecd39b2bfe13dddf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf">cutlass::gemm::GemmSharedLoadTileDTraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:349</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a7ad7a4e33ed43926e165e66162eb620b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b">cutlass::gemm::GemmSharedLoadTileBTraits::Warps</a></div><div class="ttdeci">Warps_ Warps</div><div class="ttdoc">The number of warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:216</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_ac9cd90ecd02809060a2fe6e2da4210f9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac9cd90ecd02809060a2fe6e2da4210f9">cutlass::gemm::GemmSharedLoadTileBTraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:222</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a9521c4017e227b2511891a7fb18513e1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1">cutlass::gemm::GemmSharedStoreTileDTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:282</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a7e9ce187e12575f0ecd39b2bfe13dddf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf">cutlass::gemm::GemmSharedLoadTileDTraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:353</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a7ad7a4e33ed43926e165e66162eb620b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b">cutlass::gemm::GemmSharedLoadTileBTraits::Warps</a></div><div class="ttdeci">Warps_ Warps</div><div class="ttdoc">The number of warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:218</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_ac9cd90ecd02809060a2fe6e2da4210f9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac9cd90ecd02809060a2fe6e2da4210f9">cutlass::gemm::GemmSharedLoadTileBTraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:224</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">cutlass::gemm::GemmSharedStoreTileAbTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:38</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a2a6065e583155b3e389253d3bfb64d73"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a2a6065e583155b3e389253d3bfb64d73">cutlass::gemm::GemmSharedLoadTileBTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:201</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html">cutlass::gemm::GemmSharedLoadTileDTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:383</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:198</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a4456e4c8048bfb378e5b80833a0d19e5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5">cutlass::gemm::GemmSharedLoadTileATraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:156</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a2a6065e583155b3e389253d3bfb64d73"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a2a6065e583155b3e389253d3bfb64d73">cutlass::gemm::GemmSharedLoadTileBTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:203</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html">cutlass::gemm::GemmSharedLoadTileDTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:395</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:200</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a4456e4c8048bfb378e5b80833a0d19e5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5">cutlass::gemm::GemmSharedLoadTileATraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:155</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_a8b04fd003fc2db46d749360e8838438b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a8b04fd003fc2db46d749360e8838438b">cutlass::gemm::GemmSharedStoreTileAbTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:40</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_af511bba9fc2125516eb1442b1c88d851"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851">cutlass::gemm::GemmSharedLoadTileATraits::kOperand</a></div><div class="ttdeci">static GemmOperand::Kind const kOperand</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:130</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a8914bc5154f21fa5fd182b0009c44c39"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39">cutlass::gemm::GemmSharedStoreTileDTraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:280</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03c"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:40</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a69c7ec2a779718556e6d9119588e791c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a69c7ec2a779718556e6d9119588e791c">cutlass::gemm::GemmSharedLoadTileBTraits::TileWithSkew</a></div><div class="ttdeci">Shape&lt; kStages_, TileWithoutSkew_::kH, TileWithoutSkew_::kW+kSkew_ &gt; TileWithSkew</div><div class="ttdoc">The tile with skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:210</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a0a33d4289ed45e988d560b5f73ac997e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">cutlass::gemm::GemmSharedLoadTileATraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:152</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_af511bba9fc2125516eb1442b1c88d851"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851">cutlass::gemm::GemmSharedLoadTileATraits::kOperand</a></div><div class="ttdeci">static GemmOperand::Kind const kOperand</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:129</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a8914bc5154f21fa5fd182b0009c44c39"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39">cutlass::gemm::GemmSharedStoreTileDTraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:286</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03c"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:39</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a69c7ec2a779718556e6d9119588e791c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a69c7ec2a779718556e6d9119588e791c">cutlass::gemm::GemmSharedLoadTileBTraits::TileWithSkew</a></div><div class="ttdeci">Shape&lt; kStages_, TileWithoutSkew_::kH, TileWithoutSkew_::kW+kSkew_ &gt; TileWithSkew</div><div class="ttdoc">The tile with skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:212</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a0a33d4289ed45e988d560b5f73ac997e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">cutlass::gemm::GemmSharedLoadTileATraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:151</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a3a20d9062bba613c160bb2cd14f80a5e"><div class="ttname"><a href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">cutlass::Shape::kH</a></div><div class="ttdeci">static int const kH</div><div class="ttdoc">The height of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:68</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_a6125e052e47296c3ef53c8a149ffd31b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b">cutlass::gemm::GemmSharedStoreTileAbTraits::Iterations</a></div><div class="ttdeci">Shape&lt; 1, Tile::kH/Threads::kH, Tile::kW/Threads::kW, Tile::kC/Threads::kC/kAccessSize &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:61</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_aba6decf87d770becaadd610d9fc27491"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aba6decf87d770becaadd610d9fc27491">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:93</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_ae96e490d38ade6db4d853fb6c8f3378b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b">cutlass::gemm::GemmSharedLoadTileATraits::Iterations</a></div><div class="ttdeci">Shape&lt; 1, 1, TileWithoutSkew::kW/kWarps/kThreadsPerWarp &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:165</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_ad52b81080731ee1f0d3c2c7eaba6f60d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d">cutlass::gemm::GemmSharedStoreTileDTraits::OutputTile</a></div><div class="ttdeci">OutputTile_ OutputTile</div><div class="ttdoc">The dimension of the output tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:270</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_aa3e378cabce9ed7f199c179c15a12ca4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">cutlass::gemm::GemmSharedLoadTileDTraits::kScalarsPerRow</a></div><div class="ttdeci">static int const kScalarsPerRow</div><div class="ttdoc">The number of scalars per row. We build a tile with 2 rows (to avoid bank conflicts). </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:358</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_afafb3d9ae470c8ef56ec4ca5e66e2182"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afafb3d9ae470c8ef56ec4ca5e66e2182">cutlass::gemm::GemmSharedLoadTileBTraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:203</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_adc4946dfbe914140c6852d0c05b30864"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#adc4946dfbe914140c6852d0c05b30864">cutlass::gemm::GemmSharedLoadTileATraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:134</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a20471c2f569c28538dad8a220ab25624"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624">cutlass::gemm::GemmSharedStoreTileDTraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:268</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_ae0b53d76096f9d34df6e16280565c7b1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1">cutlass::gemm::GemmSharedStoreTileDTraits::kScalarsPerThread</a></div><div class="ttdeci">static int const kScalarsPerThread</div><div class="ttdoc">The number of scalars per thread. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:283</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a9cfb32f902593e7dc018ee802c3520b8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9cfb32f902593e7dc018ee802c3520b8">cutlass::gemm::GemmSharedLoadTileDTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; OutputTile::kW, kScalarsPerRow, kWarpSize *kAccessSize &gt; ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:380</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset_html_a4f9cca16303ac9ae29a0eaa11dcc23b6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6">cutlass::gemm::GemmSharedStoreTileDTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:301</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_ae96e490d38ade6db4d853fb6c8f3378b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b">cutlass::gemm::GemmSharedLoadTileATraits::Iterations</a></div><div class="ttdeci">Shape&lt; 1, 1, TileWithoutSkew::kW/kWarps/kThreadsPerWarp &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:164</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_ad52b81080731ee1f0d3c2c7eaba6f60d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d">cutlass::gemm::GemmSharedStoreTileDTraits::OutputTile</a></div><div class="ttdeci">OutputTile_ OutputTile</div><div class="ttdoc">The dimension of the output tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:276</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_aa3e378cabce9ed7f199c179c15a12ca4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">cutlass::gemm::GemmSharedLoadTileDTraits::kScalarsPerRow</a></div><div class="ttdeci">static int const kScalarsPerRow</div><div class="ttdoc">The number of scalars per row. We build a tile with 2 rows (to avoid bank conflicts). </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:362</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_afafb3d9ae470c8ef56ec4ca5e66e2182"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afafb3d9ae470c8ef56ec4ca5e66e2182">cutlass::gemm::GemmSharedLoadTileBTraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:205</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_adc4946dfbe914140c6852d0c05b30864"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#adc4946dfbe914140c6852d0c05b30864">cutlass::gemm::GemmSharedLoadTileATraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:133</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a20471c2f569c28538dad8a220ab25624"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624">cutlass::gemm::GemmSharedStoreTileDTraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:274</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_ae0b53d76096f9d34df6e16280565c7b1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1">cutlass::gemm::GemmSharedStoreTileDTraits::kScalarsPerThread</a></div><div class="ttdeci">static int const kScalarsPerThread</div><div class="ttdoc">The number of scalars per thread. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:289</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset_html_a4f9cca16303ac9ae29a0eaa11dcc23b6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6">cutlass::gemm::GemmSharedStoreTileDTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:306</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a1b33700f904dd15e3533fec15d9d71bd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b33700f904dd15e3533fec15d9d71bd">cutlass::gemm::GemmSharedLoadTileDTraits::Iterations</a></div><div class="ttdeci">Shape&lt; kIterationsD, kIterationsH, OutputTile::kW/kWarpSize/kAccessSize, Warps::kD &gt; Iterations</div><div class="ttdoc">The number of iterations needed to store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:387</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_a59c981aa720f983b846bed7c3e4a7cab"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab">cutlass::gemm::GemmSharedStoreTileAbTraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:54</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_ace14ca9ad11e2cdafcd4a4b63c0df591"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ace14ca9ad11e2cdafcd4a4b63c0df591">cutlass::gemm::GemmSharedStoreTileAbTraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:50</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a049b0bcdf8c5318ee84edeb1e42eaf78"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">cutlass::gemm::GemmSharedLoadTileBTraits::kThreadsPerWarp</a></div><div class="ttdeci">static int const kThreadsPerWarp</div><div class="ttdoc">The number of threads in one dimension of the warp. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:229</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html">cutlass::gemm::GemmSharedLoadTileBTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:240</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a049b0bcdf8c5318ee84edeb1e42eaf78"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">cutlass::gemm::GemmSharedLoadTileBTraits::kThreadsPerWarp</a></div><div class="ttdeci">static int const kThreadsPerWarp</div><div class="ttdoc">The number of threads in one dimension of the warp. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:231</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html">cutlass::gemm::GemmSharedLoadTileBTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:241</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_a39414f484da7f993bc96d61c97273614"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; 0, ShapeCount&lt; Tile &gt;::kWc, Threads::kH *kAccessSize &gt; ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:104</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a2bc41b907417b47f3dca9c3dd358f8bc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc">cutlass::gemm::GemmSharedStoreTileDTraits::Tile</a></div><div class="ttdeci">Shape&lt; 1, 2, kScalarsPerRow/kAccessSize, kAccessSize &gt; Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:290</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a2bc41b907417b47f3dca9c3dd358f8bc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc">cutlass::gemm::GemmSharedStoreTileDTraits::Tile</a></div><div class="ttdeci">Shape&lt; 1, 2, kScalarsPerRow/kAccessSize, kAccessSize &gt; Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:296</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_ae852c89da0455025c0c41af258e47047"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047">cutlass::gemm::GemmSharedStoreTileAbTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:52</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_ab96f324083e51ce4c2b73c18803c69a7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7">cutlass::gemm::GemmSharedStoreTileAbTraits::Tile</a></div><div class="ttdeci">ReshapeTile&lt; Tile_, kScalarsPerSts_ &gt;::Tile Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:44</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html">cutlass::gemm::GemmSharedStoreTileAbTraits::ThreadOffset</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:68</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a4b8d66df02ba1653aa6d1f23b967f237"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">cutlass::gemm::GemmSharedLoadTileDTraits::kIterationsInHPerWarp</a></div><div class="ttdeci">static int const kIterationsInHPerWarp</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:364</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a48baee6541e6359753f1bae5bd864029"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">cutlass::gemm::GemmSharedStoreTileDTraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:278</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a5a5a36fc570e1225b20ce0a48c89d213"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a5a5a36fc570e1225b20ce0a48c89d213">cutlass::gemm::GemmSharedLoadTileATraits::TileWithoutSkew</a></div><div class="ttdeci">ReshapeTile&lt; TileWithoutSkew_, kScalarsPerLds_ &gt;::Tile TileWithoutSkew</div><div class="ttdoc">The tile without skew after reshaping. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:143</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a4b8d66df02ba1653aa6d1f23b967f237"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">cutlass::gemm::GemmSharedLoadTileDTraits::kIterationsInHPerWarp</a></div><div class="ttdeci">static int const kIterationsInHPerWarp</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:369</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a57b065abb737bee1c17398c90b5bc39b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a57b065abb737bee1c17398c90b5bc39b">cutlass::gemm::GemmSharedLoadTileDTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; OutputTile::kW, kScalarsPerRow, kWarpSize *kAccessSize, kSplitK &gt; ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:390</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a48baee6541e6359753f1bae5bd864029"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">cutlass::gemm::GemmSharedStoreTileDTraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:284</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a5a5a36fc570e1225b20ce0a48c89d213"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a5a5a36fc570e1225b20ce0a48c89d213">cutlass::gemm::GemmSharedLoadTileATraits::TileWithoutSkew</a></div><div class="ttdeci">ReshapeTile&lt; TileWithoutSkew_, kScalarsPerLds_ &gt;::Tile TileWithoutSkew</div><div class="ttdoc">The tile without skew after reshaping. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:142</div></div>
 <div class="ttc" id="gemm__operand_8h_html"><div class="ttname"><a href="gemm__operand_8h.html">gemm_operand.h</a></div><div class="ttdoc">Defines constant expressions for mapping GEMM problem size and strides onto pitch-linear memory...</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_a027bebceeda2287b40915ffd95d494a7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7">cutlass::gemm::GemmSharedStoreTileAbTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; 0, Threads::kH *ShapeCount&lt; Tile &gt;::kWc, Threads::kW *kAccessSize &gt; ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:66</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a8e767b5e2fb95b0b02a0ea3e8ea58368"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a8e767b5e2fb95b0b02a0ea3e8ea58368">cutlass::gemm::GemmSharedLoadTileATraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; TileWithSkew::kW, 0, kWarps *kThreadsPerWarp *kAccessSize, 0 &gt; ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:170</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_a74196946c28e98ee60346b0eeede1471"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Tile</a></div><div class="ttdeci">ReshapeTile&lt; Shape&lt; Tile_::kD, Tile_::kH, Tile_::kW+kSkew_ &gt;, kScalarsPerSts_ &gt;::Tile Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:89</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_a2053e4b9cb3ed2727c89960354ea0b29"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadsStrides</a></div><div class="ttdeci">Shape&lt; 0, kScalarsPerSts_, ShapeCount&lt; Tile &gt;::kHwc/Threads::kW &gt; ThreadsStrides</div><div class="ttdoc">The strides to compute the base position of the thread. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:116</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_a2053e4b9cb3ed2727c89960354ea0b29"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadsStrides</a></div><div class="ttdeci">Shape&lt; 0, kScalarsPerSts_, ShapeCount&lt; Tile &gt;::kHwc/Threads::kW &gt; ThreadsStrides</div><div class="ttdoc">The strides to compute the base position of the thread. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:115</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_a050cf5964a2d3683491bc4313ead5450"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a050cf5964a2d3683491bc4313ead5450">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::TileWithoutSkew</a></div><div class="ttdeci">ReshapeTile&lt; Tile_, kScalarsPerSts_ &gt;::Tile TileWithoutSkew</div><div class="ttdoc">The tile without skews. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:86</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a8663311646210b690bb0c2a1012e82f0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">cutlass::gemm::GemmSharedLoadTileDTraits::kIterationsD</a></div><div class="ttdeci">static int const kIterationsD</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:373</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_af78a275086a297bd93aed920f57a17be"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">cutlass::gemm::GemmSharedLoadTileATraits::kWarps</a></div><div class="ttdeci">static int const kWarps</div><div class="ttdoc">The number of warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:159</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_adf72ea773b8d4d3eb184f59c8cdf9543"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543">cutlass::gemm::GemmSharedStoreTileDTraits::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The threads in the warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:274</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html">cutlass::gemm::GemmSharedLoadTileATraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:173</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a93ae99460695718babaef6d1ef597e38"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a93ae99460695718babaef6d1ef597e38">cutlass::gemm::GemmSharedLoadTileATraits::TileWithoutSkew_</a></div><div class="ttdeci">Shape&lt; kStages_, OutputTile_::kD/InstructionShape_::kD, GetExtent&lt; kOperand, OutputTile_ &gt;::kExtent *InstructionShape_::kD &gt; TileWithoutSkew_</div><div class="ttdoc">The tile without skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:139</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:335</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a8663311646210b690bb0c2a1012e82f0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">cutlass::gemm::GemmSharedLoadTileDTraits::kIterationsD</a></div><div class="ttdeci">static int const kIterationsD</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:379</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a134a02091bf4360d2cbca56624e52024"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a134a02091bf4360d2cbca56624e52024">cutlass::gemm::GemmSharedLoadTileATraits::Delta</a></div><div class="ttdeci">Shape&lt; TileWithSkew::kW *Warps::kD, 0, kWarps *kThreadsPerWarp *kAccessSize, 0 &gt; Delta</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:168</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_af78a275086a297bd93aed920f57a17be"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">cutlass::gemm::GemmSharedLoadTileATraits::kWarps</a></div><div class="ttdeci">static int const kWarps</div><div class="ttdoc">The number of warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:158</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_adf72ea773b8d4d3eb184f59c8cdf9543"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543">cutlass::gemm::GemmSharedStoreTileDTraits::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The threads in the warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:280</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html">cutlass::gemm::GemmSharedLoadTileATraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:171</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a93ae99460695718babaef6d1ef597e38"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a93ae99460695718babaef6d1ef597e38">cutlass::gemm::GemmSharedLoadTileATraits::TileWithoutSkew_</a></div><div class="ttdeci">Shape&lt; kStages_, OutputTile_::kD/InstructionShape_::kD, GetExtent&lt; kOperand, OutputTile_ &gt;::kExtent *InstructionShape_::kD &gt; TileWithoutSkew_</div><div class="ttdoc">The tile without skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:138</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:339</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_a9bef06b59f27c6e673066a7f0280aa06"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Threads</a></div><div class="ttdeci">Threads_ Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:91</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_acb16feebdcad5bbebe9d4d3383c37899"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899">cutlass::gemm::GemmSharedLoadTileDTraits::OutputTile</a></div><div class="ttdeci">OutputTile_ OutputTile</div><div class="ttdoc">The dimension of the output tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:341</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_acb16feebdcad5bbebe9d4d3383c37899"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899">cutlass::gemm::GemmSharedLoadTileDTraits::OutputTile</a></div><div class="ttdeci">OutputTile_ OutputTile</div><div class="ttdoc">The dimension of the output tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:345</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_aaa439a0bb6b9de5e2722ea7b011effea"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aaa439a0bb6b9de5e2722ea7b011effea">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:82</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a2ee87510d2deccf8b9633aaa4f6340ea"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a2ee87510d2deccf8b9633aaa4f6340ea">cutlass::gemm::GemmSharedLoadTileATraits::Delta</a></div><div class="ttdeci">Shape&lt; TileWithSkew::kW, 0, kWarps *kThreadsPerWarp *kAccessSize, 0 &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:167</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_ac585815d08290d9a5a9cdbd611ffdac4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4">cutlass::gemm::GemmSharedStoreTileDTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; 0, 0, Warps::kW *ThreadsPerWarp::kW *kAccessSize &gt; ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:296</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_afd4881aae69c8041d3931982d85f44e4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4">cutlass::gemm::GemmSharedLoadTileBTraits::kOperand</a></div><div class="ttdeci">static GemmOperand::Kind const kOperand</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:199</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a63f980fea1ff3dd83ac276cfd83a4ce5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">cutlass::gemm::GemmSharedLoadTileDTraits::Tile</a></div><div class="ttdeci">Shape&lt; 1, 2, kScalarsPerRow/kAccessSize, kAccessSize &gt; Tile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:361</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a4246185b8279f245ef5d0650c1eec14f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">cutlass::gemm::GemmSharedLoadTileATraits::kThreadsPerWarp</a></div><div class="ttdeci">static int const kThreadsPerWarp</div><div class="ttdoc">The number of threads in one dimension of the warp. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:161</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_ac585815d08290d9a5a9cdbd611ffdac4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4">cutlass::gemm::GemmSharedStoreTileDTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; 0, 0, Warps::kW *ThreadsPerWarp::kW *kAccessSize &gt; ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:302</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_afd4881aae69c8041d3931982d85f44e4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4">cutlass::gemm::GemmSharedLoadTileBTraits::kOperand</a></div><div class="ttdeci">static GemmOperand::Kind const kOperand</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:201</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a63f980fea1ff3dd83ac276cfd83a4ce5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">cutlass::gemm::GemmSharedLoadTileDTraits::Tile</a></div><div class="ttdeci">Shape&lt; 1, 2, kScalarsPerRow/kAccessSize, kAccessSize &gt; Tile</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:366</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a2cd23d3b5e2cb64c6d5e9b1d6a78fbce"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce">cutlass::gemm::GemmSharedLoadTileDTraits::Delta</a></div><div class="ttdeci">Shape&lt; OutputTile::kW, kScalarsPerRow, kWarpSize *kAccessSize, kSplitK &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:392</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a4246185b8279f245ef5d0650c1eec14f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">cutlass::gemm::GemmSharedLoadTileATraits::kThreadsPerWarp</a></div><div class="ttdeci">static int const kThreadsPerWarp</div><div class="ttdoc">The number of threads in one dimension of the warp. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:160</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_ab883c2a8b90262152faca9cabe515dc4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:84</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_ac5578da2577cddd5a38cb628f894f644"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#ac5578da2577cddd5a38cb628f894f644">cutlass::gemm::GemmSharedLoadTileDTraits::Delta</a></div><div class="ttdeci">Shape&lt; OutputTile::kW, kScalarsPerRow, kWarpSize *kAccessSize &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:378</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a15438a44b588dc4cfd4b47c18af79cd2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">cutlass::gemm::GemmSharedLoadTileDTraits::kSplitK</a></div><div class="ttdeci">static int const kSplitK</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:383</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_a025445699c5c86237d8c3e48f01081ea"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Iterations</a></div><div class="ttdeci">Shape&lt; 1, TileWithoutSkew::kH/Threads::kW, TileWithoutSkew::kW/Threads::kH &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:100</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a3d8be9ddea1cab53d1b4b3d508f9eab8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a3d8be9ddea1cab53d1b4b3d508f9eab8">cutlass::gemm::GemmSharedLoadTileBTraits::TileWithoutSkew_</a></div><div class="ttdeci">Shape&lt; kStages_, OutputTile_::kD/InstructionShape_::kD, GetExtent&lt; kOperand, OutputTile_ &gt;::kExtent *InstructionShape_::kD &gt; TileWithoutSkew_</div><div class="ttdoc">The tile without skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:208</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a3d8be9ddea1cab53d1b4b3d508f9eab8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a3d8be9ddea1cab53d1b4b3d508f9eab8">cutlass::gemm::GemmSharedLoadTileBTraits::TileWithoutSkew_</a></div><div class="ttdeci">Shape&lt; kStages_, OutputTile_::kD/InstructionShape_::kD, GetExtent&lt; kOperand, OutputTile_ &gt;::kExtent *InstructionShape_::kD &gt; TileWithoutSkew_</div><div class="ttdoc">The tile without skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:210</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_a1acf2a1d8bf73fda142e7d82e05f00a2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2">cutlass::gemm::GemmSharedStoreTileAbTraits::Threads</a></div><div class="ttdeci">Threads_ Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:46</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GetExtent_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GetExtent.html">cutlass::gemm::GetExtent</a></div><div class="ttdef"><b>Definition:</b> gemm_operand.h:50</div></div>
 <div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a99017ecc737060f53fd9804ea6f9583f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a99017ecc737060f53fd9804ea6f9583f">cutlass::gemm::GemmSharedLoadTileBTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; TileWithSkew::kW *Warps::kD, 0, kWarps *kThreadsPerWarp *kAccessSize, 0 &gt; ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:237</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html_a645f65f7d8f123936b286521df470224"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224">cutlass::gemm::GemmSharedStoreTileAbTraits::Delta</a></div><div class="ttdeci">Shape&lt; 0, Threads::kH *ShapeCount&lt; Tile &gt;::kWc, Threads::kW *kAccessSize &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:63</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a8325bc9d56155ecb6f2ddbd56f4ed23d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">cutlass::gemm::GemmSharedLoadTileDTraits::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">The number of threads. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:356</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_aaff4a5e0f9e4256f184a22cad0ce8cf4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4">cutlass::gemm::GemmSharedLoadTileATraits::Warps</a></div><div class="ttdeci">Warps_ Warps</div><div class="ttdoc">The number of warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:147</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a8325bc9d56155ecb6f2ddbd56f4ed23d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">cutlass::gemm::GemmSharedLoadTileDTraits::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">The number of threads. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:360</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_aaff4a5e0f9e4256f184a22cad0ce8cf4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4">cutlass::gemm::GemmSharedLoadTileATraits::Warps</a></div><div class="ttdeci">Warps_ Warps</div><div class="ttdoc">The number of warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:146</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_ae5a07814b9cfe9a64f69bac0f0772f20"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:97</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a7007093a4abf79a0b4bfb3fc85a02620"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620">cutlass::gemm::GemmSharedLoadTileBTraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:224</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a7007093a4abf79a0b4bfb3fc85a02620"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620">cutlass::gemm::GemmSharedLoadTileBTraits::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">The memory space. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:226</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset_html_a1e357fe5bc1daef333e6be776a21a2ca"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html#a1e357fe5bc1daef333e6be776a21a2ca">cutlass::gemm::GemmSharedStoreTileAbTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset_html_a51a325b435b9a53effaa003b3670e410"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html#a51a325b435b9a53effaa003b3670e410">cutlass::gemm::GemmSharedLoadTileATraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:175</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset_html_a51a325b435b9a53effaa003b3670e410"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html#a51a325b435b9a53effaa003b3670e410">cutlass::gemm::GemmSharedLoadTileATraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:172</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a19086a5567d6c710ec853e35a7f29c25"><div class="ttname"><a href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">cutlass::Shape::kD</a></div><div class="ttdeci">static int const kD</div><div class="ttdoc">The depth of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:66</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html">cutlass::gemm::GemmSharedStoreTileDTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:299</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a4764f70691cb3fee91ce47653363aa4f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f">cutlass::gemm::GemmSharedLoadTileDTraits::Warps</a></div><div class="ttdeci">Warps_ Warps</div><div class="ttdoc">The warps in the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:343</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html">cutlass::gemm::GemmSharedStoreTileDTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:305</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a4764f70691cb3fee91ce47653363aa4f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f">cutlass::gemm::GemmSharedLoadTileDTraits::Warps</a></div><div class="ttdeci">Warps_ Warps</div><div class="ttdoc">The warps in the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:347</div></div>
 <div class="ttc" id="structcutlass_1_1ReshapeTile_html_a8d57fe6422aa920d9815a66e5a85b5f5"><div class="ttname"><a href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">cutlass::ReshapeTile::Tile</a></div><div class="ttdeci">Tile_ Tile</div><div class="ttdef"><b>Definition:</b> reshape_tile.h:43</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html_afd691b764b7d105a1ed41dada6049e71"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Delta</a></div><div class="ttdeci">Shape&lt; 0, ShapeCount&lt; Tile &gt;::kWc, Threads::kH *kAccessSize &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:102</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a3b1a461c1dfbcd3817ab2d57bd0da9f1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">cutlass::gemm::GemmSharedLoadTileDTraits::kIterationsH</a></div><div class="ttdeci">static int const kIterationsH</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:371</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a5587ef22f419ab9a7c6117917cc99c57"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57">cutlass::gemm::GemmSharedStoreTileDTraits::Delta</a></div><div class="ttdeci">Shape&lt; 0, 0, Warps::kW *ThreadsPerWarp::kW *kAccessSize &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:294</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_aaffe67e519e919bf561142e05da6e6c8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaffe67e519e919bf561142e05da6e6c8">cutlass::gemm::GemmSharedLoadTileATraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:154</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a9022ffc49b32503fd3639341e7e291a3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3">cutlass::gemm::GemmSharedLoadTileDTraits::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The threads in the warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:345</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a1e72b69cf2147e4d194893a64417b920"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920">cutlass::gemm::GemmSharedLoadTileDTraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:339</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a05039ba8b7d9890903064b1a834dcd3e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e">cutlass::gemm::GemmSharedStoreTileDTraits::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">The number of threads. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:285</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_ad029d098ba13543bf99c728e6b93006d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ad029d098ba13543bf99c728e6b93006d">cutlass::gemm::GemmSharedLoadTileBTraits::Delta</a></div><div class="ttdeci">Shape&lt; TileWithSkew::kW, 0, kWarps *kThreadsPerWarp *kAccessSize, 0 &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:234</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_aed92656a074e915d97a1b6a990aeba66"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66">cutlass::gemm::GemmSharedLoadTileBTraits::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The threads in a warp. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:218</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a9a2218b570dada2f1e3ccd8004c47856"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">cutlass::gemm::GemmSharedStoreTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:266</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a3b1a461c1dfbcd3817ab2d57bd0da9f1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">cutlass::gemm::GemmSharedLoadTileDTraits::kIterationsH</a></div><div class="ttdeci">static int const kIterationsH</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:377</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a5587ef22f419ab9a7c6117917cc99c57"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57">cutlass::gemm::GemmSharedStoreTileDTraits::Delta</a></div><div class="ttdeci">Shape&lt; 0, 0, Warps::kW *ThreadsPerWarp::kW *kAccessSize &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:300</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_aaffe67e519e919bf561142e05da6e6c8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaffe67e519e919bf561142e05da6e6c8">cutlass::gemm::GemmSharedLoadTileATraits::kSkew</a></div><div class="ttdeci">static int const kSkew</div><div class="ttdoc">The skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:153</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a9022ffc49b32503fd3639341e7e291a3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3">cutlass::gemm::GemmSharedLoadTileDTraits::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The threads in the warps. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:349</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a1e72b69cf2147e4d194893a64417b920"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920">cutlass::gemm::GemmSharedLoadTileDTraits::Pointer</a></div><div class="ttdeci">Scalar_ * Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:343</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a05039ba8b7d9890903064b1a834dcd3e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e">cutlass::gemm::GemmSharedStoreTileDTraits::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">The number of threads. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:291</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_ad012add21d9393d136720f609467e121"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ad012add21d9393d136720f609467e121">cutlass::gemm::GemmSharedLoadTileATraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; TileWithSkew::kW *Warps::kD, 0, kWarps *kThreadsPerWarp *kAccessSize, 0 &gt; ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:167</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_aed92656a074e915d97a1b6a990aeba66"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66">cutlass::gemm::GemmSharedLoadTileBTraits::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The threads in a warp. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:220</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a9a2218b570dada2f1e3ccd8004c47856"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">cutlass::gemm::GemmSharedStoreTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:272</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html">cutlass::ShapeCount</a></div><div class="ttdoc">Compute derived counted of a Layout Concept based class. </div><div class="ttdef"><b>Definition:</b> shape.h:79</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a72e0214f86cf8b3711d006dcd69d7a17"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a72e0214f86cf8b3711d006dcd69d7a17">cutlass::gemm::GemmSharedLoadTileATraits::TileWithSkew</a></div><div class="ttdeci">Shape&lt; kStages_, TileWithoutSkew_::kH, TileWithoutSkew_::kW+kSkew_ &gt; TileWithSkew</div><div class="ttdoc">The tile with skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:141</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_af4597927405d8bb1ad2c464fad064703"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703">cutlass::gemm::GemmSharedStoreTileDTraits::Warps</a></div><div class="ttdeci">Warps_ Warps</div><div class="ttdoc">The warps in the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:272</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset_html_a4e35f0b2ca63a6b981230b73f843f726"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:108</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a1b025cb056729706f36469e74a9799dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">cutlass::gemm::GemmSharedLoadTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:337</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset_html_ace1b936cab289c6884e673312283d422"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html#ace1b936cab289c6884e673312283d422">cutlass::gemm::GemmSharedLoadTileDTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:385</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_a5e4204b52ee081a37e824ca71c291c03"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a5e4204b52ee081a37e824ca71c291c03">cutlass::gemm::GemmSharedLoadTileBTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; TileWithSkew::kW, 0, kWarps *kThreadsPerWarp *kAccessSize, 0 &gt; ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:237</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">cutlass::gemm::GemmSharedStoreTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:264</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_aa41cc5dc82fe08457d103545f8f63081"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">cutlass::gemm::GemmSharedLoadTileBTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:220</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html_a72e0214f86cf8b3711d006dcd69d7a17"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a72e0214f86cf8b3711d006dcd69d7a17">cutlass::gemm::GemmSharedLoadTileATraits::TileWithSkew</a></div><div class="ttdeci">Shape&lt; kStages_, TileWithoutSkew_::kH, TileWithoutSkew_::kW+kSkew_ &gt; TileWithSkew</div><div class="ttdoc">The tile with skew. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:140</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_af4597927405d8bb1ad2c464fad064703"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703">cutlass::gemm::GemmSharedStoreTileDTraits::Warps</a></div><div class="ttdeci">Warps_ Warps</div><div class="ttdoc">The warps in the tile. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:278</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset_html_a4e35f0b2ca63a6b981230b73f843f726"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:107</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a1b025cb056729706f36469e74a9799dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">cutlass::gemm::GemmSharedLoadTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:341</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset_html_ace1b936cab289c6884e673312283d422"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html#ace1b936cab289c6884e673312283d422">cutlass::gemm::GemmSharedLoadTileDTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:396</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">cutlass::gemm::GemmSharedStoreTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:270</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html_aa41cc5dc82fe08457d103545f8f63081"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">cutlass::gemm::GemmSharedLoadTileBTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:222</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__stream__pair_8h.html b/docs/gemm__stream__pair_8h.html
new file mode 100644
index 0000000000..9b7a01d57c
--- /dev/null
+++ b/docs/gemm__stream__pair_8h.html
@@ -0,0 +1,132 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: gemm_stream_pair.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">gemm_stream_pair.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Defines a pair of GEMM tile streams.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tile__allocation_8h_source.html">cutlass/tile_allocation.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="clear__accumulators_8h_source.html">cutlass/gemm/clear_accumulators.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__config_8h_source.html">cutlass/gemm/gemm_config.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__stream_8h_source.html">cutlass/gemm/gemm_global_stream.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__operand_8h_source.html">cutlass/gemm/gemm_operand.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__shared__stream_8h_source.html">cutlass/gemm/gemm_shared_stream.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="threadblock__swizzle_8h_source.html">cutlass/gemm/threadblock_swizzle.h</a>&quot;</code><br />
+</div>
+<p><a href="gemm__stream__pair_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Collect the global load streams for multiplicands.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines a structure containing shared storage for each pair.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Collect the global load streams for multiplicands.  <a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object passed to load iterators.  <a href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/gemm__stream__pair_8h_source.html b/docs/gemm__stream__pair_8h_source.html
new file mode 100644
index 0000000000..42c1447acd
--- /dev/null
+++ b/docs/gemm__stream__pair_8h_source.html
@@ -0,0 +1,142 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: gemm_stream_pair.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">gemm_stream_pair.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="gemm__stream__pair_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__allocation_8h.html">cutlass/tile_allocation.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="clear__accumulators_8h.html">cutlass/gemm/clear_accumulators.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__config_8h.html">cutlass/gemm/gemm_config.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__stream_8h.html">cutlass/gemm/gemm_global_stream.h</a>&quot;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__operand_8h.html">cutlass/gemm/gemm_operand.h</a>&quot;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__stream_8h.html">cutlass/gemm/gemm_shared_stream.h</a>&quot;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="threadblock__swizzle_8h.html">cutlass/gemm/threadblock_swizzle.h</a>&quot;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> StreamA_, <span class="keyword">typename</span> StreamB_, <span class="keywordtype">bool</span> kRes<span class="keywordtype">id</span>ueInProlog_&gt;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">   50</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a> {</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">   56</a></span>&#160;  <span class="keyword">typedef</span> StreamA_ <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">StreamA</a>;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">   59</a></span>&#160;  <span class="keyword">typedef</span> StreamB_ <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">StreamB</a>;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">   62</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">Params</a> {</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705">   64</a></span>&#160;    <span class="keyword">typename</span> StreamA::Params <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705">stream_a</a>;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258">   67</a></span>&#160;    <span class="keyword">typename</span> StreamB::Params <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258">stream_b</a>;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#afb39229d0ad334834cd2ba0c1fcc9412">   71</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#afb39229d0ad334834cd2ba0c1fcc9412">Params</a>() {}</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#ab26c1aaa2b7709c32bab39801d6c7772">   75</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#ab26c1aaa2b7709c32bab39801d6c7772">Params</a>(<span class="keyword">typename</span> StreamA::Params <span class="keyword">const</span> &amp;_params_A, <span class="keyword">typename</span> StreamB::Params <span class="keyword">const</span> &amp;_params_B)</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;        : <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705">stream_a</a>(_params_A), <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258">stream_b</a>(_params_B) {}</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  };</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">   80</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> StreamA::Index <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ZipTileAllocation.html">ZipTileAllocation</a>&lt;<span class="keyword">typename</span> StreamA::ThreadblockTileStorage,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;                              <span class="keyword">typename</span> StreamB::ThreadblockTileStorage&gt;</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">   85</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">ThreadblockTileStorage</a>;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be">   88</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ZipTensorRef.html">ThreadblockTileStorage::TensorRef</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be">ThreadblockTileRef</a>;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">   91</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">SharedStorage</a> {</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a87d507b703a0eb654265f4529ed18f66">   92</a></span>&#160;    <span class="keyword">typename</span> StreamA::SharedStorage <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a87d507b703a0eb654265f4529ed18f66">stream_a</a>;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a6d9444ed13ed544febe196e3e835ea16">   93</a></span>&#160;    <span class="keyword">typename</span> StreamB::SharedStorage <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a6d9444ed13ed544febe196e3e835ea16">stream_b</a>;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;  };</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">  101</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">StreamA</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a>;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">  104</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">StreamB</a> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a>;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab97442e24a1d6d64727b6320ab901ad1">  111</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab97442e24a1d6d64727b6320ab901ad1">GlobalLoadStreamPair</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;params,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;                                      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">SharedStorage</a> &amp;shared_storage,</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                                      <a class="code" href="structcutlass_1_1ZipTensorRef.html">ThreadblockTileRef</a> <span class="keyword">const</span> &amp;threadblock_tile_ref,</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;                                      <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;bounds,</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;                                      <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a>(params.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a>,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;                 shared_storage.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a>,</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;                 threadblock_tile_ref.first,</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;                 bounds,</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;                 block_offset),</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a>(params.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a>,</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;                 shared_storage.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a>,</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;                 threadblock_tile_ref.second,</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;                 bounds,</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;                 block_offset) {}</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a769813dcffe1767aab49ac30b838a5f4">  128</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a> &amp; <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a769813dcffe1767aab49ac30b838a5f4">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> offset) {</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a> += offset;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a> += offset;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  }</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5c0efc259bb3bd1675f5d395dab71e95">  135</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5c0efc259bb3bd1675f5d395dab71e95">copy</a>() {</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a>.copy();</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a>.copy();</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  }</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00141"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6699714c357f2714df011f58c1c48861">  141</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6699714c357f2714df011f58c1c48861">commit</a>() {</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a>.commit();</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a>.commit();</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  }</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a1b1ec121cbd17ee61d58ea843b900e9a">  147</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a1b1ec121cbd17ee61d58ea843b900e9a">residue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a> k, <span class="keywordtype">bool</span> skip_clear = <span class="keyword">false</span>) {</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a>.residue(k, skip_clear);</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a>.residue(k, skip_clear);</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;  }</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00153"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab94c0c95d6d4e019563ba8a142f9d410">  153</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab94c0c95d6d4e019563ba8a142f9d410">move_to_residue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a> k, <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a> kTileK) {</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;    <span class="keywordflow">if</span> (kResidueInProlog_) {</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a>.move_to_residue(k, kTileK);</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a>.move_to_residue(k, kTileK);</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (k &lt; kTileK) {</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a1b1ec121cbd17ee61d58ea843b900e9a">residue</a>(k, <span class="keyword">true</span>);</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;    }</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;  }</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6a9287a2cd87ca8a96cbf6b6d29199da">  163</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6a9287a2cd87ca8a96cbf6b6d29199da">rollback</a>(<span class="keywordtype">bool</span> kRollback) {</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    <span class="keywordflow">if</span> (kResidueInProlog_ &amp;&amp; kRollback) {</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a>.rollback();</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a>.rollback();</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;    }</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  }</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;};</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> StreamA_, <span class="keyword">typename</span> StreamB_&gt;</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">  173</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a> {</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">  179</a></span>&#160;  <span class="keyword">typedef</span> StreamA_ <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">StreamA</a>;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">  182</a></span>&#160;  <span class="keyword">typedef</span> StreamB_ <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">StreamB</a>;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">  185</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">Params</a> {</div><div class="line"><a name="l00187"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#afb56016927b59b8d5447c3656f0b634e">  187</a></span>&#160;    <span class="keyword">typename</span> StreamA::Params <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#afb56016927b59b8d5447c3656f0b634e">stream_a</a>;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#a4a8f9207ffb3bbcdb000af62808371f5">  190</a></span>&#160;    <span class="keyword">typename</span> StreamB::Params <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#a4a8f9207ffb3bbcdb000af62808371f5">stream_b</a>;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;  };</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt;<span class="keyword">typename</span> StreamA::TensorRef,</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;                       <span class="keyword">typename</span> StreamB::TensorRef &gt;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d">  196</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d">ThreadblockTileRef</a>;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">  203</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">StreamA</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">stream_a</a>;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">  206</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">StreamB</a> <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">stream_b</a>;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;</div><div class="line"><a name="l00213"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a0b69ca0b37dad32ba25c7f7e71a3dcc1">  213</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a0b69ca0b37dad32ba25c7f7e71a3dcc1">SharedStreamPair</a>(<a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;params, <a class="code" href="structcutlass_1_1ZipTensorRef.html">ThreadblockTileRef</a> <span class="keyword">const</span> &amp;threadblock_tile_ref)</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">stream_a</a>(params.<a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">stream_a</a>, threadblock_tile_ref.first),</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">stream_b</a>(params.<a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">stream_b</a>, threadblock_tile_ref.second) {}</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;</div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad46887abb2e3136b635c3ef5be29cf69">  218</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad46887abb2e3136b635c3ef5be29cf69">copy</a>(<span class="keywordtype">int</span> step) {</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">stream_a</a>.copy(step);</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">stream_b</a>.copy(step);</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;  }</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a93cc2a7eb3215ce5bae343fb117f55c5">  224</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a93cc2a7eb3215ce5bae343fb117f55c5">commit</a>(<span class="keywordtype">int</span> step) {</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">stream_a</a>.commit(step);</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">stream_b</a>.commit(step);</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;  }</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00231"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#af29f052dc0145abe3144dea1472d241a">  231</a></span>&#160;  <span class="keyword">typename</span> StreamA::TransformedFragment <span class="keyword">const</span> &amp;<a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#af29f052dc0145abe3144dea1472d241a">fragment_a</a>(<span class="keywordtype">int</span> step)<span class="keyword"> const </span>{</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">stream_a</a>.fragment(step);</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;  }</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a375e96bc2e35447682bd1dea3c4d87ad">  237</a></span>&#160;  <span class="keyword">typename</span> StreamB::TransformedFragment <span class="keyword">const</span> &amp;<a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a375e96bc2e35447682bd1dea3c4d87ad">fragment_b</a>(<span class="keywordtype">int</span> step)<span class="keyword"> const </span>{</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">stream_b</a>.fragment(step);</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;  }</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;</div><div class="line"><a name="l00242"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad4b9b1c1fe4b0c6961842d0eff6d7db7">  242</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad4b9b1c1fe4b0c6961842d0eff6d7db7">inc_stage</a>() {</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">stream_a</a>.inc_stage();</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">stream_b</a>.inc_stage();</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;  }</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;};</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params_html_ab26c1aaa2b7709c32bab39801d6c7772"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#ab26c1aaa2b7709c32bab39801d6c7772">cutlass::gemm::GlobalLoadStreamPair::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(typename StreamA::Params const &amp;_params_A, typename StreamB::Params const &amp;_params_B)</div><div class="ttdoc">Constructs a global load stream pair Params object. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:75</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a769813dcffe1767aab49ac30b838a5f4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a769813dcffe1767aab49ac30b838a5f4">cutlass::gemm::GlobalLoadStreamPair::operator+=</a></div><div class="ttdeci">CUTLASS_DEVICE GlobalLoadStreamPair &amp; operator+=(Coord&lt; 3 &gt; const offset)</div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:128</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_aa1e8da4d8a313881d5e6509cf6e852d4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">cutlass::gemm::SharedStreamPair::StreamA</a></div><div class="ttdeci">StreamA_ StreamA</div><div class="ttdoc">Stream for A multiplicand. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:179</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_ab94c0c95d6d4e019563ba8a142f9d410"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab94c0c95d6d4e019563ba8a142f9d410">cutlass::gemm::GlobalLoadStreamPair::move_to_residue</a></div><div class="ttdeci">CUTLASS_DEVICE void move_to_residue(Index k, Index kTileK)</div><div class="ttdoc">Move to residue. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:153</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage_html_a6d9444ed13ed544febe196e3e835ea16"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a6d9444ed13ed544febe196e3e835ea16">cutlass::gemm::GlobalLoadStreamPair::SharedStorage::stream_b</a></div><div class="ttdeci">StreamB::SharedStorage stream_b</div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:93</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTensorRef_html"><div class="ttname"><a href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef</a></div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:38</div></div>
+<div class="ttc" id="tile__iterator_8h_html"><div class="ttname"><a href="tile__iterator_8h.html">tile_iterator.h</a></div><div class="ttdoc">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params_html_afb56016927b59b8d5447c3656f0b634e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#afb56016927b59b8d5447c3656f0b634e">cutlass::gemm::SharedStreamPair::Params::stream_a</a></div><div class="ttdeci">StreamA::Params stream_a</div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:187</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">cutlass::gemm::GlobalLoadStreamPair::SharedStorage</a></div><div class="ttdoc">Defines a structure containing shared storage for each pair. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:91</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a5eef540f82acea5d9cb12965707ba158"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">cutlass::gemm::GlobalLoadStreamPair::ThreadblockTileStorage</a></div><div class="ttdeci">ZipTileAllocation&lt; typename StreamA::ThreadblockTileStorage, typename StreamB::ThreadblockTileStorage &gt; ThreadblockTileStorage</div><div class="ttdoc">Shared memory allocation for threadblock-scoped GEMM tile. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:85</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a1b1ec121cbd17ee61d58ea843b900e9a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a1b1ec121cbd17ee61d58ea843b900e9a">cutlass::gemm::GlobalLoadStreamPair::residue</a></div><div class="ttdeci">CUTLASS_DEVICE void residue(Index k, bool skip_clear=false)</div><div class="ttdoc">Execute the residue code. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:147</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_ab97442e24a1d6d64727b6320ab901ad1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab97442e24a1d6d64727b6320ab901ad1">cutlass::gemm::GlobalLoadStreamPair::GlobalLoadStreamPair</a></div><div class="ttdeci">CUTLASS_DEVICE GlobalLoadStreamPair(Params const &amp;params, SharedStorage &amp;shared_storage, ThreadblockTileRef const &amp;threadblock_tile_ref, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:111</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a79b783f02eaa4cf8fc8f929448e121be"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be">cutlass::gemm::GlobalLoadStreamPair::ThreadblockTileRef</a></div><div class="ttdeci">ThreadblockTileStorage::TensorRef ThreadblockTileRef</div><div class="ttdoc">ZipTensorRef to threadblock tiles. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_a0b69ca0b37dad32ba25c7f7e71a3dcc1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a0b69ca0b37dad32ba25c7f7e71a3dcc1">cutlass::gemm::SharedStreamPair::SharedStreamPair</a></div><div class="ttdeci">CUTLASS_DEVICE SharedStreamPair(Params const &amp;params, ThreadblockTileRef const &amp;threadblock_tile_ref)</div><div class="ttdoc">Construct with the composable structure. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:213</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a08171f4eae2442c98f81acc88e8bd55c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">cutlass::gemm::GlobalLoadStreamPair::StreamB</a></div><div class="ttdeci">StreamB_ StreamB</div><div class="ttdoc">Stream for B multiplicand. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:59</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a></div><div class="ttdoc">Collect the global load streams for multiplicands. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:173</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_a375e96bc2e35447682bd1dea3c4d87ad"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a375e96bc2e35447682bd1dea3c4d87ad">cutlass::gemm::SharedStreamPair::fragment_b</a></div><div class="ttdeci">CUTLASS_DEVICE StreamB::TransformedFragment const  &amp; fragment_b(int step) const</div><div class="ttdoc">The fragment B. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:237</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params_html_a12b5e3e21137480047b8b0f55cbf7258"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258">cutlass::gemm::GlobalLoadStreamPair::Params::stream_b</a></div><div class="ttdeci">StreamB::Params stream_b</div><div class="ttdoc">Parameters object for StreamB. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:67</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a6a9287a2cd87ca8a96cbf6b6d29199da"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6a9287a2cd87ca8a96cbf6b6d29199da">cutlass::gemm::GlobalLoadStreamPair::rollback</a></div><div class="ttdeci">CUTLASS_DEVICE void rollback(bool kRollback)</div><div class="ttdoc">Rollback to beginning of first tile. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:163</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_a157cec4ae2881fd37e0244614bc4ab7a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">cutlass::gemm::SharedStreamPair::stream_a</a></div><div class="ttdeci">StreamA stream_a</div><div class="ttdoc">The stream for A. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:203</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_af29f052dc0145abe3144dea1472d241a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#af29f052dc0145abe3144dea1472d241a">cutlass::gemm::SharedStreamPair::fragment_a</a></div><div class="ttdeci">CUTLASS_DEVICE StreamA::TransformedFragment const  &amp; fragment_a(int step) const</div><div class="ttdoc">The fragment A. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:231</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a></div><div class="ttdoc">Collect the global load streams for multiplicands. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:50</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_ad46887abb2e3136b635c3ef5be29cf69"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad46887abb2e3136b635c3ef5be29cf69">cutlass::gemm::SharedStreamPair::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy(int step)</div><div class="ttdoc">Trigger the copies from shared memory to registers. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:218</div></div>
+<div class="ttc" id="tile__allocation_8h_html"><div class="ttname"><a href="tile__allocation_8h.html">tile_allocation.h</a></div><div class="ttdoc">Defines a fragment based on a Shape&lt;&gt; template. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">cutlass::gemm::GlobalLoadStreamPair::Params</a></div><div class="ttdoc">Parameters object. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:62</div></div>
+<div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
+<div class="ttc" id="gemm__operand_8h_html"><div class="ttname"><a href="gemm__operand_8h.html">gemm_operand.h</a></div><div class="ttdoc">Defines constant expressions for mapping GEMM problem size and strides onto pitch-linear memory...</div></div>
+<div class="ttc" id="clear__accumulators_8h_html"><div class="ttname"><a href="clear__accumulators_8h.html">clear_accumulators.h</a></div><div class="ttdoc">Defines abstractions for efficiently clearing accumulator tiles. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_ae2c4829f874ef9e83aaa52c412fa1227"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">cutlass::gemm::GlobalLoadStreamPair::StreamA</a></div><div class="ttdeci">StreamA_ StreamA</div><div class="ttdoc">Stream for A multiplicand. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:56</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a93cde16f4aef554603fcf27fa23d5127"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">cutlass::gemm::GlobalLoadStreamPair::stream_a</a></div><div class="ttdeci">StreamA stream_a</div><div class="ttdoc">Stream for A multiplicand. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:101</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_ae2c64823a7a5af01187bd3dda6bc309d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d">cutlass::gemm::SharedStreamPair::ThreadblockTileRef</a></div><div class="ttdeci">ZipTensorRef&lt; typename StreamA::TensorRef, typename StreamB::TensorRef &gt; ThreadblockTileRef</div><div class="ttdoc">Shared memory allocation for threadblock-scoped GEMM tile. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:196</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a3e22454d24cadb7d335f2a0152caae2a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">cutlass::gemm::GlobalLoadStreamPair::Index</a></div><div class="ttdeci">StreamA::Index Index</div><div class="ttdoc">Assumes the A stream defines the index type. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:80</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a></div><div class="ttdoc">Manages a pair of tile allocations as if they are one allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:100</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="gemm__config_8h_html"><div class="ttname"><a href="gemm__config_8h.html">gemm_config.h</a></div><div class="ttdoc">Defines properties of GEMM computation that impose some constraints on caller. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params_html_afb39229d0ad334834cd2ba0c1fcc9412"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#afb39229d0ad334834cd2ba0c1fcc9412">cutlass::gemm::GlobalLoadStreamPair::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params()</div><div class="ttdoc">Default constructor. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:71</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_a8be3e50ce5b65b777972720c77b51529"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">cutlass::gemm::SharedStreamPair::StreamB</a></div><div class="ttdeci">StreamB_ StreamB</div><div class="ttdoc">Stream for B multiplicand. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:182</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage_html_a87d507b703a0eb654265f4529ed18f66"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a87d507b703a0eb654265f4529ed18f66">cutlass::gemm::GlobalLoadStreamPair::SharedStorage::stream_a</a></div><div class="ttdeci">StreamA::SharedStorage stream_a</div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:92</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_a93cc2a7eb3215ce5bae343fb117f55c5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a93cc2a7eb3215ce5bae343fb117f55c5">cutlass::gemm::SharedStreamPair::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit(int step)</div><div class="ttdoc">Commit the data. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:224</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a6699714c357f2714df011f58c1c48861"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6699714c357f2714df011f58c1c48861">cutlass::gemm::GlobalLoadStreamPair::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit()</div><div class="ttdoc">Commit the data. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:141</div></div>
+<div class="ttc" id="gemm__global__stream_8h_html"><div class="ttname"><a href="gemm__global__stream_8h.html">gemm_global_stream.h</a></div><div class="ttdoc">Implements efficient loading of the thread block-level tile from global memory and storing to shared ...</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_a698586bcc25212e8cd65ab6a4e5c42a9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">cutlass::gemm::SharedStreamPair::stream_b</a></div><div class="ttdeci">StreamB stream_b</div><div class="ttdoc">The stream for B. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:206</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html_ad4b9b1c1fe4b0c6961842d0eff6d7db7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad4b9b1c1fe4b0c6961842d0eff6d7db7">cutlass::gemm::SharedStreamPair::inc_stage</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_stage()</div><div class="ttdoc">Increment the stage. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:242</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">cutlass::gemm::SharedStreamPair::Params</a></div><div class="ttdoc">Parameters object passed to load iterators. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:185</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params_html_a4a8f9207ffb3bbcdb000af62808371f5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#a4a8f9207ffb3bbcdb000af62808371f5">cutlass::gemm::SharedStreamPair::Params::stream_b</a></div><div class="ttdeci">StreamB::Params stream_b</div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:190</div></div>
+<div class="ttc" id="threadblock__swizzle_8h_html"><div class="ttname"><a href="threadblock__swizzle_8h.html">threadblock_swizzle.h</a></div><div class="ttdoc">Defies functors for mapping blockIdx to partitions of the GEMM computation. </div></div>
+<div class="ttc" id="matrix__traits_8h_html"><div class="ttname"><a href="matrix__traits_8h.html">matrix_traits.h</a></div><div class="ttdoc">Defines properties of matrices used to denote layout and operands to GEMM kernels. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a5c0efc259bb3bd1675f5d395dab71e95"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5c0efc259bb3bd1675f5d395dab71e95">cutlass::gemm::GlobalLoadStreamPair::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy()</div><div class="ttdoc">Trigger the copies from shared memory to registers. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:135</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params_html_a235c77b257b93dace812d2f7b9340705"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705">cutlass::gemm::GlobalLoadStreamPair::Params::stream_a</a></div><div class="ttdeci">StreamA::Params stream_a</div><div class="ttdoc">Parameters object for StreamA. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:64</div></div>
+<div class="ttc" id="gemm__shared__stream_8h_html"><div class="ttname"><a href="gemm__shared__stream_8h.html">gemm_shared_stream.h</a></div><div class="ttdoc">Defines abstractions for managing loading and storing fragments to shared memory in the efficient GEM...</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html_a9aeaeabd4f8af2d864f28c76c6a301d9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">cutlass::gemm::GlobalLoadStreamPair::stream_b</a></div><div class="ttdeci">StreamB stream_b</div><div class="ttdoc">Stream for B multiplicand. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:104</div></div>
+<div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/gemm__traits_8h.html b/docs/gemm__traits_8h.html
index d782b37802..26a1c6ba3f 100644
--- a/docs/gemm__traits_8h.html
+++ b/docs/gemm__traits_8h.html
@@ -82,22 +82,26 @@
 
 <p>Defines structural properties of complete GEMM computation.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="clear__accumulators_8h_source.html">cutlass/gemm/clear_accumulators.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__global__stream_8h_source.html">cutlass/gemm/gemm_global_stream.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__operand_8h_source.html">cutlass/gemm/gemm_operand.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__shared__stream_8h_source.html">cutlass/gemm/gemm_shared_stream.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="identity__block__swizzle_8h_source.html">cutlass/gemm/identity_block_swizzle.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tile__allocation_8h_source.html">cutlass/tile_allocation.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="kernel__launch_8h_source.html">cutlass/kernel_launch.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="clear__accumulators_8h_source.html">cutlass/gemm/clear_accumulators.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__config_8h_source.html">cutlass/gemm/gemm_config.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__desc_8h_source.html">cutlass/gemm/gemm_desc.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__stream__pair_8h_source.html">cutlass/gemm/gemm_stream_pair.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__stream_8h_source.html">cutlass/gemm/gemm_global_stream.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__operand_8h_source.html">cutlass/gemm/gemm_operand.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__shared__stream_8h_source.html">cutlass/gemm/gemm_shared_stream.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="threadblock__swizzle_8h_source.html">cutlass/gemm/threadblock_swizzle.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm_8h_source.html">cutlass/gemm/gemm.h</a>&quot;</code><br />
 </div>
 <p><a href="gemm__traits_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA&lt; Kind, GemmConfig_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td></tr>
@@ -113,21 +117,13 @@
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params.  <a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::StreamSharedStorage&lt; GlobalLoadStream_, SharedLoadStream_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object constructable on the host.  <a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage in shared memory.  <a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the global load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the shared load stream for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">cutlass::gemm::SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, Epilogue_, Index_, GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Helper_ &gt;</a></td></tr>
@@ -143,7 +139,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/gemm__traits_8h_source.html b/docs/gemm__traits_8h_source.html
index 7ca9f4b8d6..274bc086f4 100644
--- a/docs/gemm__traits_8h_source.html
+++ b/docs/gemm__traits_8h_source.html
@@ -76,175 +76,144 @@
 <div class="title">gemm_traits.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="gemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="clear__accumulators_8h.html">cutlass/gemm/clear_accumulators.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__stream_8h.html">cutlass/gemm/gemm_global_stream.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__operand_8h.html">cutlass/gemm/gemm_operand.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__shared__stream_8h.html">cutlass/gemm/gemm_shared_stream.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="identity__block__swizzle_8h.html">cutlass/gemm/identity_block_swizzle.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&gt;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&gt;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    <span class="keyword">typename</span> ScalarA_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    <span class="keyword">typename</span> ScalarB_,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <span class="keyword">typename</span> ScalarC_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    <span class="keyword">typename</span> ScalarD_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;    <span class="keyword">typename</span> MultiplyAdd_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    <span class="keywordtype">int</span> kScalarsPerStsA_,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdsA_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    <span class="keywordtype">int</span> kScalarsPerStsB_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdsB_,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgCAndStgD_,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    <span class="keywordtype">int</span> kScalarsPerStsD_,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdsD_,</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    <span class="keywordtype">int</span> kStages_&gt;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html">   79</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a> {</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">   82</a></span>&#160;<span class="comment"></span>  <span class="keyword">typedef</span> ScalarA_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a>;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">   84</a></span>&#160;  <span class="keyword">typedef</span> ScalarB_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a>;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">   86</a></span>&#160;  <span class="keyword">typedef</span> ScalarC_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a>;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">   88</a></span>&#160;  <span class="keyword">typedef</span> ScalarD_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a>;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">   91</a></span>&#160;  <span class="keyword">typedef</span> OutputTile_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a>;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">   93</a></span>&#160;  <span class="keyword">typedef</span> MultiplyAdd_ <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a>;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">   95</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">MultiplyAdd::InstructionShape</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a>;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">   97</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">MultiplyAdd::AccumulatorsPerWarp</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a>;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">   99</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Fragment.html">MultiplyAdd::Accumulators</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a>;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">  102</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">ShapeDiv&lt;OutputTile, AccumulatorsPerWarp&gt;::Shape</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a>;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">  104</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a> = cutlass::kWarpSize;</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">  106</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a> = <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Warps&gt;::kCount</a> * <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a>;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">  109</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a> = kScalarsPerLdgA_;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">  110</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a> = kScalarsPerStsA_;</div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">  111</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a> = kScalarsPerLdsA_;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">  114</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a> = kScalarsPerLdgB_;</div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">  115</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a> = kScalarsPerStsB_;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">  116</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a> = kScalarsPerLdsB_;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">  119</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a> = kScalarsPerLdgCAndStgD_;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">  122</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a> = kScalarsPerLdgCAndStgD_;</div><div class="line"><a name="l00123"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">  123</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a> = kScalarsPerStsD_;</div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">  124</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a> = kScalarsPerLdsD_;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">  127</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a> / InstructionShape::kD;</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">  128</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a> / InstructionShape::kD;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">  131</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a> = kStages_;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;};</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">  137</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a> {};</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00142"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">  142</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ad2010686bceb21aec9a1924ae379edc1">  144</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">  147</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarA <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">Scalar</a>;</div><div class="line"><a name="l00149"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">  149</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarA <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a>;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      <span class="comment">// That&#39;s A.</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="comment">// A is column-major.</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">Scalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW&gt;</a>,</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;      GemmConfig_::kScalarsPerLdgA&gt;</div><div class="line"><a name="l00165"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">  165</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">GlobalTileTraits</a>;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a>,</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;            GemmConfig_::OutputTile::kW * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      GemmConfig_::kScalarsPerStsA&gt;</div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">  179</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;      GemmConfig_::kScalarsPerLdsA,</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;      0&gt;</div><div class="line"><a name="l00199"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">  199</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;};</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00205"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">  205</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00207"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c">  207</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;</div><div class="line"><a name="l00210"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">  210</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarA <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a>;</div><div class="line"><a name="l00212"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">  212</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarA <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>;</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;      <span class="comment">// That&#39;s A.</span></div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;      <span class="comment">// The tile has size MxK in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD&gt;</a>,</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      GemmConfig_::kScalarsPerLdgA&gt;</div><div class="line"><a name="l00228"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d">  228</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d">GlobalTileTraits</a>;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;</div><div class="line"><a name="l00231"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">  231</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsIn4B = <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>);</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>,</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;            GemmConfig_::OutputTile::kW * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;      <span class="comment">// The number of scalars per STS.</span></div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;      GemmConfig_::kScalarsPerStsA,</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      <span class="comment">// The skew to avoid bank conflicts added in the tile W dimension.</span></div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      128 / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>) / GemmConfig_::kScalarsPerStsA /</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;          GlobalTileTraits::Threads::kW * kScalarsIn4B&gt;</div><div class="line"><a name="l00247"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f">  247</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt;</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;      GemmConfig_::kScalarsPerLdsA,</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;      SharedStoreTileTraits::kSkew&gt;</div><div class="line"><a name="l00267"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">  267</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;};</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00273"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">  273</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a> {};</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00278"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">  278</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00280"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13">  280</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>;</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;</div><div class="line"><a name="l00283"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">  283</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarB <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a>;</div><div class="line"><a name="l00285"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">  285</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarB <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;      <span class="comment">// That&#39;s B.</span></div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;      <span class="comment">// B is column-major.</span></div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;      <span class="comment">// The tile has size MxK in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD&gt;</a>,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;      GemmConfig_::kScalarsPerLdgB&gt;</div><div class="line"><a name="l00301"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064">  301</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064">GlobalTileTraits</a>;</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;</div><div class="line"><a name="l00304"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">  304</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsIn4B = <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>);</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>,</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;            GemmConfig_::OutputTile::kH * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;      <span class="comment">// The number of scalars per STS.</span></div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;      GemmConfig_::kScalarsPerStsB,</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;      <span class="comment">// The skew to avoid bank conflicts added in the tile W dimension.</span></div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;      128 / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>) / GemmConfig_::kScalarsPerStsB /</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;          GlobalTileTraits::Threads::kW * kScalarsIn4B&gt;</div><div class="line"><a name="l00320"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06">  320</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt;</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;      GemmConfig_::kScalarsPerLdsB,</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;      SharedStoreTileTraits::kSkew&gt;</div><div class="line"><a name="l00340"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">  340</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;};</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00346"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">  346</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00348"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab">  348</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;</div><div class="line"><a name="l00351"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">  351</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarB <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">Scalar</a>;</div><div class="line"><a name="l00353"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">  353</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarB <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a>;</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;      <span class="comment">// That&#39;s B.</span></div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;      <span class="comment">// B is row-major.</span></div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">Scalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH&gt;</a>,</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;      GemmConfig_::kScalarsPerLdgB&gt;</div><div class="line"><a name="l00369"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">  369</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">GlobalTileTraits</a>;</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt;</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a>,</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;            GemmConfig_::OutputTile::kH * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;      GemmConfig_::kScalarsPerStsB&gt;</div><div class="line"><a name="l00383"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">  383</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt;</div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;      GemmConfig_::kScalarsPerLdsB,</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;      0&gt;</div><div class="line"><a name="l00403"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">  403</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;};</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;</div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;    <span class="keyword">typename</span> GemmConfig_,</div><div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;    <span class="keyword">typename</span> GlobalLoadStreamA_,</div><div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;    <span class="keyword">typename</span> GlobalLoadStreamB_,</div><div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;    <span class="keyword">typename</span> SharedLoadStreamA_,</div><div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;    <span class="keyword">typename</span> SharedLoadStreamB_,</div><div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;    <span class="keyword">typename</span> Epilogue_,</div><div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;    <span class="keyword">typename</span> BlockSwizzle_ = <a class="code" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>,</div><div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;    <span class="keyword">typename</span> ClearAccumulators_ = <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;</a> &gt;</div><div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;</div><div class="line"><a name="l00428"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html">  428</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a> {</div><div class="line"><a name="l00430"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">  430</a></span>&#160;  <span class="keyword">typedef</span> GemmConfig_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a>;</div><div class="line"><a name="l00432"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">  432</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">GemmConfig::OutputTile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a>;</div><div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;</div><div class="line"><a name="l00435"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">  435</a></span>&#160;  <span class="keyword">typedef</span> GlobalLoadStreamA_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>;</div><div class="line"><a name="l00437"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">  437</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a> = GlobalLoadStreamA::kLayout;</div><div class="line"><a name="l00439"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">  439</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalLoadStreamA_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a>;</div><div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;</div><div class="line"><a name="l00442"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">  442</a></span>&#160;  <span class="keyword">typedef</span> GlobalLoadStreamB_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>;</div><div class="line"><a name="l00444"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">  444</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a> = GlobalLoadStreamB::kLayout;</div><div class="line"><a name="l00446"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">  446</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalLoadStreamB_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a>;</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;</div><div class="line"><a name="l00449"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">  449</a></span>&#160;  <span class="keyword">typedef</span> SharedLoadStreamA_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>;</div><div class="line"><a name="l00451"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">  451</a></span>&#160;  <span class="keyword">typedef</span> SharedLoadStreamB_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>;</div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;</div><div class="line"><a name="l00454"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">  454</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalLoadStreamA::SharedStoreStorage <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a>;</div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;  <span class="comment">// Btw, make sure we did not messed up with the size of the storage.</span></div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a>) == <span class="keyword">sizeof</span>(<span class="keyword">typename</span> SharedLoadStreamA::SharedStorage),</div><div class="line"><a name="l00457"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">  457</a></span>&#160;                <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;</div><div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalLoadStreamB::SharedStoreStorage <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a>;</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;  <span class="comment">// Btw, make sure we did not messed up with the size of the storage.</span></div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a>) == <span class="keyword">sizeof</span>(<span class="keyword">typename</span> SharedLoadStreamB::SharedStorage),</div><div class="line"><a name="l00463"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">  463</a></span>&#160;                <span class="stringliteral">&quot;&quot;</span>);</div><div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;</div><div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a>;</div><div class="line"><a name="l00468"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">  468</a></span>&#160;  <span class="keyword">typedef</span> Epilogue_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a>;</div><div class="line"><a name="l00470"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">  470</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">Epilogue::ScalarC</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a>;</div><div class="line"><a name="l00471"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">  471</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">Epilogue::ScalarD</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a>;</div><div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;</div><div class="line"><a name="l00474"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">  474</a></span>&#160;  <span class="keyword">typedef</span> BlockSwizzle_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a>;</div><div class="line"><a name="l00476"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">  476</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>;</div><div class="line"><a name="l00478"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">  478</a></span>&#160;  <span class="keyword">typedef</span> ClearAccumulators_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>;</div><div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;</div><div class="line"><a name="l00481"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">  481</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">Params</a> {</div><div class="line"><a name="l00483"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a437d4b6f1f149849c5ae635a5993e7ac">  483</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aaf27c0f2f4ab730ed5c865e9f7d2373b">m</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a437d4b6f1f149849c5ae635a5993e7ac">n</a>, <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aae3a008b39f9678a03192f6ff54152d8">k</a>;</div><div class="line"><a name="l00485"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a575bcff901d69ae3f46987222f23ab64">  485</a></span>&#160;    <span class="keyword">typename</span> GlobalLoadStreamA::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a575bcff901d69ae3f46987222f23ab64">global_stream_a</a>;</div><div class="line"><a name="l00487"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a46affe35cb16874de5a2b9777aedf596">  487</a></span>&#160;    <span class="keyword">typename</span> GlobalLoadStreamB::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a46affe35cb16874de5a2b9777aedf596">global_stream_b</a>;</div><div class="line"><a name="l00489"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aa9937ec51d18aad02398d95095117978">  489</a></span>&#160;    <span class="keyword">typename</span> SharedLoadStreamA::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aa9937ec51d18aad02398d95095117978">shared_stream_a</a>;</div><div class="line"><a name="l00491"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a78f22007632937bbd5f3dab7b097477d">  491</a></span>&#160;    <span class="keyword">typename</span> SharedLoadStreamB::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a78f22007632937bbd5f3dab7b097477d">shared_stream_b</a>;</div><div class="line"><a name="l00493"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8">  493</a></span>&#160;    <span class="keyword">typename</span> Epilogue::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8">epilogue</a>;</div><div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;</div><div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmDesc_&gt;</div><div class="line"><a name="l00497"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">  497</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">initialize</a>(GemmDesc_ <span class="keyword">const</span>&amp; desc) {</div><div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160;      <span class="comment">// Set the problem size.</span></div><div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;      this-&gt;m = desc.m;</div><div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;      this-&gt;n = desc.n;</div><div class="line"><a name="l00501"></a><span class="lineno">  501</span>&#160;      this-&gt;k = desc.k;</div><div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;</div><div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;      <span class="comment">// Initialize the iterator for A.</span></div><div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;      <span class="keywordtype">int</span> error_code =</div><div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a575bcff901d69ae3f46987222f23ab64">global_stream_a</a>.initialize(reinterpret_cast&lt;ScalarA const*&gt;(desc.d_a), desc.lda);</div><div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;</div><div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;      <span class="keywordflow">if</span> (error_code) {</div><div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;        <span class="keywordflow">return</span> error_code;</div><div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;      }</div><div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;</div><div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160;      <span class="comment">// Initialize the iterator for B.</span></div><div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;      error_code = <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a46affe35cb16874de5a2b9777aedf596">global_stream_b</a>.initialize(reinterpret_cast&lt;ScalarB const*&gt;(desc.d_b), desc.ldb);</div><div class="line"><a name="l00513"></a><span class="lineno">  513</span>&#160;</div><div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160;      <span class="keywordflow">if</span> (error_code) {</div><div class="line"><a name="l00515"></a><span class="lineno">  515</span>&#160;        <span class="keywordflow">return</span> error_code;</div><div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160;      }</div><div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;</div><div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;      <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8">epilogue</a>.initialize(desc);</div><div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;    }</div><div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;  };</div><div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;</div><div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;  <span class="comment">// The storage for A.</span></div><div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> GlobalLoadStream_, <span class="keyword">typename</span> SharedLoadStream_&gt;</div><div class="line"><a name="l00525"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">  525</a></span>&#160;  <span class="keyword">union </span><a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a> {</div><div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;    <span class="comment">// The storage needed by the global stream.</span></div><div class="line"><a name="l00527"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#a3c2980547310ec4307f3a5f9817dfc51">  527</a></span>&#160;    <span class="keyword">typename</span> GlobalLoadStream_::SharedStorage <a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#a3c2980547310ec4307f3a5f9817dfc51">global</a>;</div><div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;    <span class="comment">// The storage needed by the shared stream.</span></div><div class="line"><a name="l00529"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#afabd328b106d45b156200f73942d211e">  529</a></span>&#160;    <span class="keyword">typename</span> SharedLoadStream_::SharedStorage <a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#afabd328b106d45b156200f73942d211e">shared</a>;</div><div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;  };</div><div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;</div><div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;  <span class="comment">// The storage for the main loop + prologue.</span></div><div class="line"><a name="l00533"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">  533</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">MainLoopSharedStorage</a> {</div><div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;    <span class="comment">// The storage to shuffle the A matrix in shared memory.</span></div><div class="line"><a name="l00535"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a62d3dcf5d97a0a896b2033e55dfb0811">  535</a></span>&#160;    <a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">StreamSharedStorage&lt;GlobalLoadStreamA, SharedLoadStreamA&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a62d3dcf5d97a0a896b2033e55dfb0811">stream_a</a>;</div><div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;    <span class="comment">// The storage to shuffle the B matrix in shared memory.</span></div><div class="line"><a name="l00537"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a0173fcc8856b17a52cc5eee845f101fa">  537</a></span>&#160;    <a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">StreamSharedStorage&lt;GlobalLoadStreamB, SharedLoadStreamB&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a0173fcc8856b17a52cc5eee845f101fa">stream_b</a>;</div><div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;    <span class="comment">// The storage to clear the accumulators if needed.</span></div><div class="line"><a name="l00539"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325">  539</a></span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">ClearAccumulators::SharedStorage</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325">clear</a>;</div><div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;  };</div><div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;</div><div class="line"><a name="l00543"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">  543</a></span>&#160;  <span class="keyword">union </span><a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">SharedStorage</a> {</div><div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;    <span class="comment">// The storage for the main loop.</span></div><div class="line"><a name="l00545"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4">  545</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">MainLoopSharedStorage</a> <a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4">main_loop</a>;</div><div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;    <span class="comment">// The storage for the epilogue.</span></div><div class="line"><a name="l00547"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#afdca9ac1d28e17efaa394f5831a60c04">  547</a></span>&#160;    <span class="keyword">typename</span> Epilogue::SharedStorage <a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#afdca9ac1d28e17efaa394f5831a60c04">epilogue</a>;</div><div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;  };</div><div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;</div><div class="line"><a name="l00551"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html">  551</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html">GlobalLoadStream</a> {</div><div class="line"><a name="l00553"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ab2961b4db0694cf128d55d38a98db575">  553</a></span>&#160;    CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ab2961b4db0694cf128d55d38a98db575">GlobalLoadStream</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; params,</div><div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;                                    <a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">SharedStorage</a>&amp; shared_storage,</div><div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;                                    dim3 <span class="keyword">const</span>&amp; block)</div><div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;        : <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47">stream_a</a>(params.global_stream_a,</div><div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;                   shared_storage.main_loop.<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47">stream_a</a>.global,</div><div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;                   <a class="code" href="namespacecutlass.html">cutlass</a>::<a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, params.k, params.m),</div><div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160;                   <a class="code" href="namespacecutlass.html">cutlass</a>::<a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, block.x)),</div><div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160;          <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c">stream_b</a>(params.global_stream_b,</div><div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;                   shared_storage.main_loop.<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c">stream_b</a>.global,</div><div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;                   <a class="code" href="namespacecutlass.html">cutlass</a>::<a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, params.k, params.n),</div><div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;                   <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, block.y)) {}</div><div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;</div><div class="line"><a name="l00566"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ae033f55779b45b4228f40a4d699062bb">  566</a></span>&#160;    CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ae033f55779b45b4228f40a4d699062bb">copy</a>() {</div><div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47">stream_a</a>.copy();</div><div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c">stream_b</a>.copy();</div><div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;    }</div><div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;</div><div class="line"><a name="l00572"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a6dc512be014b9d849057e2fd4c0b0485">  572</a></span>&#160;    CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a6dc512be014b9d849057e2fd4c0b0485">commit</a>() {</div><div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47">stream_a</a>.commit();</div><div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c">stream_b</a>.commit();</div><div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160;    }</div><div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;</div><div class="line"><a name="l00578"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a405b93680bb6e356369863244d0b56aa">  578</a></span>&#160;    CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a405b93680bb6e356369863244d0b56aa">residue</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> k, <span class="keywordtype">bool</span> skip_clear = <span class="keyword">false</span>) {</div><div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47">stream_a</a>.residue(k, skip_clear);</div><div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c">stream_b</a>.residue(k, skip_clear);</div><div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;    }</div><div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;</div><div class="line"><a name="l00584"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47">  584</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47">stream_a</a>;</div><div class="line"><a name="l00586"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c">  586</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c">stream_b</a>;</div><div class="line"><a name="l00587"></a><span class="lineno">  587</span>&#160;  };</div><div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;</div><div class="line"><a name="l00590"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html">  590</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html">SharedLoadStream</a> {</div><div class="line"><a name="l00592"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a49315aea1c54d84ff19b0ac215128b95">  592</a></span>&#160;    CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a49315aea1c54d84ff19b0ac215128b95">SharedLoadStream</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; params, <a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">SharedStorage</a>&amp; shared_storage) {</div><div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8">stream_a</a>.initialize(params.<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aa9937ec51d18aad02398d95095117978">shared_stream_a</a>, shared_storage.<a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4">main_loop</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a62d3dcf5d97a0a896b2033e55dfb0811">stream_a</a>.<a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#afabd328b106d45b156200f73942d211e">shared</a>);</div><div class="line"><a name="l00594"></a><span class="lineno">  594</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d">stream_b</a>.initialize(params.<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a78f22007632937bbd5f3dab7b097477d">shared_stream_b</a>, shared_storage.<a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4">main_loop</a>.<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a0173fcc8856b17a52cc5eee845f101fa">stream_b</a>.<a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#afabd328b106d45b156200f73942d211e">shared</a>);</div><div class="line"><a name="l00595"></a><span class="lineno">  595</span>&#160;    }</div><div class="line"><a name="l00596"></a><span class="lineno">  596</span>&#160;</div><div class="line"><a name="l00598"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#af25495bb0bb35bd64246d3a80fe4806f">  598</a></span>&#160;    CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#af25495bb0bb35bd64246d3a80fe4806f">copy</a>(<span class="keywordtype">int</span> step) {</div><div class="line"><a name="l00599"></a><span class="lineno">  599</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8">stream_a</a>.copy(step, <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a3147da380e4c1e465aba0b965ac87ab5">fetched_a</a>[step % 2]);</div><div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d">stream_b</a>.copy(step, <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a837fbec1d47ae45480941de6290889c0">fetched_b</a>[step % 2]);</div><div class="line"><a name="l00601"></a><span class="lineno">  601</span>&#160;    }</div><div class="line"><a name="l00602"></a><span class="lineno">  602</span>&#160;</div><div class="line"><a name="l00604"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#ade2d85507dec77591e66276339a1eef5">  604</a></span>&#160;    CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#ade2d85507dec77591e66276339a1eef5">commit</a>(<span class="keywordtype">int</span> step) {</div><div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8">stream_a</a>.commit(<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a3147da380e4c1e465aba0b965ac87ab5">fetched_a</a>[step % 2], <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a883b28ca237b1ec076856232cfee0c6f">transformed_a</a>[step % 2]);</div><div class="line"><a name="l00606"></a><span class="lineno">  606</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d">stream_b</a>.commit(<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a837fbec1d47ae45480941de6290889c0">fetched_b</a>[step % 2], <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a9369a5f819d2a42997491e0df96f47ef">transformed_b</a>[step % 2]);</div><div class="line"><a name="l00607"></a><span class="lineno">  607</span>&#160;    }</div><div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160;</div><div class="line"><a name="l00610"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a4a8c64d85aa012e3689dd024c486924b">  610</a></span>&#160;    CUTLASS_DEVICE <span class="keyword">typename</span> SharedLoadStreamA::Fragment <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a4a8c64d85aa012e3689dd024c486924b">fragment_a</a>(<span class="keywordtype">int</span> step)<span class="keyword"> const </span>{</div><div class="line"><a name="l00611"></a><span class="lineno">  611</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a883b28ca237b1ec076856232cfee0c6f">transformed_a</a>[step % 2];</div><div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;    }</div><div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;</div><div class="line"><a name="l00615"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#aa28f34fb0c4bf739246d92c2fef80e0b">  615</a></span>&#160;    CUTLASS_DEVICE <span class="keyword">typename</span> SharedLoadStreamB::Fragment <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#aa28f34fb0c4bf739246d92c2fef80e0b">fragment_b</a>(<span class="keywordtype">int</span> step)<span class="keyword"> const </span>{</div><div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a9369a5f819d2a42997491e0df96f47ef">transformed_b</a>[step % 2];</div><div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;    }</div><div class="line"><a name="l00618"></a><span class="lineno">  618</span>&#160;</div><div class="line"><a name="l00620"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8851150a49e4a9c135279c8c9dfdc592">  620</a></span>&#160;    CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8851150a49e4a9c135279c8c9dfdc592">inc_stage</a>() {</div><div class="line"><a name="l00621"></a><span class="lineno">  621</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8">stream_a</a>.inc_stage();</div><div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d">stream_b</a>.inc_stage();</div><div class="line"><a name="l00623"></a><span class="lineno">  623</span>&#160;    }</div><div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;</div><div class="line"><a name="l00626"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8">  626</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8">stream_a</a>;</div><div class="line"><a name="l00628"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a3147da380e4c1e465aba0b965ac87ab5">  628</a></span>&#160;    <span class="keyword">typename</span> SharedLoadStreamA::FetchedFragment <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a3147da380e4c1e465aba0b965ac87ab5">fetched_a</a>[2];</div><div class="line"><a name="l00630"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a883b28ca237b1ec076856232cfee0c6f">  630</a></span>&#160;    <span class="keyword">typename</span> SharedLoadStreamA::TransformedFragment <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a883b28ca237b1ec076856232cfee0c6f">transformed_a</a>[2];</div><div class="line"><a name="l00632"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d">  632</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d">stream_b</a>;</div><div class="line"><a name="l00634"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a837fbec1d47ae45480941de6290889c0">  634</a></span>&#160;    <span class="keyword">typename</span> SharedLoadStreamB::FetchedFragment <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a837fbec1d47ae45480941de6290889c0">fetched_b</a>[2];</div><div class="line"><a name="l00636"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a9369a5f819d2a42997491e0df96f47ef">  636</a></span>&#160;    <span class="keyword">typename</span> SharedLoadStreamB::TransformedFragment <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a9369a5f819d2a42997491e0df96f47ef">transformed_b</a>[2];</div><div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;  };</div><div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;</div><div class="line"><a name="l00640"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">  640</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a>(<span class="keywordtype">bool</span> in_loop) {</div><div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;    <span class="keywordflow">if</span> (SharedLoadStreamA::Iterator::kRequiresLoadFence ||</div><div class="line"><a name="l00642"></a><span class="lineno">  642</span>&#160;        SharedLoadStreamB::Iterator::kRequiresLoadFence) {</div><div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;      __syncthreads();</div><div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160;    }</div><div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;  }</div><div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;</div><div class="line"><a name="l00648"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">  648</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a>(<span class="keywordtype">bool</span> in_loop) { __syncthreads(); }</div><div class="line"><a name="l00649"></a><span class="lineno">  649</span>&#160;};</div><div class="line"><a name="l00650"></a><span class="lineno">  650</span>&#160;</div><div class="line"><a name="l00652"></a><span class="lineno">  652</span>&#160;</div><div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmTileTraitsHelperA_, <span class="keyword">typename</span> GemmTileTraitsHelperB_, <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00654"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">  654</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a> {</div><div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperA_::GlobalTileTraits, Index_&gt;</a></div><div class="line"><a name="l00657"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">  657</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">GlobalLoadIteratorA</a>;</div><div class="line"><a name="l00659"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">  659</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename GlobalLoadIteratorA::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">GlobalTransformerA</a>;</div><div class="line"><a name="l00661"></a><span class="lineno">  661</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA_::SharedStoreTileTraits,</div><div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperA_::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00663"></a><span class="lineno">  663</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00664"></a><span class="lineno">  664</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00665"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">  665</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">SharedStoreIteratorA</a>;</div><div class="line"><a name="l00667"></a><span class="lineno">  667</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream&lt;GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA&gt;</a></div><div class="line"><a name="l00668"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a448c242880183e006b70d839d210a2ec">  668</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a448c242880183e006b70d839d210a2ec">GlobalLoadStreamA</a>;</div><div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;</div><div class="line"><a name="l00671"></a><span class="lineno">  671</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperB_::GlobalTileTraits, Index_&gt;</a></div><div class="line"><a name="l00672"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">  672</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">GlobalLoadIteratorB</a>;</div><div class="line"><a name="l00674"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">  674</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename GlobalLoadIteratorB::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">GlobalTransformerB</a>;</div><div class="line"><a name="l00676"></a><span class="lineno">  676</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB_::SharedStoreTileTraits,</div><div class="line"><a name="l00677"></a><span class="lineno">  677</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperB_::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00678"></a><span class="lineno">  678</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00679"></a><span class="lineno">  679</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00680"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">  680</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">SharedStoreIteratorB</a>;</div><div class="line"><a name="l00682"></a><span class="lineno">  682</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream&lt;GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB&gt;</a></div><div class="line"><a name="l00683"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aad467ed9a680b4d77acecb096799cd89">  683</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aad467ed9a680b4d77acecb096799cd89">GlobalLoadStreamB</a>;</div><div class="line"><a name="l00684"></a><span class="lineno">  684</span>&#160;</div><div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA_::SharedLoadTileTraits,</div><div class="line"><a name="l00687"></a><span class="lineno">  687</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperA_::Scalar,</div><div class="line"><a name="l00688"></a><span class="lineno">  688</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00689"></a><span class="lineno">  689</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00690"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557">  690</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557">SharedLoadIteratorA</a>;</div><div class="line"><a name="l00692"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8">  692</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorA&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8">SharedLoadStreamA</a>;</div><div class="line"><a name="l00694"></a><span class="lineno">  694</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB_::SharedLoadTileTraits,</div><div class="line"><a name="l00695"></a><span class="lineno">  695</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperB_::Scalar,</div><div class="line"><a name="l00696"></a><span class="lineno">  696</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00697"></a><span class="lineno">  697</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00698"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e">  698</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e">SharedLoadIteratorB</a>;</div><div class="line"><a name="l00700"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8">  700</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorB&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8">SharedLoadStreamB</a>;</div><div class="line"><a name="l00701"></a><span class="lineno">  701</span>&#160;};</div><div class="line"><a name="l00702"></a><span class="lineno">  702</span>&#160;</div><div class="line"><a name="l00704"></a><span class="lineno">  704</span>&#160;</div><div class="line"><a name="l00705"></a><span class="lineno">  705</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00707"></a><span class="lineno">  707</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00711"></a><span class="lineno">  711</span>&#160;    <span class="keyword">typename</span> GemmConfig_,</div><div class="line"><a name="l00713"></a><span class="lineno">  713</span>&#160;    <span class="keyword">typename</span> Epilogue_,</div><div class="line"><a name="l00715"></a><span class="lineno">  715</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;    <span class="comment">// The configuration for the A matrix.</span></div><div class="line"><a name="l00717"></a><span class="lineno">  717</span>&#160;    <span class="keyword">typename</span> GemmTileTraitsHelperA_ = <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA&lt;kLayoutA_, GemmConfig_&gt;</a>,</div><div class="line"><a name="l00718"></a><span class="lineno">  718</span>&#160;    <span class="comment">// The configuration for the B matrix.</span></div><div class="line"><a name="l00719"></a><span class="lineno">  719</span>&#160;    <span class="keyword">typename</span> GemmTileTraitsHelperB_ = <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB&lt;kLayoutB_, GemmConfig_&gt;</a>,</div><div class="line"><a name="l00720"></a><span class="lineno">  720</span>&#160;    <span class="comment">// The helper class to create the streams and iterators.</span></div><div class="line"><a name="l00721"></a><span class="lineno">  721</span>&#160;    <span class="keyword">typename</span> Helper_ =</div><div class="line"><a name="l00722"></a><span class="lineno">  722</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper&lt;GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00723"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">  723</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt;</div><div class="line"><a name="l00724"></a><span class="lineno">  724</span>&#160;                                  <span class="comment">// The config.</span></div><div class="line"><a name="l00725"></a><span class="lineno">  725</span>&#160;                                  GemmConfig_,</div><div class="line"><a name="l00726"></a><span class="lineno">  726</span>&#160;                                  <span class="comment">// The stream to load A from global memory to shared memory.</span></div><div class="line"><a name="l00727"></a><span class="lineno">  727</span>&#160;                                  typename Helper_::GlobalLoadStreamA,</div><div class="line"><a name="l00728"></a><span class="lineno">  728</span>&#160;                                  <span class="comment">// The stream to load B from global memory to shared memory.</span></div><div class="line"><a name="l00729"></a><span class="lineno">  729</span>&#160;                                  typename Helper_::GlobalLoadStreamB,</div><div class="line"><a name="l00730"></a><span class="lineno">  730</span>&#160;                                  <span class="comment">// The stream to load A from shared memory.</span></div><div class="line"><a name="l00731"></a><span class="lineno">  731</span>&#160;                                  typename Helper_::SharedLoadStreamA,</div><div class="line"><a name="l00732"></a><span class="lineno">  732</span>&#160;                                  <span class="comment">// The stream to load B from shared memory.</span></div><div class="line"><a name="l00733"></a><span class="lineno">  733</span>&#160;                                  typename Helper_::SharedLoadStreamB,</div><div class="line"><a name="l00734"></a><span class="lineno">  734</span>&#160;                                  <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00735"></a><span class="lineno">  735</span>&#160;                                  Epilogue_,</div><div class="line"><a name="l00736"></a><span class="lineno">  736</span>&#160;                                  <span class="comment">// The block swizzle to reorganize the grid.</span></div><div class="line"><a name="l00737"></a><span class="lineno">  737</span>&#160;                                  IdentityBlockSwizzle,</div><div class="line"><a name="l00738"></a><span class="lineno">  738</span>&#160;                                  <span class="comment">// The index.</span></div><div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;                                  Index_,</div><div class="line"><a name="l00740"></a><span class="lineno">  740</span>&#160;                                  <span class="comment">// The tool used to clear accumulators.</span></div><div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160;                                  ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt; &gt; {</div><div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;};</div><div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160;</div><div class="line"><a name="l00745"></a><span class="lineno">  745</span>&#160;</div><div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00747"></a><span class="lineno">  747</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a437d4b6f1f149849c5ae635a5993e7ac"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a437d4b6f1f149849c5ae635a5993e7ac">cutlass::gemm::GemmTraits::Params::n</a></div><div class="ttdeci">Index n</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:483</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a677d6a1711cc756b817095b7437cce0e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">cutlass::gemm::GemmConfig::kWarpSize</a></div><div class="ttdeci">static int const kWarpSize</div><div class="ttdoc">The default warp size (32 threads per warp). </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:104</div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage_html_afdca9ac1d28e17efaa394f5831a60c04"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#afdca9ac1d28e17efaa394f5831a60c04">cutlass::gemm::GemmTraits::SharedStorage::epilogue</a></div><div class="ttdeci">Epilogue::SharedStorage epilogue</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:547</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_accc95abc55880abdab92253367b4b186"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">cutlass::gemm::GemmConfig::kScalarsPerStsA</a></div><div class="ttdeci">static int const kScalarsPerStsA</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:110</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a118bb34a6f58c3e5a989773b4b597d8c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileBTraits&lt; MultiplyAddScalar const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsB, SharedStoreTileTraits::kSkew &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for B^N. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:340</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a9d1e4e364be8fd9de5e1199d93ad76aa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">cutlass::gemm::GemmConfig::ScalarA</a></div><div class="ttdeci">ScalarA_ ScalarA</div><div class="ttdoc">The scalar for A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:82</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a9cd6c3fddfb4315eb52b672900462c47"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">cutlass::gemm::GemmTraits::GlobalLoadStreamA</a></div><div class="ttdeci">GlobalLoadStreamA_ GlobalLoadStreamA</div><div class="ttdoc">The stream to load A from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:435</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a4887b56a96694ce6350db77f78bb505f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">cutlass::gemm::GemmEpilogue::ScalarD</a></div><div class="ttdeci">GlobalStoreIteratorD::Scalar ScalarD</div><div class="ttdoc">The scalar for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:98</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a8669096ddbb8c810fb8d2313d62e6ee7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">cutlass::gemm::GemmConfig::MultiplyAdd</a></div><div class="ttdeci">MultiplyAdd_ MultiplyAdd</div><div class="ttdoc">The functor to do D = A*B + C. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:93</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_abbdd356f280099269867e614684645cf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">cutlass::gemm::GemmConfig::kAccumulatorsPerLdsA</a></div><div class="ttdeci">static int const kAccumulatorsPerLdsA</div><div class="ttdoc">The number of accumulators that are going to be fed from one LDS A/B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:127</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_aa1b75484138923a52b32888fef608d9b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">cutlass::gemm::GemmConfig::kScalarsPerLdsA</a></div><div class="ttdeci">static int const kScalarsPerLdsA</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:111</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ae01371eb31b88fa83c4926564cecafdc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">cutlass::gemm::GemmTraits::SharedLoadStreamA</a></div><div class="ttdeci">SharedLoadStreamA_ SharedLoadStreamA</div><div class="ttdoc">The iterator for A to load from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:449</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a3a57d05f50932d718538f0d1ededa95b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">cutlass::gemm::GemmConfig::InstructionShape</a></div><div class="ttdeci">MultiplyAdd::InstructionShape InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:95</div></div>
+<a href="gemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__allocation_8h.html">cutlass/tile_allocation.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="kernel__launch_8h.html">cutlass/kernel_launch.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="clear__accumulators_8h.html">cutlass/gemm/clear_accumulators.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__config_8h.html">cutlass/gemm/gemm_config.h</a>&quot;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__desc_8h.html">cutlass/gemm/gemm_desc.h</a>&quot;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__stream__pair_8h.html">cutlass/gemm/gemm_stream_pair.h</a>&quot;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__stream_8h.html">cutlass/gemm/gemm_global_stream.h</a>&quot;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__operand_8h.html">cutlass/gemm/gemm_operand.h</a>&quot;</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__stream_8h.html">cutlass/gemm/gemm_shared_stream.h</a>&quot;</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="threadblock__swizzle_8h.html">cutlass/gemm/threadblock_swizzle.h</a>&quot;</span></div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&quot;</span></div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">   52</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a> {};</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">   57</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ad2010686bceb21aec9a1924ae379edc1">   59</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">   62</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarA <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">Scalar</a>;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">   64</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarA <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a>;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;      <span class="comment">// That&#39;s A.</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;      <span class="comment">// A is column-major.</span></div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">Scalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW&gt;</a>,</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      GemmConfig_::kScalarsPerLdgA&gt;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">   80</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">GlobalTileTraits</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a>,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;            GemmConfig_::OutputTile::kW * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;      GemmConfig_::kScalarsPerStsA&gt;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">   94</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;      GemmConfig_::kScalarsPerLdsA,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;      0&gt;</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">  114</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;};</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">  120</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c">  122</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">  125</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarA <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a>;</div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">  127</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarA <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      <span class="comment">// That&#39;s A.</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;      <span class="comment">// The tile has size MxK in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD&gt;</a>,</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;      GemmConfig_::kScalarsPerLdgA&gt;</div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d">  143</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d">GlobalTileTraits</a>;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">  146</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsIn4B = <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>);</div><div class="line"><a name="l00148"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9c296924f9a6c6908f09830bbbf6a775">  148</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkewA = 128 / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>) / GemmConfig_::kScalarsPerStsA /</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;                            GlobalTileTraits::Threads::kW * kScalarsIn4B;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a> &lt;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>,</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;            GemmConfig_::OutputTile::kW * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      <span class="comment">// The number of scalars per STS.</span></div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;      GemmConfig_::kScalarsPerStsA,</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;      <span class="comment">// The skew to avoid bank conflicts added in the tile W dimension.</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;      kSkewA&lt;GemmConfig_::kScalarsPerLdsA ? GemmConfig_::kScalarsPerLdsA : kSkewA&gt;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;          SharedStoreTileTraits;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;      GemmConfig_::kScalarsPerLdsA,</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;      SharedStoreTileTraits::kSkew&gt;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;};</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">  191</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a> {};</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">  196</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13">  198</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">  201</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarB <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a>;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">  203</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarB <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;      <span class="comment">// That&#39;s B.</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      <span class="comment">// B is column-major.</span></div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;      <span class="comment">// The tile has size MxK in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD&gt;</a>,</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;      GemmConfig_::kScalarsPerLdgB&gt;</div><div class="line"><a name="l00219"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064">  219</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064">GlobalTileTraits</a>;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">  222</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsIn4B = <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>);</div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab35a6b3ff04e4128e4ca4a8cc0459b16">  224</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkewB = 128 / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>) / GemmConfig_::kScalarsPerStsB /</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;                            GlobalTileTraits::Threads::kW * kScalarsIn4B;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a> &lt;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>,</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;            GemmConfig_::OutputTile::kH * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;      <span class="comment">// The number of scalars per STS.</span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;      GemmConfig_::kScalarsPerStsB,</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;      <span class="comment">// The skew to avoid bank conflicts added in the tile W dimension.</span></div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;      kSkewB&lt;GemmConfig_::kScalarsPerLdsB ? GemmConfig_::kScalarsPerLdsB : kSkewB&gt;</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;          SharedStoreTileTraits;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;      GemmConfig_::kScalarsPerLdsB,</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;      SharedStoreTileTraits::kSkew&gt;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;};</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00267"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">  267</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00269"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab">  269</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;</div><div class="line"><a name="l00272"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">  272</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarB <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">Scalar</a>;</div><div class="line"><a name="l00274"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">  274</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarB <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a>;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;      <span class="comment">// That&#39;s B.</span></div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;      <span class="comment">// B is row-major.</span></div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">Scalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH&gt;</a>,</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;      GemmConfig_::kScalarsPerLdgB&gt;</div><div class="line"><a name="l00290"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">  290</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">GlobalTileTraits</a>;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt;</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a>,</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;            GemmConfig_::OutputTile::kH * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      GemmConfig_::kScalarsPerStsB&gt;</div><div class="line"><a name="l00304"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">  304</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt;</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;      GemmConfig_::kScalarsPerLdsB,</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;      0&gt;</div><div class="line"><a name="l00324"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">  324</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;};</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;    <span class="keyword">typename</span> GemmConfig_,</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;    <span class="keyword">typename</span> GlobalLoadStreamA_,</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;    <span class="keyword">typename</span> GlobalLoadStreamB_,</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;    <span class="keyword">typename</span> SharedLoadStreamA_,</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;    <span class="keyword">typename</span> SharedLoadStreamB_,</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;    <span class="keyword">typename</span> Epilogue_,</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;    <span class="keyword">typename</span> BlockSwizzle_ = <a class="code" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>,</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;    <span class="keyword">typename</span> ClearAccumulators_ = <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;</a> &gt;</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;</div><div class="line"><a name="l00349"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html">  349</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a> {</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt;GemmConfig_,</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;    GlobalLoadStreamA_,</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;    GlobalLoadStreamB_,</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;    SharedLoadStreamA_,</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;    SharedLoadStreamB_,</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;    Epilogue_,</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;    BlockSwizzle_,</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;    Index_,</div><div class="line"><a name="l00359"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">  359</a></span>&#160;    ClearAccumulators_&gt; <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a>;</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;</div><div class="line"><a name="l00362"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">  362</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt;This_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a>;</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;</div><div class="line"><a name="l00365"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">  365</a></span>&#160;  <span class="keyword">typedef</span> GemmConfig_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a>;</div><div class="line"><a name="l00367"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">  367</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">GemmConfig::OutputTile</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a>;</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;</div><div class="line"><a name="l00370"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">  370</a></span>&#160;  <span class="keyword">typedef</span> GlobalLoadStreamA_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>;</div><div class="line"><a name="l00372"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">  372</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a> = GlobalLoadStreamA::kLayout;</div><div class="line"><a name="l00374"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">  374</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalLoadStreamA_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a>;</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;</div><div class="line"><a name="l00377"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">  377</a></span>&#160;  <span class="keyword">typedef</span> GlobalLoadStreamB_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>;</div><div class="line"><a name="l00379"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">  379</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a> = GlobalLoadStreamB::kLayout;</div><div class="line"><a name="l00381"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">  381</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalLoadStreamB_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a>;</div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;</div><div class="line"><a name="l00384"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">  384</a></span>&#160;  <span class="keyword">typedef</span> SharedLoadStreamA_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>;</div><div class="line"><a name="l00386"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">  386</a></span>&#160;  <span class="keyword">typedef</span> SharedLoadStreamB_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>;</div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;</div><div class="line"><a name="l00389"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">  389</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a>;</div><div class="line"><a name="l00391"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">  391</a></span>&#160;  <span class="keyword">typedef</span> Epilogue_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a>;</div><div class="line"><a name="l00393"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">  393</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">Epilogue::ScalarC</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a>;</div><div class="line"><a name="l00394"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">  394</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">Epilogue::ScalarD</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a>;</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;</div><div class="line"><a name="l00397"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">  397</a></span>&#160;  <span class="keyword">typedef</span> BlockSwizzle_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a>;</div><div class="line"><a name="l00399"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">  399</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>;</div><div class="line"><a name="l00401"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">  401</a></span>&#160;  <span class="keyword">typedef</span> ClearAccumulators_ <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>;</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>,</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;                               <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>,</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;                               <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">GemmConfig::kResidueInProlog</a>&gt;</div><div class="line"><a name="l00407"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">  407</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a>;</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;</div><div class="line"><a name="l00410"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">  410</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ZipTileAllocation.html">GlobalLoadStream::ThreadblockTileStorage</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a>;</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;</div><div class="line"><a name="l00413"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">  413</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair&lt;SharedLoadStreamA, SharedLoadStreamB&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a>;</div><div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;</div><div class="line"><a name="l00416"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">  416</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">Params</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html">KernelLaunchConfiguration</a> {</div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;</div><div class="line"><a name="l00419"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90">  419</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90">problem_size</a>;</div><div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;</div><div class="line"><a name="l00422"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3">  422</a></span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">GlobalLoadStream::Params</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3">global_to_shared_stream</a>;</div><div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;</div><div class="line"><a name="l00425"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a50e9cc382a32abd5beab299a79b30b27">  425</a></span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">SharedStream::Params</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a50e9cc382a32abd5beab299a79b30b27">shared_stream</a>;</div><div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;</div><div class="line"><a name="l00428"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8">  428</a></span>&#160;    <span class="keyword">typename</span> Epilogue::Params <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8">epilogue</a>;</div><div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;</div><div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmDesc_&gt;</div><div class="line"><a name="l00432"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">  432</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">initialize</a>(GemmDesc_ <span class="keyword">const</span>&amp; desc) {</div><div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;      <span class="comment">// Set the problem size.</span></div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90">problem_size</a> = desc.problem_size;</div><div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;</div><div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;      <span class="comment">// Compute grid dimensions</span></div><div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a> block_swizzle;</div><div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;      this-&gt;<a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">block</a> = dim3(<a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">GemmConfig::kThreads</a>);</div><div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;      this-&gt;<a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">grid</a> = block_swizzle.get_grid_layout(</div><div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90">problem_size</a>,</div><div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;        make_Coord_from_shape&lt;OutputTile&gt;());</div><div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;</div><div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;      <span class="comment">// Compute offset to residue.</span></div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> gemm_k = <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90">problem_size</a>[0];</div><div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> offset_to_residue = (gemm_k % OutputTile::kD) ? gemm_k - (gemm_k % OutputTile::kD) : 0;</div><div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;      <span class="comment">// Initialize parameters objects for</span></div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;      <span class="keywordtype">int</span> error_code = <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3">global_to_shared_stream</a>.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705">stream_a</a>.initialize(</div><div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;        desc.A.data(),</div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;        desc.batch_stride_A,</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;        desc.A.leading_dim(),</div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;        offset_to_residue</div><div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;      );</div><div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;      <span class="keywordflow">if</span> (error_code) {</div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;        <span class="keywordflow">return</span> error_code;</div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;      }</div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;</div><div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;      error_code = <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3">global_to_shared_stream</a>.<a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258">stream_b</a>.initialize(</div><div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;        desc.B.data(),</div><div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;        desc.batch_stride_B,</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;        desc.B.leading_dim(),</div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;        offset_to_residue</div><div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;      );</div><div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;      <span class="keywordflow">if</span> (error_code) {</div><div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;        <span class="keywordflow">return</span> error_code;</div><div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;      }</div><div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160;</div><div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;      <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8">epilogue</a>.initialize(desc);</div><div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;    }</div><div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;</div><div class="line"><a name="l00474"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#ac4cd0b74130ffc09e4ccb7b0acba87f8">  474</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#ac4cd0b74130ffc09e4ccb7b0acba87f8">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> m,</div><div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> n,</div><div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> k,</div><div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;                                       <span class="keyword">typename</span> Epilogue::Scalar alpha,</div><div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a> <span class="keyword">const</span>* d_a,</div><div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> lda,</div><div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a> <span class="keyword">const</span>* d_b,</div><div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldb,</div><div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;                                       <span class="keyword">typename</span> Epilogue::Scalar beta,</div><div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a> <span class="keyword">const</span>* d_c,</div><div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldc,</div><div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a>* d_d,</div><div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldd) {</div><div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc&lt;ScalarA, ScalarB, ScalarC, ScalarD, typename Epilogue::Scalar&gt;</a> desc(</div><div class="line"><a name="l00488"></a><span class="lineno">  488</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>(k, n, m, 1),</div><div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;        alpha,</div><div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;        <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;ScalarA const, 2&gt;</a>(d_a, lda),</div><div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160;        <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;ScalarB const, 2&gt;</a>(d_b, ldb),</div><div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;        beta,</div><div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;        <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;ScalarC const, 2&gt;</a>(d_c, ldc),</div><div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;        <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;ScalarD, 2&gt;</a>(d_d, ldd)</div><div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;      );</div><div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;</div><div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;      <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">initialize</a>(desc);</div><div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160;    }</div><div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;</div><div class="line"><a name="l00501"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a95314e9a9279c4870f37f68a2357e064">  501</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a95314e9a9279c4870f37f68a2357e064">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> m,</div><div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> n,</div><div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> k,</div><div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;                                       <span class="keyword">typename</span> Epilogue::Scalar alpha,</div><div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a> <span class="keyword">const</span>* d_a,</div><div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> lda,</div><div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;                                       <span class="keywordtype">long</span> <span class="keywordtype">long</span> <span class="keywordtype">int</span> batch_stride_A,</div><div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a> <span class="keyword">const</span>* d_b,</div><div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldb,</div><div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;                                       <span class="keywordtype">long</span> <span class="keywordtype">long</span> <span class="keywordtype">int</span> batch_stride_B,</div><div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160;                                       <span class="keyword">typename</span> Epilogue::Scalar beta,</div><div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a> <span class="keyword">const</span>* d_c,</div><div class="line"><a name="l00513"></a><span class="lineno">  513</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldc,</div><div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160;                                       <span class="keywordtype">long</span> <span class="keywordtype">long</span> <span class="keywordtype">int</span> batch_stride_C,</div><div class="line"><a name="l00515"></a><span class="lineno">  515</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a>* d_d,</div><div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldd,</div><div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;                                       <span class="keywordtype">long</span> <span class="keywordtype">long</span> <span class="keywordtype">int</span> batch_stride_D,</div><div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> batch_count) {</div><div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;</div><div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc&lt;ScalarA, ScalarB, ScalarC, ScalarD, typename Epilogue::Scalar&gt;</a> desc(</div><div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>(k, n, m, batch_count),</div><div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;        alpha,</div><div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;        <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;ScalarA const, 2&gt;</a>(d_a, lda),</div><div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;        batch_stride_A,</div><div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;        <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;ScalarB const, 2&gt;</a>(d_b, ldb),</div><div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;        batch_stride_B,</div><div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;        beta,</div><div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;        <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;ScalarC const, 2&gt;</a>(d_c, ldc),</div><div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;        batch_stride_C,</div><div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;        <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;ScalarD, 2&gt;</a>(d_d, ldd),</div><div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;        batch_stride_D</div><div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;      );</div><div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;</div><div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;      <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">initialize</a>(desc);</div><div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;    }</div><div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;  };</div><div class="line"><a name="l00537"></a><span class="lineno">  537</span>&#160;</div><div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;  <span class="comment">// The storage for the main loop + prologue.</span></div><div class="line"><a name="l00539"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">  539</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">MainLoopSharedStorage</a> {</div><div class="line"><a name="l00541"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#af8f0050e818b788402526857afc7c919">  541</a></span>&#160;    <a class="code" href="structcutlass_1_1ZipTileAllocation.html">ThreadblockTileStorage</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#af8f0050e818b788402526857afc7c919">threadblock_tile</a>;</div><div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;</div><div class="line"><a name="l00544"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a61fcc63cb0df6754eef16f5cf138f3a2">  544</a></span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">GlobalLoadStream::SharedStorage</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a61fcc63cb0df6754eef16f5cf138f3a2">global_to_shared_stream</a>;</div><div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;</div><div class="line"><a name="l00547"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325">  547</a></span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">ClearAccumulators::SharedStorage</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325">clear</a>;</div><div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;  };</div><div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;</div><div class="line"><a name="l00551"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">  551</a></span>&#160;  <span class="keyword">union </span><a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">SharedStorage</a> {</div><div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160;    <span class="comment">// The storage for the main loop.</span></div><div class="line"><a name="l00553"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4">  553</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">MainLoopSharedStorage</a> <a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4">main_loop</a>;</div><div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;    <span class="comment">// The storage for the epilogue.</span></div><div class="line"><a name="l00555"></a><span class="lineno"><a class="line" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#afdca9ac1d28e17efaa394f5831a60c04">  555</a></span>&#160;    <span class="keyword">typename</span> Epilogue::SharedStorage <a class="code" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#afdca9ac1d28e17efaa394f5831a60c04">epilogue</a>;</div><div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;  };</div><div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;</div><div class="line"><a name="l00559"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">  559</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a>(<span class="keywordtype">bool</span> in_loop) {</div><div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160;    <span class="keywordflow">if</span> (SharedLoadStreamA::Iterator::kRequiresLoadFence ||</div><div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;        SharedLoadStreamB::Iterator::kRequiresLoadFence) {</div><div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;        __syncthreads();</div><div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;    }</div><div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;  }</div><div class="line"><a name="l00565"></a><span class="lineno">  565</span>&#160;</div><div class="line"><a name="l00567"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">  567</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a>(<span class="keywordtype">bool</span> in_loop) {</div><div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;      __syncthreads();</div><div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;  }</div><div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;};</div><div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;</div><div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;</div><div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmTileTraitsHelperA_, <span class="keyword">typename</span> GemmTileTraitsHelperB_, <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00575"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">  575</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a> {</div><div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperA_::GlobalTileTraits, Index_&gt;</a></div><div class="line"><a name="l00578"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">  578</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">GlobalLoadIteratorA</a>;</div><div class="line"><a name="l00580"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">  580</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename GlobalLoadIteratorA::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">GlobalTransformerA</a>;</div><div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA_::SharedStoreTileTraits,</div><div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperA_::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00584"></a><span class="lineno">  584</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00585"></a><span class="lineno">  585</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00586"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">  586</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">SharedStoreIteratorA</a>;</div><div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00589"></a><span class="lineno">  589</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">GlobalLoadIteratorA</a>,</div><div class="line"><a name="l00590"></a><span class="lineno">  590</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">SharedStoreIteratorA</a>,</div><div class="line"><a name="l00591"></a><span class="lineno">  591</span>&#160;                              <a class="code" href="structcutlass_1_1Copy.html">GlobalTransformerA</a>&gt;</div><div class="line"><a name="l00592"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a50121da13661e9fa50e5ea3a87c06266">  592</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a50121da13661e9fa50e5ea3a87c06266">GlobalLoadStreamA</a>;</div><div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;</div><div class="line"><a name="l00595"></a><span class="lineno">  595</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperB_::GlobalTileTraits, Index_&gt;</a></div><div class="line"><a name="l00596"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">  596</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">GlobalLoadIteratorB</a>;</div><div class="line"><a name="l00598"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">  598</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename GlobalLoadIteratorB::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">GlobalTransformerB</a>;</div><div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB_::SharedStoreTileTraits,</div><div class="line"><a name="l00601"></a><span class="lineno">  601</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperB_::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00602"></a><span class="lineno">  602</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00603"></a><span class="lineno">  603</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00604"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">  604</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">SharedStoreIteratorB</a>;</div><div class="line"><a name="l00606"></a><span class="lineno">  606</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00607"></a><span class="lineno">  607</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">GlobalLoadIteratorB</a>,</div><div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">SharedStoreIteratorB</a>,</div><div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;                              <a class="code" href="structcutlass_1_1Copy.html">GlobalTransformerB</a>&gt;</div><div class="line"><a name="l00610"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a2fcf34dcf8d89424aa15da709aed4a83">  610</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a2fcf34dcf8d89424aa15da709aed4a83">GlobalLoadStreamB</a>;</div><div class="line"><a name="l00611"></a><span class="lineno">  611</span>&#160;</div><div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA_::SharedLoadTileTraits,</div><div class="line"><a name="l00614"></a><span class="lineno">  614</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperA_::Scalar,</div><div class="line"><a name="l00615"></a><span class="lineno">  615</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00617"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557">  617</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557">SharedLoadIteratorA</a>;</div><div class="line"><a name="l00619"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8">  619</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorA&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8">SharedLoadStreamA</a>;</div><div class="line"><a name="l00621"></a><span class="lineno">  621</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB_::SharedLoadTileTraits,</div><div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperB_::Scalar,</div><div class="line"><a name="l00623"></a><span class="lineno">  623</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00625"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e">  625</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e">SharedLoadIteratorB</a>;</div><div class="line"><a name="l00627"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8">  627</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorB&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8">SharedLoadStreamB</a>;</div><div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;};</div><div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;</div><div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160;</div><div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;    <span class="keyword">typename</span> GemmConfig_,</div><div class="line"><a name="l00640"></a><span class="lineno">  640</span>&#160;    <span class="keyword">typename</span> Epilogue_,</div><div class="line"><a name="l00642"></a><span class="lineno">  642</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;    <span class="comment">// The configuration for the A matrix.</span></div><div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160;    <span class="keyword">typename</span> GemmTileTraitsHelperA_ = <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA&lt;kLayoutA_, GemmConfig_&gt;</a>,</div><div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;    <span class="comment">// The configuration for the B matrix.</span></div><div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;    <span class="keyword">typename</span> GemmTileTraitsHelperB_ = <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB&lt;kLayoutB_, GemmConfig_&gt;</a>,</div><div class="line"><a name="l00647"></a><span class="lineno">  647</span>&#160;    <span class="comment">// The helper class to create the streams and iterators.</span></div><div class="line"><a name="l00648"></a><span class="lineno">  648</span>&#160;    <span class="keyword">typename</span> Helper_ =</div><div class="line"><a name="l00649"></a><span class="lineno">  649</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper&lt;GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00650"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">  650</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt;</div><div class="line"><a name="l00651"></a><span class="lineno">  651</span>&#160;                                  <span class="comment">// The config.</span></div><div class="line"><a name="l00652"></a><span class="lineno">  652</span>&#160;                                  GemmConfig_,</div><div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;                                  <span class="comment">// The stream to load A from global memory to shared memory.</span></div><div class="line"><a name="l00654"></a><span class="lineno">  654</span>&#160;                                  typename Helper_::GlobalLoadStreamA,</div><div class="line"><a name="l00655"></a><span class="lineno">  655</span>&#160;                                  <span class="comment">// The stream to load B from global memory to shared memory.</span></div><div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;                                  typename Helper_::GlobalLoadStreamB,</div><div class="line"><a name="l00657"></a><span class="lineno">  657</span>&#160;                                  <span class="comment">// The stream to load A from shared memory.</span></div><div class="line"><a name="l00658"></a><span class="lineno">  658</span>&#160;                                  typename Helper_::SharedLoadStreamA,</div><div class="line"><a name="l00659"></a><span class="lineno">  659</span>&#160;                                  <span class="comment">// The stream to load B from shared memory.</span></div><div class="line"><a name="l00660"></a><span class="lineno">  660</span>&#160;                                  typename Helper_::SharedLoadStreamB,</div><div class="line"><a name="l00661"></a><span class="lineno">  661</span>&#160;                                  <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;                                  Epilogue_,</div><div class="line"><a name="l00663"></a><span class="lineno">  663</span>&#160;                                  <span class="comment">// The block swizzle to reorganize the grid.</span></div><div class="line"><a name="l00664"></a><span class="lineno">  664</span>&#160;                                  IdentityBlockSwizzle,</div><div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160;                                  <span class="comment">// The index.</span></div><div class="line"><a name="l00666"></a><span class="lineno">  666</span>&#160;                                  Index_,</div><div class="line"><a name="l00667"></a><span class="lineno">  667</span>&#160;                                  <span class="comment">// The tool used to clear accumulators.</span></div><div class="line"><a name="l00668"></a><span class="lineno">  668</span>&#160;                                  ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt; &gt; {</div><div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;};</div><div class="line"><a name="l00670"></a><span class="lineno">  670</span>&#160;</div><div class="line"><a name="l00672"></a><span class="lineno">  672</span>&#160;</div><div class="line"><a name="l00673"></a><span class="lineno">  673</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00674"></a><span class="lineno">  674</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage_html_afdca9ac1d28e17efaa394f5831a60c04"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#afdca9ac1d28e17efaa394f5831a60c04">cutlass::gemm::GemmTraits::SharedStorage::epilogue</a></div><div class="ttdeci">Epilogue::SharedStorage epilogue</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:555</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmDesc_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a></div><div class="ttdoc">GEMM problem description. </div><div class="ttdef"><b>Definition:</b> gemm_desc.h:50</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a9cd6c3fddfb4315eb52b672900462c47"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">cutlass::gemm::GemmTraits::GlobalLoadStreamA</a></div><div class="ttdeci">GlobalLoadStreamA_ GlobalLoadStreamA</div><div class="ttdoc">The stream to load A from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:370</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a4887b56a96694ce6350db77f78bb505f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">cutlass::gemm::GemmEpilogue::ScalarD</a></div><div class="ttdeci">GlobalStoreIteratorD::Scalar ScalarD</div><div class="ttdoc">The scalar for D. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:85</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a50121da13661e9fa50e5ea3a87c06266"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a50121da13661e9fa50e5ea3a87c06266">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamA</a></div><div class="ttdeci">GlobalLoadStream&lt; GemmOperand::kA, GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA &gt; GlobalLoadStreamA</div><div class="ttdoc">The stream to load A from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:592</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ae01371eb31b88fa83c4926564cecafdc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">cutlass::gemm::GemmTraits::SharedLoadStreamA</a></div><div class="ttdeci">SharedLoadStreamA_ SharedLoadStreamA</div><div class="ttdoc">The iterator for A to load from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:384</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_aa9937ec51d18aad02398d95095117978"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aa9937ec51d18aad02398d95095117978">cutlass::gemm::GemmTraits::Params::shared_stream_a</a></div><div class="ttdeci">SharedLoadStreamA::Params shared_stream_a</div><div class="ttdoc">The params for the A stream from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:489</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:129</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ac393b07e780629fc8254fc22cc6f815b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">cutlass::gemm::GemmTraits::GlobalLoadStreamB</a></div><div class="ttdeci">GlobalLoadStreamB_ GlobalLoadStreamB</div><div class="ttdoc">The stream to load B from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:442</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:128</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ac393b07e780629fc8254fc22cc6f815b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">cutlass::gemm::GemmTraits::GlobalLoadStreamB</a></div><div class="ttdeci">GlobalLoadStreamB_ GlobalLoadStreamB</div><div class="ttdoc">The stream to load B from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:377</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:80</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_a8851150a49e4a9c135279c8c9dfdc592"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8851150a49e4a9c135279c8c9dfdc592">cutlass::gemm::GemmTraits::SharedLoadStream::inc_stage</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_stage()</div><div class="ttdoc">Increment the stage. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:620</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a3a20852daeb46c625b2391d078b30d73"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorA</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperA_::SharedStoreTileTraits, typename GemmTileTraitsHelperA_::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorA</div><div class="ttdoc">The iterator to store A to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:665</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a86470d3a44e2b50ee31ec3c9f79927ef"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">cutlass::gemm::GemmConfig::kScalarsPerLdsB</a></div><div class="ttdeci">static int const kScalarsPerLdsB</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:116</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_acf461f0ba3067cc5d66a04f0a176308f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">cutlass::gemm::GemmConfig::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">The numnber of threads. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:103</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a3a20852daeb46c625b2391d078b30d73"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorA</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperA_::SharedStoreTileTraits, typename GemmTileTraitsHelperA_::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorA</div><div class="ttdoc">The iterator to store A to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:586</div></div>
 <div class="ttc" id="tile__iterator_8h_html"><div class="ttname"><a href="tile__iterator_8h.html">tile_iterator.h</a></div><div class="ttdoc">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a3129be75ee087603170f8367e10e070e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">cutlass::gemm::GemmTraits::ScalarD</a></div><div class="ttdeci">Epilogue::ScalarD ScalarD</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:471</div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage_html"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">cutlass::gemm::GemmTraits::SharedStorage</a></div><div class="ttdoc">The storage in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:543</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a12447ce4d11601a625662f9d177cc3d8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamB</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorB &gt; SharedLoadStreamB</div><div class="ttdoc">The stream to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:700</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_aae3a008b39f9678a03192f6ff54152d8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aae3a008b39f9678a03192f6ff54152d8">cutlass::gemm::GemmTraits::Params::k</a></div><div class="ttdeci">Index k</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:483</div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage_html"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmTraits::StreamSharedStorage</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:525</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a3129be75ee087603170f8367e10e070e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">cutlass::gemm::GemmTraits::ScalarD</a></div><div class="ttdeci">Epilogue::ScalarD ScalarD</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:394</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_ac4cd0b74130ffc09e4ccb7b0acba87f8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#ac4cd0b74130ffc09e4ccb7b0acba87f8">cutlass::gemm::GemmTraits::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Index m, Index n, Index k, typename Epilogue::Scalar alpha, ScalarA const *d_a, Index lda, ScalarB const *d_b, Index ldb, typename Epilogue::Scalar beta, ScalarC const *d_c, Index ldc, ScalarD *d_d, Index ldd)</div><div class="ttdoc">Helper to construct a GEMM params using a BLAS-like API. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:474</div></div>
+<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage_html"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">cutlass::gemm::GemmTraits::SharedStorage</a></div><div class="ttdoc">The storage in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:551</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a12447ce4d11601a625662f9d177cc3d8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamB</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorB &gt; SharedLoadStreamB</div><div class="ttdoc">The stream to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:627</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_a3147da380e4c1e465aba0b965ac87ab5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a3147da380e4c1e465aba0b965ac87ab5">cutlass::gemm::GemmTraits::SharedLoadStream::fetched_a</a></div><div class="ttdeci">SharedLoadStreamA::FetchedFragment fetched_a[2]</div><div class="ttdoc">The fragments to fetch A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:628</div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a8ae7db3f2f0c57779729d500386c004c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar</a></div><div class="ttdeci">GemmConfig_::ScalarB Scalar</div><div class="ttdoc">The input scalar. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:283</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_acbeea56f0ce95ddd632db3482c1021e5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreTileAbTraits&lt; MultiplyAddScalar, Shape&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH *GemmConfig_::InstructionShape::kD &gt;, typename GlobalTileTraits::Threads, GemmConfig_::kScalarsPerStsB &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to shared memory for B^T. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:383</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_acaeb27063a444e2a3b93f3cb70e3c290"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">cutlass::gemm::GemmTraits::SharedLoadStreamB</a></div><div class="ttdeci">SharedLoadStreamB_ SharedLoadStreamB</div><div class="ttdoc">The iterator for B to load from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:451</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a3633083f4f778215543e376c092745d7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">cutlass::gemm::GemmConfig::kScalarsPerStgD</a></div><div class="ttdeci">static int const kScalarsPerStgD</div><div class="ttdoc">The number of scalars per STS/LDS/STG for D. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:122</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_af25495bb0bb35bd64246d3a80fe4806f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#af25495bb0bb35bd64246d3a80fe4806f">cutlass::gemm::GemmTraits::SharedLoadStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy(int step)</div><div class="ttdoc">Trigger the copies from shared memory to registers. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:598</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a5fee0ed52326c0685e8d8295e40ce064"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kB, MatrixLayout::kColumnMajor, Scalar const, Shape&lt; 1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD &gt;, Shape&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgB &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for B^N. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:301</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">cutlass::gemm::GlobalLoadStreamPair::SharedStorage</a></div><div class="ttdoc">Defines a structure containing shared storage for each pair. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:91</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a2fcf34dcf8d89424aa15da709aed4a83"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a2fcf34dcf8d89424aa15da709aed4a83">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamB</a></div><div class="ttdeci">GlobalLoadStream&lt; GemmOperand::kB, GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB &gt; GlobalLoadStreamB</div><div class="ttdoc">The stream to load B from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:610</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a8ae7db3f2f0c57779729d500386c004c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar</a></div><div class="ttdeci">GemmConfig_::ScalarB Scalar</div><div class="ttdoc">The input scalar. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:201</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_acbeea56f0ce95ddd632db3482c1021e5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreTileAbTraits&lt; MultiplyAddScalar, Shape&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH *GemmConfig_::InstructionShape::kD &gt;, typename GlobalTileTraits::Threads, GemmConfig_::kScalarsPerStsB &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to shared memory for B^T. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:304</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></div><div class="ttdef"><b>Definition:</b> gemm_coord.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_aa6214a0ad09d155ed79feadc6647b989"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">cutlass::gemm::GemmTraits::This_</a></div><div class="ttdeci">GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt; This_</div><div class="ttdoc">This traits. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:359</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_acaeb27063a444e2a3b93f3cb70e3c290"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">cutlass::gemm::GemmTraits::SharedLoadStreamB</a></div><div class="ttdeci">SharedLoadStreamB_ SharedLoadStreamB</div><div class="ttdoc">The iterator for B to load from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:386</div></div>
+<div class="ttc" id="kernel__launch_8h_html"><div class="ttname"><a href="kernel__launch_8h.html">kernel_launch.h</a></div><div class="ttdoc">Defines structures and helpers to launch CUDA kernels within CUTLASS. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a367aa0bd4be33d90ffe752274c728ef8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">cutlass::gemm::GemmTraits::GlobalLoadStream</a></div><div class="ttdeci">GlobalLoadStreamPair&lt; GlobalLoadStreamA, GlobalLoadStreamB, GemmConfig::kResidueInProlog &gt; GlobalLoadStream</div><div class="ttdoc">Assemble the global load streams for A/B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:407</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a5fee0ed52326c0685e8d8295e40ce064"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kB, MatrixLayout::kColumnMajor, Scalar const, Shape&lt; 1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD &gt;, Shape&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgB &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for B^N. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:219</div></div>
 <div class="ttc" id="structcutlass_1_1Copy_html"><div class="ttname"><a href="structcutlass_1_1Copy.html">cutlass::Copy</a></div><div class="ttdef"><b>Definition:</b> convert.h:69</div></div>
-<div class="ttc" id="structcutlass_1_1Fragment_html"><div class="ttname"><a href="structcutlass_1_1Fragment.html">cutlass::Fragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:99</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_a8e68561561ac6b08efbfd116903198c8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8">cutlass::gemm::GemmTraits::SharedLoadStream::stream_a</a></div><div class="ttdeci">SharedLoadStreamA stream_a</div><div class="ttdoc">The stream for A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:626</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_aa5ebe3a857b55412a86ec65ad1c55dd8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamA</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorA &gt; SharedLoadStreamA</div><div class="ttdoc">The stream to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:692</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage_html_af8f0050e818b788402526857afc7c919"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#af8f0050e818b788402526857afc7c919">cutlass::gemm::GemmTraits::MainLoopSharedStorage::threadblock_tile</a></div><div class="ttdeci">ThreadblockTileStorage threadblock_tile</div><div class="ttdoc">Stores the threadblock tile. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:541</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_aa5ebe3a857b55412a86ec65ad1c55dd8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamA</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorA &gt; SharedLoadStreamA</div><div class="ttdoc">The stream to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:619</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">cutlass::gemm::GemmSharedStoreTileAbTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:38</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_ad8f262d7da093d07cdd5c6a4fd9aceea"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">cutlass::gemm::GemmConfig::ScalarC</a></div><div class="ttdeci">ScalarC_ ScalarC</div><div class="ttdoc">The scalar for C. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:86</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream_html_ae033f55779b45b4228f40a4d699062bb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ae033f55779b45b4228f40a4d699062bb">cutlass::gemm::GemmTraits::GlobalLoadStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy()</div><div class="ttdoc">Trigger the copies from shared memory to registers. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:566</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_af534fc5698513af3c6724b68ae03316d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileATraits&lt; MultiplyAddScalar const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsA, 0 &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for A^N. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:199</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a424f1ac14e1e7ad37428edd0cf13e7fe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">cutlass::gemm::GemmTraits::Epilogue</a></div><div class="ttdeci">Epilogue_ Epilogue</div><div class="ttdoc">The epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:468</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a96d64bdc48db4971798b620d6b49b3f6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">cutlass::gemm::GemmTraits::ScalarA</a></div><div class="ttdeci">GlobalLoadStreamA_::Scalar ScalarA</div><div class="ttdoc">The scalar for A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:439</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_adc95f4a8617cdf28e5b5d7d2d1aefec2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kA, MatrixLayout::kColumnMajor, Scalar const, Shape&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgA &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for A^N. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:165</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_abb6ba58a2f2d80db0b2c9c1d88454efd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">cutlass::gemm::GemmConfig::Warps</a></div><div class="ttdeci">ShapeDiv&lt; OutputTile, AccumulatorsPerWarp &gt;::Shape Warps</div><div class="ttdoc">The number of warps. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:102</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_af511f0ff83166b2a77d4cad4150c8e8f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar</a></div><div class="ttdeci">GemmConfig_::ScalarA Scalar</div><div class="ttdoc">The input scalar. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:147</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:198</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a438b80cd8d8df0e74014ae47a162f7ed"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">cutlass::gemm::GemmTraits::SharedStoreStorageB</a></div><div class="ttdeci">GlobalLoadStreamB::SharedStoreStorage SharedStoreStorageB</div><div class="ttdoc">The shared storage for B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:457</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:159</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a8f78d4a68817760099081523aa7fd443"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">cutlass::gemm::GemmTraits::ScalarC</a></div><div class="ttdeci">Epilogue::ScalarC ScalarC</div><div class="ttdoc">The scalars in the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:470</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_aad467ed9a680b4d77acecb096799cd89"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aad467ed9a680b4d77acecb096799cd89">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamB</a></div><div class="ttdeci">GlobalLoadStream&lt; GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB &gt; GlobalLoadStreamB</div><div class="ttdoc">The stream to load B from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:683</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_a1fdc6af44c14c88a94529d187fda176d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d">cutlass::gemm::GemmTraits::SharedLoadStream::stream_b</a></div><div class="ttdeci">SharedLoadStreamB stream_b</div><div class="ttdoc">The stream for B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:632</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html">cutlass::gemm::GemmTraits::SharedLoadStream</a></div><div class="ttdoc">Assemble the shared load stream for A/B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:590</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream_html_acc287ce5e2f3635d9d55d91914d2d04c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c">cutlass::gemm::GemmTraits::GlobalLoadStream::stream_b</a></div><div class="ttdeci">GlobalLoadStreamB stream_b</div><div class="ttdoc">The stream for B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:586</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_af810544e956b04830c5be7ce41d3b45c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">cutlass::gemm::GemmTraits::MultiplyAdd</a></div><div class="ttdeci">GemmConfig::MultiplyAdd MultiplyAdd</div><div class="ttdoc">The multiply-add functor. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:463</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a475463c1e3af71598e22da8956900ebe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">cutlass::gemm::GemmTraits::shared_load_fence</a></div><div class="ttdeci">static CUTLASS_DEVICE void shared_load_fence(bool in_loop)</div><div class="ttdoc">The memory fence for shared loads. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:640</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a4efe5d156abca056ef8b5334fb574dd5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">cutlass::gemm::GemmTraits::GemmConfig</a></div><div class="ttdeci">GemmConfig_ GemmConfig</div><div class="ttdoc">The configuration. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:430</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:161</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_a9369a5f819d2a42997491e0df96f47ef"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a9369a5f819d2a42997491e0df96f47ef">cutlass::gemm::GemmTraits::SharedLoadStream::transformed_b</a></div><div class="ttdeci">SharedLoadStreamB::TransformedFragment transformed_b[2]</div><div class="ttdoc">The fragments to transform B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:636</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:273</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream_html_a82a59524b5d3134eb609d280193a5c47"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47">cutlass::gemm::GemmTraits::GlobalLoadStream::stream_a</a></div><div class="ttdeci">GlobalLoadStreamA stream_a</div><div class="ttdoc">The stream for A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:584</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a1125408805bc697755f2b16594c6c8e1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileATraits&lt; MultiplyAddScalar const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsA, SharedStoreTileTraits::kSkew &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for A^T. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:267</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_af534fc5698513af3c6724b68ae03316d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileATraits&lt; MultiplyAddScalar const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsA, 0 &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for A^N. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:114</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a424f1ac14e1e7ad37428edd0cf13e7fe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">cutlass::gemm::GemmTraits::Epilogue</a></div><div class="ttdeci">Epilogue_ Epilogue</div><div class="ttdoc">The epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:391</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a96d64bdc48db4971798b620d6b49b3f6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">cutlass::gemm::GemmTraits::ScalarA</a></div><div class="ttdeci">GlobalLoadStreamA_::Scalar ScalarA</div><div class="ttdoc">The scalar for A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:374</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_adc95f4a8617cdf28e5b5d7d2d1aefec2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kA, MatrixLayout::kColumnMajor, Scalar const, Shape&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgA &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for A^N. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:80</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a8dba1bcd9ddab830bc121afc728296c3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3">cutlass::gemm::GemmTraits::Params::global_to_shared_stream</a></div><div class="ttdeci">GlobalLoadStream::Params global_to_shared_stream</div><div class="ttdoc">Parameters object for the global load stream. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:422</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_af511f0ff83166b2a77d4cad4150c8e8f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar</a></div><div class="ttdeci">GemmConfig_::ScalarA Scalar</div><div class="ttdoc">The input scalar. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:200</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:163</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a8f78d4a68817760099081523aa7fd443"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">cutlass::gemm::GemmTraits::ScalarC</a></div><div class="ttdeci">Epilogue::ScalarC ScalarC</div><div class="ttdoc">The scalars in the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:393</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_af810544e956b04830c5be7ce41d3b45c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">cutlass::gemm::GemmTraits::MultiplyAdd</a></div><div class="ttdeci">GemmConfig::MultiplyAdd MultiplyAdd</div><div class="ttdoc">The multiply-add functor. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:389</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a475463c1e3af71598e22da8956900ebe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">cutlass::gemm::GemmTraits::shared_load_fence</a></div><div class="ttdeci">static CUTLASS_DEVICE void shared_load_fence(bool in_loop)</div><div class="ttdoc">The memory fence for shared loads. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:559</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a4efe5d156abca056ef8b5334fb574dd5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">cutlass::gemm::GemmTraits::GemmConfig</a></div><div class="ttdeci">GemmConfig_ GemmConfig</div><div class="ttdoc">The configuration. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:365</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:191</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ClearAccumulators_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ClearAccumulators.html">cutlass::gemm::ClearAccumulators</a></div><div class="ttdef"><b>Definition:</b> clear_accumulators.h:38</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage_html_a0173fcc8856b17a52cc5eee845f101fa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a0173fcc8856b17a52cc5eee845f101fa">cutlass::gemm::GemmTraits::MainLoopSharedStorage::stream_b</a></div><div class="ttdeci">StreamSharedStorage&lt; GlobalLoadStreamB, SharedLoadStreamB &gt; stream_b</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:537</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:481</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a2e0a043c5d4d7959ec1a2214c3ac39ac"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">cutlass::gemm::GemmConfig::kScalarsPerLdgA</a></div><div class="ttdeci">static int const kScalarsPerLdgA</div><div class="ttdoc">The number of scalars per LDG/STS/LDS for A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:109</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_aa28f34fb0c4bf739246d92c2fef80e0b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#aa28f34fb0c4bf739246d92c2fef80e0b">cutlass::gemm::GemmTraits::SharedLoadStream::fragment_b</a></div><div class="ttdeci">CUTLASS_DEVICE SharedLoadStreamB::Fragment const  &amp; fragment_b(int step) const</div><div class="ttdoc">The fragment B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:615</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a437070ba4a214aee363315d6019e450c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerB</a></div><div class="ttdeci">Copy&lt; typename GlobalLoadIteratorB::Fragment &gt; GlobalTransformerB</div><div class="ttdoc">The data converter for B before storing to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:674</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a7639ccd7f6419a9f232db173a228e756"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar</a></div><div class="ttdeci">GemmConfig_::ScalarB Scalar</div><div class="ttdoc">The input scalar. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:351</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html">cutlass::MatrixLayout</a></div><div class="ttdoc">Describes layouts of matrices. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:35</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a362794738bc14b283a91558bcadbbfd5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorB</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; typename GemmTileTraitsHelperB_::GlobalTileTraits, Index_ &gt; GlobalLoadIteratorB</div><div class="ttdoc">The global iterator to load B from global memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:672</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:302</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">cutlass::gemm::GemmTraits::MainLoopSharedStorage</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:533</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream_html_a405b93680bb6e356369863244d0b56aa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a405b93680bb6e356369863244d0b56aa">cutlass::gemm::GemmTraits::GlobalLoadStream::residue</a></div><div class="ttdeci">CUTLASS_DEVICE void residue(Index k, bool skip_clear=false)</div><div class="ttdoc">Execute the residue code. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:578</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a2fadb0ad2e28109ccfa9195e817a4d54"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">cutlass::gemm::GemmConfig::Accumulators</a></div><div class="ttdeci">MultiplyAdd::Accumulators Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:99</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ae1cf7988c9cff79a2c3252aaf91fc165"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">cutlass::gemm::GemmTraits::ClearAccumulators</a></div><div class="ttdeci">ClearAccumulators_ ClearAccumulators</div><div class="ttdoc">Clear the accumulators. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:478</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:44</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a8160a260acce2362e90d43bce733c69d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kA, MatrixLayout::kRowMajor, Scalar const, Shape&lt; 1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD &gt;, Shape&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgA &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for A^T. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:228</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits::Params</a></div><div class="ttdoc">Parameters object constructable on the host. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:416</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a></div><div class="ttdoc">Collect the global load streams for multiplicands. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:173</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a437070ba4a214aee363315d6019e450c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerB</a></div><div class="ttdeci">Copy&lt; typename GlobalLoadIteratorB::Fragment &gt; GlobalTransformerB</div><div class="ttdoc">The data converter for B before storing to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:598</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a7639ccd7f6419a9f232db173a228e756"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar</a></div><div class="ttdeci">GemmConfig_::ScalarB Scalar</div><div class="ttdoc">The input scalar. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:272</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params_html_a12b5e3e21137480047b8b0f55cbf7258"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258">cutlass::gemm::GlobalLoadStreamPair::Params::stream_b</a></div><div class="ttdeci">StreamB::Params stream_b</div><div class="ttdoc">Parameters object for StreamB. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:67</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1Gemm_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a></div><div class="ttdef"><b>Definition:</b> gemm.h:92</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html">cutlass::MatrixLayout</a></div><div class="ttdoc">Defines data layouts of various matrix formats usable by TensorRef and other classes. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:156</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a362794738bc14b283a91558bcadbbfd5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorB</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; typename GemmTileTraitsHelperB_::GlobalTileTraits, Index_ &gt; GlobalLoadIteratorB</div><div class="ttdoc">The global iterator to load B from global memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:596</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a600746def904eeca46d7f92a4b223b46"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">cutlass::gemm::GemmConfig::kResidueInProlog</a></div><div class="ttdeci">static bool const kResidueInProlog</div><div class="ttdoc">If true, residue is computed in the prologue. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:136</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:399</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">cutlass::gemm::GemmTraits::MainLoopSharedStorage</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:539</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a></div><div class="ttdoc">Collect the global load streams for multiplicands. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:50</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_aedb95febe4a0b2943e233c95c36a22cd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">cutlass::gemm::GemmConfig::MultiplyAdd</a></div><div class="ttdeci">MultiplyAdd_ MultiplyAdd</div><div class="ttdoc">The functor to do D = A*B + C. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="tile__allocation_8h_html"><div class="ttname"><a href="tile__allocation_8h.html">tile_allocation.h</a></div><div class="ttdoc">Defines a fragment based on a Shape&lt;&gt; template. </div></div>
+<div class="ttc" id="structcutlass_1_1KernelLaunchConfiguration_html"><div class="ttname"><a href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></div><div class="ttdoc">Structure containing the basic launch configuration of a CUDA kernel. </div><div class="ttdef"><b>Definition:</b> kernel_launch.h:38</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ae1cf7988c9cff79a2c3252aaf91fc165"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">cutlass::gemm::GemmTraits::ClearAccumulators</a></div><div class="ttdeci">ClearAccumulators_ ClearAccumulators</div><div class="ttdoc">Clear the accumulators. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:401</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:45</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a8160a260acce2362e90d43bce733c69d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kA, MatrixLayout::kRowMajor, Scalar const, Shape&lt; 1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD &gt;, Shape&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgA &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for A^T. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:143</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">cutlass::gemm::GlobalLoadStreamPair::Params</a></div><div class="ttdoc">Parameters object. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:62</div></div>
 <div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
 <div class="ttc" id="gemm__operand_8h_html"><div class="ttname"><a href="gemm__operand_8h.html">gemm_operand.h</a></div><div class="ttdoc">Defines constant expressions for mapping GEMM problem size and strides onto pitch-linear memory...</div></div>
-<div class="ttc" id="structcutlass_1_1ShapeDiv_html_a108ded386ef6708afc6fe769a77a234b"><div class="ttname"><a href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">cutlass::ShapeDiv::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD/B_::kD, A_::kH/B_::kH, A_::kW/B_::kW, A_::kC/B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:126</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_ac0c8c027e3ede14b62d7c7d519551f21"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">cutlass::gemm::GemmConfig::kScalarsPerStsB</a></div><div class="ttdeci">static int const kScalarsPerStsB</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:115</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_af2233a6ebf39788e27f051f8c614ab90"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90">cutlass::gemm::GemmTraits::Params::problem_size</a></div><div class="ttdeci">GemmCoord problem_size</div><div class="ttdoc">GEMM problem size. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:419</div></div>
+<div class="ttc" id="gemm__desc_8h_html"><div class="ttname"><a href="gemm__desc_8h.html">gemm_desc.h</a></div><div class="ttdoc">Implements a software-pipelined efficient GEMM. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a95314e9a9279c4870f37f68a2357e064"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a95314e9a9279c4870f37f68a2357e064">cutlass::gemm::GemmTraits::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Index m, Index n, Index k, typename Epilogue::Scalar alpha, ScalarA const *d_a, Index lda, long long int batch_stride_A, ScalarB const *d_b, Index ldb, long long int batch_stride_B, typename Epilogue::Scalar beta, ScalarC const *d_c, Index ldc, long long int batch_stride_C, ScalarD *d_d, Index ldd, long long int batch_stride_D, Index batch_count)</div><div class="ttdoc">Helper to construct a batched GEMM params. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:501</div></div>
 <div class="ttc" id="clear__accumulators_8h_html"><div class="ttname"><a href="clear__accumulators_8h.html">clear_accumulators.h</a></div><div class="ttdoc">Defines abstractions for efficiently clearing accumulator tiles. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:79</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html">cutlass::gemm::GemmTraits::GlobalLoadStream</a></div><div class="ttdoc">Assemble the global load streams for A/B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:551</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a3087cdd38e2c65ad0dffdd0587d2cce0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">cutlass::gemm::GemmConfig::kScalarsPerStsD</a></div><div class="ttdeci">static int const kScalarsPerStsD</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:123</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ac3c840a3d90c0da43301761af83c2c9f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">cutlass::gemm::GemmTraits::shared_store_fence</a></div><div class="ttdeci">static CUTLASS_DEVICE void shared_store_fence(bool in_loop)</div><div class="ttdoc">The memory fence for shared stores. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:648</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_ac618881d66790e4c280dc5692e5ddf95"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar</a></div><div class="ttdeci">GemmConfig_::ScalarA Scalar</div><div class="ttdoc">The input scalar. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:210</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:137</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a40023f0ffdd8bee4ccbcaac28222e983"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">cutlass::gemm::GemmTraits::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const &amp;desc)</div><div class="ttdoc">Initialize the parameters. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:497</div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage_html_a3c2980547310ec4307f3a5f9817dfc51"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#a3c2980547310ec4307f3a5f9817dfc51">cutlass::gemm::GemmTraits::StreamSharedStorage::global</a></div><div class="ttdeci">GlobalLoadStream_::SharedStorage global</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:527</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IdentityBlockSwizzle_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></div><div class="ttdef"><b>Definition:</b> identity_block_swizzle.h:37</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_aaa198fed841af6bf26bf2e9544d0a877"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreTileAbTraits&lt; MultiplyAddScalar, Shape&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW *GemmConfig_::InstructionShape::kD &gt;, typename GlobalTileTraits::Threads, GemmConfig_::kScalarsPerStsA &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to shared memory for A^N. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:179</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_aa13d6f5e5ad907ef09c88ae49e6e8e9b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">cutlass::gemm::GemmConfig::ScalarB</a></div><div class="ttdeci">ScalarB_ ScalarB</div><div class="ttdoc">The scalar for B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:84</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_aad14588b1515e37ede24915f589d32ab"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar</a></div><div class="ttdeci">GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar</div><div class="ttdoc">The scalar stored in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:353</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a42dd312d4cf5bb53b472389897f9deeb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar</a></div><div class="ttdeci">GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar</div><div class="ttdoc">The scalar stored in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:285</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_aa0e8fd28f5247764dfb7843f7670c698"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">cutlass::gemm::GemmTraits::ScalarB</a></div><div class="ttdeci">GlobalLoadStreamB_::Scalar ScalarB</div><div class="ttdoc">The scalar for B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:446</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html"><div class="ttname"><a href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a></div><div class="ttdef"><b>Definition:</b> tensor_ref.h:131</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a7864969e774c0f7155951e1ab599ed17"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">cutlass::gemm::GemmTraits::SharedStream</a></div><div class="ttdeci">SharedStreamPair&lt; SharedLoadStreamA, SharedLoadStreamB &gt; SharedStream</div><div class="ttdoc">Assemble the shared load streams for A/B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:413</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ac3c840a3d90c0da43301761af83c2c9f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">cutlass::gemm::GemmTraits::shared_store_fence</a></div><div class="ttdeci">static CUTLASS_DEVICE void shared_store_fence(bool in_loop)</div><div class="ttdoc">The memory fence for shared stores. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:567</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_ac618881d66790e4c280dc5692e5ddf95"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar</a></div><div class="ttdeci">GemmConfig_::ScalarA Scalar</div><div class="ttdoc">The input scalar. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:125</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a></div><div class="ttdoc">Manages a pair of tile allocations as if they are one allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:100</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a40023f0ffdd8bee4ccbcaac28222e983"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">cutlass::gemm::GemmTraits::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const &amp;desc)</div><div class="ttdoc">Initialize the parameters. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:432</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IdentityBlockSwizzle_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_aaa198fed841af6bf26bf2e9544d0a877"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreTileAbTraits&lt; MultiplyAddScalar, Shape&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW *GemmConfig_::InstructionShape::kD &gt;, typename GlobalTileTraits::Threads, GemmConfig_::kScalarsPerStsA &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to shared memory for A^N. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_aad14588b1515e37ede24915f589d32ab"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar</a></div><div class="ttdeci">GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar</div><div class="ttdoc">The scalar stored in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:274</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a42dd312d4cf5bb53b472389897f9deeb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar</a></div><div class="ttdeci">GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar</div><div class="ttdoc">The scalar stored in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:203</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_aa0e8fd28f5247764dfb7843f7670c698"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">cutlass::gemm::GemmTraits::ScalarB</a></div><div class="ttdeci">GlobalLoadStreamB_::Scalar ScalarB</div><div class="ttdoc">The scalar for B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:381</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a8d49ad32fc9d8c14f6141690962c3f9c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">cutlass::gemm::GemmTraits::SharedStoreStorageA</a></div><div class="ttdeci">GlobalLoadStreamA::SharedStoreStorage SharedStoreStorageA</div><div class="ttdoc">The shared storage for A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:454</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a448c242880183e006b70d839d210a2ec"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a448c242880183e006b70d839d210a2ec">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamA</a></div><div class="ttdeci">GlobalLoadStream&lt; GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA &gt; GlobalLoadStreamA</div><div class="ttdoc">The stream to load A from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:668</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:428</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a51d583dfcd645ad0ecfc23b87b3c5108"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">cutlass::gemm::GemmConfig::AccumulatorsPerWarp</a></div><div class="ttdeci">MultiplyAdd::AccumulatorsPerWarp AccumulatorsPerWarp</div><div class="ttdoc">The number of accumulators per warp. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:97</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_a883b28ca237b1ec076856232cfee0c6f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a883b28ca237b1ec076856232cfee0c6f">cutlass::gemm::GemmTraits::SharedLoadStream::transformed_a</a></div><div class="ttdeci">SharedLoadStreamA::TransformedFragment transformed_a[2]</div><div class="ttdoc">The fragments to transform A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:630</div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage_html_afabd328b106d45b156200f73942d211e"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#afabd328b106d45b156200f73942d211e">cutlass::gemm::GemmTraits::StreamSharedStorage::shared</a></div><div class="ttdeci">SharedLoadStream_::SharedStorage shared</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:529</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a46affe35cb16874de5a2b9777aedf596"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a46affe35cb16874de5a2b9777aedf596">cutlass::gemm::GemmTraits::Params::global_stream_b</a></div><div class="ttdeci">GlobalLoadStreamB::Params global_stream_b</div><div class="ttdoc">The params for the B stream. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:487</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_a837fbec1d47ae45480941de6290889c0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a837fbec1d47ae45480941de6290889c0">cutlass::gemm::GemmTraits::SharedLoadStream::fetched_b</a></div><div class="ttdeci">SharedLoadStreamB::FetchedFragment fetched_b[2]</div><div class="ttdoc">The fragments to fetch B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:634</div></div>
+<div class="ttc" id="gemm__config_8h_html"><div class="ttname"><a href="gemm__config_8h.html">gemm_config.h</a></div><div class="ttdoc">Defines properties of GEMM computation that impose some constraints on caller. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:349</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_aad47c635a73e83bd4b19494864832d31"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">cutlass::gemm::GemmConfig::kScalarsPerLdgC</a></div><div class="ttdeci">static int const kScalarsPerLdgC</div><div class="ttdoc">The number of scalars per LDG for C. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:119</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a188ef7f4c49ff2830753218343a1b8f8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">cutlass::gemm::GemmConfig::ScalarD</a></div><div class="ttdeci">ScalarD_ ScalarD</div><div class="ttdoc">The scalar for D. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:88</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a0b2be601de08848afc4418adb97255bf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">cutlass::gemm::GemmConfig::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">The numnber of threads. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:106</div></div>
-<div class="ttc" id="identity__block__swizzle_8h_html"><div class="ttname"><a href="identity__block__swizzle_8h.html">identity_block_swizzle.h</a></div><div class="ttdoc">Defies functors for mapping blockIdx to partitions of the GEMM computation. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_aaf27c0f2f4ab730ed5c865e9f7d2373b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aaf27c0f2f4ab730ed5c865e9f7d2373b">cutlass::gemm::GemmTraits::Params::m</a></div><div class="ttdeci">Index m</div><div class="ttdoc">The dimensions of the GEMM. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:483</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a50672b5fa67d858aeff8f254cf28e941"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">cutlass::gemm::GemmTraits::BlockSwizzle</a></div><div class="ttdeci">BlockSwizzle_ BlockSwizzle</div><div class="ttdoc">The block swizzle to reorganize the grid. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:474</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a365aed4c0e2ad1bffea517ee36998557"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorA</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperA_::SharedLoadTileTraits, typename GemmTileTraitsHelperA_::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorA</div><div class="ttdoc">The iterator to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:690</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a4de905aadc734df69fd0db83f01be56e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorB</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperB_::SharedLoadTileTraits, typename GemmTileTraitsHelperB_::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorB</div><div class="ttdoc">The iterator to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:698</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_a49315aea1c54d84ff19b0ac215128b95"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a49315aea1c54d84ff19b0ac215128b95">cutlass::gemm::GemmTraits::SharedLoadStream::SharedLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE SharedLoadStream(Params const &amp;params, SharedStorage &amp;shared_storage)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:592</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream_html_ab2961b4db0694cf128d55d38a98db575"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ab2961b4db0694cf128d55d38a98db575">cutlass::gemm::GemmTraits::GlobalLoadStream::GlobalLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE GlobalLoadStream(Params const &amp;params, SharedStorage &amp;shared_storage, dim3 const &amp;block)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:553</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_abb0741601652df8fdf927d49c2c0e4d0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">cutlass::gemm::GemmEpilogue::ScalarC</a></div><div class="ttdeci">GlobalLoadIteratorC::Scalar ScalarC</div><div class="ttdoc">The scalar for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:96</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ae67227cecbe84f5c8497d9a7ff82b367"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">cutlass::gemm::GemmTraits::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:476</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a19fb8c9b9a77aebec507635de7da6f21"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar</a></div><div class="ttdeci">GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar</div><div class="ttdoc">The scalar stored in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:149</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a43713f534798b1e27c4ba38b72e63c08"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorB</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperB_::SharedStoreTileTraits, typename GemmTileTraitsHelperB_::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorB</div><div class="ttdoc">The iterator to store B to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:680</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a073430a1e8b124aec8a1f1e00f262bc8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8">cutlass::gemm::GemmTraits::Params::epilogue</a></div><div class="ttdeci">Epilogue::Params epilogue</div><div class="ttdoc">The params for the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:493</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a575bcff901d69ae3f46987222f23ab64"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a575bcff901d69ae3f46987222f23ab64">cutlass::gemm::GemmTraits::Params::global_stream_a</a></div><div class="ttdeci">GlobalLoadStreamA::Params global_stream_a</div><div class="ttdoc">The params for the A stream. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:485</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a28c32832f0353f00e93e867373cf6cae"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">cutlass::gemm::GemmTraits::KernelClass</a></div><div class="ttdeci">cutlass::gemm::Gemm&lt; This_ &gt; KernelClass</div><div class="ttdoc">The struct that consumes this Traits. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:362</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a50e9cc382a32abd5beab299a79b30b27"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a50e9cc382a32abd5beab299a79b30b27">cutlass::gemm::GemmTraits::Params::shared_stream</a></div><div class="ttdeci">SharedStream::Params shared_stream</div><div class="ttdoc">Parameters object for the shared load stream. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:425</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aae7128f5522383c857d2639031b64c30"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; VectorizedTile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a50672b5fa67d858aeff8f254cf28e941"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">cutlass::gemm::GemmTraits::BlockSwizzle</a></div><div class="ttdeci">BlockSwizzle_ BlockSwizzle</div><div class="ttdoc">The block swizzle to reorganize the grid. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:397</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a365aed4c0e2ad1bffea517ee36998557"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorA</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperA_::SharedLoadTileTraits, typename GemmTileTraitsHelperA_::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorA</div><div class="ttdoc">The iterator to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:617</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a4de905aadc734df69fd0db83f01be56e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorB</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperB_::SharedLoadTileTraits, typename GemmTileTraitsHelperB_::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorB</div><div class="ttdoc">The iterator to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:625</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_abfecd4a57dfbf82e8fa74a50e01fc4ee"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">cutlass::gemm::GemmTraits::ThreadblockTileStorage</a></div><div class="ttdeci">GlobalLoadStream::ThreadblockTileStorage ThreadblockTileStorage</div><div class="ttdoc">Memory needed to store the threadblock-scoped GEMM tile. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:410</div></div>
+<div class="ttc" id="structcutlass_1_1KernelLaunchConfiguration_html_a09535026bf08f94c6940c358d95d1edd"><div class="ttname"><a href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">cutlass::KernelLaunchConfiguration::block</a></div><div class="ttdeci">dim3 block</div><div class="ttdoc">CUDA threablock dimensions. </div><div class="ttdef"><b>Definition:</b> kernel_launch.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_abb0741601652df8fdf927d49c2c0e4d0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">cutlass::gemm::GemmEpilogue::ScalarC</a></div><div class="ttdeci">GlobalLoadIteratorC::Scalar ScalarC</div><div class="ttdoc">The scalar for C. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:83</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ae67227cecbe84f5c8497d9a7ff82b367"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">cutlass::gemm::GemmTraits::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:399</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a19fb8c9b9a77aebec507635de7da6f21"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar</a></div><div class="ttdeci">GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar</div><div class="ttdoc">The scalar stored in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:64</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a43713f534798b1e27c4ba38b72e63c08"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorB</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperB_::SharedStoreTileTraits, typename GemmTileTraitsHelperB_::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorB</div><div class="ttdoc">The iterator to store B to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:604</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a073430a1e8b124aec8a1f1e00f262bc8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8">cutlass::gemm::GemmTraits::Params::epilogue</a></div><div class="ttdeci">Epilogue::Params epilogue</div><div class="ttdoc">The params for the epilogue. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:428</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="gemm__stream__pair_8h_html"><div class="ttname"><a href="gemm__stream__pair_8h.html">gemm_stream_pair.h</a></div><div class="ttdoc">Defines a pair of GEMM tile streams. </div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">cutlass::gemm::ClearAccumulators::SharedStorage</a></div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> clear_accumulators.h:40</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_ade2d85507dec77591e66276339a1eef5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#ade2d85507dec77591e66276339a1eef5">cutlass::gemm::GemmTraits::SharedLoadStream::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit(int step)</div><div class="ttdoc">Commit the data. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:604</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_adaf2ee5b8e6f7bdb9939cd45a186ca56"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">cutlass::gemm::GemmConfig::kScalarsPerLdsD</a></div><div class="ttdeci">static int const kScalarsPerLdsD</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:124</div></div>
 <div class="ttc" id="gemm__global__stream_8h_html"><div class="ttname"><a href="gemm__global__stream_8h.html">gemm_global_stream.h</a></div><div class="ttdoc">Implements efficient loading of the thread block-level tile from global memory and storing to shared ...</div></div>
-<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage_html_aa5dd7edc3cffa785eb1e5b62c18c74c4"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4">cutlass::gemm::GemmTraits::SharedStorage::main_loop</a></div><div class="ttdeci">MainLoopSharedStorage main_loop</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:545</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ac5bb5931a707ed7672f69267753ba41b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">cutlass::gemm::GemmTraits::kLayoutA</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayoutA</div><div class="ttdoc">The layout of A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:437</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a53450f4d7444d6a4c0d2353496c0a4fd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">cutlass::gemm::GemmConfig::OutputTile</a></div><div class="ttdeci">OutputTile_ OutputTile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:91</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a849b21fed39aaac1cdd546334739be97"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">cutlass::gemm::GemmConfig::kScalarsPerLdgB</a></div><div class="ttdeci">static int const kScalarsPerLdgB</div><div class="ttdoc">The number of scalars per LDG/STS/LDS for B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:114</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:654</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a29bd05960cc541bb67098f5483c84cf6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; Tile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:87</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a5687850f235d644a4820851880740d27"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorA</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; typename GemmTileTraitsHelperA_::GlobalTileTraits, Index_ &gt; GlobalLoadIteratorA</div><div class="ttdoc">The global iterator to load A from global memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:657</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a97d7ee63e5d180410b370f095648f367"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">cutlass::gemm::GemmTraits::OutputTile</a></div><div class="ttdeci">GemmConfig::OutputTile OutputTile</div><div class="ttdoc">The output tile. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:432</div></div>
+<div class="ttc" id="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage_html_aa5dd7edc3cffa785eb1e5b62c18c74c4"><div class="ttname"><a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4">cutlass::gemm::GemmTraits::SharedStorage::main_loop</a></div><div class="ttdeci">MainLoopSharedStorage main_loop</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:553</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_ac5bb5931a707ed7672f69267753ba41b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">cutlass::gemm::GemmTraits::kLayoutA</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayoutA</div><div class="ttdoc">The layout of A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:372</div></div>
+<div class="ttc" id="structcutlass_1_1KernelLaunchConfiguration_html_ab86ba1464dd9c6cd15ae0de4a552201b"><div class="ttname"><a href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">cutlass::KernelLaunchConfiguration::grid</a></div><div class="ttdeci">dim3 grid</div><div class="ttdoc">CUDA grid dimensions. </div><div class="ttdef"><b>Definition:</b> kernel_launch.h:41</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage_html_a61fcc63cb0df6754eef16f5cf138f3a2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a61fcc63cb0df6754eef16f5cf138f3a2">cutlass::gemm::GemmTraits::MainLoopSharedStorage::global_to_shared_stream</a></div><div class="ttdeci">GlobalLoadStream::SharedStorage global_to_shared_stream</div><div class="ttdoc">Storage for GEMM global stream. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:544</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">cutlass::gemm::SharedStreamPair::Params</a></div><div class="ttdoc">Parameters object passed to load iterators. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:185</div></div>
+<div class="ttc" id="threadblock__swizzle_8h_html"><div class="ttname"><a href="threadblock__swizzle_8h.html">threadblock_swizzle.h</a></div><div class="ttdoc">Defies functors for mapping blockIdx to partitions of the GEMM computation. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:575</div></div>
+<div class="ttc" id="gemm_8h_html"><div class="ttname"><a href="gemm_8h.html">gemm.h</a></div><div class="ttdoc">Implements a software-pipelined efficient GEMM. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_a5687850f235d644a4820851880740d27"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorA</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; typename GemmTileTraitsHelperA_::GlobalTileTraits, Index_ &gt; GlobalLoadIteratorA</div><div class="ttdoc">The global iterator to load A from global memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:578</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a97d7ee63e5d180410b370f095648f367"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">cutlass::gemm::GemmTraits::OutputTile</a></div><div class="ttdeci">GemmConfig::OutputTile OutputTile</div><div class="ttdoc">The output tile. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:367</div></div>
 <div class="ttc" id="matrix__traits_8h_html"><div class="ttname"><a href="matrix__traits_8h.html">matrix_traits.h</a></div><div class="ttdoc">Defines properties of matrices used to denote layout and operands to GEMM kernels. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_af9a98d39d6959a9641f7c3c90df2f98e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerA</a></div><div class="ttdeci">Copy&lt; typename GlobalLoadIteratorA::Fragment &gt; GlobalTransformerA</div><div class="ttdoc">The data converter for A before storing to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:659</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream_html_a6dc512be014b9d849057e2fd4c0b0485"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a6dc512be014b9d849057e2fd4c0b0485">cutlass::gemm::GemmTraits::GlobalLoadStream::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit()</div><div class="ttdoc">Commit the data. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:572</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a9335aca8b152ff1167763de8ff8fb882"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileBTraits&lt; MultiplyAddScalar const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsB, 0 &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for B^T. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:403</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage_html_a5513254af1f9979b6d0b9f236c3e7325"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325">cutlass::gemm::GemmTraits::MainLoopSharedStorage::clear</a></div><div class="ttdeci">ClearAccumulators::SharedStorage clear</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:539</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage_html_a62d3dcf5d97a0a896b2033e55dfb0811"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a62d3dcf5d97a0a896b2033e55dfb0811">cutlass::gemm::GemmTraits::MainLoopSharedStorage::stream_a</a></div><div class="ttdeci">StreamSharedStorage&lt; GlobalLoadStreamA, SharedLoadStreamA &gt; stream_a</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:535</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_afbc41e7b98097b153fd27a48f073a877"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kB, MatrixLayout::kRowMajor, Scalar const, Shape&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgB &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for B^T. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:369</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper_html_af9a98d39d6959a9641f7c3c90df2f98e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerA</a></div><div class="ttdeci">Copy&lt; typename GlobalLoadIteratorA::Fragment &gt; GlobalTransformerA</div><div class="ttdoc">The data converter for A before storing to shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:580</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a9335aca8b152ff1167763de8ff8fb882"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileBTraits&lt; MultiplyAddScalar const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsB, 0 &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for B^T. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:324</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage_html_a5513254af1f9979b6d0b9f236c3e7325"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325">cutlass::gemm::GemmTraits::MainLoopSharedStorage::clear</a></div><div class="ttdeci">ClearAccumulators::SharedStorage clear</div><div class="ttdoc">Storage for clearing accumulators. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:547</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params_html_a235c77b257b93dace812d2f7b9340705"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705">cutlass::gemm::GlobalLoadStreamPair::Params::stream_a</a></div><div class="ttdeci">StreamA::Params stream_a</div><div class="ttdoc">Parameters object for StreamA. </div><div class="ttdef"><b>Definition:</b> gemm_stream_pair.h:64</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_afbc41e7b98097b153fd27a48f073a877"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kB, MatrixLayout::kRowMajor, Scalar const, Shape&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgB &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for B^T. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:290</div></div>
 <div class="ttc" id="gemm__shared__stream_8h_html"><div class="ttname"><a href="gemm__shared__stream_8h.html">gemm_shared_stream.h</a></div><div class="ttdoc">Defines abstractions for managing loading and storing fragments to shared memory in the efficient GEM...</div></div>
-<div class="ttc" id="structcutlass_1_1ShapeCount_html"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html">cutlass::ShapeCount</a></div><div class="ttdoc">Compute derived counted of a Layout Concept based class. </div><div class="ttdef"><b>Definition:</b> shape.h:79</div></div>
 <div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1Params_html_a78f22007632937bbd5f3dab7b097477d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a78f22007632937bbd5f3dab7b097477d">cutlass::gemm::GemmTraits::Params::shared_stream_b</a></div><div class="ttdeci">SharedLoadStreamB::Params shared_stream_b</div><div class="ttdoc">The params for the B stream from shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:491</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">cutlass::gemm::SimplifiedGemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:723</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream_html_a4a8c64d85aa012e3689dd024c486924b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a4a8c64d85aa012e3689dd024c486924b">cutlass::gemm::GemmTraits::SharedLoadStream::fragment_a</a></div><div class="ttdeci">CUTLASS_DEVICE SharedLoadStreamA::Fragment const  &amp; fragment_a(int step) const</div><div class="ttdoc">The fragment A. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:610</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a078e8d9cfa1b182e1b96a2cc8c54b684"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">cutlass::gemm::GemmTraits::kLayoutB</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayoutB</div><div class="ttdoc">The layout of B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:444</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a9dd092bca2f1f2c039f367b23bafa9c1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">cutlass::gemm::GemmConfig::kAccumulatorsPerLdsB</a></div><div class="ttdeci">static int const kAccumulatorsPerLdsB</div><div class="ttdef"><b>Definition:</b> gemm_traits.h:128</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a221949c289057e39d439ce03a5b01c52"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">cutlass::gemm::GemmConfig::kStages</a></div><div class="ttdeci">static int const kStages</div><div class="ttdoc">The number of stages in shared memory to implement double, triple, more-buffering. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:131</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:620</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_aa83190df3c1639b6dd632cd4b9278d77"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerWarp</a></div><div class="ttdeci">ShapeMul&lt; AccumulatorsPerThread, ThreadsPerWarp &gt;::Shape AccumulatorsPerWarp</div><div class="ttdoc">The number of accumulators per warp. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:51</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_afac6f7a62b24396ea6861e6fd10779cc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar</a></div><div class="ttdeci">GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar</div><div class="ttdoc">The scalar stored in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:212</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">cutlass::gemm::SimplifiedGemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:650</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a9dd9c3efc3dfd9b5c6acd12236697399"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">cutlass::gemm::GemmConfig::OutputTile</a></div><div class="ttdeci">OutputTile_ OutputTile</div><div class="ttdoc">The tile. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html_a078e8d9cfa1b182e1b96a2cc8c54b684"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">cutlass::gemm::GemmTraits::kLayoutB</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayoutB</div><div class="ttdoc">The layout of B. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:379</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:836</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_afac6f7a62b24396ea6861e6fd10779cc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar</a></div><div class="ttdeci">GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar</div><div class="ttdoc">The scalar stored in shared memory. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:127</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/globals.html b/docs/globals.html
index ddd387b2f8..9cc3adf29c 100644
--- a/docs/globals.html
+++ b/docs/globals.html
@@ -102,6 +102,9 @@
 <li>CUTLASS_ASSERT
 : <a class="el" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">cutlass.h</a>
 </li>
+<li>CUTLASS_GEMM_LOOP
+: <a class="el" href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">cutlass.h</a>
+</li>
 <li>CUTLASS_HOST_DEVICE
 : <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">cutlass.h</a>
 </li>
@@ -123,15 +126,15 @@
 <li>CUTLASS_VERSION
 : <a class="el" href="cutlass_8h.html#aa3040eddf073214969f9445bfa925039">cutlass.h</a>
 </li>
+<li>DebugTypeFunc()
+: <a class="el" href="cutlass_8h.html#ab7e23b523490567225b20e2c72649f20">cutlass.h</a>
+</li>
 <li>noexcept
 : <a class="el" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">platform.h</a>
 </li>
 <li>nullptr
 : <a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">platform.h</a>
 </li>
-<li>operator&lt;&lt;()
-: <a class="el" href="core__io_8h.html#a4a0d84a2a19a11549b87a2328d58690d">core_io.h</a>
-</li>
 <li>static_assert
 : <a class="el" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">platform.h</a>
 </li>
@@ -139,7 +142,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/globals_defs.html b/docs/globals_defs.html
index d1df12cbe1..3830214016 100644
--- a/docs/globals_defs.html
+++ b/docs/globals_defs.html
@@ -102,6 +102,9 @@
 <li>CUTLASS_ASSERT
 : <a class="el" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">cutlass.h</a>
 </li>
+<li>CUTLASS_GEMM_LOOP
+: <a class="el" href="cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71">cutlass.h</a>
+</li>
 <li>CUTLASS_HOST_DEVICE
 : <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">cutlass.h</a>
 </li>
@@ -136,7 +139,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/globals_func.html b/docs/globals_func.html
index 6f910b764b..5a28243955 100644
--- a/docs/globals_func.html
+++ b/docs/globals_func.html
@@ -69,14 +69,14 @@
 
 <div class="contents">
 &#160;<ul>
-<li>operator&lt;&lt;()
-: <a class="el" href="core__io_8h.html#a4a0d84a2a19a11549b87a2328d58690d">core_io.h</a>
+<li>DebugTypeFunc()
+: <a class="el" href="cutlass_8h.html#ab7e23b523490567225b20e2c72649f20">cutlass.h</a>
 </li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/group__IdentityBlockSwizzle.html b/docs/group__IdentityBlockSwizzle.html
new file mode 100644
index 0000000000..e201fdccdc
--- /dev/null
+++ b/docs/group__IdentityBlockSwizzle.html
@@ -0,0 +1,84 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Identity Block Swizzle</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+</div><!-- top -->
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div class="header">
+  <div class="headertitle">
+<div class="title">Identity Block Swizzle</div>  </div>
+</div><!--header-->
+<div class="contents">
+<p>Block Swizzle provides the mapping logic between a block in the physical memory of Matrix C and Thread Block Identiy Block Swizzle effective maps blocks in leading dimension order (column major) with thread block in leading dimension order (blockIdx.x) blockIdx.z is mapped with batch_count for batched GEMM </p>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/group__fragment__concept.html b/docs/group__fragment__concept.html
index 85e3572764..11f0b21002 100644
--- a/docs/group__fragment__concept.html
+++ b/docs/group__fragment__concept.html
@@ -80,6 +80,9 @@
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">A template defining <a class="el" href="group__fragment__concept.html">Fragment Concept</a>.  <a href="structcutlass_1_1Fragment.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">A template defining <a class="el" href="group__fragment__concept.html">Fragment Concept</a>.  <a href="structcutlass_1_1ZipFragment.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
 <p><a class="el" href="group__fragment__concept.html">Fragment Concept</a> is a statically sized array for storing parts of tiles held by individual CUDA threads.</p>
@@ -94,7 +97,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/group__fragment__iterator__concept.html b/docs/group__fragment__iterator__concept.html
index dc89e72e5a..e08d36e441 100644
--- a/docs/group__fragment__iterator__concept.html
+++ b/docs/group__fragment__iterator__concept.html
@@ -91,7 +91,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/group__layout__concept.html b/docs/group__layout__concept.html
index 3fe8532c84..66a8288191 100644
--- a/docs/group__layout__concept.html
+++ b/docs/group__layout__concept.html
@@ -100,7 +100,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/group__predicate__iterator__concept.html b/docs/group__predicate__iterator__concept.html
index 95c1ef2efe..9c3b710843 100644
--- a/docs/group__predicate__iterator__concept.html
+++ b/docs/group__predicate__iterator__concept.html
@@ -98,7 +98,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/group__predicate__tile__adapter.html b/docs/group__predicate__tile__adapter.html
index a4b809922e..8ab28fed90 100644
--- a/docs/group__predicate__tile__adapter.html
+++ b/docs/group__predicate__tile__adapter.html
@@ -80,7 +80,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/group__predicate__vector__concept.html b/docs/group__predicate__vector__concept.html
index 5147870e64..cf4fd5b2a2 100644
--- a/docs/group__predicate__vector__concept.html
+++ b/docs/group__predicate__vector__concept.html
@@ -92,7 +92,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/group__tile__load__iterator__concept.html b/docs/group__tile__load__iterator__concept.html
index 2bc4b4e346..edc4928185 100644
--- a/docs/group__tile__load__iterator__concept.html
+++ b/docs/group__tile__load__iterator__concept.html
@@ -77,7 +77,7 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">An iterator implementing <a class="el" href="group__tile__load__iterator__concept.html">Tile Load Iterator Concept</a> for loading a tile from memory.  <a href="structcutlass_1_1TileLoadIterator.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
@@ -96,7 +96,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/group__tile__store__iterator__concept.html b/docs/group__tile__store__iterator__concept.html
index bde5405317..992a7ca397 100644
--- a/docs/group__tile__store__iterator__concept.html
+++ b/docs/group__tile__store__iterator__concept.html
@@ -77,7 +77,7 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">An iterator implementing <a class="el" href="group__tile__store__iterator__concept.html">Tile Store Iterator Concept</a> for storing a tile to memory.  <a href="structcutlass_1_1TileStoreIterator.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
@@ -96,7 +96,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/group__tile__traits__concept.html b/docs/group__tile__traits__concept.html
index 16e4bd8ae6..6c0516967c 100644
--- a/docs/group__tile__traits__concept.html
+++ b/docs/group__tile__traits__concept.html
@@ -77,7 +77,7 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">A template defining <a class="el" href="group__tile__traits__concept.html">Tile Traits Concept</a>.  <a href="structcutlass_1_1TileTraits.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
@@ -93,7 +93,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/hgemm__global__tile_8h.html b/docs/hgemm__global__tile_8h.html
index b62b8c143b..0b2e247f56 100644
--- a/docs/hgemm__global__tile_8h.html
+++ b/docs/hgemm__global__tile_8h.html
@@ -82,10 +82,10 @@
 
 <p>Tile traits used to construct global tile iterator for HGEMM. This is intended to partition the thread block-level tile into 2D subtiles loaded by the threads and facilitate memory accesses larger than 16 bits.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&quot;</code><br />
 </div>
 <p><a href="hgemm__global__tile_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -107,7 +107,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/hgemm__global__tile_8h_source.html b/docs/hgemm__global__tile_8h_source.html
index bdd647d1a7..8d7e02f655 100644
--- a/docs/hgemm__global__tile_8h_source.html
+++ b/docs/hgemm__global__tile_8h_source.html
@@ -76,34 +76,34 @@
 <div class="title">hgemm_global_tile.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="hgemm__global__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> kOperand_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;          <span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;          <span class="keyword">typename</span> Threads_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;          <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">   48</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">HgemmCrosswiseGlobalTileTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;                                            <span class="comment">// Which GEMM operand?</span></div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;                                            kOperand_,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;                                            <span class="comment">// The layout.</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;                                            kLayout_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;                                            <span class="comment">// The scalar.</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;                                            Scalar_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;                                            <span class="comment">// The tile.</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;                                            Tile_,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;                                            <span class="comment">// The threads.</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;                                            Threads_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;                                            <span class="comment">// The number of scalars per LDG/STG.</span></div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;                                            kAccessSize_&gt; {</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741">   62</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits&lt;kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741">Base</a>;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e">   64</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Base::Threads</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e">Threads</a>;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a6eee97f03dcea1c441116e143cf58018">   66</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 2, Base::Tile::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a6eee97f03dcea1c441116e143cf58018">ThreadsDelta</a>;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e">   68</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;Base::Threads::kH * 2, 1, Base::Threads::kW, Base::kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e">Delta</a>;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;Base::Tile::kH / Base::Threads::kH / 2,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                2,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                Base::Tile::kW / Base::Threads::kW,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                Base::Tile::kC / <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a>&gt;</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#aa9b46937bea47d071d277aa212dd610b">   74</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#aa9b46937bea47d071d277aa212dd610b">Iterations</a>;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html">   76</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81">   78</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      <span class="keywordtype">int</span> thread_offset_h = threadIdx.x / Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">ThreadsDelta::kH</a>;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;      <span class="keywordtype">int</span> thread_offset_w = threadIdx.x % Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, thread_offset_h, thread_offset_w, 0);</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;    }</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  };</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;};</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<a href="hgemm__global__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> kOperand_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;          <span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;          <span class="keyword">typename</span> Threads_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;          <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">   48</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">HgemmCrosswiseGlobalTileTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;                                            <span class="comment">// Which GEMM operand?</span></div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;                                            kOperand_,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;                                            <span class="comment">// The layout.</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;                                            kLayout_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;                                            <span class="comment">// The scalar.</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;                                            Scalar_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;                                            <span class="comment">// The tile.</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;                                            Tile_,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;                                            <span class="comment">// The threads.</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;                                            Threads_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;                                            <span class="comment">// The number of scalars per LDG/STG.</span></div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;                                            kAccessSize_&gt; {</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741">   62</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits&lt;kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741">Base</a>;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e">   64</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Base::Threads</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e">Threads</a>;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a61907b1afa07c12de74545d2e23a4281">   66</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 2, Base::VectorizedTile::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a61907b1afa07c12de74545d2e23a4281">ThreadsDelta</a>;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e">   68</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;Base::Threads::kH * 2, 1, Base::Threads::kW, Base::kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e">Delta</a>;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;Base::VectorizedTile::kH / Base::Threads::kH / 2,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                2,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                Base::VectorizedTile::kW / Base::Threads::kW,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                Base::VectorizedTile::kC / <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a>&gt;</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a2dc8573498bcda33273b86db76dbd511">   74</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a2dc8573498bcda33273b86db76dbd511">Iterations</a>;</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html">   76</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81">   78</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      <span class="keywordtype">int</span> thread_offset_h = threadIdx.x / Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">ThreadsDelta::kH</a>;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;      <span class="keywordtype">int</span> thread_offset_w = threadIdx.x % Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, thread_offset_h, thread_offset_w, 0);</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;    }</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  };</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;};</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_html_a2dc8573498bcda33273b86db76dbd511"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a2dc8573498bcda33273b86db76dbd511">cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Iterations</a></div><div class="ttdeci">Shape&lt; Base::VectorizedTile::kH/Base::Threads::kH/2, 2, Base::VectorizedTile::kW/Base::Threads::kW, Base::VectorizedTile::kC/Base::kAccessSize &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:74</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="gemm__global__tile_8h_html"><div class="ttname"><a href="gemm__global__tile_8h.html">gemm_global_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing to global memory. </div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:70</div></div>
 <div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_html_aa9b46937bea47d071d277aa212dd610b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#aa9b46937bea47d071d277aa212dd610b">cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Iterations</a></div><div class="ttdeci">Shape&lt; Base::Tile::kH/Base::Threads::kH/2, 2, Base::Tile::kW/Base::Threads::kW, Base::Tile::kC/Base::kAccessSize &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:74</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_html_a61907b1afa07c12de74545d2e23a4281"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a61907b1afa07c12de74545d2e23a4281">cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadsDelta</a></div><div class="ttdeci">Shape&lt; 1, 2, Base::VectorizedTile::kC &gt; ThreadsDelta</div><div class="ttdoc">The threads strides. </div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:66</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_html_ae7a4f120805421ac0712604723612b7e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e">cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Threads</a></div><div class="ttdeci">Base::Threads Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:64</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a3a20d9062bba613c160bb2cd14f80a5e"><div class="ttname"><a href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">cutlass::Shape::kH</a></div><div class="ttdeci">static int const kH</div><div class="ttdoc">The height of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:68</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset_html_a9fc1ca09733113f80fe5fe45db3d9b81"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81">cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:78</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_html_a8f8de5a6811b77f0c721cd78a237223e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e">cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Delta</a></div><div class="ttdeci">Shape&lt; Base::Threads::kH *2, 1, Base::Threads::kW, Base::kAccessSize &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:68</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_html_a6eee97f03dcea1c441116e143cf58018"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a6eee97f03dcea1c441116e143cf58018">cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadsDelta</a></div><div class="ttdeci">Shape&lt; 1, 2, Base::Tile::kC &gt; ThreadsDelta</div><div class="ttdoc">The threads strides. </div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:66</div></div>
 <div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_html_ac0c372c24c4c5340153b11edab874741"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741">cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Base</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:62</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:48</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
 <div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aae7128f5522383c857d2639031b64c30"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; VectorizedTile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:88</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a78836a20250ff24c25a6622ad818b421"><div class="ttname"><a href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">cutlass::Shape::kW</a></div><div class="ttdeci">static int const kW</div><div class="ttdoc">The width of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aa001e09b246fdd8259cbda6a500cad5f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">cutlass::gemm::GemmGlobalTileTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:80</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:76</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a29bd05960cc541bb67098f5483c84cf6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; Tile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:87</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="matrix__traits_8h_html"><div class="ttname"><a href="matrix__traits_8h.html">matrix_traits.h</a></div><div class="ttdoc">Defines properties of matrices used to denote layout and operands to GEMM kernels. </div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/hgemm__multiply__add_8h.html b/docs/hgemm__multiply__add_8h.html
index 3c6c609e88..41ba8db9e0 100644
--- a/docs/hgemm__multiply__add_8h.html
+++ b/docs/hgemm__multiply__add_8h.html
@@ -82,15 +82,15 @@
 
 <p>Specialization implementing multiply-add operation on half-precision floating point fragments.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="thread__multiply__add_8h_source.html">cutlass/gemm/thread_multiply_add.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="thread__multiply__add_8h_source.html">cutlass/gemm/thread_multiply_add.h</a>&quot;</code><br />
 </div>
 <p><a href="hgemm__multiply__add_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#details">More...</a><br /></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -103,7 +103,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/hgemm__multiply__add_8h_source.html b/docs/hgemm__multiply__add_8h_source.html
index 73ef904095..40e849bfb4 100644
--- a/docs/hgemm__multiply__add_8h_source.html
+++ b/docs/hgemm__multiply__add_8h_source.html
@@ -76,30 +76,31 @@
 <div class="title">hgemm_multiply_add.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="hgemm__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="thread__multiply__add_8h.html">cutlass/gemm/thread_multiply_add.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> AccumulatorsPerThread_, <span class="keyword">typename</span> ThreadsPerWarp_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">   42</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt;AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half&gt; {</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa56cdefa659af5ce4efd493b94bafdfd">   44</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, 2, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa56cdefa659af5ce4efd493b94bafdfd">InstructionShape</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a98d0f84730551eaabfe7404b36478b50">   46</a></span>&#160;  <span class="keyword">typedef</span> AccumulatorsPerThread_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a98d0f84730551eaabfe7404b36478b50">AccumulatorsPerThread</a>;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa784f29ff453c1656fdea8270454fa55">   48</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa784f29ff453c1656fdea8270454fa55">ThreadsPerWarp</a>;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af0c856abdd9f7f26f671493cc629bf0a">   50</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">ShapeMul&lt;AccumulatorsPerThread, ThreadsPerWarp&gt;::Shape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af0c856abdd9f7f26f671493cc629bf0a">AccumulatorsPerWarp</a>;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a236a408791a38358cbadf19dd0e8ed9f">   52</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a236a408791a38358cbadf19dd0e8ed9f">ScalarA</a>;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1daf96b6d152c5cf32f248bbfd605b74">   54</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarA, AccumulatorsPerThread::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1daf96b6d152c5cf32f248bbfd605b74">FragmentA</a>;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac7557562de1108bf1abc10829c83e88f">   56</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac7557562de1108bf1abc10829c83e88f">ScalarB</a>;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae79e7fc5be2f4c8d30ca83edc151f63a">   58</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarB, AccumulatorsPerThread::kH&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae79e7fc5be2f4c8d30ca83edc151f63a">FragmentB</a>;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af1a6d91d4734683ea791bf57f3c3bbb0">   60</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af1a6d91d4734683ea791bf57f3c3bbb0">ScalarC</a>;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a505306c2af2059f6e84ba32d701d1602">   62</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;half, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a505306c2af2059f6e84ba32d701d1602">Accumulators</a>;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(AccumulatorsPerThread::kH % 2 == 0, <span class="stringliteral">&quot;Invalid size&quot;</span>);</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(AccumulatorsPerThread::kW % 2 == 0, <span class="stringliteral">&quot;Invalid size&quot;</span>);</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#acec155117a56c942c5e695984b0f072d">   69</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#acec155117a56c942c5e695984b0f072d">ThreadMultiplyAdd</a>() {}</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a66486d38349fa20eb065ae9542eb43aa">   72</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a66486d38349fa20eb065ae9542eb43aa">multiply_add</a>(<a class="code" href="structcutlass_1_1Fragment.html">FragmentA</a> <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">FragmentB</a> <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a> <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a>&amp; d) {</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; __CUDA_ARCH__ &gt;= 530</span></div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    <span class="comment">// The inputs.</span></div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;    __half2 <span class="keyword">const</span>* a_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;a[0]);</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;    __half2 <span class="keyword">const</span>* b_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;b[0]);</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;    __half2 <span class="keyword">const</span>* c_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;c[0]);</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    <span class="comment">// The output.</span></div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;    __half2* d_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2*<span class="keyword">&gt;</span>(&amp;d[0]);</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; AccumulatorsPerThread::kH / 2; ++j) {</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; AccumulatorsPerThread::kW / 2; ++i) {</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;        <span class="comment">// The offsets in the output fragment.</span></div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> k0 = (2 * j + 0) * (AccumulatorsPerThread::kW / 2) + i;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> k1 = (2 * j + 1) * (AccumulatorsPerThread::kW / 2) + i;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;        <span class="comment">// Compute the product a[i] * b[j].H0_H0.</span></div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;        d_half2[k0] = __hfma2(a_half2[i], __low2half2(b_half2[j]), c_half2[k0]);</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;        <span class="comment">// Compute the product a[i] * b[j].H1_H1.</span></div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;        d_half2[k1] = __hfma2(a_half2[i], __high2half2(b_half2[j]), c_half2[k1]);</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;      }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;    }</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;  }</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;};</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a236a408791a38358cbadf19dd0e8ed9f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a236a408791a38358cbadf19dd0e8ed9f">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ScalarA</a></div><div class="ttdeci">half ScalarA</div><div class="ttdoc">The type for A. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:52</div></div>
+<a href="hgemm__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="thread__multiply__add_8h.html">cutlass/gemm/thread_multiply_add.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> ThreadGemmShape_, <span class="keyword">typename</span> ThreadsPerWarp_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">   42</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt;ThreadGemmShape_, ThreadsPerWarp_, half, half, half&gt; {</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a245bdf059794144d04d2823d2b39588e">   44</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, 2, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a245bdf059794144d04d2823d2b39588e">InstructionShape</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">   46</a></span>&#160;  <span class="keyword">typedef</span> ThreadGemmShape_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">ThreadGemmShape</a>;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a24dd9fdc54b001840e8b82664b3bfe3a">   48</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">ThreadGemmShape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a24dd9fdc54b001840e8b82664b3bfe3a">AccumulatorsPerThread</a>;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc">   50</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc">ThreadsPerWarp</a>;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aacb9a5a1d8f3b6e21bc449b0b97949b7">   52</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">ShapeMul&lt;ThreadGemmShape, ThreadsPerWarp&gt;::Shape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aacb9a5a1d8f3b6e21bc449b0b97949b7">AccumulatorsPerWarp</a>;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f">   54</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f">ScalarA</a>;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372">   56</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarA, AccumulatorsPerThread::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372">FragmentA</a>;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc">   58</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc">ScalarB</a>;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7">   60</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarB, AccumulatorsPerThread::kH&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7">FragmentB</a>;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a48a641d601c88d95aa542b636f94d60d">   62</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a48a641d601c88d95aa542b636f94d60d">ScalarC</a>;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">   64</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;half, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">Accumulators</a>;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(AccumulatorsPerThread::kH % 2 == 0, <span class="stringliteral">&quot;Invalid size&quot;</span>);</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(AccumulatorsPerThread::kW % 2 == 0, <span class="stringliteral">&quot;Invalid size&quot;</span>);</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a32b234c873ffe44090a12e12d871024c">   71</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a32b234c873ffe44090a12e12d871024c">ThreadMultiplyAdd</a>() {}</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aaf8ea4aaf393488f03ba7fb7af264940">   74</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aaf8ea4aaf393488f03ba7fb7af264940">multiply_add</a>(<a class="code" href="structcutlass_1_1Fragment.html">FragmentA</a> <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">FragmentB</a> <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a> <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a>&amp; d) {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; __CUDA_ARCH__ &gt;= 530</span></div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;    <span class="comment">// The inputs.</span></div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;    __half2 <span class="keyword">const</span>* a_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;a[0]);</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    __half2 <span class="keyword">const</span>* b_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;b[0]);</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    __half2 <span class="keyword">const</span>* c_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2 const*<span class="keyword">&gt;</span>(&amp;c[0]);</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    <span class="comment">// The output.</span></div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    __half2* d_half2 = <span class="keyword">reinterpret_cast&lt;</span>__half2*<span class="keyword">&gt;</span>(&amp;d[0]);</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; AccumulatorsPerThread::kH / 2; ++j) {</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; AccumulatorsPerThread::kW / 2; ++i) {</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;        <span class="comment">// The offsets in the output fragment.</span></div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> k0 = (2 * j + 0) * (AccumulatorsPerThread::kW / 2) + i;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> k1 = (2 * j + 1) * (AccumulatorsPerThread::kW / 2) + i;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;        <span class="comment">// Compute the product a[i] * b[j].low.</span></div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;        d_half2[k0] = __hfma2(a_half2[i], __low2half2(b_half2[j]), c_half2[k0]);</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;        <span class="comment">// Compute the product a[i] * b[j].high.</span></div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;        d_half2[k1] = __hfma2(a_half2[i], __high2half2(b_half2[j]), c_half2[k1]);</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;      }</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    }</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;  }</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;};</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a32b234c873ffe44090a12e12d871024c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a32b234c873ffe44090a12e12d871024c">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ThreadMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE ThreadMultiplyAdd()</div><div class="ttdoc">Make sure there&amp;#39;s an even number of elements in both dimensions. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:71</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a48a641d601c88d95aa542b636f94d60d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a48a641d601c88d95aa542b636f94d60d">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ScalarC</a></div><div class="ttdeci">half ScalarC</div><div class="ttdoc">The type for C and D. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:62</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a505306c2af2059f6e84ba32d701d1602"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a505306c2af2059f6e84ba32d701d1602">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::Accumulators</a></div><div class="ttdeci">Fragment&lt; half, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW &gt; Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_af0c856abdd9f7f26f671493cc629bf0a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af0c856abdd9f7f26f671493cc629bf0a">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerWarp</a></div><div class="ttdeci">ShapeMul&lt; AccumulatorsPerThread, ThreadsPerWarp &gt;::Shape AccumulatorsPerWarp</div><div class="ttdoc">The number of accumulators per warp. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:50</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_af1a6d91d4734683ea791bf57f3c3bbb0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af1a6d91d4734683ea791bf57f3c3bbb0">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ScalarC</a></div><div class="ttdeci">half ScalarC</div><div class="ttdoc">The type for C and D. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:60</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_acec155117a56c942c5e695984b0f072d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#acec155117a56c942c5e695984b0f072d">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ThreadMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE ThreadMultiplyAdd()</div><div class="ttdoc">Make sure there&amp;#39;s an even number of elements in both dimensions. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_ae8f4db1465f5e082c6855bf13a4751c7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::FragmentB</a></div><div class="ttdeci">Fragment&lt; ScalarB, AccumulatorsPerThread::kH &gt; FragmentB</div><div class="ttdoc">The fragment for B. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_ac095b403212e23cb95e70cee9013099e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ThreadGemmShape</a></div><div class="ttdeci">ThreadGemmShape_ ThreadGemmShape</div><div class="ttdoc">The number of accumulators per thread. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a70dfd2f33548dbd104d798f728526fbc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ScalarB</a></div><div class="ttdeci">half ScalarB</div><div class="ttdoc">The type for B. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:58</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeMul_html_a8875fc5e861339f981360ed774e8cc94"><div class="ttname"><a href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">cutlass::ShapeMul::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD *B_::kD, A_::kH *B_::kH, A_::kW *B_::kW, A_::kC *B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:119</div></div>
 <div class="ttc" id="structcutlass_1_1Fragment_html"><div class="ttname"><a href="structcutlass_1_1Fragment.html">cutlass::Fragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:99</div></div>
 <div class="ttc" id="thread__multiply__add_8h_html"><div class="ttname"><a href="thread__multiply__add_8h.html">thread_multiply_add.h</a></div><div class="ttdoc">Template implementing matrix multiply-add operations on fragments. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_aa56cdefa659af5ce4efd493b94bafdfd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa56cdefa659af5ce4efd493b94bafdfd">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::InstructionShape</a></div><div class="ttdeci">Shape&lt; 1, 1, 2, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:44</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_ac7557562de1108bf1abc10829c83e88f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac7557562de1108bf1abc10829c83e88f">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ScalarB</a></div><div class="ttdeci">half ScalarB</div><div class="ttdoc">The type for B. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:56</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_aa784f29ff453c1656fdea8270454fa55"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa784f29ff453c1656fdea8270454fa55">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The number of threads per warp. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:48</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a98d0f84730551eaabfe7404b36478b50"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a98d0f84730551eaabfe7404b36478b50">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerThread</a></div><div class="ttdeci">AccumulatorsPerThread_ AccumulatorsPerThread</div><div class="ttdoc">The number of accumulators per thread. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:46</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a66486d38349fa20eb065ae9542eb43aa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a66486d38349fa20eb065ae9542eb43aa">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:72</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a245bdf059794144d04d2823d2b39588e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a245bdf059794144d04d2823d2b39588e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::InstructionShape</a></div><div class="ttdeci">Shape&lt; 1, 1, 2, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_aacb9a5a1d8f3b6e21bc449b0b97949b7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aacb9a5a1d8f3b6e21bc449b0b97949b7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerWarp</a></div><div class="ttdeci">ShapeMul&lt; ThreadGemmShape, ThreadsPerWarp &gt;::Shape AccumulatorsPerWarp</div><div class="ttdoc">The number of accumulators per warp. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a1889bdc9e88265a8afdaeeca217a3372"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::FragmentA</a></div><div class="ttdeci">Fragment&lt; ScalarA, AccumulatorsPerThread::kW &gt; FragmentA</div><div class="ttdoc">The fragment for A. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:56</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_af8124acb485709dba1c5378faa24516c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::Accumulators</a></div><div class="ttdeci">Fragment&lt; half, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW &gt; Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:64</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_aaf8ea4aaf393488f03ba7fb7af264940"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aaf8ea4aaf393488f03ba7fb7af264940">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:74</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a1a8f6feed85c7e88b36bc1a2637c716f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ScalarA</a></div><div class="ttdeci">half ScalarA</div><div class="ttdoc">The type for A. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:54</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a24dd9fdc54b001840e8b82664b3bfe3a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a24dd9fdc54b001840e8b82664b3bfe3a">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerThread</a></div><div class="ttdeci">ThreadGemmShape AccumulatorsPerThread</div><div class="ttdoc">Aliased for compatibility. Will be removed for CUTLASS v2.0. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a61ed3d8bb4ca6db39d16b632f58d75dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The number of threads per warp. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:50</div></div>
 <div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_a1daf96b6d152c5cf32f248bbfd605b74"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1daf96b6d152c5cf32f248bbfd605b74">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::FragmentA</a></div><div class="ttdeci">Fragment&lt; ScalarA, AccumulatorsPerThread::kW &gt; FragmentA</div><div class="ttdoc">The fragment for A. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:54</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4_html_ae79e7fc5be2f4c8d30ca83edc151f63a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae79e7fc5be2f4c8d30ca83edc151f63a">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::FragmentB</a></div><div class="ttdeci">Fragment&lt; ScalarB, AccumulatorsPerThread::kH &gt; FragmentB</div><div class="ttdoc">The fragment for B. </div><div class="ttdef"><b>Definition:</b> hgemm_multiply_add.h:58</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/hgemm__swizzle_8h.html b/docs/hgemm__swizzle_8h.html
index aef7ac75ee..93938799be 100644
--- a/docs/hgemm__swizzle_8h.html
+++ b/docs/hgemm__swizzle_8h.html
@@ -83,7 +83,7 @@
 <p>Transposes a tile of 16b elements. Used by HGEMM to construct a K-strided layout in shared memory for multiplicands.  
 <a href="#details">More...</a></p>
 <div class="textblock"><code>#include &lt;cuda_fp16.h&gt;</code><br />
-<code>#include &lt;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&gt;</code><br />
+<code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
 </div>
 <p><a href="hgemm__swizzle_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -102,7 +102,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/hgemm__swizzle_8h_source.html b/docs/hgemm__swizzle_8h_source.html
index bb76b510c8..d882c10f3e 100644
--- a/docs/hgemm__swizzle_8h_source.html
+++ b/docs/hgemm__swizzle_8h_source.html
@@ -76,14 +76,14 @@
 <div class="title">hgemm_swizzle.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="hgemm__swizzle_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;cuda_fp16.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GlobalIterator_&gt;</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">   40</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">HgemmSwizzle</a> {</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a56d3f2606f9464ec57aa61aae378c642">   42</a></span>&#160;  <span class="keyword">typedef</span> GlobalIterator_ <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a56d3f2606f9464ec57aa61aae378c642">GlobalIterator</a>;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">   44</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalIterator::Fragment <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">Fragment</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4">   46</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalIterator::FragmentShape <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4">FragmentShape</a>;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ab5fab63d83eb0444c08bda16491d2627">   49</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ab5fab63d83eb0444c08bda16491d2627">InputFragment</a>;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a9c04f0b0eb0293325f661b72168d4fa8">   51</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a9c04f0b0eb0293325f661b72168d4fa8">OutputFragment</a>;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;typename Fragment::Element, half&gt;::value</a>), <span class="stringliteral">&quot;Works on half&quot;</span>);</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(FragmentShape::kH == 2 &amp;&amp; <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> == 2, <span class="stringliteral">&quot;Not multiple of 2&quot;</span>);</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ac3c52e0fee9b37a3dfc39ca168a63d36">   60</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ac3c52e0fee9b37a3dfc39ca168a63d36">HgemmSwizzle</a>() {}</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26">   63</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26">transform</a>(<a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">Fragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">Fragment</a>&amp; dst) {</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    <span class="comment">// Expose src/dst as int arrays.</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span>* src_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span> const*<span class="keyword">&gt;</span>(&amp;src[0]);</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;    <span class="keywordtype">int</span>* dst_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span>*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;    <span class="comment">// Transpose the data.</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; FragmentShape::kD; ++d) {</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;      <span class="comment">// The indices to read two consecutive &quot;rows&quot;.</span></div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> i0 = 2 * d + 0;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> i1 = 2 * d + 1;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      <span class="keywordtype">int</span> a0 = src_int[i0];</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;      <span class="keywordtype">int</span> a1 = src_int[i1];</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;      <span class="keywordtype">int</span> b0, b1;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x5410;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b0) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x7632;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b1) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;      <span class="comment">// The indices to store with &quot;strides&quot;.</span></div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> j0 = 0 * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kDhw</a> / 2) + d;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> j1 = 1 * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kDhw</a> / 2) + d;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      dst_int[j0] = b0;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      dst_int[j1] = b1;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;    }</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  }</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;};</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1HgemmSwizzle_html_a56d3f2606f9464ec57aa61aae378c642"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a56d3f2606f9464ec57aa61aae378c642">cutlass::gemm::HgemmSwizzle::GlobalIterator</a></div><div class="ttdeci">GlobalIterator_ GlobalIterator</div><div class="ttdoc">The global iterator. </div><div class="ttdef"><b>Definition:</b> hgemm_swizzle.h:42</div></div>
+<a href="hgemm__swizzle_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;cuda_fp16.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GlobalIterator_&gt;</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">   40</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">HgemmSwizzle</a> {</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a56d3f2606f9464ec57aa61aae378c642">   42</a></span>&#160;  <span class="keyword">typedef</span> GlobalIterator_ <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a56d3f2606f9464ec57aa61aae378c642">GlobalIterator</a>;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">   44</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalIterator::Fragment <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">Fragment</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4">   46</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalIterator::FragmentShape <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4">FragmentShape</a>;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ab5fab63d83eb0444c08bda16491d2627">   49</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ab5fab63d83eb0444c08bda16491d2627">InputFragment</a>;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a9c04f0b0eb0293325f661b72168d4fa8">   51</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a9c04f0b0eb0293325f661b72168d4fa8">OutputFragment</a>;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;typename Fragment::Element, half&gt;::value</a>), <span class="stringliteral">&quot;Works on half&quot;</span>);</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(FragmentShape::kH == 2 &amp;&amp; <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> == 2, <span class="stringliteral">&quot;Not multiple of 2&quot;</span>);</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ac3c52e0fee9b37a3dfc39ca168a63d36">   60</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ac3c52e0fee9b37a3dfc39ca168a63d36">HgemmSwizzle</a>() {}</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26">   63</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26">transform</a>(<a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">Fragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">Fragment</a>&amp; dst) {</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    <span class="comment">// Expose src/dst as int arrays.</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span>* src_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span> const*<span class="keyword">&gt;</span>(&amp;src[0]);</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;    <span class="keywordtype">int</span>* dst_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span>*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;    <span class="comment">// Transpose the data.</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; FragmentShape::kD; ++d) {</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;      <span class="comment">// The indices to read two consecutive &quot;rows&quot;.</span></div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> i0 = 2 * d + 0;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> i1 = 2 * d + 1;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      <span class="keywordtype">int</span> a0 = src_int[i0];</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;      <span class="keywordtype">int</span> a1 = src_int[i1];</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;      <span class="keywordtype">int</span> b0, b1;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x5410;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b0) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x7632;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b1) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;      <span class="comment">// The indices to store with &quot;strides&quot;.</span></div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> j0 = 0 * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kDhw</a> / 2) + d;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> j1 = 1 * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kDhw</a> / 2) + d;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      dst_int[j0] = b0;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      dst_int[j1] = b1;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;    }</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  }</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;};</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1HgemmSwizzle_html_a56d3f2606f9464ec57aa61aae378c642"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a56d3f2606f9464ec57aa61aae378c642">cutlass::gemm::HgemmSwizzle::GlobalIterator</a></div><div class="ttdeci">GlobalIterator_ GlobalIterator</div><div class="ttdoc">The global iterator. </div><div class="ttdef"><b>Definition:</b> hgemm_swizzle.h:42</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:412</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:420</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmSwizzle_html_ac3c52e0fee9b37a3dfc39ca168a63d36"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ac3c52e0fee9b37a3dfc39ca168a63d36">cutlass::gemm::HgemmSwizzle::HgemmSwizzle</a></div><div class="ttdeci">CUTLASS_DEVICE HgemmSwizzle()</div><div class="ttdoc">The src/dst must be half fragments. </div><div class="ttdef"><b>Definition:</b> hgemm_swizzle.h:60</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmSwizzle_html_ad467ce744bf9d478900fb2661d7a1c26"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26">cutlass::gemm::HgemmSwizzle::transform</a></div><div class="ttdeci">CUTLASS_DEVICE void transform(Fragment const &amp;src, Fragment &amp;dst)</div><div class="ttdoc">Transform a fragment. </div><div class="ttdef"><b>Definition:</b> hgemm_swizzle.h:63</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmSwizzle_html_ab5fab63d83eb0444c08bda16491d2627"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#ab5fab63d83eb0444c08bda16491d2627">cutlass::gemm::HgemmSwizzle::InputFragment</a></div><div class="ttdeci">Fragment InputFragment</div><div class="ttdoc">The input fragment. </div><div class="ttdef"><b>Definition:</b> hgemm_swizzle.h:49</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmSwizzle_html_a9c04f0b0eb0293325f661b72168d4fa8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a9c04f0b0eb0293325f661b72168d4fa8">cutlass::gemm::HgemmSwizzle::OutputFragment</a></div><div class="ttdeci">Fragment OutputFragment</div><div class="ttdoc">The output fragment. </div><div class="ttdef"><b>Definition:</b> hgemm_swizzle.h:51</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmSwizzle_html_a82dc6d9a10de7aba9a69e6025b2cc2b7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7">cutlass::gemm::HgemmSwizzle::Fragment</a></div><div class="ttdeci">GlobalIterator::Fragment Fragment</div><div class="ttdoc">The source fragment. </div><div class="ttdef"><b>Definition:</b> hgemm_swizzle.h:44</div></div>
 <div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmSwizzle_html_afe44fedcf24b90c0cf6ac7d1495b89e4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4">cutlass::gemm::HgemmSwizzle::FragmentShape</a></div><div class="ttdeci">GlobalIterator::FragmentShape FragmentShape</div><div class="ttdoc">The shape of the source fragment. </div><div class="ttdef"><b>Definition:</b> hgemm_swizzle.h:46</div></div>
@@ -92,7 +92,7 @@
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/hgemm__traits_8h.html b/docs/hgemm__traits_8h.html
index 283ceb7504..bb8e72d998 100644
--- a/docs/hgemm__traits_8h.html
+++ b/docs/hgemm__traits_8h.html
@@ -82,23 +82,23 @@
 
 <p>Defies structural properties of half-precision GEMM computation.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm_8h_source.html">cutlass/gemm/gemm.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__epilogue_8h_source.html">cutlass/gemm/gemm_epilogue.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__epilogue__traits_8h_source.html">cutlass/gemm/gemm_epilogue_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__traits_8h_source.html">cutlass/gemm/gemm_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="hgemm__global__tile_8h_source.html">cutlass/gemm/hgemm_global_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="hgemm__multiply__add_8h_source.html">cutlass/gemm/hgemm_multiply_add.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="hgemm__swizzle_8h_source.html">cutlass/gemm/hgemm_swizzle.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm_8h_source.html">cutlass/gemm/gemm.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__epilogue_8h_source.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__epilogue__traits_8h_source.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__traits_8h_source.html">cutlass/gemm/gemm_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="hgemm__global__tile_8h_source.html">cutlass/gemm/hgemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="hgemm__multiply__add_8h_source.html">cutlass/gemm/hgemm_multiply_add.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="hgemm__swizzle_8h_source.html">cutlass/gemm/hgemm_swizzle.h</a>&quot;</code><br />
 </div>
 <p><a href="hgemm__traits_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">cutlass::gemm::HgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">cutlass::gemm::HgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">cutlass::gemm::HgemmTransformerA&lt; kLayout_, Iterator_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -120,9 +120,9 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraits.html">cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraits.html">cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -135,7 +135,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/hgemm__traits_8h_source.html b/docs/hgemm__traits_8h_source.html
index 0d12493ec9..db1554c868 100644
--- a/docs/hgemm__traits_8h_source.html
+++ b/docs/hgemm__traits_8h_source.html
@@ -76,89 +76,87 @@
 <div class="title">hgemm_traits.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="hgemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&gt;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="hgemm__global__tile_8h.html">cutlass/gemm/hgemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="hgemm__multiply__add_8h.html">cutlass/gemm/hgemm_multiply_add.h</a>&gt;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="hgemm__swizzle_8h.html">cutlass/gemm/hgemm_swizzle.h</a>&gt;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerThread_,</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 2,</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 2&gt;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmConfig.html">   57</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig</a></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;          half,</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;          half,</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;          half,</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;          half,</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;          OutputTile_,</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;          ThreadMultiplyAdd&lt;AccumulatorsPerThread_, Shape&lt;1, 4, 8&gt;, half, half, half&gt;,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;          kScalarsPerLdgA_,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;          kScalarsPerLdgA_,</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;          8,</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;          kScalarsPerLdgB_,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;          kScalarsPerLdgB_,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;          8,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;          2,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;          8,</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;          2,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;          2&gt; {};</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">   95</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a> {};</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">   98</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, Iterator_&gt; {</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296">   99</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Convert.html">Convert&lt;typename Iterator_::Fragment, typename Iterator_::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296">Transformer</a>;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;};</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">  103</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, Iterator_&gt; {</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b">  104</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">HgemmSwizzle&lt;Iterator_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b">Transformer</a>;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;};</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">  110</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a> {};</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">  113</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, Iterator_&gt; {</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#aaaccb3f02a857e0c80d2891c6c6dcdb7">  114</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Convert.html">Convert&lt;typename Iterator_::Fragment, typename Iterator_::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#aaaccb3f02a857e0c80d2891c6c6dcdb7">Transformer</a>;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;};</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00118"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">  118</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, Iterator_&gt; {</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85">  119</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">HgemmSwizzle&lt;Iterator_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85">Transformer</a>;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;};</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">  125</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;kLayout_, GemmConfig_&gt; {};</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00130"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">  130</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, GemmConfig_&gt;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;MatrixLayout::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495">  133</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperA&lt;MatrixLayout::kRowMajor, GemmConfig_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495">Base</a>;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">HgemmCrosswiseGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      <span class="comment">// The layout.</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      half <span class="keyword">const</span>,</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;      <span class="comment">// The tile has size MxK in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD&gt;</a>,</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;      <span class="comment">// The threads are distributed as (threads / K ) x K (the traits may reorganize).</span></div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc)</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      GemmConfig_::kScalarsPerLdgA&gt;</div><div class="line"><a name="l00148"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314">  148</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314">GlobalTileTraits</a>;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      half,</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;            GemmConfig_::OutputTile::kW * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;      <span class="comment">// The threads are distributed as warps x 32(the traits may reorganize).</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      2,</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;      <span class="comment">// The skew to avoid bank conflicts added in the tile W dimension.</span></div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;      128 / <span class="keyword">sizeof</span>(half) / GlobalTileTraits::Threads::kW / 2&gt;</div><div class="line"><a name="l00164"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a2aad3b2454d956f20dac1bb0ad75a2f8">  164</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;      half <span class="keyword">const</span>,</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      8,</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      SharedStoreTileTraits::kSkew&gt;</div><div class="line"><a name="l00184"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a458cbcc16fc296d024f2a1a95fb926c1">  184</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a458cbcc16fc296d024f2a1a95fb926c1">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;};</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00190"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">  190</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;kLayout_, GemmConfig_&gt; {};</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00195"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">  195</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, GemmConfig_&gt;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded">  198</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperB&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded">Base</a>;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">HgemmCrosswiseGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;      <span class="comment">// The layout.</span></div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;      half <span class="keyword">const</span>,</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD&gt;</a>,</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc)</span></div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;      GemmConfig_::kScalarsPerLdgB&gt;</div><div class="line"><a name="l00213"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145">  213</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145">GlobalTileTraits</a>;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;      half,</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;            GemmConfig_::OutputTile::kH * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;      2,</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      <span class="comment">// The skew to avoid bank conflicts added in the tile W dimension.</span></div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;      128 / <span class="keyword">sizeof</span>(half) / GlobalTileTraits::Threads::kW / 2&gt;</div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab1ae3d51f65f7af60147da1c51a7a0c2">  229</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;      half <span class="keyword">const</span>,</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;      8,</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      SharedStoreTileTraits::kSkew&gt;</div><div class="line"><a name="l00249"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af1bc7f7c26db3399201cd95f35a56790">  249</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af1bc7f7c26db3399201cd95f35a56790">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;};</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_,</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerThread_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;32, 8, 8&gt;</a>,</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 2,</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 2,</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;    <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00271"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">  271</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">HgemmTraitsHelper</a> {</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig&lt;OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_&gt;</a></div><div class="line"><a name="l00274"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">  274</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">GemmConfig</a>;</div><div class="line"><a name="l00276"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a5557c86a530f5d20a35d3fa620adf417">  276</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA&lt;kLayoutA_, GemmConfig&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a5557c86a530f5d20a35d3fa620adf417">GemmTileTraitsHelperA</a>;</div><div class="line"><a name="l00278"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8768c2b03bea0c3601c47dde2bc7ca89">  278</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB&lt;kLayoutB_, GemmConfig&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8768c2b03bea0c3601c47dde2bc7ca89">GemmTileTraitsHelperB</a>;</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperA::GlobalTileTraits, Index_&gt;</a></div><div class="line"><a name="l00282"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">  282</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">GlobalLoadIteratorA</a>;</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a>&lt;GemmTileTraitsHelperA::kLayout,</div><div class="line"><a name="l00285"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647">  285</a></span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GlobalLoadIteratorA</a>&gt;::Transformer <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647">GlobalTransformerA</a>;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits,</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00291"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4">  291</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4">SharedStoreIteratorA</a>;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream&lt;GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA&gt;</a></div><div class="line"><a name="l00294"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2aaece6093100c71c4d587994200e3bb">  294</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2aaece6093100c71c4d587994200e3bb">GlobalLoadStreamA</a>;</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperB::GlobalTileTraits, Index_&gt;</a></div><div class="line"><a name="l00298"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">  298</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">GlobalLoadIteratorB</a>;</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;  <span class="comment">// The default transformer for B.</span></div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a>&lt;GemmTileTraitsHelperB::kLayout,</div><div class="line"><a name="l00301"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de">  301</a></span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GlobalLoadIteratorB</a>&gt;::Transformer <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de">GlobalTransformerB</a>;</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits,</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00307"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448">  307</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448">SharedStoreIteratorB</a>;</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream&lt;GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB&gt;</a></div><div class="line"><a name="l00310"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abaf5f16ab0b215b406766ecadab29394">  310</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abaf5f16ab0b215b406766ecadab29394">GlobalLoadStreamB</a>;</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits,</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00317"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620">  317</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620">SharedLoadIteratorA</a>;</div><div class="line"><a name="l00319"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a21c860cc877df13d22dd30eeb5e2b06b">  319</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorA&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a21c860cc877df13d22dd30eeb5e2b06b">SharedLoadStreamA</a>;</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits,</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00325"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303">  325</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303">SharedLoadIteratorB</a>;</div><div class="line"><a name="l00327"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac5eeca1e91f0e0d4dd48d432d5213215">  327</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorB&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac5eeca1e91f0e0d4dd48d432d5213215">SharedLoadStreamB</a>;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00330"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae9facf63912d98e597883bf7efb56cc8">  330</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">GemmConfig::MultiplyAdd</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae9facf63912d98e597883bf7efb56cc8">MultiplyAdd</a>;</div><div class="line"><a name="l00332"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">  332</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">ClearAccumulators&lt;typename MultiplyAdd::ScalarC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">ClearAccumulators</a>;</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;</div><div class="line"><a name="l00335"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">  335</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits&lt;GemmConfig, EpilogueFunctor_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">GemmEpilogueTraits</a>;</div><div class="line"><a name="l00337"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a234ae6065d5ab56135e10119d3ad2d98">  337</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue&lt;GemmEpilogueTraits&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a234ae6065d5ab56135e10119d3ad2d98">Epilogue</a>;</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;};</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;    <span class="keyword">typename</span> OutputTile_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 128, 128&gt;</a>,</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling&lt;half&gt;</a>,</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerThread_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 8, 16&gt;</a>,</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 2,</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 2,</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;    <span class="keyword">typename</span> Helper_ = <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">HgemmTraitsHelper</a>&lt;kLayoutA_,</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;                                         kLayoutB_,</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;                                         OutputTile_,</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;                                         EpilogueFunctor_,</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;                                         AccumulatorsPerThread_,</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;                                         kScalarsPerLdgA_,</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;                                         kScalarsPerLdgB_,</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;                                         Index_&gt; &gt;</div><div class="line"><a name="l00368"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraits.html">  368</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTraits.html">HgemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt;</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;                         <span class="comment">// The config.</span></div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;                         typename Helper_::GemmConfig,</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;                         <span class="comment">// The stream to load A from global memory to shared memory.</span></div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;                         typename Helper_::GlobalLoadStreamA,</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;                         <span class="comment">// The stream to load B from global memory to shared memory.</span></div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;                         typename Helper_::GlobalLoadStreamB,</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;                         <span class="comment">// The stream to load A from shared memory.</span></div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;                         typename Helper_::SharedLoadStreamA,</div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;                         <span class="comment">// The stream to load B from shared memory.</span></div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;                         typename Helper_::SharedLoadStreamB,</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;                         <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;                         typename Helper_::Epilogue,</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;                         <span class="comment">// The block swizzle to reorganize the grid.</span></div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;                         IdentityBlockSwizzle,</div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;                         <span class="comment">// The index.</span></div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;                         Index_,</div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;                         <span class="comment">// The tool used to clear accumulators.</span></div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;                         typename Helper_::ClearAccumulators&gt; {};</div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_ab8a3def34300afb5745453d0b33204aa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorA</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; typename GemmTileTraitsHelperA::GlobalTileTraits, Index_ &gt; GlobalLoadIteratorA</div><div class="ttdoc">The iterator to load A from global memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:282</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4_html_ae66bb2c1f87e19278ff471c32e71ea85"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85">cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">HgemmSwizzle&lt; Iterator_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:119</div></div>
+<a href="hgemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&quot;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="hgemm__global__tile_8h.html">cutlass/gemm/hgemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="hgemm__multiply__add_8h.html">cutlass/gemm/hgemm_multiply_add.h</a>&quot;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="hgemm__swizzle_8h.html">cutlass/gemm/hgemm_swizzle.h</a>&quot;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_,</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 2,</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 2&gt;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmConfig.html">   57</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;                         half,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;                         half,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;                         half,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;                         half,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;                         OutputTile_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;                         ThreadMultiplyAdd&lt;ThreadGemmShape_, Shape&lt;1, 4, 8&gt;, half, half, half&gt;,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                         kScalarsPerLdgA_,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                         kScalarsPerLdgA_,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;                         8,</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;                         kScalarsPerLdgB_,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;                         kScalarsPerLdgB_,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;                         8,</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;                         2,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;                         8,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;                         2,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;                         2,</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;                         false,</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;                         true,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;                         false</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;                         &gt; {};</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">  101</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a> {};</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">  104</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, Iterator_&gt; {</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296">  105</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Convert.html">Convert&lt;typename Iterator_::Fragment, typename Iterator_::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296">Transformer</a>;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;};</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">  109</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, Iterator_&gt; {</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b">  110</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">HgemmSwizzle&lt;Iterator_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b">Transformer</a>;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;};</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">  116</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a> {};</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">  119</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, Iterator_&gt; {</div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#aaaccb3f02a857e0c80d2891c6c6dcdb7">  120</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Convert.html">Convert&lt;typename Iterator_::Fragment, typename Iterator_::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#aaaccb3f02a857e0c80d2891c6c6dcdb7">Transformer</a>;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;};</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">  124</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, Iterator_&gt; {</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85">  125</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">HgemmSwizzle&lt;Iterator_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85">Transformer</a>;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;};</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">  131</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;kLayout_, GemmConfig_&gt; {};</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00136"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">  136</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, GemmConfig_&gt;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;MatrixLayout::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00139"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495">  139</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperA&lt;MatrixLayout::kRowMajor, GemmConfig_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495">Base</a>;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">HgemmCrosswiseGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;      <span class="comment">// The layout.</span></div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      half <span class="keyword">const</span>,</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;      <span class="comment">// The tile has size MxK in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD&gt;</a>,</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;      <span class="comment">// The threads are distributed as (threads / K ) x K (the traits may reorganize).</span></div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc)</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      GemmConfig_::kScalarsPerLdgA&gt;</div><div class="line"><a name="l00154"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314">  154</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314">GlobalTileTraits</a>;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00156"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac8da30393042cf6e785bdd54b11d9408">  156</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkewA = 128 / <span class="keyword">sizeof</span>(half) / GlobalTileTraits::Threads::kW / 2;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a> &lt;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      half,</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;            GemmConfig_::OutputTile::kW * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;      <span class="comment">// The threads are distributed as warps x 32(the traits may reorganize).</span></div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;      2,</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;      <span class="comment">// The skew to avoid bank conflicts added in the tile W dimension.</span></div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;      kSkewA&lt;GemmConfig_::kScalarsPerLdsA ? GemmConfig_::kScalarsPerLdsA : kSkewA&gt;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;          SharedStoreTileTraits;</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      half <span class="keyword">const</span>,</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;      8,</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;      SharedStoreTileTraits::kSkew&gt;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;};</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">  198</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;kLayout_, GemmConfig_&gt; {};</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">  203</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, GemmConfig_&gt;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00206"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded">  206</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperB&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded">Base</a>;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">HgemmCrosswiseGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      <span class="comment">// The layout.</span></div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      half <span class="keyword">const</span>,</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD&gt;</a>,</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc)</span></div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;      GemmConfig_::kScalarsPerLdgB&gt;</div><div class="line"><a name="l00221"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145">  221</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145">GlobalTileTraits</a>;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a6d0f50e83067373b249b38444eb7fe65">  223</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkewB = 128 / <span class="keyword">sizeof</span>(half) / GlobalTileTraits::Threads::kW / 2;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a> &lt;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;      half,</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;            GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD,</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;            GemmConfig_::OutputTile::kH * GemmConfig_::InstructionShape::kD&gt;,</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;      2,</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;      <span class="comment">// The skew to avoid bank conflicts added in the tile W dimension.</span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;      kSkewB&lt;GemmConfig_::kScalarsPerLdsB ? GemmConfig_::kScalarsPerLdsB : kSkewB&gt;</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;          SharedStoreTileTraits;</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt;</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      half <span class="keyword">const</span>,</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;      8,</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;      SharedStoreTileTraits::kSkew&gt;</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;};</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_,</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_,</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 2,</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 2,</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;    <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00281"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">  281</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">HgemmTraitsHelper</a> {</div><div class="line"><a name="l00283"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">  283</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig&lt;OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">GemmConfig</a>;</div><div class="line"><a name="l00285"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4f3afb4b1f37a2c43a1935a3000b2a02">  285</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA&lt;kLayoutA_, GemmConfig&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4f3afb4b1f37a2c43a1935a3000b2a02">GemmTileTraitsHelperA</a>;</div><div class="line"><a name="l00287"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada910ee63493bc3c70f7395127268a1d">  287</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB&lt;kLayoutB_, GemmConfig&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada910ee63493bc3c70f7395127268a1d">GemmTileTraitsHelperB</a>;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperA::GlobalTileTraits, Index_&gt;</a></div><div class="line"><a name="l00291"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">  291</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">GlobalLoadIteratorA</a>;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a>&lt;GemmTileTraitsHelperA::kLayout,</div><div class="line"><a name="l00294"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">  294</a></span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GlobalLoadIteratorA</a>&gt;::Transformer <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">GlobalTransformerA</a>;</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00300"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">  300</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">SharedStoreIteratorA</a>;</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">GlobalLoadIteratorA</a>,</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">SharedStoreIteratorA</a>,</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">GlobalTransformerA</a>&gt;</div><div class="line"><a name="l00306"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a80e36b583ccd9aa9b37d52faa090cbca">  306</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a80e36b583ccd9aa9b37d52faa090cbca">GlobalLoadStreamA</a>;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperB::GlobalTileTraits, Index_&gt;</a></div><div class="line"><a name="l00310"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">  310</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">GlobalLoadIteratorB</a>;</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;  <span class="comment">// The default transformer for B.</span></div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a>&lt;GemmTileTraitsHelperB::kLayout,</div><div class="line"><a name="l00313"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">  313</a></span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GlobalLoadIteratorB</a>&gt;::Transformer <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">GlobalTransformerB</a>;</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits,</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00319"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">  319</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">SharedStoreIteratorB</a>;</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">GlobalLoadIteratorB</a>,</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">SharedStoreIteratorB</a>,</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">GlobalTransformerB</a>&gt;</div><div class="line"><a name="l00325"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2c46c11f5fddb865645f555547c823ba">  325</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2c46c11f5fddb865645f555547c823ba">GlobalLoadStreamB</a>;</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits,</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00332"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64">  332</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64">SharedLoadIteratorA</a>;</div><div class="line"><a name="l00334"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aaa35c4d2a90f137f50c9ccd24d5c4f5c">  334</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorA&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aaa35c4d2a90f137f50c9ccd24d5c4f5c">SharedLoadStreamA</a>;</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits,</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00340"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a">  340</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a">SharedLoadIteratorB</a>;</div><div class="line"><a name="l00342"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1d458fe1e416ddc4565f2b802592268b">  342</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorB&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1d458fe1e416ddc4565f2b802592268b">SharedLoadStreamB</a>;</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;</div><div class="line"><a name="l00345"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae82826fde376748cf67ff2e1bcaa8cef">  345</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">GemmConfig::MultiplyAdd</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae82826fde376748cf67ff2e1bcaa8cef">MultiplyAdd</a>;</div><div class="line"><a name="l00347"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">  347</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">ClearAccumulators&lt;typename MultiplyAdd::ScalarC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">ClearAccumulators</a>;</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;</div><div class="line"><a name="l00350"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047">  350</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits&lt;GemmConfig, EpilogueFunctor_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047">GemmEpilogueTraits</a>;</div><div class="line"><a name="l00352"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada2812153440cf1e678ca4c795a6e8ae">  352</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue&lt;GemmEpilogueTraits&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada2812153440cf1e678ca4c795a6e8ae">Epilogue</a>;</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;};</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;    <span class="keyword">typename</span> OutputTile_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 128, 128&gt;</a>,</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling&lt;half&gt;</a>,</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 8, 16&gt;</a>,</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 2,</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 2,</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;    <span class="keyword">typename</span> Helper_ = <a class="code" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">HgemmTraitsHelper</a>&lt;kLayoutA_,</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;                                         kLayoutB_,</div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;                                         OutputTile_,</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;                                         EpilogueFunctor_,</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;                                         ThreadGemmShape_,</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;                                         kScalarsPerLdgA_,</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;                                         kScalarsPerLdgB_,</div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;                                         Index_&gt; &gt;</div><div class="line"><a name="l00383"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1HgemmTraits.html">  383</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1HgemmTraits.html">HgemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt;</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;                         <span class="comment">// The config.</span></div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;                         typename Helper_::GemmConfig,</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;                         <span class="comment">// The stream to load A from global memory to shared memory.</span></div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;                         typename Helper_::GlobalLoadStreamA,</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;                         <span class="comment">// The stream to load B from global memory to shared memory.</span></div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;                         typename Helper_::GlobalLoadStreamB,</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;                         <span class="comment">// The stream to load A from shared memory.</span></div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;                         typename Helper_::SharedLoadStreamA,</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;                         <span class="comment">// The stream to load B from shared memory.</span></div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;                         typename Helper_::SharedLoadStreamB,</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;                         <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;                         typename Helper_::Epilogue,</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;                         <span class="comment">// The block swizzle to reorganize the grid.</span></div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;                         IdentityBlockSwizzle,</div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;                         <span class="comment">// The index.</span></div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;                         Index_,</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;                         <span class="comment">// The tool used to clear accumulators.</span></div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;                         typename Helper_::ClearAccumulators&gt; {};</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a1d458fe1e416ddc4565f2b802592268b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1d458fe1e416ddc4565f2b802592268b">cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamB</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorB &gt; SharedLoadStreamB</div><div class="ttdoc">The stream to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:342</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_aa190538ab678c82e379db4038af665ee"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorB</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; typename GemmTileTraitsHelperB::GlobalTileTraits, Index_ &gt; GlobalLoadIteratorB</div><div class="ttdoc">The iterator to load B from global memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:310</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4_html_ae66bb2c1f87e19278ff471c32e71ea85"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85">cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">HgemmSwizzle&lt; Iterator_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:125</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:129</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a0cb18b7857c88f600c6977a1bdb3f4e4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">cutlass::gemm::HgemmTraitsHelper::GemmConfig</a></div><div class="ttdeci">HgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; GemmConfig</div><div class="ttdoc">The HGEMM config. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:283</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:128</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:80</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:53</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:42</div></div>
 <div class="ttc" id="gemm__global__tile_8h_html"><div class="ttname"><a href="gemm__global__tile_8h.html">gemm_global_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing to global memory. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a95559f28cab076da723e4cb24351116e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorB</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; typename GemmTileTraitsHelperB::GlobalTileTraits, Index_ &gt; GlobalLoadIteratorB</div><div class="ttdoc">The iterator to load B from global memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:298</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_aba2366bec386c74df47dfd0426b07041"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">cutlass::gemm::HgemmTraitsHelper::ClearAccumulators</a></div><div class="ttdeci">ClearAccumulators&lt; typename MultiplyAdd::ScalarC &gt; ClearAccumulators</div><div class="ttdoc">The object to clear accumulators. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:332</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_aeb825b6575955a714ff24df2e142c047"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047">cutlass::gemm::HgemmTraitsHelper::GemmEpilogueTraits</a></div><div class="ttdeci">SimplifiedGemmEpilogueTraits&lt; GemmConfig, EpilogueFunctor_, Index_ &gt; GemmEpilogueTraits</div><div class="ttdoc">The traits class for the epilogue. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:350</div></div>
 <div class="ttc" id="gemm__traits_8h_html"><div class="ttname"><a href="gemm__traits_8h.html">gemm_traits.h</a></div><div class="ttdoc">Defines structural properties of complete GEMM computation. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a7f022d423d42d4081cefa7eb26b4d5b4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4">cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorA</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorA</div><div class="ttdoc">The iterator to store A to shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:291</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a2aaece6093100c71c4d587994200e3bb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2aaece6093100c71c4d587994200e3bb">cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamA</a></div><div class="ttdeci">GlobalLoadStream&lt; GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA &gt; GlobalLoadStreamA</div><div class="ttdoc">The stream to load A from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:294</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a1e6356bf5c87271ab9794fcc79edc145"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">HgemmCrosswiseGlobalTileTraits&lt; GemmOperand::kB, MatrixLayout::kColumnMajor, half const, Shape&lt; 1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD &gt;, Shape&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgB &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for B^N. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:213</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">cutlass::gemm::HgemmTransformerA</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:95</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_aca63ec1099444c555299dc144282dded"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Base</a></div><div class="ttdeci">GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt; Base</div><div class="ttdoc">The base config. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:198</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a21c860cc877df13d22dd30eeb5e2b06b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a21c860cc877df13d22dd30eeb5e2b06b">cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamA</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorA &gt; SharedLoadStreamA</div><div class="ttdoc">The stream to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:319</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4_html_a882c10bed18f62ece97f5f20f9de3296"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">Convert&lt; typename Iterator_::Fragment, typename Iterator_::Fragment &gt; Transformer</div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:99</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraits.html">cutlass::gemm::HgemmTraits</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:368</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4_html_a42c5bafcb226623b3326dbd01fc72f3b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">HgemmSwizzle&lt; Iterator_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:104</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:198</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a8d09409973094ca2a17633776a64a303"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303">cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorB</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorB</div><div class="ttdoc">The iterator to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:325</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:159</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a234ae6065d5ab56135e10119d3ad2d98"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a234ae6065d5ab56135e10119d3ad2d98">cutlass::gemm::HgemmTraitsHelper::Epilogue</a></div><div class="ttdeci">GemmEpilogue&lt; GemmEpilogueTraits &gt; Epilogue</div><div class="ttdoc">The epilogue. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:337</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a3fb86b6d3e353df6b752510d64c5e647"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647">cutlass::gemm::HgemmTraitsHelper::GlobalTransformerA</a></div><div class="ttdeci">HgemmTransformerA&lt; GemmTileTraitsHelperA::kLayout, GlobalLoadIteratorA &gt;::Transformer GlobalTransformerA</div><div class="ttdoc">The default transformer for A. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:285</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a1e6356bf5c87271ab9794fcc79edc145"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">HgemmCrosswiseGlobalTileTraits&lt; GemmOperand::kB, MatrixLayout::kColumnMajor, half const, Shape&lt; 1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD &gt;, Shape&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgB &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for B^N. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:221</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">cutlass::gemm::HgemmTransformerA</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:101</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_aca63ec1099444c555299dc144282dded"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Base</a></div><div class="ttdeci">GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt; Base</div><div class="ttdoc">The base config. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:206</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_ada2812153440cf1e678ca4c795a6e8ae"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada2812153440cf1e678ca4c795a6e8ae">cutlass::gemm::HgemmTraitsHelper::Epilogue</a></div><div class="ttdeci">GemmEpilogue&lt; GemmEpilogueTraits &gt; Epilogue</div><div class="ttdoc">The epilogue. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:352</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4_html_a882c10bed18f62ece97f5f20f9de3296"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">Convert&lt; typename Iterator_::Fragment, typename Iterator_::Fragment &gt; Transformer</div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:105</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a80e36b583ccd9aa9b37d52faa090cbca"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a80e36b583ccd9aa9b37d52faa090cbca">cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamA</a></div><div class="ttdeci">GlobalLoadStream&lt; GemmOperand::kA, GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA &gt; GlobalLoadStreamA</div><div class="ttdoc">The stream to load A from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:306</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraits.html">cutlass::gemm::HgemmTraits</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:383</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4_html_a42c5bafcb226623b3326dbd01fc72f3b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">HgemmSwizzle&lt; Iterator_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:110</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a14b4720b7522684a98b653d70353233a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a">cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorB</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorB</div><div class="ttdoc">The iterator to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:340</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_ae324b03601b97a22f2ac6db077280c60"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">cutlass::gemm::HgemmTraitsHelper::GlobalTransformerA</a></div><div class="ttdeci">HgemmTransformerA&lt; GemmTileTraitsHelperA::kLayout, GlobalLoadIteratorA &gt;::Transformer GlobalTransformerA</div><div class="ttdoc">The default transformer for A. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:294</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:200</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:163</div></div>
 <div class="ttc" id="gemm__epilogue_8h_html"><div class="ttname"><a href="gemm__epilogue_8h.html">gemm_epilogue.h</a></div><div class="ttdoc">Implements the epilogue phase of the GEMM kernel that efficiently updates global memory with the comp...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:161</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:273</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">cutlass::gemm::HgemmTileTraitsHelperA</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:125</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html">cutlass::MatrixLayout</a></div><div class="ttdoc">Describes layouts of matrices. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:35</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_ac5eeca1e91f0e0d4dd48d432d5213215"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac5eeca1e91f0e0d4dd48d432d5213215">cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamB</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorB &gt; SharedLoadStreamB</div><div class="ttdoc">The stream to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:327</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">cutlass::gemm::HgemmTransformerB</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:110</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a7ec19bf90207a7f598f2ec5166649495"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Base</a></div><div class="ttdeci">GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt; Base</div><div class="ttdoc">The base config. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:133</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a1bbb198a50b5f01a0502df44bb678620"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620">cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorA</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorA</div><div class="ttdoc">The iterator to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:317</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:302</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a4a0f361b5c47d0ab5f3308cd3b3b6ef6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">cutlass::gemm::HgemmTraitsHelper::GemmEpilogueTraits</a></div><div class="ttdeci">SimplifiedGemmEpilogueTraits&lt; GemmConfig, EpilogueFunctor_, Index_ &gt; GemmEpilogueTraits</div><div class="ttdoc">The traits class for the epilogue. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:335</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:191</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">cutlass::gemm::HgemmTileTraitsHelperA</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:131</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a4f3afb4b1f37a2c43a1935a3000b2a02"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4f3afb4b1f37a2c43a1935a3000b2a02">cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperA</a></div><div class="ttdeci">HgemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig &gt; GemmTileTraitsHelperA</div><div class="ttdoc">The GEMM config for A. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:285</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html">cutlass::MatrixLayout</a></div><div class="ttdoc">Defines data layouts of various matrix formats usable by TensorRef and other classes. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:156</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">cutlass::gemm::HgemmTransformerB</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:116</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a7ec19bf90207a7f598f2ec5166649495"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Base</a></div><div class="ttdeci">GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt; Base</div><div class="ttdoc">The base config. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:139</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:399</div></div>
 <div class="ttc" id="gemm__shared__tile_8h_html"><div class="ttname"><a href="gemm__shared__tile_8h.html">gemm_shared_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing tiles to and from shared memory. </div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:205</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:120</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:45</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a2ca7dcd4b5157db9b9c2f92740e44184"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">cutlass::gemm::HgemmTraitsHelper::GlobalTransformerB</a></div><div class="ttdeci">HgemmTransformerB&lt; GemmTileTraitsHelperB::kLayout, GlobalLoadIteratorB &gt;::Transformer GlobalTransformerB</div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:313</div></div>
 <div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a8574faffd18e4aa8420a4e32e07b62d6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">cutlass::gemm::HgemmTraitsHelper::ClearAccumulators</a></div><div class="ttdeci">ClearAccumulators&lt; typename MultiplyAdd::ScalarC &gt; ClearAccumulators</div><div class="ttdoc">The object to clear accumulators. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:347</div></div>
 <div class="ttc" id="hgemm__multiply__add_8h_html"><div class="ttname"><a href="hgemm__multiply__add_8h.html">hgemm_multiply_add.h</a></div><div class="ttdoc">Specialization implementing multiply-add operation on half-precision floating point fragments...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:79</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_config.h:76</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a8978603203221020113ec79e3f2c0d64"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64">cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorA</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorA</div><div class="ttdoc">The iterator to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:332</div></div>
 <div class="ttc" id="hgemm__swizzle_8h_html"><div class="ttname"><a href="hgemm__swizzle_8h.html">hgemm_swizzle.h</a></div><div class="ttdoc">Transposes a tile of 16b elements. Used by HGEMM to construct a K-strided layout in shared memory for...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:137</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_af1bc7f7c26db3399201cd95f35a56790"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af1bc7f7c26db3399201cd95f35a56790">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileBTraits&lt; half const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 8, SharedStoreTileTraits::kSkew &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for B^N. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:249</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a1597c776238f35bcb1acc0a8f8f9c118"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">cutlass::gemm::HgemmTraitsHelper::GemmConfig</a></div><div class="ttdeci">HgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; GemmConfig</div><div class="ttdoc">The HGEMM config. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:274</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">cutlass::gemm::HgemmTileTraitsHelperB</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:190</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_abaf5f16ab0b215b406766ecadab29394"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abaf5f16ab0b215b406766ecadab29394">cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamB</a></div><div class="ttdeci">GlobalLoadStream&lt; GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB &gt; GlobalLoadStreamB</div><div class="ttdoc">The stream to load B from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:310</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_ae9facf63912d98e597883bf7efb56cc8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae9facf63912d98e597883bf7efb56cc8">cutlass::gemm::HgemmTraitsHelper::MultiplyAdd</a></div><div class="ttdeci">GemmConfig::MultiplyAdd MultiplyAdd</div><div class="ttdoc">The functor to do the multiply-add in the main loop. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:330</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a8768c2b03bea0c3601c47dde2bc7ca89"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8768c2b03bea0c3601c47dde2bc7ca89">cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperB</a></div><div class="ttdeci">HgemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig &gt; GemmTileTraitsHelperB</div><div class="ttdoc">The GEMM config for B. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:278</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:428</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">cutlass::gemm::HgemmTileTraitsHelperB</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:198</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_ae82826fde376748cf67ff2e1bcaa8cef"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae82826fde376748cf67ff2e1bcaa8cef">cutlass::gemm::HgemmTraitsHelper::MultiplyAdd</a></div><div class="ttdeci">GemmConfig::MultiplyAdd MultiplyAdd</div><div class="ttdoc">The functor to do the multiply-add in the main loop. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:345</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:349</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_ada910ee63493bc3c70f7395127268a1d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada910ee63493bc3c70f7395127268a1d">cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperB</a></div><div class="ttdeci">HgemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig &gt; GemmTileTraitsHelperB</div><div class="ttdoc">The GEMM config for B. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:287</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> hgemm_global_tile.h:48</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">cutlass::gemm::SimplifiedGemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:300</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a458cbcc16fc296d024f2a1a95fb926c1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a458cbcc16fc296d024f2a1a95fb926c1">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileATraits&lt; half const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 8, SharedStoreTileTraits::kSkew &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for A^T. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:184</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a5557c86a530f5d20a35d3fa620adf417"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a5557c86a530f5d20a35d3fa620adf417">cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperA</a></div><div class="ttdeci">HgemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig &gt; GemmTileTraitsHelperA</div><div class="ttdoc">The GEMM config for A. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:276</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a7b4de712868095200a338802c1fbb3de"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de">cutlass::gemm::HgemmTraitsHelper::GlobalTransformerB</a></div><div class="ttdeci">HgemmTransformerB&lt; GemmTileTraitsHelperB::kLayout, GlobalLoadIteratorB &gt;::Transformer GlobalTransformerB</div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:301</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:278</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:271</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a36e082b2da22d17eeb73af6bd0632314"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">HgemmCrosswiseGlobalTileTraits&lt; GemmOperand::kA, MatrixLayout::kRowMajor, half const, Shape&lt; 1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD &gt;, Shape&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgA &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for A^T. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:148</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">cutlass::gemm::SimplifiedGemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:323</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aae7128f5522383c857d2639031b64c30"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; VectorizedTile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_ac6eac542d9d994509f931804b8b85ff5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorA</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; typename GemmTileTraitsHelperA::GlobalTileTraits, Index_ &gt; GlobalLoadIteratorA</div><div class="ttdoc">The iterator to load A from global memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:291</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:196</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:281</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a36e082b2da22d17eeb73af6bd0632314"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">HgemmCrosswiseGlobalTileTraits&lt; GemmOperand::kA, MatrixLayout::kRowMajor, half const, Shape&lt; 1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD &gt;, Shape&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgA &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for A^T. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:154</div></div>
 <div class="ttc" id="hgemm__global__tile_8h_html"><div class="ttname"><a href="hgemm__global__tile_8h.html">hgemm_global_tile.h</a></div><div class="ttdoc">Tile traits used to construct global tile iterator for HGEMM. This is intended to partition the threa...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:40</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:51</div></div>
 <div class="ttc" id="structcutlass_1_1Convert_html"><div class="ttname"><a href="structcutlass_1_1Convert.html">cutlass::Convert</a></div><div class="ttdef"><b>Definition:</b> convert.h:38</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="gemm_8h_html"><div class="ttname"><a href="gemm_8h.html">gemm.h</a></div><div class="ttdoc">Implements a software-pipelined efficient GEMM. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a29bd05960cc541bb67098f5483c84cf6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; Tile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:87</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a2c46c11f5fddb865645f555547c823ba"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2c46c11f5fddb865645f555547c823ba">cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamB</a></div><div class="ttdeci">GlobalLoadStream&lt; GemmOperand::kB, GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB &gt; GlobalLoadStreamB</div><div class="ttdoc">The stream to load B from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:325</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_aaa35c4d2a90f137f50c9ccd24d5c4f5c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aaa35c4d2a90f137f50c9ccd24d5c4f5c">cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamA</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorA &gt; SharedLoadStreamA</div><div class="ttdoc">The stream to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:334</div></div>
 <div class="ttc" id="gemm__epilogue__traits_8h_html"><div class="ttname"><a href="gemm__epilogue__traits_8h.html">gemm_epilogue_traits.h</a></div><div class="ttdoc">Defines structural properties of the GEMM epilogue. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a463dddee069606fd4ecf7c386ff23fce"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorB</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorB</div><div class="ttdoc">The iterator to store B to shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:319</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_a366c89f8ecfbf0aef894cfb6fae25be9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorA</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorA</div><div class="ttdoc">The iterator to store A to shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:300</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmSwizzle_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmSwizzle.html">cutlass::gemm::HgemmSwizzle</a></div><div class="ttdef"><b>Definition:</b> hgemm_swizzle.h:40</div></div>
 <div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4_html_aaaccb3f02a857e0c80d2891c6c6dcdb7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#aaaccb3f02a857e0c80d2891c6c6dcdb7">cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">Convert&lt; typename Iterator_::Fragment, typename Iterator_::Fragment &gt; Transformer</div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:114</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4_html_aaaccb3f02a857e0c80d2891c6c6dcdb7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#aaaccb3f02a857e0c80d2891c6c6dcdb7">cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">Convert&lt; typename Iterator_::Fragment, typename Iterator_::Fragment &gt; Transformer</div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:120</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1HgemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmConfig.html">cutlass::gemm::HgemmConfig</a></div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:57</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:620</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1HgemmTraitsHelper_html_abe3383e7338c08841fd8f0bfb1090448"><div class="ttname"><a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448">cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorB</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorB</div><div class="ttdoc">The iterator to store B to shared memory. </div><div class="ttdef"><b>Definition:</b> hgemm_traits.h:307</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:836</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/hierarchy.html b/docs/hierarchy.html
index 25ba6bdabe..865698e5af 100644
--- a/docs/hierarchy.html
+++ b/docs/hierarchy.html
@@ -73,7 +73,7 @@
 </div><!--header-->
 <div class="contents">
 <div class="textblock">This inheritance list is sorted roughly, but not completely, alphabetically:</div><div class="directory">
-<div class="levels">[detail level <span onclick="javascript:toggleLevel(1);">1</span><span onclick="javascript:toggleLevel(2);">2</span><span onclick="javascript:toggleLevel(3);">3</span>]</div><table class="directory">
+<div class="levels">[detail level <span onclick="javascript:toggleLevel(1);">1</span><span onclick="javascript:toggleLevel(2);">2</span><span onclick="javascript:toggleLevel(3);">3</span><span onclick="javascript:toggleLevel(4);">4</span>]</div><table class="directory">
 <tr id="row_0_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1aligned__chunk.html" target="_self">cutlass::platform::aligned_chunk&lt; Align &gt;</a></td><td class="desc"></td></tr>
 <tr id="row_1_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1aligned__storage.html" target="_self">cutlass::platform::aligned_storage&lt; Len, Align &gt;</a></td><td class="desc">Std::aligned_storage </td></tr>
 <tr id="row_2_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_2_" class="arrow" onclick="toggleFolder('2_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1AlignedStruct.html" target="_self">cutlass::AlignedStruct&lt; kAlignment_ &gt;</a></td><td class="desc"></td></tr>
@@ -94,316 +94,389 @@
 <tr id="row_13_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html" target="_self">cutlass::platform::alignment_of&lt; ulong4 &gt;</a></td><td class="desc"></td></tr>
 <tr id="row_14_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html" target="_self">cutlass::platform::alignment_of&lt; ulonglong2 &gt;</a></td><td class="desc"></td></tr>
 <tr id="row_15_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html" target="_self">cutlass::platform::alignment_of&lt; ulonglong4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_16_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html" target="_self">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_17_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html" target="_self">cutlass::ComputeOffsetFromShape&lt; Shape_ &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube </td></tr>
-<tr id="row_18_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html" target="_self">cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube with one channel and a depth of 1 </td></tr>
-<tr id="row_19_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html" target="_self">cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube with a depth of 1 </td></tr>
-<tr id="row_20_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html" target="_self">cutlass::ComputeOffsetFromStrides&lt; Strides_ &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube </td></tr>
-<tr id="row_21_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html" target="_self">cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube with one channel and a depth of 1 </td></tr>
-<tr id="row_22_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html" target="_self">cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube with a depth of 1 </td></tr>
-<tr id="row_23_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html" target="_self">cutlass::ComputeThreadOffsetFromStrides&lt; Threads_, Strides_ &gt;</a></td><td class="desc">Decompose threadId.x into coordinate of a cube whose dimensions are specified by Threads_. Afterwards compute the offset of those coordinates using Strides_ </td></tr>
-<tr id="row_24_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html" target="_self">cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a></td><td class="desc">Specialization for D=1 and C=1 </td></tr>
-<tr id="row_25_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html" target="_self">cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a></td><td class="desc">Specialization for D=1 </td></tr>
-<tr id="row_26_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1conditional.html" target="_self">cutlass::platform::conditional&lt; B, T, F &gt;</a></td><td class="desc">Std::conditional (true specialization) </td></tr>
-<tr id="row_27_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html" target="_self">cutlass::platform::conditional&lt; false, T, F &gt;</a></td><td class="desc">Std::conditional (false specialization) </td></tr>
-<tr id="row_28_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html" target="_self">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a></td><td class="desc">A const iterator implementing <a class="el" href="group__predicate__iterator__concept.html">Predicate Iterator Concept</a> enabling sequential read-only access to prediactes </td></tr>
-<tr id="row_29_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html" target="_self">cutlass::ConstPredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a></td><td class="desc">Adapter to enable random access to predicates via logical coordinate within a tile </td></tr>
-<tr id="row_30_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Convert.html" target="_self">cutlass::Convert&lt; InputFragment_, OutputFragment_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_31_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html" target="_self">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_32_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">cutlass::Coord&lt; N_ &gt;</a></td><td class="desc">Statically-sized array specifying Coords within a tensor </td></tr>
-<tr id="row_33_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">cutlass::Coord&lt; 4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_34_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">cutlass::Coord&lt; Rank &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_35_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Copy.html" target="_self">cutlass::Copy&lt; Fragment_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_36_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1default__delete.html" target="_self">cutlass::platform::default_delete&lt; T &gt;</a></td><td class="desc">Default deleter </td></tr>
-<tr id="row_37_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html" target="_self">cutlass::platform::default_delete&lt; T[]&gt;</a></td><td class="desc">Partial specialization for deleting array types </td></tr>
-<tr id="row_38_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1divide__assert.html" target="_self">cutlass::divide_assert&lt; Dividend, Divisor &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_39_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html" target="_self">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;::dummy&lt; B, D &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_40_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1enable__if.html" target="_self">cutlass::platform::enable_if&lt; C, T &gt;</a></td><td class="desc">Std::enable_if (true specialization) </td></tr>
-<tr id="row_41_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html" target="_self">cutlass::platform::enable_if&lt; false, T &gt;</a></td><td class="desc">Std::enable_if (false specialization) </td></tr>
-<tr id="row_42_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent.html" target="_self">cutlass::Extent&lt; T &gt;</a></td><td class="desc">Returns the extent of a scalar or vector </td></tr>
-<tr id="row_43_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html" target="_self">cutlass::Extent&lt; Vector&lt; T, Lanes &gt; &gt;</a></td><td class="desc">Returns the number of lanes of a vector if need be </td></tr>
-<tr id="row_44_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html" target="_self">cutlass::Extent&lt; Vector&lt; T, Lanes &gt; const &gt;</a></td><td class="desc">Returns the number of lanes of a vector if need be </td></tr>
-<tr id="row_45_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentConstIterator.html" target="_self">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_46_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentIterator.html" target="_self">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="desc">A template defining <a class="el" href="group__fragment__iterator__concept.html">Fragment Iterator Concept</a> </td></tr>
-<tr id="row_47_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentLoad.html" target="_self">cutlass::FragmentLoad&lt; kIteratorFragment, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_48_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html" target="_self">cutlass::FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_49_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html" target="_self">cutlass::FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_50_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html" target="_self">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_51_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html" target="_self">cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_52_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentStore.html" target="_self">cutlass::FragmentStore&lt; kIteratorFragment, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_53_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html" target="_self">cutlass::FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_54_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html" target="_self">cutlass::FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_55_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html" target="_self">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_56_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_57_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_57_" class="arrow" onclick="toggleFolder('57_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_57_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html" target="_self">cutlass::gemm::DgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_58_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_58_" class="arrow" onclick="toggleFolder('58_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_58_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html" target="_self">cutlass::gemm::SgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_59_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_59_" class="arrow" onclick="toggleFolder('59_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_59_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html" target="_self">cutlass::gemm::HgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_60_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_60_" class="arrow" onclick="toggleFolder('60_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_60_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01AccumulatorsPerThread___01_4.html" target="_self">cutlass::gemm::IgemmConfig&lt; OutputTile_, int8_t, AccumulatorsPerThread_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_61_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_61_" class="arrow" onclick="toggleFolder('61_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_61_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html" target="_self">cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, AccumulatorsPerThread_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_62_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html" target="_self">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_63_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_63_" class="arrow" onclick="toggleFolder('63_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html" target="_self">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_63_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html" target="_self">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_63_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html" target="_self">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_64_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_65_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_65_" class="arrow" onclick="toggleFolder('65_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_65_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html" target="_self">cutlass::gemm::SimplifiedGemmEpilogueTraits&lt; GemmConfig_, EpilogueFunctor_, Index_, Helper_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_66_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_66_" class="arrow" onclick="toggleFolder('66_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_66_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html" target="_self">cutlass::gemm::IgemmEpilogueTraits&lt; IgemmConfig_, EpilogueFunctor_, Index_, Helper_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_67_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html" target="_self">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_68_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_68_" class="arrow" onclick="toggleFolder('68_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html" target="_self">cutlass::gemm::GemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_68_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html" target="_self">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_69_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_69_" class="arrow" onclick="toggleFolder('69_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html" target="_self">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_69_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html" target="_self">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_69_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html" target="_self">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_70_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_70_" class="arrow" onclick="toggleFolder('70_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html" target="_self">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_70_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html" target="_self">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_70_1_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html" target="_self">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_71_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html" target="_self">cutlass::gemm::GemmMultiplicandTraits&lt; ThreadBlockTile_, Usage, Layout &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_72_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1GemmOperand.html" target="_self">cutlass::GemmOperand</a></td><td class="desc">Gemm operand - D = A * B + C </td></tr>
-<tr id="row_73_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html" target="_self">cutlass::gemm::GemmOperandTraitsAb&lt; kOperand_, kLayout_ &gt;</a></td><td class="desc">Helper to describe attributes of GEMM matrix operands </td></tr>
-<tr id="row_74_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html" target="_self">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_75_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html" target="_self">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_76_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html" target="_self">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_77_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html" target="_self">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_78_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html" target="_self">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_79_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html" target="_self">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_80_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html" target="_self">cutlass::gemm::GemmTileTraitsHelperA&lt; Kind, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_81_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_81_" class="arrow" onclick="toggleFolder('81_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html" target="_self">cutlass::gemm::GemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_81_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html" target="_self">cutlass::gemm::HgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_81_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html" target="_self">cutlass::gemm::IgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_82_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_82_" class="arrow" onclick="toggleFolder('82_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_82_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_83_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_83_" class="arrow" onclick="toggleFolder('83_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_83_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_84_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html" target="_self">cutlass::gemm::GemmTileTraitsHelperB&lt; Kind, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_85_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_85_" class="arrow" onclick="toggleFolder('85_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html" target="_self">cutlass::gemm::GemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_85_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html" target="_self">cutlass::gemm::HgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_85_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html" target="_self">cutlass::gemm::IgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_86_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_86_" class="arrow" onclick="toggleFolder('86_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_86_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_87_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_87_" class="arrow" onclick="toggleFolder('87_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_87_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_88_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_89_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_89_" class="arrow" onclick="toggleFolder('89_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_89_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html" target="_self">cutlass::gemm::SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, Epilogue_, Index_, GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Helper_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_90_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_90_" class="arrow" onclick="toggleFolder('90_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_90_0_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_90_0_" class="arrow" onclick="toggleFolder('90_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html" target="_self">cutlass::gemm::SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_90_0_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html" target="_self">cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_90_0_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html" target="_self">cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_91_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_91_" class="arrow" onclick="toggleFolder('91_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html" target="_self">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_91_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraits.html" target="_self">cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_91_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html" target="_self">cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_, Helper_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_92_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent.html" target="_self">cutlass::gemm::GetExtent&lt; kOperand_, Tile_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_93_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html" target="_self">cutlass::gemm::GetExtent&lt; GemmOperand::kA, Tile_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_94_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html" target="_self">cutlass::gemm::GetExtent&lt; GemmOperand::kB, Tile_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_95_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream</a></td><td class="desc">Assemble the global load streams for A/B </td></tr>
-<tr id="row_96_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_96_" class="arrow" onclick="toggleFolder('96_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html" target="_self">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_96_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html" target="_self">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_97_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1greater.html" target="_self">cutlass::platform::greater&lt; T &gt;</a></td><td class="desc">Std::greater </td></tr>
-<tr id="row_98_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html" target="_self">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_99_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html" target="_self">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_100_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html" target="_self">cutlass::gemm::HgemmTransformerA&lt; kLayout_, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_101_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_102_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_103_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html" target="_self">cutlass::gemm::HgemmTransformerB&lt; kLayout_, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_104_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_105_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_106_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Identity.html" target="_self">cutlass::Identity</a></td><td class="desc">Describes identity elements </td></tr>
-<tr id="row_107_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html" target="_self">cutlass::gemm::IdentityBlockSwizzle</a></td><td class="desc"></td></tr>
-<tr id="row_108_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html" target="_self">cutlass::gemm::IgemmEpilogueScalar&lt; ScalarD_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_109_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html" target="_self">cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_110_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html" target="_self">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_111_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html" target="_self">cutlass::gemm::IgemmGlobalLoadTransformer&lt; InputFragment_, OutputScalar_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_112_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html" target="_self">cutlass::gemm::IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_113_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html" target="_self">cutlass::gemm::IgemmGlobalStoreTransformer&lt; InputScalar_, OutputFragment_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_114_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html" target="_self">cutlass::gemm::IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_115_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html" target="_self">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_116_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html" target="_self">cutlass::gemm::IgemmSharedStoreTransformer&lt; InputScalar_, OutputFragment_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_117_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html" target="_self">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_118_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html" target="_self">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_119_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html" target="_self">cutlass::gemm::IgemmTransformerA&lt; kLayout_, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_120_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_121_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_122_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html" target="_self">cutlass::gemm::IgemmTransformerB&lt; kLayout_, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_123_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_124_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_125_" class="arrow" onclick="toggleFolder('125_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; value_t, V &gt;</a></td><td class="desc">Std::integral_constant </td></tr>
-<tr id="row_125_0_" class="even" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_125_0_" class="arrow" onclick="toggleFolder('125_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral.html" target="_self">cutlass::platform::is_integral&lt; T &gt;</a></td><td class="desc">Std::is_integral </td></tr>
-<tr id="row_125_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html" target="_self">cutlass::platform::is_integral&lt; const T &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_0_1_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html" target="_self">cutlass::platform::is_integral&lt; const volatile T &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_0_2_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html" target="_self">cutlass::platform::is_integral&lt; volatile T &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html" target="_self">cutlass::platform::is_integral&lt; char &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_2_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html" target="_self">cutlass::platform::is_integral&lt; int &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_3_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html" target="_self">cutlass::platform::is_integral&lt; long &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_4_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html" target="_self">cutlass::platform::is_integral&lt; long long &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_5_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html" target="_self">cutlass::platform::is_integral&lt; short &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_6_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html" target="_self">cutlass::platform::is_integral&lt; signed char &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_7_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html" target="_self">cutlass::platform::is_integral&lt; unsigned char &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_8_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html" target="_self">cutlass::platform::is_integral&lt; unsigned int &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_9_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html" target="_self">cutlass::platform::is_integral&lt; unsigned long &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_10_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html" target="_self">cutlass::platform::is_integral&lt; unsigned long long &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_11_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html" target="_self">cutlass::platform::is_integral&lt; unsigned short &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_12_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper.html" target="_self">cutlass::platform::is_pointer_helper&lt; T &gt;</a></td><td class="desc">Helper for std::is_pointer (false specialization) </td></tr>
-<tr id="row_125_13_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html" target="_self">cutlass::platform::is_pointer_helper&lt; T * &gt;</a></td><td class="desc">Helper for std::is_pointer (true specialization) </td></tr>
-<tr id="row_125_14_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__same.html" target="_self">cutlass::platform::is_same&lt; A, B &gt;</a></td><td class="desc">Std::is_same (false specialization) </td></tr>
-<tr id="row_125_15_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html" target="_self">cutlass::platform::is_same&lt; A, A &gt;</a></td><td class="desc">Std::is_same (true specialization) </td></tr>
-<tr id="row_125_16_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__volatile.html" target="_self">cutlass::platform::is_volatile&lt; T &gt;</a></td><td class="desc">Std::is_volatile </td></tr>
-<tr id="row_125_17_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html" target="_self">cutlass::platform::is_volatile&lt; volatile T &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_18_" class="even" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_125_18_" class="arrow" onclick="toggleFolder('125_18_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper.html" target="_self">cutlass::platform::is_pointer_helper&lt; remove_cv&lt; T &gt;::type &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_18_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer.html" target="_self">cutlass::platform::is_pointer&lt; T &gt;</a></td><td class="desc">Std::is_pointer </td></tr>
-<tr id="row_125_19_" class="even" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_125_19_" class="arrow" onclick="toggleFolder('125_19_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__same.html" target="_self">cutlass::platform::is_same&lt; void, remove_cv&lt; T &gt;::type &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_125_19_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__void.html" target="_self">cutlass::platform::is_void&lt; T &gt;</a></td><td class="desc">Std::is_void </td></tr>
-<tr id="row_126_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_126_" class="arrow" onclick="toggleFolder('126_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool, V &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_126_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1bool__constant.html" target="_self">cutlass::platform::bool_constant&lt; V &gt;</a></td><td class="desc">Std::bool_constant </td></tr>
-<tr id="row_127_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_127_" class="arrow" onclick="toggleFolder('127_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(is_arithmetic&lt; T &gt;::value||is_void&lt; T &gt;::value||is_same&lt; nullptr_t, remove_cv&lt; T &gt;::type &gt;::value)&gt;</a></td><td class="desc"></td></tr>
-<tr id="row_127_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__fundamental.html" target="_self">cutlass::platform::is_fundamental&lt; T &gt;</a></td><td class="desc">Std::is_fundamental </td></tr>
-<tr id="row_128_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_128_" class="arrow" onclick="toggleFolder('128_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(is_base_of_helper&lt; remove_cv&lt; BaseT &gt;::type, remove_cv&lt; DerivedT &gt;::type &gt;::value)||(is_same&lt; remove_cv&lt; BaseT &gt;::type, remove_cv&lt; DerivedT &gt;::type &gt;::value)&gt;</a></td><td class="desc"></td></tr>
-<tr id="row_128_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of.html" target="_self">cutlass::platform::is_base_of&lt; BaseT, DerivedT &gt;</a></td><td class="desc">Std::is_base_of </td></tr>
-<tr id="row_129_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_129_" class="arrow" onclick="toggleFolder('129_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(is_fundamental&lt; T &gt;::value||is_pointer&lt; T &gt;::value)&gt;</a></td><td class="desc"></td></tr>
-<tr id="row_129_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__trivially__copyable.html" target="_self">cutlass::platform::is_trivially_copyable&lt; T &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_130_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_130_" class="arrow" onclick="toggleFolder('130_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(is_integral&lt; T &gt;::value||is_floating_point&lt; T &gt;::value)&gt;</a></td><td class="desc"></td></tr>
-<tr id="row_130_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__arithmetic.html" target="_self">cutlass::platform::is_arithmetic&lt; T &gt;</a></td><td class="desc">Std::is_arithmetic </td></tr>
-<tr id="row_131_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_131_" class="arrow" onclick="toggleFolder('131_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(is_same&lt; float, remove_cv&lt; T &gt;::type &gt;::value||is_same&lt; double, remove_cv&lt; T &gt;::type &gt;::value)&gt;</a></td><td class="desc"></td></tr>
-<tr id="row_131_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__floating__point.html" target="_self">cutlass::platform::is_floating_point&lt; T &gt;</a></td><td class="desc">Std::is_floating_point </td></tr>
-<tr id="row_132_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_132_" class="arrow" onclick="toggleFolder('132_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(N &amp;(N - 1))==0 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_132_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1is__pow2.html" target="_self">cutlass::is_pow2&lt; N &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_133_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html" target="_self">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;</a></td><td class="desc">Helper for std::is_base_of </td></tr>
-<tr id="row_134_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html" target="_self">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a></td><td class="desc">An iterator implementing <a class="el" href="group__predicate__iterator__concept.html">Predicate Iterator Concept</a> enabling sequential read and write access to predicates </td></tr>
-<tr id="row_135_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1IteratorAdvance.html" target="_self">cutlass::IteratorAdvance</a></td><td class="desc">Specifies dimension in which post-increment accesses advance </td></tr>
-<tr id="row_136_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1IteratorFragment.html" target="_self">cutlass::IteratorFragment</a></td><td class="desc">Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix </td></tr>
-<tr id="row_137_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1less.html" target="_self">cutlass::platform::less&lt; T &gt;</a></td><td class="desc">Std::less </td></tr>
-<tr id="row_138_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html" target="_self">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="desc">Functor to compute linear combination of fragments </td></tr>
-<tr id="row_139_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load.html" target="_self">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_140_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html" target="_self">cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_141_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html" target="_self">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_142_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html" target="_self">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_143_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html" target="_self">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_144_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__down.html" target="_self">cutlass::log2_down&lt; N, CurrentVal, Count &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_145_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html" target="_self">cutlass::log2_down&lt; N, 1, Count &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_146_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__up.html" target="_self">cutlass::log2_up&lt; N, CurrentVal, Count &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_147_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html" target="_self">cutlass::log2_up&lt; N, 1, Count &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_148_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a></td><td class="desc"></td></tr>
-<tr id="row_149_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout.html" target="_self">cutlass::MatrixLayout</a></td><td class="desc">Describes layouts of matrices </td></tr>
-<tr id="row_150_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MemorySpace.html" target="_self">cutlass::MemorySpace</a></td><td class="desc">Enum to specify which memory space data resides in </td></tr>
-<tr id="row_151_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1nullptr__t.html" target="_self">cutlass::platform::nullptr_t</a></td><td class="desc">Std::nullptr_t </td></tr>
-<tr id="row_152_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html" target="_self">cutlass::platform::alignment_of&lt; value_t &gt;::pad</a></td><td class="desc"></td></tr>
-<tr id="row_153_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html" target="_self">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_154_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_154_" class="arrow" onclick="toggleFolder('154_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><b>Params</b></td><td class="desc"></td></tr>
-<tr id="row_154_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html" target="_self">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;::Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_155_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_156_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html" target="_self">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_157_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_157_" class="arrow" onclick="toggleFolder('157_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html" target="_self">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="desc">Parameters to the iterator </td></tr>
-<tr id="row_157_0_" class="even" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_157_0_" class="arrow" onclick="toggleFolder('157_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html" target="_self">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="desc">Parameters </td></tr>
-<tr id="row_157_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html" target="_self">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="desc"></td></tr>
-<tr id="row_157_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html" target="_self">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="desc">Parameters </td></tr>
-<tr id="row_158_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html" target="_self">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_159_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_160_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html" target="_self">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a></td><td class="desc">The params </td></tr>
-<tr id="row_161_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html" target="_self">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="desc">The parameters </td></tr>
-<tr id="row_162_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1plus.html" target="_self">cutlass::platform::plus&lt; T &gt;</a></td><td class="desc">Platform::plus </td></tr>
-<tr id="row_163_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateTileAdapter.html" target="_self">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a></td><td class="desc">Adapter to enable random access to predicates via logical coordinate within a tile </td></tr>
-<tr id="row_164_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector.html" target="_self">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a></td><td class="desc">Statically sized array of bits implementing </td></tr>
-<tr id="row_165_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector.html" target="_self">cutlass::PredicateVector&lt; Base::Iterations::kW &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_166_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector.html" target="_self">cutlass::PredicateVector&lt; ShapeCount&lt; typename Base::Iterations &gt;::kCount &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_167_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand.html" target="_self">cutlass::gemm::ProjectOperand&lt; operand, Kstrided &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_168_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html" target="_self">cutlass::gemm::ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;</a></td><td class="desc">Project A operand - (0, K, M) </td></tr>
-<tr id="row_169_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html" target="_self">cutlass::gemm::ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;</a></td><td class="desc">Project B operand - (0, K, N) </td></tr>
-<tr id="row_170_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html" target="_self">cutlass::gemm::ProjectOperand&lt; GemmOperand::kC, true &gt;</a></td><td class="desc">Project C operand - (0, N, M) </td></tr>
-<tr id="row_171_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html" target="_self">cutlass::gemm::ProjectOperand&lt; GemmOperand::kD, true &gt;</a></td><td class="desc">Project D operand - (0, N, M) </td></tr>
-<tr id="row_172_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__const.html" target="_self">cutlass::platform::remove_const&lt; T &gt;</a></td><td class="desc">Std::remove_const (non-const specialization) </td></tr>
-<tr id="row_173_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html" target="_self">cutlass::platform::remove_const&lt; const T &gt;</a></td><td class="desc">Std::remove_const (const specialization) </td></tr>
-<tr id="row_174_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__cv.html" target="_self">cutlass::platform::remove_cv&lt; T &gt;</a></td><td class="desc">Std::remove_cv </td></tr>
-<tr id="row_175_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__volatile.html" target="_self">cutlass::platform::remove_volatile&lt; T &gt;</a></td><td class="desc">Std::remove_volatile (non-volatile specialization) </td></tr>
-<tr id="row_176_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html" target="_self">cutlass::platform::remove_volatile&lt; volatile T &gt;</a></td><td class="desc">Std::remove_volatile (volatile specialization) </td></tr>
-<tr id="row_177_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html" target="_self">cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, bool &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_178_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html" target="_self">cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, true &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_179_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ReshapeTile.html" target="_self">cutlass::ReshapeTile&lt; Tile_, kAccessSize_, bool &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_180_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html" target="_self">cutlass::ReshapeTile&lt; Tile_, kAccessSize_, true &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_181_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Shape.html" target="_self">cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;</a></td><td class="desc">A <a class="el" href="structcutlass_1_1Shape.html" title="A Shape implementing Layout Concept describing the dimensions of a cube. ">Shape</a> implementing <a class="el" href="group__layout__concept.html">Layout Concept</a> describing the dimensions of a cube </td></tr>
-<tr id="row_182_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeAdd.html" target="_self">cutlass::ShapeAdd&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_183_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeCount.html" target="_self">cutlass::ShapeCount&lt; Shape &gt;</a></td><td class="desc">Compute derived counted of a <a class="el" href="group__layout__concept.html">Layout Concept</a> based class </td></tr>
-<tr id="row_184_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeDiv.html" target="_self">cutlass::ShapeDiv&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_185_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMax.html" target="_self">cutlass::ShapeMax&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_186_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMin.html" target="_self">cutlass::ShapeMin&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_187_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMul.html" target="_self">cutlass::ShapeMul&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_188_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeScale.html" target="_self">cutlass::ShapeScale&lt; A_, kScale_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_189_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeStrides.html" target="_self">cutlass::ShapeStrides&lt; Shape_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_190_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeSub.html" target="_self">cutlass::ShapeSub&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_191_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream</a></td><td class="desc">Assemble the shared load stream for A/B </td></tr>
-<tr id="row_192_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html" target="_self">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_193_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html" target="_self">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;::SharedStorage</a></td><td class="desc">The shared storage </td></tr>
-<tr id="row_194_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a></td><td class="desc">The shared memory to swizzle the data in the epilogue </td></tr>
-<tr id="row_195_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage</a></td><td class="desc">The storage in shared memory </td></tr>
-<tr id="row_196_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html" target="_self">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage</a></td><td class="desc">The storage in shared memory needed by that stream </td></tr>
-<tr id="row_197_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html" target="_self">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_198_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1sqrt__est.html" target="_self">cutlass::sqrt_est&lt; N &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_199_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType.html" target="_self">cutlass::StorageType&lt; kAlignment_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_200_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_011_01_4.html" target="_self">cutlass::StorageType&lt; 1 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_201_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_012_01_4.html" target="_self">cutlass::StorageType&lt; 2 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_202_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_014_01_4.html" target="_self">cutlass::StorageType&lt; 4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_203_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store.html" target="_self">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_204_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html" target="_self">cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_205_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html" target="_self">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_206_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html" target="_self">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_207_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html" target="_self">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_208_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::StreamSharedStorage&lt; GlobalLoadStream_, SharedLoadStream_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_209_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a></td><td class="desc">The shared memory storage to exchange data </td></tr>
-<tr id="row_210_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::StreamSharedStorage&lt; GlobalLoadStreamA, SharedLoadStreamA &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_211_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::StreamSharedStorage&lt; GlobalLoadStreamB, SharedLoadStreamB &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_212_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef.html" target="_self">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td><td class="desc">Structure modeling a pointer and stride into a tensor </td></tr>
-<tr id="row_213_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_213_" class="arrow" onclick="toggleFolder('213_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef.html" target="_self">cutlass::TensorRef&lt; T, 4 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_213_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorView.html" target="_self">cutlass::TensorView&lt; T &gt;</a></td><td class="desc">Host-side reference implementation of tensor operations </td></tr>
-<tr id="row_214_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html" target="_self">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
-<tr id="row_215_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html" target="_self">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
-<tr id="row_216_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html" target="_self">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
-<tr id="row_217_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_218_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_219_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_220_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_221_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_222_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_223_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_224_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_225_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;::ThreadOffset</a></td><td class="desc"></td></tr>
-<tr id="row_226_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html" target="_self">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_227_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset</a></td><td class="desc"></td></tr>
-<tr id="row_228_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
-<tr id="row_229_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TiledThreadOffset.html" target="_self">cutlass::TiledThreadOffset&lt; ThreadShape &gt;</a></td><td class="desc">Basic thread offset function computed from a thread shape </td></tr>
-<tr id="row_230_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_230_" class="arrow" onclick="toggleFolder('230_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase.html" target="_self">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="desc">Iterator for accessing a stripmined tile in memory </td></tr>
-<tr id="row_230_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadIterator.html" target="_self">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="desc">An iterator implementing <a class="el" href="group__tile__load__iterator__concept.html">Tile Load Iterator Concept</a> for loading a tile from memory </td></tr>
-<tr id="row_230_1_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreIterator.html" target="_self">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="desc">An iterator implementing <a class="el" href="group__tile__store__iterator__concept.html">Tile Store Iterator Concept</a> for storing a tile to memory </td></tr>
-<tr id="row_231_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_231_" class="arrow" onclick="toggleFolder('231_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase.html" target="_self">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_231_0_" class="even" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_231_0_" class="arrow" onclick="toggleFolder('231_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadIterator.html" target="_self">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_231_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html" target="_self">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_232_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_232_" class="arrow" onclick="toggleFolder('232_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase.html" target="_self">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_232_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html" target="_self">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_232_1_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html" target="_self">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_233_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraits.html" target="_self">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a></td><td class="desc">A template defining <a class="el" href="group__tile__traits__concept.html">Tile Traits Concept</a> </td></tr>
-<tr id="row_234_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html" target="_self">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_235_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsStandard.html" target="_self">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="desc">Chooses 'best' shape to enable warp raking along contiguous dimension if possible </td></tr>
-<tr id="row_236_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html" target="_self">cutlass::TileTraitsStrideMajor&lt; Tile_, Threads &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_237_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsWarpRake.html" target="_self">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a></td><td class="desc">Tiling in which warps rake across the contiguous dimension </td></tr>
-<tr id="row_238_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html" target="_self">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator</a></td><td class="desc"><a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html" title="An iterator implementing Predicate Iterator Concept enabling sequential read and write access to pred...">Iterator</a> that always returns true </td></tr>
-<tr id="row_239_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TrivialPredicateTileAdapter.html" target="_self">cutlass::TrivialPredicateTileAdapter</a></td><td class="desc">Always returns true predicate </td></tr>
-<tr id="row_240_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html" target="_self">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a></td><td class="desc">Std::unique_ptr </td></tr>
-<tr id="row_241_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector.html" target="_self">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_242_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html" target="_self">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_243_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize.html" target="_self">cutlass::Vectorize&lt; Element_, kLanes_ &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_244_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html" target="_self">cutlass::Vectorize&lt; Element_, 1 &gt;</a></td><td class="desc"></td></tr>
-<tr id="row_245_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits.html" target="_self">cutlass::VectorTraits&lt; T &gt;</a></td><td class="desc">Traits describing properties of vectors and scalar-as-vectors </td></tr>
-<tr id="row_246_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html" target="_self">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a></td><td class="desc">Partial specialization for actual <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a> </td></tr>
-<tr id="row_247_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html" target="_self">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a></td><td class="desc">Partial specialization for actual <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a> </td></tr>
+<tr id="row_16_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1bin1__t.html" target="_self">cutlass::bin1_t</a></td><td class="desc"></td></tr>
+<tr id="row_17_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html" target="_self">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_18_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html" target="_self">cutlass::MatrixLayout::ColumnMajor</a></td><td class="desc">Mapping function for column-major matrices </td></tr>
+<tr id="row_19_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html" target="_self">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_20_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html" target="_self">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_21_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html" target="_self">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_22_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1platform_1_1complex.html" target="_self">cutlass::platform::complex&lt; T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_23_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html" target="_self">cutlass::ComputeOffsetFromShape&lt; Shape_ &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube </td></tr>
+<tr id="row_24_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html" target="_self">cutlass::ComputeOffsetFromStrides&lt; Strides_ &gt;</a></td><td class="desc">Compute the offset for the given coordinates in a cube </td></tr>
+<tr id="row_25_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html" target="_self">cutlass::ComputeThreadOffsetFromStrides&lt; Threads_, Strides_ &gt;</a></td><td class="desc">Decompose threadId.x into coordinate of a cube whose dimensions are specified by Threads_. Afterwards compute the offset of those coordinates using Strides_ </td></tr>
+<tr id="row_26_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html" target="_self">cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a></td><td class="desc">Specialization for D=1 and C=1 </td></tr>
+<tr id="row_27_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html" target="_self">cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a></td><td class="desc">Specialization for D=1 </td></tr>
+<tr id="row_28_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1conditional.html" target="_self">cutlass::platform::conditional&lt; B, T, F &gt;</a></td><td class="desc">Std::conditional (true specialization) </td></tr>
+<tr id="row_29_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html" target="_self">cutlass::platform::conditional&lt; false, T, F &gt;</a></td><td class="desc">Std::conditional (false specialization) </td></tr>
+<tr id="row_30_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html" target="_self">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator</a></td><td class="desc">A const iterator implementing <a class="el" href="group__predicate__iterator__concept.html">Predicate Iterator Concept</a> enabling sequential read-only access to prediactes </td></tr>
+<tr id="row_31_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html" target="_self">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="desc">Constant iterator over tensors implied by <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a> </td></tr>
+<tr id="row_32_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html" target="_self">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td><td class="desc">TensorRefIterator over <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> objects in <a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a> </td></tr>
+<tr id="row_33_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ConstPredicateTileAdapter.html" target="_self">cutlass::ConstPredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a></td><td class="desc">Adapter to enable random access to predicates via logical coordinate within a tile </td></tr>
+<tr id="row_34_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html" target="_self">cutlass::MatrixLayout::ContiguousLayout</a></td><td class="desc"></td></tr>
+<tr id="row_35_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Convert.html" target="_self">cutlass::Convert&lt; InputFragment_, OutputFragment_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_36_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html" target="_self">cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_37_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="desc">Statically-sized array specifying Coords within a tensor </td></tr>
+<tr id="row_38_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_38_" class="arrow" onclick="toggleFolder('38_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">cutlass::Coord&lt; 2, int &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_38_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixCoord.html" target="_self">cutlass::MatrixCoord</a></td><td class="desc"></td></tr>
+<tr id="row_39_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">cutlass::Coord&lt; 3 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_40_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">cutlass::Coord&lt; 4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_41_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_41_" class="arrow" onclick="toggleFolder('41_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_41_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileCoord.html" target="_self">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_42_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_42_" class="arrow" onclick="toggleFolder('42_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">cutlass::Coord&lt; 4, int &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_42_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html" target="_self">cutlass::gemm::GemmCoord</a></td><td class="desc"></td></tr>
+<tr id="row_43_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Coord.html" target="_self">cutlass::Coord&lt; kStorageRank - 1 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_44_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Copy.html" target="_self">cutlass::Copy&lt; Fragment_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_45_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structDebugType.html" target="_self">DebugType&lt; T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_46_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structDebugValue.html" target="_self">DebugValue&lt; Value &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_47_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1default__delete.html" target="_self">cutlass::platform::default_delete&lt; T &gt;</a></td><td class="desc">Default deleter </td></tr>
+<tr id="row_48_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html" target="_self">cutlass::platform::default_delete&lt; T[]&gt;</a></td><td class="desc">Partial specialization for deleting array types </td></tr>
+<tr id="row_49_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1divide__assert.html" target="_self">cutlass::divide_assert&lt; Dividend, Divisor &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_50_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html" target="_self">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;::dummy&lt; B, D &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_51_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1DumpType.html" target="_self">cutlass::DumpType&lt; T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_52_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1enable__if.html" target="_self">cutlass::platform::enable_if&lt; C, T &gt;</a></td><td class="desc">Std::enable_if (true specialization) </td></tr>
+<tr id="row_53_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html" target="_self">cutlass::platform::enable_if&lt; false, T &gt;</a></td><td class="desc">Std::enable_if (false specialization) </td></tr>
+<tr id="row_54_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent.html" target="_self">cutlass::Extent&lt; T &gt;</a></td><td class="desc">Returns the extent of a scalar or vector </td></tr>
+<tr id="row_55_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html" target="_self">cutlass::Extent&lt; Vector&lt; T, Lanes &gt; &gt;</a></td><td class="desc">Returns the number of lanes of a vector if need be </td></tr>
+<tr id="row_56_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html" target="_self">cutlass::Extent&lt; Vector&lt; T, Lanes &gt; const &gt;</a></td><td class="desc">Returns the number of lanes of a vector if need be </td></tr>
+<tr id="row_57_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentConstIterator.html" target="_self">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_58_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentElementType.html" target="_self">cutlass::FragmentElementType</a></td><td class="desc">Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix </td></tr>
+<tr id="row_59_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1FragmentIterator.html" target="_self">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="desc">A template defining <a class="el" href="group__fragment__iterator__concept.html">Fragment Iterator Concept</a> </td></tr>
+<tr id="row_60_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html" target="_self">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_61_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html" target="_self">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_62_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html" target="_self">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_63_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_64_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_64_" class="arrow" onclick="toggleFolder('64_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_64_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html" target="_self">cutlass::gemm::DgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_65_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_65_" class="arrow" onclick="toggleFolder('65_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_65_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html" target="_self">cutlass::gemm::SgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, kLaunchBounds &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_66_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_66_" class="arrow" onclick="toggleFolder('66_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_66_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html" target="_self">cutlass::gemm::HgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_67_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_67_" class="arrow" onclick="toggleFolder('67_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_67_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html" target="_self">cutlass::gemm::IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_68_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_68_" class="arrow" onclick="toggleFolder('68_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_68_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html" target="_self">cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, ThreadGemmShape_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_69_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_69_" class="arrow" onclick="toggleFolder('69_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html" target="_self">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_69_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html" target="_self">cutlass::gemm::Fp16SgemmConfig&lt; OutputTile_, ThreadGemmShape_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_70_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html" target="_self">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="desc">GEMM problem description </td></tr>
+<tr id="row_71_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_71_" class="arrow" onclick="toggleFolder('71_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html" target="_self">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_71_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html" target="_self">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_71_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html" target="_self">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_72_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_73_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_73_" class="arrow" onclick="toggleFolder('73_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_73_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html" target="_self">cutlass::gemm::SimplifiedGemmEpilogueTraits&lt; GemmConfig_, EpilogueFunctor_, Index_, Helper_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_74_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_74_" class="arrow" onclick="toggleFolder('74_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_74_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html" target="_self">cutlass::gemm::IgemmEpilogueTraits&lt; IgemmConfig_, EpilogueFunctor_, Index_, Helper_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_75_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html" target="_self">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_76_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_76_" class="arrow" onclick="toggleFolder('76_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html" target="_self">cutlass::gemm::GemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_76_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html" target="_self">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_77_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_77_" class="arrow" onclick="toggleFolder('77_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html" target="_self">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_77_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html" target="_self">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_77_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html" target="_self">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_78_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_78_" class="arrow" onclick="toggleFolder('78_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html" target="_self">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_78_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html" target="_self">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_78_1_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html" target="_self">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_79_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html" target="_self">cutlass::gemm::GemmMultiplicandTraits&lt; ThreadBlockTile_, Usage, Layout &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_80_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1GemmOperand.html" target="_self">cutlass::GemmOperand</a></td><td class="desc">Gemm operand - D = A * B + C </td></tr>
+<tr id="row_81_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html" target="_self">cutlass::gemm::GemmOperandTraitsAb&lt; kOperand_, kLayout_ &gt;</a></td><td class="desc">Helper to describe attributes of GEMM matrix operands </td></tr>
+<tr id="row_82_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html" target="_self">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_83_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html" target="_self">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_84_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html" target="_self">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_85_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html" target="_self">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_86_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html" target="_self">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_87_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html" target="_self">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_88_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html" target="_self">cutlass::gemm::GemmTileTraitsHelperA&lt; Kind, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_89_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_89_" class="arrow" onclick="toggleFolder('89_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html" target="_self">cutlass::gemm::GemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_89_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html" target="_self">cutlass::gemm::HgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_89_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html" target="_self">cutlass::gemm::IgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_90_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_90_" class="arrow" onclick="toggleFolder('90_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_90_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html" target="_self">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_91_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_91_" class="arrow" onclick="toggleFolder('91_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_91_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_92_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html" target="_self">cutlass::gemm::GemmTileTraitsHelperB&lt; Kind, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_93_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_93_" class="arrow" onclick="toggleFolder('93_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html" target="_self">cutlass::gemm::GemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_93_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html" target="_self">cutlass::gemm::HgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_93_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html" target="_self">cutlass::gemm::IgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_94_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_94_" class="arrow" onclick="toggleFolder('94_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_94_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_95_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_95_" class="arrow" onclick="toggleFolder('95_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" target="_self">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_95_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html" target="_self">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_96_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_97_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_97_" class="arrow" onclick="toggleFolder('97_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_97_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html" target="_self">cutlass::gemm::SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, Epilogue_, Index_, GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Helper_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_98_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_98_" class="arrow" onclick="toggleFolder('98_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_98_0_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_98_0_" class="arrow" onclick="toggleFolder('98_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html" target="_self">cutlass::gemm::SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_98_0_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html" target="_self">cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_98_0_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html" target="_self">cutlass::gemm::Fp16SgemmSgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, Scalar_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_98_0_2_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SgemmLBTraits.html" target="_self">cutlass::gemm::SgemmLBTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td><td class="desc">Helper to define SGEMM traits using <a class="el" href="structcutlass_1_1gemm_1_1Launch.html" title="Partial specialization for launching the GEMM kernel with or without launch bounds. ">Launch</a> Bounds </td></tr>
+<tr id="row_98_0_3_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html" target="_self">cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_99_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_99_" class="arrow" onclick="toggleFolder('99_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html" target="_self">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_99_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraits.html" target="_self">cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_99_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html" target="_self">cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_, Helper_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_100_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent.html" target="_self">cutlass::gemm::GetExtent&lt; kOperand_, Tile_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_101_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html" target="_self">cutlass::gemm::GetExtent&lt; GemmOperand::kA, Tile_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_102_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html" target="_self">cutlass::gemm::GetExtent&lt; GemmOperand::kB, Tile_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_103_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html" target="_self">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_104_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html" target="_self">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="desc">Collect the global load streams for multiplicands </td></tr>
+<tr id="row_105_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1greater.html" target="_self">cutlass::platform::greater&lt; T &gt;</a></td><td class="desc">Std::greater </td></tr>
+<tr id="row_106_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmSwizzle.html" target="_self">cutlass::gemm::HgemmSwizzle&lt; GlobalIterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_107_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html" target="_self">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_108_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html" target="_self">cutlass::gemm::HgemmTransformerA&lt; kLayout_, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_109_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_110_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_111_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html" target="_self">cutlass::gemm::HgemmTransformerB&lt; kLayout_, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_112_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_113_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_114_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Identity.html" target="_self">cutlass::Identity</a></td><td class="desc">Describes identity elements </td></tr>
+<tr id="row_115_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html" target="_self">cutlass::gemm::IdentityBlockSwizzle</a></td><td class="desc"></td></tr>
+<tr id="row_116_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html" target="_self">cutlass::IdentityTensorMapFunc&lt; Rank &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_117_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html" target="_self">cutlass::IdentityTensorMapFunc&lt; Rank_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_118_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html" target="_self">cutlass::gemm::IgemmEpilogueScalar&lt; ScalarD_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_119_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html" target="_self">cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_120_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html" target="_self">cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_121_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html" target="_self">cutlass::gemm::IgemmGlobalLoadTransformer&lt; InputFragment_, OutputScalar_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_122_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html" target="_self">cutlass::gemm::IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_123_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html" target="_self">cutlass::gemm::IgemmGlobalStoreTransformer&lt; InputScalar_, OutputFragment_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_124_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html" target="_self">cutlass::gemm::IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_125_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html" target="_self">cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_126_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html" target="_self">cutlass::gemm::IgemmSharedStoreTransformer&lt; InputScalar_, OutputFragment_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_127_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html" target="_self">cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_128_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html" target="_self">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_129_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html" target="_self">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_130_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html" target="_self">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_131_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html" target="_self">cutlass::gemm::IgemmTransformerA&lt; kLayout_, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_132_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_133_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_134_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html" target="_self">cutlass::gemm::IgemmTransformerB&lt; kLayout_, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_135_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_136_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html" target="_self">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_137_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1int4__t.html" target="_self">cutlass::int4_t</a></td><td class="desc"></td></tr>
+<tr id="row_138_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_138_" class="arrow" onclick="toggleFolder('138_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; value_t, V &gt;</a></td><td class="desc">Std::integral_constant </td></tr>
+<tr id="row_138_0_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_138_0_" class="arrow" onclick="toggleFolder('138_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral.html" target="_self">cutlass::platform::is_integral&lt; T &gt;</a></td><td class="desc">Std::is_integral </td></tr>
+<tr id="row_138_0_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html" target="_self">cutlass::platform::is_integral&lt; const T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_0_1_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html" target="_self">cutlass::platform::is_integral&lt; const volatile T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_0_2_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html" target="_self">cutlass::platform::is_integral&lt; volatile T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_1_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html" target="_self">cutlass::platform::is_integral&lt; char &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_2_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html" target="_self">cutlass::platform::is_integral&lt; int &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_3_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html" target="_self">cutlass::platform::is_integral&lt; long &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_4_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html" target="_self">cutlass::platform::is_integral&lt; long long &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_5_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html" target="_self">cutlass::platform::is_integral&lt; short &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_6_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html" target="_self">cutlass::platform::is_integral&lt; signed char &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_7_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html" target="_self">cutlass::platform::is_integral&lt; unsigned char &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_8_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html" target="_self">cutlass::platform::is_integral&lt; unsigned int &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_9_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html" target="_self">cutlass::platform::is_integral&lt; unsigned long &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_10_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html" target="_self">cutlass::platform::is_integral&lt; unsigned long long &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_11_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html" target="_self">cutlass::platform::is_integral&lt; unsigned short &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_12_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper.html" target="_self">cutlass::platform::is_pointer_helper&lt; T &gt;</a></td><td class="desc">Helper for std::is_pointer (false specialization) </td></tr>
+<tr id="row_138_13_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html" target="_self">cutlass::platform::is_pointer_helper&lt; T * &gt;</a></td><td class="desc">Helper for std::is_pointer (true specialization) </td></tr>
+<tr id="row_138_14_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__same.html" target="_self">cutlass::platform::is_same&lt; A, B &gt;</a></td><td class="desc">Std::is_same (false specialization) </td></tr>
+<tr id="row_138_15_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html" target="_self">cutlass::platform::is_same&lt; A, A &gt;</a></td><td class="desc">Std::is_same (true specialization) </td></tr>
+<tr id="row_138_16_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__volatile.html" target="_self">cutlass::platform::is_volatile&lt; T &gt;</a></td><td class="desc">Std::is_volatile </td></tr>
+<tr id="row_138_17_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html" target="_self">cutlass::platform::is_volatile&lt; volatile T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_18_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_138_18_" class="arrow" onclick="toggleFolder('138_18_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer__helper.html" target="_self">cutlass::platform::is_pointer_helper&lt; remove_cv&lt; T &gt;::type &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_18_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__pointer.html" target="_self">cutlass::platform::is_pointer&lt; T &gt;</a></td><td class="desc">Std::is_pointer </td></tr>
+<tr id="row_138_19_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_138_19_" class="arrow" onclick="toggleFolder('138_19_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__same.html" target="_self">cutlass::platform::is_same&lt; void, remove_cv&lt; T &gt;::type &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_138_19_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__void.html" target="_self">cutlass::platform::is_void&lt; T &gt;</a></td><td class="desc">Std::is_void </td></tr>
+<tr id="row_139_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_139_" class="arrow" onclick="toggleFolder('139_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool, V &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_139_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1bool__constant.html" target="_self">cutlass::platform::bool_constant&lt; V &gt;</a></td><td class="desc">Std::bool_constant </td></tr>
+<tr id="row_140_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_140_" class="arrow" onclick="toggleFolder('140_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(is_arithmetic&lt; T &gt;::value||is_void&lt; T &gt;::value||is_same&lt; nullptr_t, remove_cv&lt; T &gt;::type &gt;::value)&gt;</a></td><td class="desc"></td></tr>
+<tr id="row_140_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__fundamental.html" target="_self">cutlass::platform::is_fundamental&lt; T &gt;</a></td><td class="desc">Std::is_fundamental </td></tr>
+<tr id="row_141_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_141_" class="arrow" onclick="toggleFolder('141_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(is_base_of_helper&lt; remove_cv&lt; BaseT &gt;::type, remove_cv&lt; DerivedT &gt;::type &gt;::value)||(is_same&lt; remove_cv&lt; BaseT &gt;::type, remove_cv&lt; DerivedT &gt;::type &gt;::value)&gt;</a></td><td class="desc"></td></tr>
+<tr id="row_141_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of.html" target="_self">cutlass::platform::is_base_of&lt; BaseT, DerivedT &gt;</a></td><td class="desc">Std::is_base_of </td></tr>
+<tr id="row_142_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_142_" class="arrow" onclick="toggleFolder('142_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(is_fundamental&lt; T &gt;::value||is_pointer&lt; T &gt;::value)&gt;</a></td><td class="desc"></td></tr>
+<tr id="row_142_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__trivially__copyable.html" target="_self">cutlass::platform::is_trivially_copyable&lt; T &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_143_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_143_" class="arrow" onclick="toggleFolder('143_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(is_integral&lt; T &gt;::value||is_floating_point&lt; T &gt;::value)&gt;</a></td><td class="desc"></td></tr>
+<tr id="row_143_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__arithmetic.html" target="_self">cutlass::platform::is_arithmetic&lt; T &gt;</a></td><td class="desc">Std::is_arithmetic </td></tr>
+<tr id="row_144_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_144_" class="arrow" onclick="toggleFolder('144_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(is_same&lt; float, remove_cv&lt; T &gt;::type &gt;::value||is_same&lt; double, remove_cv&lt; T &gt;::type &gt;::value)&gt;</a></td><td class="desc"></td></tr>
+<tr id="row_144_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__floating__point.html" target="_self">cutlass::platform::is_floating_point&lt; T &gt;</a></td><td class="desc">Std::is_floating_point </td></tr>
+<tr id="row_145_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_145_" class="arrow" onclick="toggleFolder('145_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1integral__constant.html" target="_self">cutlass::platform::integral_constant&lt; bool,(N &amp;(N - 1))==0 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_145_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1is__pow2.html" target="_self">cutlass::is_pow2&lt; N &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_146_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1is__base__of__helper.html" target="_self">cutlass::platform::is_base_of_helper&lt; BaseT, DerivedT &gt;</a></td><td class="desc">Helper for std::is_base_of </td></tr>
+<tr id="row_147_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html" target="_self">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator</a></td><td class="desc">An iterator implementing <a class="el" href="group__predicate__iterator__concept.html">Predicate Iterator Concept</a> enabling sequential read and write access to predicates </td></tr>
+<tr id="row_148_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1IteratorAdvance.html" target="_self">cutlass::IteratorAdvance</a></td><td class="desc">Specifies dimension in which post-increment accesses advance </td></tr>
+<tr id="row_149_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_149_" class="arrow" onclick="toggleFolder('149_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html" target="_self">cutlass::KernelLaunchConfiguration</a></td><td class="desc">Structure containing the basic launch configuration of a CUDA kernel </td></tr>
+<tr id="row_149_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="desc">Parameters object constructable on the host </td></tr>
+<tr id="row_150_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Launch.html" target="_self">cutlass::gemm::Launch&lt; Gemm, WithLaunchBounds &gt;</a></td><td class="desc">Partial specialization for launching the GEMM kernel with or without launch bounds </td></tr>
+<tr id="row_151_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html" target="_self">cutlass::gemm::Launch&lt; Gemm, false &gt;</a></td><td class="desc">Partial specialization for launching the GEMM kernel with or without launch bounds </td></tr>
+<tr id="row_152_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1less.html" target="_self">cutlass::platform::less&lt; T &gt;</a></td><td class="desc">Std::less </td></tr>
+<tr id="row_153_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_153_" class="arrow" onclick="toggleFolder('153_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html" target="_self">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="desc">Functor to compute linear combination of fragments </td></tr>
+<tr id="row_153_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html" target="_self">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_154_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load.html" target="_self">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_155_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html" target="_self">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_156_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html" target="_self">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td><td class="desc">Partial specialization for 16b loads </td></tr>
+<tr id="row_157_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html" target="_self">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_158_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html" target="_self">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_159_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html" target="_self">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_160_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html" target="_self">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_161_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html" target="_self">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_162_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html" target="_self">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_163_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html" target="_self">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_164_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__down.html" target="_self">cutlass::log2_down&lt; N, CurrentVal, Count &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_165_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html" target="_self">cutlass::log2_down&lt; N, 1, Count &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_166_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__up.html" target="_self">cutlass::log2_up&lt; N, CurrentVal, Count &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_167_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html" target="_self">cutlass::log2_up&lt; N, 1, Count &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_168_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a></td><td class="desc"></td></tr>
+<tr id="row_169_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout.html" target="_self">cutlass::MatrixLayout</a></td><td class="desc">Defines data layouts of various matrix formats usable by <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> and other classes </td></tr>
+<tr id="row_170_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixTransform.html" target="_self">cutlass::MatrixTransform</a></td><td class="desc">Transformation applied to matrix operands </td></tr>
+<tr id="row_171_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Max.html" target="_self">cutlass::Max&lt; A, B &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_172_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MemorySpace.html" target="_self">cutlass::MemorySpace</a></td><td class="desc">Enum to specify which memory space data resides in </td></tr>
+<tr id="row_173_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Min.html" target="_self">cutlass::Min&lt; A, B &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_174_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1nullptr__t.html" target="_self">cutlass::platform::nullptr_t</a></td><td class="desc">Std::nullptr_t </td></tr>
+<tr id="row_175_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html" target="_self">cutlass::platform::alignment_of&lt; value_t &gt;::pad</a></td><td class="desc"></td></tr>
+<tr id="row_176_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html" target="_self">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="desc">The parameters </td></tr>
+<tr id="row_177_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html" target="_self">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a></td><td class="desc">The params </td></tr>
+<tr id="row_178_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html" target="_self">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params</a></td><td class="desc">Parameters object passed to load iterators </td></tr>
+<tr id="row_179_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html" target="_self">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a></td><td class="desc"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html" title="Params object. ">Params</a> object </td></tr>
+<tr id="row_180_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html" target="_self">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="desc">The parameters </td></tr>
+<tr id="row_181_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html" target="_self">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a></td><td class="desc">Parameters object </td></tr>
+<tr id="row_182_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_182_" class="arrow" onclick="toggleFolder('182_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html" target="_self">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="desc">The params </td></tr>
+<tr id="row_182_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html" target="_self">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="desc">The params </td></tr>
+<tr id="row_183_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="desc">The params </td></tr>
+<tr id="row_184_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_184_" class="arrow" onclick="toggleFolder('184_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html" target="_self">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="desc">Parameters to the iterator </td></tr>
+<tr id="row_184_0_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_184_0_" class="arrow" onclick="toggleFolder('184_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html" target="_self">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="desc">Parameters </td></tr>
+<tr id="row_184_0_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html" target="_self">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="desc"></td></tr>
+<tr id="row_184_1_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html" target="_self">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="desc">Parameters </td></tr>
+<tr id="row_185_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html" target="_self">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a></td><td class="desc">Parameters object used to construct generic load stream </td></tr>
+<tr id="row_186_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html" target="_self">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params</a></td><td class="desc">Parameters used to construct the stream </td></tr>
+<tr id="row_187_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html" target="_self">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a></td><td class="desc">The params </td></tr>
+<tr id="row_188_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1plus.html" target="_self">cutlass::platform::plus&lt; T &gt;</a></td><td class="desc">Platform::plus </td></tr>
+<tr id="row_189_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateTileAdapter.html" target="_self">cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;</a></td><td class="desc">Adapter to enable random access to predicates via logical coordinate within a tile </td></tr>
+<tr id="row_190_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html" target="_self">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::PredicateVector</a></td><td class="desc">Empty predicate vector struct </td></tr>
+<tr id="row_191_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector.html" target="_self">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;</a></td><td class="desc">Statically sized array of bits implementing </td></tr>
+<tr id="row_192_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html" target="_self">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::PredicateVector</a></td><td class="desc">Empty predicate vector struct </td></tr>
+<tr id="row_193_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector.html" target="_self">cutlass::PredicateVector&lt; Base::Iterations::kW &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_194_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector.html" target="_self">cutlass::PredicateVector&lt; ShapeCount&lt; typename Base::Iterations &gt;::kCount &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_195_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand.html" target="_self">cutlass::gemm::ProjectOperand&lt; operand, Kstrided &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_196_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html" target="_self">cutlass::gemm::ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;</a></td><td class="desc">Project A operand - (0, K, M) </td></tr>
+<tr id="row_197_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html" target="_self">cutlass::gemm::ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;</a></td><td class="desc">Project B operand - (0, K, N) </td></tr>
+<tr id="row_198_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html" target="_self">cutlass::gemm::ProjectOperand&lt; GemmOperand::kC, true &gt;</a></td><td class="desc">Project C operand - (0, N, M) </td></tr>
+<tr id="row_199_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html" target="_self">cutlass::gemm::ProjectOperand&lt; GemmOperand::kD, true &gt;</a></td><td class="desc">Project D operand - (0, N, M) </td></tr>
+<tr id="row_200_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html" target="_self">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a></td><td class="desc">Functor computing a predicate given the logical position of an access </td></tr>
+<tr id="row_201_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__const.html" target="_self">cutlass::platform::remove_const&lt; T &gt;</a></td><td class="desc">Std::remove_const (non-const specialization) </td></tr>
+<tr id="row_202_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html" target="_self">cutlass::platform::remove_const&lt; const T &gt;</a></td><td class="desc">Std::remove_const (const specialization) </td></tr>
+<tr id="row_203_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__cv.html" target="_self">cutlass::platform::remove_cv&lt; T &gt;</a></td><td class="desc">Std::remove_cv </td></tr>
+<tr id="row_204_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__volatile.html" target="_self">cutlass::platform::remove_volatile&lt; T &gt;</a></td><td class="desc">Std::remove_volatile (non-volatile specialization) </td></tr>
+<tr id="row_205_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html" target="_self">cutlass::platform::remove_volatile&lt; volatile T &gt;</a></td><td class="desc">Std::remove_volatile (volatile specialization) </td></tr>
+<tr id="row_206_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html" target="_self">cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, bool &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_207_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html" target="_self">cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, true &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_208_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ReshapeTile.html" target="_self">cutlass::ReshapeTile&lt; Tile_, kAccessSize_, bool &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_209_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html" target="_self">cutlass::ReshapeTile&lt; Tile_, kAccessSize_, true &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_210_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html" target="_self">cutlass::MatrixLayout::RowMajor</a></td><td class="desc">Mapping function for row-major matrices </td></tr>
+<tr id="row_211_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html" target="_self">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_212_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html" target="_self">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_213_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html" target="_self">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_214_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ScalarIO.html" target="_self">cutlass::ScalarIO&lt; T &gt;</a></td><td class="desc">Helper to enable formatted printing of CUTLASS scalar types to an ostream </td></tr>
+<tr id="row_215_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html" target="_self">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_216_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html" target="_self">cutlass::detail::ScalarOrPointer&lt; Scalar &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_217_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Shape.html" target="_self">cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;</a></td><td class="desc">A <a class="el" href="structcutlass_1_1Shape.html" title="A Shape implementing Layout Concept describing the dimensions of a cube. ">Shape</a> implementing <a class="el" href="group__layout__concept.html">Layout Concept</a> describing the dimensions of a cube </td></tr>
+<tr id="row_218_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeAdd.html" target="_self">cutlass::ShapeAdd&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_219_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeCount.html" target="_self">cutlass::ShapeCount&lt; Shape &gt;</a></td><td class="desc">Compute derived counted of a <a class="el" href="group__layout__concept.html">Layout Concept</a> based class </td></tr>
+<tr id="row_220_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeDiv.html" target="_self">cutlass::ShapeDiv&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_221_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeDivCeiling.html" target="_self">cutlass::ShapeDivCeiling&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_222_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMax.html" target="_self">cutlass::ShapeMax&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_223_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMin.html" target="_self">cutlass::ShapeMin&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_224_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeMul.html" target="_self">cutlass::ShapeMul&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_225_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeScale.html" target="_self">cutlass::ShapeScale&lt; A_, kScale_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_226_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeStrides.html" target="_self">cutlass::ShapeStrides&lt; Shape_, elementsPerAccess &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_227_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ShapeSub.html" target="_self">cutlass::ShapeSub&lt; A_, B_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_228_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html" target="_self">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_229_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a></td><td class="desc">The shared memory to swizzle the data in the epilogue </td></tr>
+<tr id="row_230_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html" target="_self">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage</a></td><td class="desc">Defines a structure containing shared storage for each pair </td></tr>
+<tr id="row_231_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html" target="_self">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage</a></td><td class="desc">The storage in shared memory </td></tr>
+<tr id="row_232_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html" target="_self">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage</a></td><td class="desc"></td></tr>
+<tr id="row_233_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html" target="_self">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;::SharedStorage</a></td><td class="desc">The shared storage </td></tr>
+<tr id="row_234_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html" target="_self">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="desc">Collect the global load streams for multiplicands </td></tr>
+<tr id="row_235_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html" target="_self">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_236_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1sqrt__est.html" target="_self">cutlass::sqrt_est&lt; N &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_237_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType.html" target="_self">cutlass::StorageType&lt; alignment &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_238_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_011_01_4.html" target="_self">cutlass::StorageType&lt; 1 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_239_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_012_01_4.html" target="_self">cutlass::StorageType&lt; 2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_240_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType_3_014_01_4.html" target="_self">cutlass::StorageType&lt; 4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_241_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType.html" target="_self">cutlass::StorageType&lt; kAlignment_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_242_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1StorageType.html" target="_self">cutlass::StorageType&lt; sizeof(Scalar)&gt;</a></td><td class="desc"></td></tr>
+<tr id="row_243_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store.html" target="_self">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_244_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html" target="_self">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_245_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html" target="_self">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_246_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html" target="_self">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_247_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html" target="_self">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_248_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html" target="_self">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_249_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html" target="_self">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_250_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html" target="_self">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a></td><td class="desc">The shared memory storage to exchange data </td></tr>
+<tr id="row_251_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html" target="_self">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::StrideVector</a></td><td class="desc"></td></tr>
+<tr id="row_252_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html" target="_self">cutlass::gemm::swizzleDirection</a></td><td class="desc"></td></tr>
+<tr id="row_253_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_253_" class="arrow" onclick="toggleFolder('253_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef.html" target="_self">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_253_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html" target="_self">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_253_1_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorView.html" target="_self">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="desc">Defines a view into a logical tensor </td></tr>
+<tr id="row_254_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef.html" target="_self">cutlass::TensorRef&lt; AType const, 2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_255_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef.html" target="_self">cutlass::TensorRef&lt; BType const, 2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_256_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef.html" target="_self">cutlass::TensorRef&lt; CType const, 2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_257_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef.html" target="_self">cutlass::TensorRef&lt; DType, 2 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_258_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html" target="_self">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td><td class="desc">Specialization for rank=1 case with no internal <a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html">StrideVector</a> </td></tr>
+<tr id="row_259_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TensorRefArray.html" target="_self">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_260_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html" target="_self">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
+<tr id="row_261_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html" target="_self">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
+<tr id="row_262_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html" target="_self">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
+<tr id="row_263_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html" target="_self">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="desc">Template performing matrix multiply-add operation within a thread </td></tr>
+<tr id="row_264_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;::ThreadOffset</a></td><td class="desc"></td></tr>
+<tr id="row_265_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_266_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_267_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_268_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset</a></td><td class="desc"></td></tr>
+<tr id="row_269_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_270_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_271_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_272_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_273_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html" target="_self">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_274_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_275_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html" target="_self">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="desc">Computes the thread offset in (H, W) based on thread ID </td></tr>
+<tr id="row_276_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileAllocation.html" target="_self">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="desc">Class for storing a tile in memory and accessing it through a tensor ref </td></tr>
+<tr id="row_277_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TiledThreadOffset.html" target="_self">cutlass::TiledThreadOffset&lt; ThreadShape &gt;</a></td><td class="desc">Basic thread offset function computed from a thread shape </td></tr>
+<tr id="row_278_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_278_" class="arrow" onclick="toggleFolder('278_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase.html" target="_self">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="desc">Iterator for accessing a stripmined tile in memory </td></tr>
+<tr id="row_278_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadIterator.html" target="_self">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="desc">An iterator implementing <a class="el" href="group__tile__load__iterator__concept.html">Tile Load Iterator Concept</a> for loading a tile from memory </td></tr>
+<tr id="row_278_1_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreIterator.html" target="_self">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="desc">An iterator implementing <a class="el" href="group__tile__store__iterator__concept.html">Tile Store Iterator Concept</a> for storing a tile to memory </td></tr>
+<tr id="row_279_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_279_" class="arrow" onclick="toggleFolder('279_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase.html" target="_self">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_279_0_" class="even" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_279_0_" class="arrow" onclick="toggleFolder('279_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadIterator.html" target="_self">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_279_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span id="arr_279_0_0_" class="arrow" onclick="toggleFolder('279_0_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html" target="_self">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_279_0_0_0_" class="even" style="display:none;"><td class="entry"><span style="width:64px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html" target="_self">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_280_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_280_" class="arrow" onclick="toggleFolder('280_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileIteratorBase.html" target="_self">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_280_0_" style="display:none;"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span id="arr_280_0_" class="arrow" onclick="toggleFolder('280_0_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html" target="_self">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_280_0_0_" style="display:none;"><td class="entry"><span style="width:48px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html" target="_self">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_281_"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_281_" class="arrow" onclick="toggleFolder('281_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileLoadStream.html" target="_self">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="desc">Generic stream for loading and transforming fragments </td></tr>
+<tr id="row_281_0_" class="even" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html" target="_self">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="desc">Generic stream for loading and transforming fragments </td></tr>
+<tr id="row_282_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_282_" class="arrow" onclick="toggleFolder('282_')">&#9654;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileStoreStream.html" target="_self">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="desc">Generic stream for transforming and storing fragments </td></tr>
+<tr id="row_282_0_" style="display:none;"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html" target="_self">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="desc">Generic stream for transforming and storing fragments </td></tr>
+<tr id="row_283_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraits.html" target="_self">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a></td><td class="desc">A template defining <a class="el" href="group__tile__traits__concept.html">Tile Traits Concept</a> </td></tr>
+<tr id="row_284_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsContiguousMajor.html" target="_self">cutlass::TileTraitsContiguousMajor&lt; Tile_, Threads &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_285_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsStandard.html" target="_self">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="desc">Chooses 'best' shape to enable warp raking along contiguous dimension if possible </td></tr>
+<tr id="row_286_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsStrideMajor.html" target="_self">cutlass::TileTraitsStrideMajor&lt; Tile_, Threads &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_287_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TileTraitsWarpRake.html" target="_self">cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;</a></td><td class="desc">Tiling in which warps rake across the contiguous dimension </td></tr>
+<tr id="row_288_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html" target="_self">cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator</a></td><td class="desc"><a class="el" href="classcutlass_1_1PredicateVector_1_1Iterator.html" title="An iterator implementing Predicate Iterator Concept enabling sequential read and write access to pred...">Iterator</a> that always returns true </td></tr>
+<tr id="row_289_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1TrivialPredicateTileAdapter.html" target="_self">cutlass::TrivialPredicateTileAdapter</a></td><td class="desc">Always returns true predicate </td></tr>
+<tr id="row_290_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1uint4__t.html" target="_self">cutlass::uint4_t</a></td><td class="desc"></td></tr>
+<tr id="row_291_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1platform_1_1unique__ptr.html" target="_self">cutlass::platform::unique_ptr&lt; T, Deleter &gt;</a></td><td class="desc">Std::unique_ptr </td></tr>
+<tr id="row_292_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector.html" target="_self">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_293_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html" target="_self">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a></td><td class="desc"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 1-bit binary datatype </td></tr>
+<tr id="row_294_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html" target="_self">cutlass::Vector&lt; half, 1 &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_295_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html" target="_self">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_296_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html" target="_self">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a></td><td class="desc"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 4-bit signed integer datatype </td></tr>
+<tr id="row_297_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html" target="_self">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a></td><td class="desc"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 4-bit unsigned integer datatype </td></tr>
+<tr id="row_298_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize.html" target="_self">cutlass::Vectorize&lt; Element_, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_299_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html" target="_self">cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_300_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html" target="_self">cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_301_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html" target="_self">cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_302_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits.html" target="_self">cutlass::VectorTraits&lt; T &gt;</a></td><td class="desc">Traits describing properties of vectors and scalar-as-vectors </td></tr>
+<tr id="row_303_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html" target="_self">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;</a></td><td class="desc">Partial specialization for actual <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a> </td></tr>
+<tr id="row_304_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html" target="_self">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a></td><td class="desc">Partial specialization for actual <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a> </td></tr>
+<tr id="row_305_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ZipConvert.html" target="_self">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td><td class="desc">Zips two convert operations </td></tr>
+<tr id="row_306_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ZipFragment.html" target="_self">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td><td class="desc">A template defining <a class="el" href="group__fragment__concept.html">Fragment Concept</a> </td></tr>
+<tr id="row_307_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ZipTensorRef.html" target="_self">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a></td><td class="desc"></td></tr>
+<tr id="row_308_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="structcutlass_1_1ZipTileAllocation.html" target="_self">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a></td><td class="desc">Manages a pair of tile allocations as if they are one allocation </td></tr>
+<tr id="row_309_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">C</span></span><a class="el" href="classcutlass_1_1ZipTileIterator.html" target="_self">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td><td class="desc">Constructs an iterator from a pair of iterators </td></tr>
 </table>
 </div><!-- directory -->
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/igemm__epilogue_8h.html b/docs/igemm__epilogue_8h.html
index 9b5e5ccf05..f7332de210 100644
--- a/docs/igemm__epilogue_8h.html
+++ b/docs/igemm__epilogue_8h.html
@@ -82,13 +82,13 @@
 
 <p>Defines the epilogue phase of the GEMM computation for IGEMM, supporting integer and floating-point output matrix formats.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__global__stream_8h_source.html">cutlass/gemm/gemm_global_stream.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__shared__stream_8h_source.html">cutlass/gemm/gemm_shared_stream.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="igemm__global__tile_8h_source.html">cutlass/gemm/igemm_global_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__stream_8h_source.html">cutlass/gemm/gemm_global_stream.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__shared__stream_8h_source.html">cutlass/gemm/gemm_shared_stream.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="igemm__global__tile_8h_source.html">cutlass/gemm/igemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&quot;</code><br />
 </div>
 <p><a href="igemm__epilogue_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -127,7 +127,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/igemm__epilogue_8h_source.html b/docs/igemm__epilogue_8h_source.html
index bfef820ae9..43f9f15832 100644
--- a/docs/igemm__epilogue_8h_source.html
+++ b/docs/igemm__epilogue_8h_source.html
@@ -76,67 +76,66 @@
 <div class="title">igemm_epilogue.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="igemm__epilogue_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__stream_8h.html">cutlass/gemm/gemm_global_stream.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__shared__stream_8h.html">cutlass/gemm/gemm_shared_stream.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="igemm__global__tile_8h.html">cutlass/gemm/igemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&gt;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kElements_&gt;</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html">   45</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html">IgemmFloatToInt8Converter</a> {</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c">   47</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;float, kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c">InputFragment</a>;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553">   49</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;int8_t, kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553">OutputFragment</a>;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="comment">// We are packing 4 floats into int32 registers so we need kElements to be multiple of 4.</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(kElements_ % 4 == 0, <span class="stringliteral">&quot;kElements must be multiple of 4&quot;</span>);</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#ac65f020e93584b1bd3cdb849ff625026">   55</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#ac65f020e93584b1bd3cdb849ff625026">IgemmFloatToInt8Converter</a>() {}</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b">   58</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b">transform</a>(<a class="code" href="structcutlass_1_1Fragment.html">InputFragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b">transform</a>(src, 0, dst);</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  }</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a819fd33db88a68521108bab2641d73fd">   64</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a819fd33db88a68521108bab2641d73fd">transform</a>(Fragment_ <span class="keyword">const</span>&amp; src, <span class="keywordtype">int</span> offset, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="comment">// The inputs.</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;    float4 <span class="keyword">const</span>* src_f4 = <span class="keyword">reinterpret_cast&lt;</span>float4 const*<span class="keyword">&gt;</span>(&amp;src[0]);</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    <span class="comment">// The outputs.</span></div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;    <span class="keywordtype">int</span>* dst_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span>*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;    <span class="comment">// Iterate over the floats and pack them together to produce ints.</span></div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; kElements_ / 4; ++i) {</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;      <span class="comment">// Read the float4.</span></div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;      float4 f4 = src_f4[i];</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;      <span class="comment">// Clamp the 4 elements of the floats to the [-128, +127] range.</span></div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;      <span class="keywordtype">float</span> x = fmaxf(-128.f, fminf(127.f, f4.x));</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;      <span class="keywordtype">float</span> y = fmaxf(-128.f, fminf(127.f, f4.y));</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;      <span class="keywordtype">float</span> z = fmaxf(-128.f, fminf(127.f, f4.z));</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      <span class="keywordtype">float</span> w = fmaxf(-128.f, fminf(127.f, f4.w));</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;      <span class="comment">// Convert to integers.</span></div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;      <span class="keywordtype">int</span> ix = (int)x;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      <span class="keywordtype">int</span> iy = (int)y;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;      <span class="keywordtype">int</span> iz = (int)z;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      <span class="keywordtype">int</span> iw = (int)w;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      <span class="comment">// Extract the lower bytes to build an int32 with 4 int8.</span></div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %0, %1, 0x1140;&quot;</span> : <span class="stringliteral">&quot;+r&quot;</span>(ix) : <span class="stringliteral">&quot;r&quot;</span>(iy));</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %0, %1, 0x1140;&quot;</span> : <span class="stringliteral">&quot;+r&quot;</span>(iz) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %0, %1, 0x5410;&quot;</span> : <span class="stringliteral">&quot;+r&quot;</span>(ix) : <span class="stringliteral">&quot;r&quot;</span>(iz));</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;      <span class="comment">// Store the int.</span></div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;      dst_int[i] = ix;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;    }</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;};</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputScalar_, <span class="keyword">typename</span> OutputFragment_&gt;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html">  101</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html">IgemmGlobalStoreTransformer</a> {</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html#a98aefa95117dbfdf2e577890318a6c13">  102</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Convert.html">Convert&lt;Fragment&lt;InputScalar_, OutputFragment_::kElements&gt;</a>, OutputFragment_&gt; <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html#a98aefa95117dbfdf2e577890318a6c13">Transformer</a>;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;};</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kElements_&gt;</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html">  106</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html">IgemmGlobalStoreTransformer</a>&lt;float, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;int8_t, kElements_&gt; &gt; {</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html#a52ecdfd8b94d8d7f4881048e11a33aba">  107</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html">IgemmFloatToInt8Converter&lt;kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html#a52ecdfd8b94d8d7f4881048e11a33aba">Transformer</a>;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;};</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kElements_&gt;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html">  113</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html">IgemmInt8ToFloatConverter</a> {</div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb">  115</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;int8_t, kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb">InputFragment</a>;</div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7">  117</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;float, kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7">OutputFragment</a>;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="comment">// We are unpacking 4 int8s from int32.</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(kElements_ % 4 == 0, <span class="stringliteral">&quot;kElements must be multiple of 4&quot;</span>);</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a88a55a494d3a30d50477d50bf6a8804d">  123</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a88a55a494d3a30d50477d50bf6a8804d">IgemmInt8ToFloatConverter</a>() {}</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d">  126</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d">transform</a>(<a class="code" href="structcutlass_1_1Fragment.html">InputFragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d">transform</a>(src, 0, dst);</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  }</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00132"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3">  132</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3">transform</a>(Fragment_ <span class="keyword">const</span>&amp; src, <span class="keywordtype">int</span> offset, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;    <span class="comment">// The inputs.</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span>* src_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span> const*<span class="keyword">&gt;</span>(&amp;src[0]);</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;    <span class="comment">// The outputs.</span></div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    float4* dst_f4 = <span class="keyword">reinterpret_cast&lt;</span>float4*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;    <span class="comment">// Iterate over the int8 and unpack them together to produce floats.</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; kElements_ / 4; ++i) {</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <span class="comment">// Read the int.</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      <span class="keywordtype">int</span> ix, iy, iz, iw = src_int[i];</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;      <span class="comment">// Extract the 4 bytes.</span></div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, 0x0, %1, 0x4440;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(ix) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, 0x0, %1, 0x4441;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(iy) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, 0x0, %1, 0x4442;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(iz) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, 0x0, %1, 0x4443;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(iw) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;      <span class="comment">// The floats.</span></div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;      <span class="keywordtype">float</span> fx, fy, fz, fw;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <span class="comment">// Convert to floats (make sure we generate I2F.F32.S8).</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;cvt.rn.f32.s8 %0, %1;&quot;</span> : <span class="stringliteral">&quot;=f&quot;</span>(fx) : <span class="stringliteral">&quot;r&quot;</span>(ix));</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;cvt.rn.f32.s8 %0, %1;&quot;</span> : <span class="stringliteral">&quot;=f&quot;</span>(fy) : <span class="stringliteral">&quot;r&quot;</span>(iy));</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;cvt.rn.f32.s8 %0, %1;&quot;</span> : <span class="stringliteral">&quot;=f&quot;</span>(fz) : <span class="stringliteral">&quot;r&quot;</span>(iz));</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;cvt.rn.f32.s8 %0, %1;&quot;</span> : <span class="stringliteral">&quot;=f&quot;</span>(fw) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;      <span class="comment">// Store the float4.</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;      dst_f4[i] = make_float4(fx, fy, fz, fw);</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    }</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  }</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;};</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputFragment_, <span class="keyword">typename</span> OutputScalar_&gt;</div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">  167</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">IgemmGlobalLoadTransformer</a> {</div><div class="line"><a name="l00168"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html#ad3190650741cef20c1aca919eddd9d72">  168</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Convert.html">Convert&lt;InputFragment_, Fragment&lt;OutputScalar_, InputFragment_::kElements&gt;</a> &gt; <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html#ad3190650741cef20c1aca919eddd9d72">Transformer</a>;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;};</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kElements_&gt;</div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html">  172</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">IgemmGlobalLoadTransformer</a>&lt;<a class="code" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;int8_t, kElements_&gt;, float&gt; {</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html#a49c249026be24ec8a66f5eda99cb855c">  173</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html">IgemmInt8ToFloatConverter&lt;kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html#a49c249026be24ec8a66f5eda99cb855c">Transformer</a>;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;};</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputScalar_, <span class="keyword">typename</span> OutputFragment_&gt;</div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">  179</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">IgemmSharedStoreTransformer</a> {</div><div class="line"><a name="l00180"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html#a9edd08d595327a8cc3b8da50622b3bd2">  180</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Convert.html">Convert&lt;Fragment&lt;InputScalar_, OutputFragment_::kElements&gt;</a>, OutputFragment_&gt; <a class="code" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html#a9edd08d595327a8cc3b8da50622b3bd2">Transformer</a>;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;};</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> IgemmConfig_, <span class="keyword">typename</span> EpilogueFunctor_, <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">  186</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">IgemmEpilogueTraitsHelper</a></div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">GemmEpilogueTraitsHelper</a>&lt;IgemmConfig_, EpilogueFunctor_, Index_&gt; {</div><div class="line"><a name="l00189"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2">  189</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">GemmEpilogueTraitsHelper&lt;IgemmConfig_, EpilogueFunctor_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2">Base</a>;</div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5a52727bb9b5d5f8afa7d0384f564036">  191</a></span>&#160;  <span class="keyword">typedef</span> IgemmConfig_ <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5a52727bb9b5d5f8afa7d0384f564036">IgemmConfig</a>;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00">  194</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">Base::Scalar</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00">Scalar</a>;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51">  196</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::Iterations</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51">Iterations</a>;</div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9">  198</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::Delta</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9">Delta</a>;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aaa009025dcd6360ead1dc18005688821">  201</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">Base::GlobalLoadTileTraits</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aaa009025dcd6360ead1dc18005688821">GlobalLoadTileTraits</a>;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9">  203</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;GlobalLoadTileTraits&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9">GlobalLoadIteratorC</a>;</div><div class="line"><a name="l00205"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">  205</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalLoadIteratorC::Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">GlobalFragmentC</a>;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;  <span class="keyword">typedef</span></div><div class="line"><a name="l00208"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f">  208</a></span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Convert.html">IgemmGlobalLoadTransformer&lt;GlobalFragmentC, Scalar&gt;::Transformer</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f">GlobalTransformerC</a>;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a16b06a1611dbd22adaa0c9ee5e1b15bd">  211</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">Base::GlobalStoreTileTraits</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a16b06a1611dbd22adaa0c9ee5e1b15bd">GlobalStoreTileTraits</a>;</div><div class="line"><a name="l00213"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2">  213</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;GlobalStoreTileTraits&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2">GlobalStoreIteratorD</a>;</div><div class="line"><a name="l00215"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88">  215</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalStoreIteratorD::Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88">GlobalFragmentD</a>;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;  <span class="keyword">typedef</span></div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591">  218</a></span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Convert.html">IgemmGlobalStoreTransformer&lt;Scalar, GlobalFragmentD&gt;::Transformer</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591">GlobalTransformerD</a>;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">  221</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">Base::SharedStoreTileTraits</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a>,</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;                            <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>,</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>&gt;</div><div class="line"><a name="l00227"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d">  227</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d">SharedStoreIteratorD</a>;</div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">  229</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">SharedStoreIteratorD::Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a>;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">IgemmSharedStoreTransformer</a>&lt;<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">IgemmConfig::Accumulators::Element</a>,</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;                                               <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a>&gt;::Transformer</div><div class="line"><a name="l00233"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf">  233</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf">SharedStoreTransformerD</a>;</div><div class="line"><a name="l00235"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">  235</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">Base::SharedLoadTileTraits</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a>,</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;                           <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>,</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00241"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa">  241</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa">SharedLoadIteratorD</a>;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;};</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;    <span class="keyword">typename</span> IgemmConfig_,</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_,</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;    <span class="keyword">typename</span> Helper_ = <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">IgemmEpilogueTraitsHelper&lt;IgemmConfig_, EpilogueFunctor_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00255"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">  255</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">IgemmEpilogueTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">GemmEpilogueTraits</a>&lt;</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;                                 <span class="comment">// The output tile.</span></div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;                                 typename IgemmConfig_::OutputTile,</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;                                 <span class="comment">// The accumulators.</span></div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;                                 typename IgemmConfig_::Accumulators,</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;                                 <span class="comment">// The global iterator for C.</span></div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;                                 typename Helper_::GlobalLoadIteratorC,</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;                                 <span class="comment">// The transformer for C.</span></div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;                                 typename Helper_::GlobalTransformerC,</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;                                 <span class="comment">// The transformer for D.</span></div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;                                 typename Helper_::GlobalTransformerD,</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;                                 <span class="comment">// The global iterator for D.</span></div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;                                 typename Helper_::GlobalStoreIteratorD,</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;                                 <span class="comment">// The iterator to store D to shared memory.</span></div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;                                 typename Helper_::SharedStoreIteratorD,</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;                                 <span class="comment">// The shared store transformer for D.</span></div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;                                 typename Helper_::SharedStoreTransformerD,</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;                                 <span class="comment">// The iterator to load D from shared memory.</span></div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;                                 typename Helper_::SharedLoadIteratorD,</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;                                 <span class="comment">// The iterations.</span></div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;                                 typename Helper_::Iterations,</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;                                 <span class="comment">// The strides between iterations.</span></div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;                                 typename Helper_::Delta,</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;                                 <span class="comment">// The functor to be used in the epilogue.</span></div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;                                 EpilogueFunctor_,</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;                                 <span class="comment">// The index.</span></div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;                                 Index_&gt; {</div><div class="line"><a name="l00283"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html#a8609af98d1e43cd25688bae6f33feed4">  283</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html#a8609af98d1e43cd25688bae6f33feed4">kInt8Output</a> =</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;      <a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;typename IgemmConfig_::ScalarC, int8_t&gt;::value</a> != 0;</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;};</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmEpilogueTraits_, <span class="keywordtype">bool</span> = GemmEpilogueTraits_::kInt8Output&gt;</div><div class="line"><a name="l00290"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">  290</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt;GemmEpilogueTraits_&gt; {</div><div class="line"><a name="l00292"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04">  292</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue&lt;GemmEpilogueTraits_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04">Base</a>;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;</div><div class="line"><a name="l00295"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#ab7a51121d24250d6441ee538e6521dc2">  295</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#ab7a51121d24250d6441ee538e6521dc2">IgemmEpilogue</a>(<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Base::Params</a> <span class="keyword">const</span>&amp; params_,</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;                               <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">Base::SharedStorage</a>&amp; shared_storage_,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;                               <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a> m_,</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;                               <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a> n_)</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">Base</a>(params_, shared_storage_, m_, n_) {}</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;};</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmEpilogueTraits_&gt;</div><div class="line"><a name="l00305"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html">  305</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a>&lt;GemmEpilogueTraits_, true&gt; : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt;GemmEpilogueTraits_&gt; {</div><div class="line"><a name="l00307"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf">  307</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue&lt;GemmEpilogueTraits_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf">Base</a>;</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;</div><div class="line"><a name="l00310"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a49ac00bed1532707aacd3ff108c84623">  310</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a49ac00bed1532707aacd3ff108c84623">IgemmEpilogue</a>(<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Base::Params</a> <span class="keyword">const</span>&amp; params_,</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;                               <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">Base::SharedStorage</a>&amp; shared_storage_,</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;                               <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a> m_,</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;                               <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a> n_)</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">Base</a>(params_, shared_storage_, m_, n_) {}</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;};</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:116</div></div>
+<a href="igemm__epilogue_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__stream_8h.html">cutlass/gemm/gemm_global_stream.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__stream_8h.html">cutlass/gemm/gemm_shared_stream.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="igemm__global__tile_8h.html">cutlass/gemm/igemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kElements_&gt;</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html">   45</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html">IgemmFloatToInt8Converter</a> {</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c">   47</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;float, kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c">InputFragment</a>;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553">   49</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;int8_t, kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553">OutputFragment</a>;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="comment">// We are packing 4 floats into int32 registers so we need kElements to be multiple of 4.</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(kElements_ % 4 == 0, <span class="stringliteral">&quot;kElements must be multiple of 4&quot;</span>);</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#ac65f020e93584b1bd3cdb849ff625026">   55</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#ac65f020e93584b1bd3cdb849ff625026">IgemmFloatToInt8Converter</a>() {}</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b">   58</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b">transform</a>(<a class="code" href="structcutlass_1_1Fragment.html">InputFragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b">transform</a>(src, 0, dst);</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  }</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a819fd33db88a68521108bab2641d73fd">   64</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a819fd33db88a68521108bab2641d73fd">transform</a>(Fragment_ <span class="keyword">const</span>&amp; src, <span class="keywordtype">int</span> offset, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="comment">// The inputs.</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;    float4 <span class="keyword">const</span>* src_f4 = <span class="keyword">reinterpret_cast&lt;</span>float4 const*<span class="keyword">&gt;</span>(&amp;src[0]);</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    <span class="comment">// The outputs.</span></div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;    <span class="keywordtype">int</span>* dst_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span>*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;    <span class="comment">// Iterate over the floats and pack them together to produce ints.</span></div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; kElements_ / 4; ++i) {</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;      <span class="comment">// Read the float4.</span></div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;      float4 f4 = src_f4[i];</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;      <span class="comment">// Clamp the 4 elements of the floats to the [-128, +127] range.</span></div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;      <span class="keywordtype">float</span> x = fmaxf(-128.f, fminf(127.f, f4.x));</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;      <span class="keywordtype">float</span> y = fmaxf(-128.f, fminf(127.f, f4.y));</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;      <span class="keywordtype">float</span> z = fmaxf(-128.f, fminf(127.f, f4.z));</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      <span class="keywordtype">float</span> w = fmaxf(-128.f, fminf(127.f, f4.w));</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;      <span class="comment">// Convert to integers.</span></div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;      <span class="keywordtype">int</span> ix = (int)x;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      <span class="keywordtype">int</span> iy = (int)y;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;      <span class="keywordtype">int</span> iz = (int)z;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      <span class="keywordtype">int</span> iw = (int)w;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      <span class="comment">// Extract the lower bytes to build an int32 with 4 int8.</span></div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %0, %1, 0x1140;&quot;</span> : <span class="stringliteral">&quot;+r&quot;</span>(ix) : <span class="stringliteral">&quot;r&quot;</span>(iy));</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %0, %1, 0x1140;&quot;</span> : <span class="stringliteral">&quot;+r&quot;</span>(iz) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %0, %1, 0x5410;&quot;</span> : <span class="stringliteral">&quot;+r&quot;</span>(ix) : <span class="stringliteral">&quot;r&quot;</span>(iz));</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;      <span class="comment">// Store the int.</span></div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;      dst_int[i] = ix;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;    }</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;};</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputScalar_, <span class="keyword">typename</span> OutputFragment_&gt;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html">  101</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html">IgemmGlobalStoreTransformer</a> {</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html#a98aefa95117dbfdf2e577890318a6c13">  102</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Convert.html">Convert&lt;Fragment&lt;InputScalar_, OutputFragment_::kElements&gt;</a>, OutputFragment_&gt; <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html#a98aefa95117dbfdf2e577890318a6c13">Transformer</a>;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;};</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kElements_&gt;</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html">  106</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html">IgemmGlobalStoreTransformer</a>&lt;float, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;int8_t, kElements_&gt; &gt; {</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html#a52ecdfd8b94d8d7f4881048e11a33aba">  107</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html">IgemmFloatToInt8Converter&lt;kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html#a52ecdfd8b94d8d7f4881048e11a33aba">Transformer</a>;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;};</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kElements_&gt;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html">  113</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html">IgemmInt8ToFloatConverter</a> {</div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb">  115</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;int8_t, kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb">InputFragment</a>;</div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7">  117</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;float, kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7">OutputFragment</a>;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="comment">// We are unpacking 4 int8s from int32.</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(kElements_ % 4 == 0, <span class="stringliteral">&quot;kElements must be multiple of 4&quot;</span>);</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a88a55a494d3a30d50477d50bf6a8804d">  123</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a88a55a494d3a30d50477d50bf6a8804d">IgemmInt8ToFloatConverter</a>() {}</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d">  126</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d">transform</a>(<a class="code" href="structcutlass_1_1Fragment.html">InputFragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d">transform</a>(src, 0, dst);</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  }</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00132"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3">  132</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3">transform</a>(Fragment_ <span class="keyword">const</span>&amp; src, <span class="keywordtype">int</span> offset, <a class="code" href="structcutlass_1_1Fragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;    <span class="comment">// The inputs.</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span>* src_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span> const*<span class="keyword">&gt;</span>(&amp;src[0]);</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;    <span class="comment">// The outputs.</span></div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    float4* dst_f4 = <span class="keyword">reinterpret_cast&lt;</span>float4*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;    <span class="comment">// Iterate over the int8 and unpack them together to produce floats.</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; kElements_ / 4; ++i) {</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <span class="comment">// Read the int.</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      <span class="keywordtype">int</span> ix, iy, iz, iw = src_int[i];</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;      <span class="comment">// Extract the 4 bytes.</span></div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, 0x0, %1, 0x4440;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(ix) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, 0x0, %1, 0x4441;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(iy) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, 0x0, %1, 0x4442;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(iz) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, 0x0, %1, 0x4443;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(iw) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;      <span class="comment">// The floats.</span></div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;      <span class="keywordtype">float</span> fx, fy, fz, fw;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <span class="comment">// Convert to floats (make sure we generate I2F.F32.S8).</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;cvt.rn.f32.s8 %0, %1;&quot;</span> : <span class="stringliteral">&quot;=f&quot;</span>(fx) : <span class="stringliteral">&quot;r&quot;</span>(ix));</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;cvt.rn.f32.s8 %0, %1;&quot;</span> : <span class="stringliteral">&quot;=f&quot;</span>(fy) : <span class="stringliteral">&quot;r&quot;</span>(iy));</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;cvt.rn.f32.s8 %0, %1;&quot;</span> : <span class="stringliteral">&quot;=f&quot;</span>(fz) : <span class="stringliteral">&quot;r&quot;</span>(iz));</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;cvt.rn.f32.s8 %0, %1;&quot;</span> : <span class="stringliteral">&quot;=f&quot;</span>(fw) : <span class="stringliteral">&quot;r&quot;</span>(iw));</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;      <span class="comment">// Store the float4.</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;      dst_f4[i] = make_float4(fx, fy, fz, fw);</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    }</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  }</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;};</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputFragment_, <span class="keyword">typename</span> OutputScalar_&gt;</div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">  167</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">IgemmGlobalLoadTransformer</a> {</div><div class="line"><a name="l00168"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html#ad3190650741cef20c1aca919eddd9d72">  168</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Convert.html">Convert&lt;InputFragment_, Fragment&lt;OutputScalar_, InputFragment_::kElements&gt;</a> &gt; <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html#ad3190650741cef20c1aca919eddd9d72">Transformer</a>;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;};</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kElements_&gt;</div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html">  172</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">IgemmGlobalLoadTransformer</a>&lt;<a class="code" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;int8_t, kElements_&gt;, float&gt; {</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html#a49c249026be24ec8a66f5eda99cb855c">  173</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html">IgemmInt8ToFloatConverter&lt;kElements_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html#a49c249026be24ec8a66f5eda99cb855c">Transformer</a>;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;};</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputScalar_, <span class="keyword">typename</span> OutputFragment_&gt;</div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">  179</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">IgemmSharedStoreTransformer</a> {</div><div class="line"><a name="l00180"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html#a9edd08d595327a8cc3b8da50622b3bd2">  180</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Convert.html">Convert&lt;Fragment&lt;InputScalar_, OutputFragment_::kElements&gt;</a>, OutputFragment_&gt; <a class="code" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html#a9edd08d595327a8cc3b8da50622b3bd2">Transformer</a>;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;};</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> IgemmConfig_, <span class="keyword">typename</span> EpilogueFunctor_, <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">  186</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">IgemmEpilogueTraitsHelper</a></div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">GemmEpilogueTraitsHelper</a>&lt;IgemmConfig_, EpilogueFunctor_, Index_&gt; {</div><div class="line"><a name="l00189"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2">  189</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">GemmEpilogueTraitsHelper&lt;IgemmConfig_, EpilogueFunctor_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2">Base</a>;</div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5a52727bb9b5d5f8afa7d0384f564036">  191</a></span>&#160;  <span class="keyword">typedef</span> IgemmConfig_ <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5a52727bb9b5d5f8afa7d0384f564036">IgemmConfig</a>;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00">  194</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">Base::Scalar</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00">Scalar</a>;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51">  196</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::Iterations</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51">Iterations</a>;</div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9">  198</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::Delta</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9">Delta</a>;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aaa009025dcd6360ead1dc18005688821">  201</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">Base::GlobalLoadTileTraits</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aaa009025dcd6360ead1dc18005688821">GlobalLoadTileTraits</a>;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9">  203</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;GlobalLoadTileTraits&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9">GlobalLoadIteratorC</a>;</div><div class="line"><a name="l00205"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">  205</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalLoadIteratorC::Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">GlobalFragmentC</a>;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;  <span class="keyword">typedef</span></div><div class="line"><a name="l00208"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f">  208</a></span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Convert.html">IgemmGlobalLoadTransformer&lt;GlobalFragmentC, Scalar&gt;::Transformer</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f">GlobalTransformerC</a>;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a16b06a1611dbd22adaa0c9ee5e1b15bd">  211</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">Base::GlobalStoreTileTraits</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a16b06a1611dbd22adaa0c9ee5e1b15bd">GlobalStoreTileTraits</a>;</div><div class="line"><a name="l00213"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2">  213</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;GlobalStoreTileTraits&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2">GlobalStoreIteratorD</a>;</div><div class="line"><a name="l00215"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88">  215</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalStoreIteratorD::Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88">GlobalFragmentD</a>;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;  <span class="keyword">typedef</span></div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591">  218</a></span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Convert.html">IgemmGlobalStoreTransformer&lt;Scalar, GlobalFragmentD&gt;::Transformer</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591">GlobalTransformerD</a>;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">  221</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">Base::SharedStoreTileTraits</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a>,</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;                            <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>,</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>&gt;</div><div class="line"><a name="l00227"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d">  227</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d">SharedStoreIteratorD</a>;</div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">  229</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">SharedStoreIteratorD::Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a>;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">IgemmSharedStoreTransformer</a>&lt;<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">IgemmConfig::Accumulators::Element</a>,</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;                                               <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a>&gt;::Transformer</div><div class="line"><a name="l00233"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf">  233</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf">SharedStoreTransformerD</a>;</div><div class="line"><a name="l00235"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">  235</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">Base::SharedLoadTileTraits</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a>,</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;                           <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>,</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00241"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa">  241</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa">SharedLoadIteratorD</a>;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;};</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;    <span class="keyword">typename</span> IgemmConfig_,</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_,</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;    <span class="keyword">typename</span> Helper_ = <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">IgemmEpilogueTraitsHelper&lt;IgemmConfig_, EpilogueFunctor_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00255"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">  255</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">IgemmEpilogueTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">GemmEpilogueTraits</a>&lt;</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;                                 <span class="comment">// The output tile.</span></div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;                                 typename IgemmConfig_::OutputTile,</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;                                 <span class="comment">// The accumulators.</span></div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;                                 typename IgemmConfig_::Accumulators,</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;                                 <span class="comment">// The global iterator for C.</span></div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;                                 typename Helper_::GlobalLoadIteratorC,</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;                                 <span class="comment">// The transformer for C.</span></div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;                                 typename Helper_::GlobalTransformerC,</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;                                 <span class="comment">// The transformer for D.</span></div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;                                 typename Helper_::GlobalTransformerD,</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;                                 <span class="comment">// The global iterator for D.</span></div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;                                 typename Helper_::GlobalStoreIteratorD,</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;                                 <span class="comment">// The iterator to store D to shared memory.</span></div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;                                 typename Helper_::SharedStoreIteratorD,</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;                                 <span class="comment">// The shared store transformer for D.</span></div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;                                 typename Helper_::SharedStoreTransformerD,</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;                                 <span class="comment">// The stream to load D from shared memory.</span></div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;                                 typename Helper_::SharedLoadStreamD,</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;                                 <span class="comment">// The iterations.</span></div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;                                 typename Helper_::Iterations,</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;                                 <span class="comment">// The strides between iterations.</span></div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;                                 typename Helper_::Delta,</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;                                 <span class="comment">// The functor to be used in the epilogue.</span></div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;                                 EpilogueFunctor_,</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;                                 <span class="comment">// The index.</span></div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;                                 Index_&gt; {</div><div class="line"><a name="l00283"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html#a8609af98d1e43cd25688bae6f33feed4">  283</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html#a8609af98d1e43cd25688bae6f33feed4">kInt8Output</a> =</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;      <a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;typename IgemmConfig_::ScalarC, int8_t&gt;::value</a> != 0;</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;};</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmEpilogueTraits_, <span class="keywordtype">bool</span> = GemmEpilogueTraits_::kInt8Output&gt;</div><div class="line"><a name="l00290"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">  290</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt;GemmEpilogueTraits_&gt; {</div><div class="line"><a name="l00292"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04">  292</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue&lt;GemmEpilogueTraits_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04">Base</a>;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;</div><div class="line"><a name="l00295"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a599a50becefed561d063c1b834188aca">  295</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a599a50becefed561d063c1b834188aca">IgemmEpilogue</a>(<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Base::Params</a> <span class="keyword">const</span>&amp; params_,</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;                               <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">Base::SharedStorage</a>&amp; shared_storage_,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;                               <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; _problem_size)</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">Base</a>(params_, shared_storage_, _problem_size) {}</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;};</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmEpilogueTraits_&gt;</div><div class="line"><a name="l00304"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html">  304</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a>&lt;GemmEpilogueTraits_, true&gt; : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt;GemmEpilogueTraits_&gt; {</div><div class="line"><a name="l00306"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf">  306</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue&lt;GemmEpilogueTraits_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf">Base</a>;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;</div><div class="line"><a name="l00309"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a0a1be1aab827127161406871ca75cbe0">  309</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a0a1be1aab827127161406871ca75cbe0">IgemmEpilogue</a>(<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Base::Params</a> <span class="keyword">const</span>&amp; params_,</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;                               <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">Base::SharedStorage</a>&amp; shared_storage_,</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;                               <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span>&amp; _problem_size)</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">Base</a>(params_, shared_storage_, _problem_size) {}</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;};</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:120</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">cutlass::gemm::IgemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:255</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_aed055504ec5f09657e059416150188a9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9">cutlass::gemm::IgemmEpilogueTraitsHelper::Delta</a></div><div class="ttdeci">Base::Delta Delta</div><div class="ttdoc">The iterations strides. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:198</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a95da23108b74ad085024ab45e84083e1"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">cutlass::TileStoreIterator::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:682</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_ad7659dc0eaa491447ad127ef7098924f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreTileTraits</a></div><div class="ttdeci">Base::SharedStoreTileTraits SharedStoreTileTraits</div><div class="ttdoc">The traits class for the shared iterator to store D to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:221</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_a880293ef6a48a0f4941c8f984c36f591"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591">cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalTransformerD</a></div><div class="ttdeci">IgemmGlobalStoreTransformer&lt; Scalar, GlobalFragmentD &gt;::Transformer GlobalTransformerD</div><div class="ttdoc">The transformer from accumulators to shared memory fragments. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:218</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_a851113bffb5b656c5c649845852b3b8d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">cutlass::gemm::IgemmEpilogueTraitsHelper::SharedLoadTileTraits</a></div><div class="ttdeci">Base::SharedLoadTileTraits SharedLoadTileTraits</div><div class="ttdoc">The traits class for the shared iterator to load D from shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:235</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_ad33ee44527a7fcfd41b4e677927fd4fa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa">cutlass::gemm::IgemmEpilogueTraitsHelper::SharedLoadIteratorD</a></div><div class="ttdeci">TileLoadIterator&lt; SharedLoadTileTraits, typename SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorD</div><div class="ttdoc">The shared iterator to load D from shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:171</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:186</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogue_html_a07f9a934f04610db41aa1aac2f4cdf04"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04">cutlass::gemm::IgemmEpilogue::Base</a></div><div class="ttdeci">GemmEpilogue&lt; GemmEpilogueTraits_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:292</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ae5209fa80705442693833c63d535161e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">cutlass::gemm::GemmEpilogue::Params</a></div><div class="ttdeci">Traits::Params Params</div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:57</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:53</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ae5209fa80705442693833c63d535161e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">cutlass::gemm::GemmEpilogue::Params</a></div><div class="ttdeci">Traits::Params Params</div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:42</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">cutlass::gemm::IgemmGlobalLoadTransformer</a></div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:167</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:412</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:420</div></div>
 <div class="ttc" id="tile__iterator_8h_html"><div class="ttname"><a href="tile__iterator_8h.html">tile_iterator.h</a></div><div class="ttdoc">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently. </div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter_html_a88a55a494d3a30d50477d50bf6a8804d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a88a55a494d3a30d50477d50bf6a8804d">cutlass::gemm::IgemmInt8ToFloatConverter::IgemmInt8ToFloatConverter</a></div><div class="ttdeci">CUTLASS_DEVICE IgemmInt8ToFloatConverter()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:123</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_a5e64440830b36899f9c0ed8b369665c8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreFragmentD</a></div><div class="ttdeci">SharedStoreIteratorD::Fragment SharedStoreFragmentD</div><div class="ttdoc">The fragment that needs to be passed to that store iterator. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:229</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ae2b82b9b62aefa15005091bb84ac20e8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">cutlass::gemm::GemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::Scalar</a></div><div class="ttdeci">EpilogueFunctor_::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:173</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper_html_ae2b82b9b62aefa15005091bb84ac20e8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">cutlass::gemm::GemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::Scalar</a></div><div class="ttdeci">EpilogueFunctor_::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:188</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:186</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">cutlass::MemorySpace::kGlobal</a></div><div class="ttdef"><b>Definition:</b> load_store.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">cutlass::MemorySpace::kGlobal</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter_html_a702ca51abc077355a2d7343976a0cfdb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb">cutlass::gemm::IgemmInt8ToFloatConverter::InputFragment</a></div><div class="ttdeci">Fragment&lt; int8_t, kElements_ &gt; InputFragment</div><div class="ttdoc">The input fragment. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:115</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a9ffa12dcd7ed1e96845e1cd273d9f219"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::Fragment</a></div><div class="ttdeci">Fragment&lt; FragmentElement, ShapeCount&lt; Iterations &gt;::kCount *kAccessSize &gt; Fragment</div><div class="ttdoc">The fragment. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:196</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogue_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">cutlass::gemm::IgemmEpilogue</a></div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:290</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html">cutlass::gemm::IgemmFloatToInt8Converter</a></div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:45</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter_html_a819fd33db88a68521108bab2641d73fd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a819fd33db88a68521108bab2641d73fd">cutlass::gemm::IgemmFloatToInt8Converter::transform</a></div><div class="ttdeci">CUTLASS_DEVICE void transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)</div><div class="ttdoc">Transform a fragment. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ac36dad8a7b6bc7fc6ef88e44068468dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">cutlass::gemm::GemmEpilogue::SharedStorage</a></div><div class="ttdeci">Traits::SharedStorage SharedStorage</div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:59</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_ac36dad8a7b6bc7fc6ef88e44068468dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">cutlass::gemm::GemmEpilogue::SharedStorage</a></div><div class="ttdeci">Traits::SharedStorage SharedStorage</div><div class="ttdoc">The shared storage. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:48</div></div>
 <div class="ttc" id="structcutlass_1_1Fragment_html"><div class="ttname"><a href="structcutlass_1_1Fragment.html">cutlass::Fragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:99</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter_html_aca8a61e8eb1ab33b9c61e2e7d342379d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d">cutlass::gemm::IgemmInt8ToFloatConverter::transform</a></div><div class="ttdeci">CUTLASS_DEVICE void transform(InputFragment const &amp;src, OutputFragment &amp;dst)</div><div class="ttdoc">Transform a fragment. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:126</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_ae4128bba3f1df6ef7824e2db79745b00"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00">cutlass::gemm::IgemmEpilogueTraitsHelper::Scalar</a></div><div class="ttdeci">Base::Scalar Scalar</div><div class="ttdoc">The scalar type of the epilogue. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:194</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogue_html_a599a50becefed561d063c1b834188aca"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a599a50becefed561d063c1b834188aca">cutlass::gemm::IgemmEpilogue::IgemmEpilogue</a></div><div class="ttdeci">CUTLASS_DEVICE IgemmEpilogue(typename Base::Params const &amp;params_, typename Base::SharedStorage &amp;shared_storage_, Coord&lt; 3 &gt; const &amp;_problem_size)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:295</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_ad8e5337f3d19437e9c4cafcfcc3e3d3e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalFragmentC</a></div><div class="ttdeci">GlobalLoadIteratorC::Fragment GlobalFragmentC</div><div class="ttdoc">The fragment that needs to be produced by the load iterator. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:205</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aa5386367e805cdaf47a5e7564bedc2fb"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">cutlass::TileStoreIterator::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:901</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter_html_a91ad48362b99a5f96ac1e92e95104f7b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b">cutlass::gemm::IgemmFloatToInt8Converter::transform</a></div><div class="ttdeci">CUTLASS_DEVICE void transform(InputFragment const &amp;src, OutputFragment &amp;dst)</div><div class="ttdoc">Transform a fragment. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:58</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter_html_a3d89bfc0d94cd695cbe4a61859e5e553"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553">cutlass::gemm::IgemmFloatToInt8Converter::OutputFragment</a></div><div class="ttdeci">Fragment&lt; int8_t, kElements_ &gt; OutputFragment</div><div class="ttdoc">The output fragment. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:49</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_ad3e937c15bfac443b0e3b94d702f46b2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2">cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalStoreIteratorD</a></div><div class="ttdeci">GemmGlobalIteratorCd&lt; GlobalStoreTileTraits &gt; GlobalStoreIteratorD</div><div class="ttdoc">The iterator to store to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:213</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_a00000e0cd14b9e6e242eafb5133af8cf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf">cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreTransformerD</a></div><div class="ttdeci">IgemmSharedStoreTransformer&lt; typename IgemmConfig::Accumulators::Element, SharedStoreFragmentD &gt;::Transformer SharedStoreTransformerD</div><div class="ttdoc">The transformer from accumulators to shared memory fragments. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:233</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraits_html_a8609af98d1e43cd25688bae6f33feed4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html#a8609af98d1e43cd25688bae6f33feed4">cutlass::gemm::IgemmEpilogueTraits::kInt8Output</a></div><div class="ttdeci">static bool const kInt8Output</div><div class="ttdoc">Do we output in int8? </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:283</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:302</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:399</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer_html_a9edd08d595327a8cc3b8da50622b3bd2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html#a9edd08d595327a8cc3b8da50622b3bd2">cutlass::gemm::IgemmSharedStoreTransformer::Transformer</a></div><div class="ttdeci">Convert&lt; Fragment&lt; InputScalar_, OutputFragment_::kElements &gt;, OutputFragment_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:180</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4_html_a98b415dbe6f7b6cb0c41a4e6b3ad5abf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::Base</a></div><div class="ttdeci">GemmEpilogue&lt; GemmEpilogueTraits_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:307</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4_html_a98b415dbe6f7b6cb0c41a4e6b3ad5abf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::Base</a></div><div class="ttdeci">GemmEpilogue&lt; GemmEpilogueTraits_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:306</div></div>
 <div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_aaa009025dcd6360ead1dc18005688821"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aaa009025dcd6360ead1dc18005688821">cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalLoadTileTraits</a></div><div class="ttdeci">Base::GlobalLoadTileTraits GlobalLoadTileTraits</div><div class="ttdoc">The traits class for the iterator. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:201</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter_html_a66ac385a1cd771b95f70ee36cd74e8f7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7">cutlass::gemm::IgemmInt8ToFloatConverter::OutputFragment</a></div><div class="ttdeci">Fragment&lt; float, kElements_ &gt; OutputFragment</div><div class="ttdoc">The output fragment. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:117</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_a4b23ba8c14e26672a516aa43063250c2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2">cutlass::gemm::IgemmEpilogueTraitsHelper::Base</a></div><div class="ttdeci">GemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:189</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogue_html_ab7a51121d24250d6441ee538e6521dc2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#ab7a51121d24250d6441ee538e6521dc2">cutlass::gemm::IgemmEpilogue::IgemmEpilogue</a></div><div class="ttdeci">CUTLASS_DEVICE IgemmEpilogue(typename Base::Params const &amp;params_, typename Base::SharedStorage &amp;shared_storage_, typename Base::Index m_, typename Base::Index n_)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:295</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:335</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogue_html_a07c93d583bfddd8f916fba6ef809832e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">cutlass::gemm::GemmEpilogue::Index</a></div><div class="ttdeci">Traits::Index Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_epilogue.h:93</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:339</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_a723cd69ee4d5c26579b36e02c531ea88"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88">cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalFragmentD</a></div><div class="ttdeci">GlobalStoreIteratorD::Fragment GlobalFragmentD</div><div class="ttdoc">The fragment that needs to be passed to that store iterator. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:215</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_a24826f99d097eea0298e6be12a6327b9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9">cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalLoadIteratorC</a></div><div class="ttdeci">GemmGlobalIteratorCd&lt; GlobalLoadTileTraits &gt; GlobalLoadIteratorC</div><div class="ttdoc">The iterator to store to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:203</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_a5a52727bb9b5d5f8afa7d0384f564036"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5a52727bb9b5d5f8afa7d0384f564036">cutlass::gemm::IgemmEpilogueTraitsHelper::IgemmConfig</a></div><div class="ttdeci">IgemmConfig_ IgemmConfig</div><div class="ttdoc">The config. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:191</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4_html_a49ac00bed1532707aacd3ff108c84623"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a49ac00bed1532707aacd3ff108c84623">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::IgemmEpilogue</a></div><div class="ttdeci">CUTLASS_DEVICE IgemmEpilogue(typename Base::Params const &amp;params_, typename Base::SharedStorage &amp;shared_storage_, typename Base::Index m_, typename Base::Index n_)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:310</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter_html_ac65f020e93584b1bd3cdb849ff625026"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#ac65f020e93584b1bd3cdb849ff625026">cutlass::gemm::IgemmFloatToInt8Converter::IgemmFloatToInt8Converter</a></div><div class="ttdeci">CUTLASS_DEVICE IgemmFloatToInt8Converter()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:55</div></div>
 <div class="ttc" id="structcutlass_1_1Fragment_html_a9c67fa5bbd0b8b49bd6ec002dee3cbab"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">cutlass::Fragment::Element</a></div><div class="ttdeci">Element_ Element</div><div class="ttdoc">The element. </div><div class="ttdef"><b>Definition:</b> fragment.h:108</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter_html_aa9a4b05f9fc28b80a4ae4aabb2ce1e8c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c">cutlass::gemm::IgemmFloatToInt8Converter::InputFragment</a></div><div class="ttdeci">Fragment&lt; float, kElements_ &gt; InputFragment</div><div class="ttdoc">The input fragment. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:47</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:348</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:396</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">cutlass::gemm::IgemmSharedStoreTransformer</a></div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:179</div></div>
 <div class="ttc" id="gemm__global__stream_8h_html"><div class="ttname"><a href="gemm__global__stream_8h.html">gemm_global_stream.h</a></div><div class="ttdoc">Implements efficient loading of the thread block-level tile from global memory and storing to shared ...</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a0d7b595d7959cc1680fc07c2e02e1c8e"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::Fragment</a></div><div class="ttdeci">Fragment&lt; FragmentElement, ShapeCount&lt; Iterations &gt;::kCount *kAccessSize &gt; Fragment</div><div class="ttdoc">The fragment. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:154</div></div>
 <div class="ttc" id="structcutlass_1_1Convert_html"><div class="ttname"><a href="structcutlass_1_1Convert.html">cutlass::Convert</a></div><div class="ttdef"><b>Definition:</b> convert.h:38</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4_html_a52ecdfd8b94d8d7f4881048e11a33aba"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html#a52ecdfd8b94d8d7f4881048e11a33aba">cutlass::gemm::IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;::Transformer</a></div><div class="ttdeci">IgemmFloatToInt8Converter&lt; kElements_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:107</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_a0b9b2b7838cb13a61a16501a2662fa51"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51">cutlass::gemm::IgemmEpilogueTraitsHelper::Iterations</a></div><div class="ttdeci">Base::Iterations Iterations</div><div class="ttdoc">The iterations. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:196</div></div>
@@ -144,7 +143,7 @@
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper_html_a16b06a1611dbd22adaa0c9ee5e1b15bd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a16b06a1611dbd22adaa0c9ee5e1b15bd">cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalStoreTileTraits</a></div><div class="ttdeci">Base::GlobalStoreTileTraits GlobalStoreTileTraits</div><div class="ttdoc">The traits class for the iterator. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:211</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_html_ad3190650741cef20c1aca919eddd9d72"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html#ad3190650741cef20c1aca919eddd9d72">cutlass::gemm::IgemmGlobalLoadTransformer::Transformer</a></div><div class="ttdeci">Convert&lt; InputFragment_, Fragment&lt; OutputScalar_, InputFragment_::kElements &gt; &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:168</div></div>
 <div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a9a2218b570dada2f1e3ccd8004c47856"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">cutlass::gemm::GemmSharedStoreTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:266</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html_a9a2218b570dada2f1e3ccd8004c47856"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">cutlass::gemm::GemmSharedStoreTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:272</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter_html_a89e078dbf376da872c3993ccbaf744d3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3">cutlass::gemm::IgemmInt8ToFloatConverter::transform</a></div><div class="ttdeci">CUTLASS_DEVICE void transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)</div><div class="ttdoc">Transform a fragment. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:132</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_html_a98aefa95117dbfdf2e577890318a6c13"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html#a98aefa95117dbfdf2e577890318a6c13">cutlass::gemm::IgemmGlobalStoreTransformer::Transformer</a></div><div class="ttdeci">Convert&lt; Fragment&lt; InputScalar_, OutputFragment_::kElements &gt;, OutputFragment_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:102</div></div>
 <div class="ttc" id="gemm__shared__stream_8h_html"><div class="ttname"><a href="gemm__shared__stream_8h.html">gemm_shared_stream.h</a></div><div class="ttdoc">Defines abstractions for managing loading and storing fragments to shared memory in the efficient GEM...</div></div>
@@ -153,14 +152,15 @@
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4_html_a49c249026be24ec8a66f5eda99cb855c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html#a49c249026be24ec8a66f5eda99cb855c">cutlass::gemm::IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;::Transformer</a></div><div class="ttdeci">IgemmInt8ToFloatConverter&lt; kElements_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:173</div></div>
 <div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html">cutlass::gemm::IgemmInt8ToFloatConverter</a></div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:113</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a1b025cb056729706f36469e74a9799dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">cutlass::gemm::GemmSharedLoadTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:337</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_html_a1b025cb056729706f36469e74a9799dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">cutlass::gemm::GemmSharedLoadTileDTraits::Scalar</a></div><div class="ttdeci">platform::remove_const&lt; Scalar_ &gt;::type Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:341</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4_html_a0a1be1aab827127161406871ca75cbe0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a0a1be1aab827127161406871ca75cbe0">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::IgemmEpilogue</a></div><div class="ttdeci">CUTLASS_DEVICE IgemmEpilogue(typename Base::Params const &amp;params_, typename Base::SharedStorage &amp;shared_storage_, Coord&lt; 3 &gt; const &amp;_problem_size)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:309</div></div>
 <div class="ttc" id="igemm__global__tile_8h_html"><div class="ttname"><a href="igemm__global__tile_8h.html">igemm_global_tile.h</a></div><div class="ttdoc">Implements tile iterators to partition the thread block tile into 2D subtiles and efficiently load ea...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">cutlass::gemm::GemmSharedStoreTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:264</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:620</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">cutlass::gemm::GemmSharedStoreTileDTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:270</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:836</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/igemm__global__tile_8h.html b/docs/igemm__global__tile_8h.html
index d6a6801684..4b5ee6d7c9 100644
--- a/docs/igemm__global__tile_8h.html
+++ b/docs/igemm__global__tile_8h.html
@@ -82,18 +82,20 @@
 
 <p>Implements tile iterators to partition the thread block tile into 2D subtiles and efficiently load each. Applies permute transformation to construct 'interleaved K-strided' data layout in which 4-element dot products from the same K index are arranged in consecutive locations within shared memory.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="matrix__traits_8h_source.html">cutlass/matrix_traits.h</a>&quot;</code><br />
 </div>
 <p><a href="igemm__global__tile_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html">cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the thread offset in (H, W) based on thread ID.  <a href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html#details">More...</a><br /></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the thread offset in (H, W) based on thread ID.  <a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -108,7 +110,7 @@
 </div></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/igemm__global__tile_8h_source.html b/docs/igemm__global__tile_8h_source.html
index df086169df..04428a68e9 100644
--- a/docs/igemm__global__tile_8h_source.html
+++ b/docs/igemm__global__tile_8h_source.html
@@ -76,33 +76,46 @@
 <div class="title">igemm_global_tile.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="igemm__global__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&gt;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> kOperand_,</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;          <span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;          <span class="keyword">typename</span> Threads_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;          <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html">   50</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html">IgemmContiguousGlobalTileTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;                                             <span class="comment">// Which GEMM operand?</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;                                             kOperand_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;                                             <span class="comment">// The layout.</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;                                             kLayout_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;                                             <span class="comment">// The scalar.</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;                                             Scalar_,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;                                             <span class="comment">// The tile.</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;                                             Tile_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;                                             <span class="comment">// The threads.</span></div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;                                             Threads_,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;                                             <span class="comment">// The number of scalars per LDG/STG.</span></div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;                                             kAccessSize_&gt; {</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#ab19f72d239f639f261fbb63f72f10acf">   64</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits&lt;kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#ab19f72d239f639f261fbb63f72f10acf">Base</a>;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a5fd1a9f132c7aa0f68e129553f519d1e">   66</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Base::Threads</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a5fd1a9f132c7aa0f68e129553f519d1e">Threads</a>;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a08dada072eefded4c859df4e5fc25ca6">   68</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;Base::Threads::kH * 4, 1, Base::Threads::kW, Base::kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a08dada072eefded4c859df4e5fc25ca6">Delta</a>;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;Base::Tile::kH / Base::Threads::kH / 4,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                4,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                Base::Tile::kW / Base::Threads::kW,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                Base::Tile::kC / <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a>&gt;</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a9fb4b56091d4458ebd82130bc3951e5b">   74</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a9fb4b56091d4458ebd82130bc3951e5b">Iterations</a>;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html">   77</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html#a1228edf6cc0f81af520dc77c8792b94c">   79</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html#a1228edf6cc0f81af520dc77c8792b94c">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;      <span class="keywordtype">int</span> thread_offset_h = threadIdx.x / Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">ThreadsDelta::kH</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;      <span class="keywordtype">int</span> thread_offset_w = threadIdx.x % Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, thread_offset_h, thread_offset_w, 0);</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    }</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;  };</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a2bb0f0820e52417ff77e7a2bdb9ed434">   89</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 4, Base::Tile::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a2bb0f0820e52417ff77e7a2bdb9ed434">ThreadsDelta</a>;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;};</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html">cutlass::gemm::IgemmContiguousGlobalTileTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:77</div></div>
-<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<a href="igemm__global__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> kOperand_,</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;          <span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;          <span class="keyword">typename</span> Threads_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;          <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">   50</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;                                   <span class="comment">// Which GEMM operand?</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;                                   kOperand_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;                                   <span class="comment">// The layout.</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;                                   kLayout_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;                                   <span class="comment">// The scalar.</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;                                   Scalar_,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;                                   <span class="comment">// The tile.</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;                                   Tile_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;                                   <span class="comment">// The threads.</span></div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;                                   Threads_,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;                                   <span class="comment">// The number of scalars per LDG/STG.</span></div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;                                   kAccessSize_&gt; {</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ac14f4ef560bd8068d16c0471af6df82c">   64</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits&lt;kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ac14f4ef560bd8068d16c0471af6df82c">Base</a>;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">   66</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Base::Threads</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">Threads</a>;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#adab639892c3586464e2ea5f947b9e0f0">   68</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;Base::Threads::kH * 4, 1, Base::Threads::kW, Base::kAccessSize&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#adab639892c3586464e2ea5f947b9e0f0">Delta</a>;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;Base::VectorizedTile::kH / Base::Threads::kH / 4,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                4,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                Base::VectorizedTile::kW / Base::Threads::kW,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                Base::VectorizedTile::kC / <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a>&gt;</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ae1d930fa295d8ddfaa10bda5978258de">   74</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ae1d930fa295d8ddfaa10bda5978258de">Iterations</a>;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html">   77</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#a80562f5ceab2049c3b7834c2891a07ee">   79</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#a80562f5ceab2049c3b7834c2891a07ee">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;      <span class="keywordtype">int</span> thread_offset_h = threadIdx.x / Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">ThreadsDelta::kH</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;      <span class="keywordtype">int</span> thread_offset_w = threadIdx.x % Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, thread_offset_h, thread_offset_w, 0);</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    }</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;  };</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a160d1ecd86de4742f550d11bc281786b">   89</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 4, Base::VectorizedTile::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a160d1ecd86de4742f550d11bc281786b">ThreadsDelta</a>;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;};</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> TileTraits_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">   95</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt;TileTraits_, Index_&gt; {</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a82a9cfc61ecc117592bdb30f57bd35c9">   97</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;TileTraits_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a82a9cfc61ecc117592bdb30f57bd35c9">Base</a>;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a07ff2f97fdd57c4df05ef8e817265b30">   99</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::ThreadOffset <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a07ff2f97fdd57c4df05ef8e817265b30">ThreadOffset</a>;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a489fe448cd7f7e1f3805d33504f9d336">  102</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a489fe448cd7f7e1f3805d33504f9d336">IgemmGlobalIteratorAb</a>(<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Base::Params</a> <span class="keyword">const</span>&amp; _params,</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;                                       <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; bounds,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;                                       <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; threadblock_offset,</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a07ff2f97fdd57c4df05ef8e817265b30">ThreadOffset</a>())</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      : <a class="code" href="structcutlass_1_1TileLoadIterator.html">Base</a>(_params, bounds, threadblock_offset, thread_offset_func), <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762">mask_</a>(0xffffffff) {</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    <span class="comment">// The number of elements read in a single iteration.</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> kBlock = TileTraits_::Tile::kW;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;    <span class="comment">// The residue.</span></div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> kResidue = (int)(bounds[1] % kBlock);</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;    <span class="comment">// Compute the number of elements that are valid.</span></div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> left = kResidue - <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">Base::thread_offset</a>[2];</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    <span class="keywordflow">if</span> (left &gt; 0 &amp;&amp; left &lt; 4) {</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762">mask_</a> = (1u &lt;&lt; (8 * left)) - 1u;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    }</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;  }</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a5cbda0dea8c87ca55499c97cc80b1ccf">  119</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a5cbda0dea8c87ca55499c97cc80b1ccf">load_element</a>(</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;      <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Base::AccessType</a>&amp; value, <span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">Base::load_element</a>(value, d, h, w, c);</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;    <span class="keyword">reinterpret_cast&lt;</span>uint32_t&amp;<span class="keyword">&gt;</span>(value) &amp;= <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762">mask_</a>;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  }</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762">  126</a></span>&#160;  uint32_t <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762">mask_</a>;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;};</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_html_a72fe2fb9077d072f8266f07374624a1f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">cutlass::gemm::IgemmGlobalTileTraits::Threads</a></div><div class="ttdeci">Base::Threads Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:66</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html">cutlass::gemm::IgemmGlobalTileTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:77</div></div>
 <div class="ttc" id="gemm__global__tile_8h_html"><div class="ttname"><a href="gemm__global__tile_8h.html">gemm_global_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing to global memory. </div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:70</div></div>
 <div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_html_a08dada072eefded4c859df4e5fc25ca6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a08dada072eefded4c859df4e5fc25ca6">cutlass::gemm::IgemmContiguousGlobalTileTraits::Delta</a></div><div class="ttdeci">Shape&lt; Base::Threads::kH *4, 1, Base::Threads::kW, Base::kAccessSize &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:68</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_html_ae1d930fa295d8ddfaa10bda5978258de"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ae1d930fa295d8ddfaa10bda5978258de">cutlass::gemm::IgemmGlobalTileTraits::Iterations</a></div><div class="ttdeci">Shape&lt; Base::VectorizedTile::kH/Base::Threads::kH/4, 4, Base::VectorizedTile::kW/Base::Threads::kW, Base::VectorizedTile::kC/Base::kAccessSize &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:74</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a85afb31647e5cac591b76959a102cd06"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">cutlass::gemm::GemmGlobalIteratorAb::load_element</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_element(typename Base::AccessType &amp;value, int d, int h, int w, int c) const</div><div class="ttdoc">Loads a single fragment element from memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:292</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset_html_a80562f5ceab2049c3b7834c2891a07ee"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#a80562f5ceab2049c3b7834c2891a07ee">cutlass::gemm::IgemmGlobalTileTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:79</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:163</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a3a20d9062bba613c160bb2cd14f80a5e"><div class="ttname"><a href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">cutlass::Shape::kH</a></div><div class="ttdeci">static int const kH</div><div class="ttdoc">The height of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:68</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_html_ab19f72d239f639f261fbb63f72f10acf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#ab19f72d239f639f261fbb63f72f10acf">cutlass::gemm::IgemmContiguousGlobalTileTraits::Base</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_html_a9fb4b56091d4458ebd82130bc3951e5b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a9fb4b56091d4458ebd82130bc3951e5b">cutlass::gemm::IgemmContiguousGlobalTileTraits::Iterations</a></div><div class="ttdeci">Shape&lt; Base::Tile::kH/Base::Threads::kH/4, 4, Base::Tile::kW/Base::Threads::kW, Base::Tile::kC/Base::kAccessSize &gt; Iterations</div><div class="ttdoc">The number of iterations needed to load/store the tile. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:74</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:399</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:50</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb_html_a5cbda0dea8c87ca55499c97cc80b1ccf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a5cbda0dea8c87ca55499c97cc80b1ccf">cutlass::gemm::IgemmGlobalIteratorAb::load_element</a></div><div class="ttdeci">CUTLASS_DEVICE void load_element(typename Base::AccessType &amp;value, int d, int h, int w, int c) const</div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:119</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb_html_a82a9cfc61ecc117592bdb30f57bd35c9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a82a9cfc61ecc117592bdb30f57bd35c9">cutlass::gemm::IgemmGlobalIteratorAb::Base</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:97</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:95</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html">cutlass::gemm::IgemmContiguousGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:50</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html"><div class="ttname"><a href="unioncutlass_1_1Vector.html">cutlass::Vector</a></div><div class="ttdef"><b>Definition:</b> vector.h:62</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb_html_a07ff2f97fdd57c4df05ef8e817265b30"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a07ff2f97fdd57c4df05ef8e817265b30">cutlass::gemm::IgemmGlobalIteratorAb::ThreadOffset</a></div><div class="ttdeci">TileTraits_::ThreadOffset ThreadOffset</div><div class="ttdoc">The functor to compute the thread offset. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:99</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb_html_aa6e76073303f5f5a95053a781ec8b762"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762">cutlass::gemm::IgemmGlobalIteratorAb::mask_</a></div><div class="ttdeci">uint32_t mask_</div><div class="ttdoc">The mask to clean up the values. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:126</div></div>
 <div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aae7128f5522383c857d2639031b64c30"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; VectorizedTile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb_html_a489fe448cd7f7e1f3805d33504f9d336"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a489fe448cd7f7e1f3805d33504f9d336">cutlass::gemm::IgemmGlobalIteratorAb::IgemmGlobalIteratorAb</a></div><div class="ttdeci">CUTLASS_DEVICE IgemmGlobalIteratorAb(typename Base::Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;threadblock_offset, ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Constructor. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:102</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_html_a160d1ecd86de4742f550d11bc281786b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a160d1ecd86de4742f550d11bc281786b">cutlass::gemm::IgemmGlobalTileTraits::ThreadsDelta</a></div><div class="ttdeci">Shape&lt; 1, 4, Base::VectorizedTile::kC &gt; ThreadsDelta</div><div class="ttdoc">The threads strides. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:89</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_afd09d3b8e5ca04eab7edc2e5723816e5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">cutlass::gemm::GemmGlobalIteratorAb::ThreadOffset</a></div><div class="ttdeci">TileTraits_::ThreadOffset ThreadOffset</div><div class="ttdoc">The thread offset. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:192</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a78836a20250ff24c25a6622ad818b421"><div class="ttname"><a href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">cutlass::Shape::kW</a></div><div class="ttdeci">static int const kW</div><div class="ttdoc">The width of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator::Params</a></div><div class="ttdoc">Parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:491</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aa001e09b246fdd8259cbda6a500cad5f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">cutlass::gemm::GemmGlobalTileTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars per LDG/STG. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:80</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a29bd05960cc541bb67098f5483c84cf6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; Tile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:87</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_html_adab639892c3586464e2ea5f947b9e0f0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#adab639892c3586464e2ea5f947b9e0f0">cutlass::gemm::IgemmGlobalTileTraits::Delta</a></div><div class="ttdeci">Shape&lt; Base::Threads::kH *4, 1, Base::Threads::kW, Base::kAccessSize &gt; Delta</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:68</div></div>
 <div class="ttc" id="matrix__traits_8h_html"><div class="ttname"><a href="matrix__traits_8h.html">matrix_traits.h</a></div><div class="ttdoc">Defines properties of matrices used to denote layout and operands to GEMM kernels. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_html_a2bb0f0820e52417ff77e7a2bdb9ed434"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a2bb0f0820e52417ff77e7a2bdb9ed434">cutlass::gemm::IgemmContiguousGlobalTileTraits::ThreadsDelta</a></div><div class="ttdeci">Shape&lt; 1, 4, Base::Tile::kC &gt; ThreadsDelta</div><div class="ttdoc">The threads strides. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:89</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset_html_a1228edf6cc0f81af520dc77c8792b94c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html#a1228edf6cc0f81af520dc77c8792b94c">cutlass::gemm::IgemmContiguousGlobalTileTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:79</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_html_a5fd1a9f132c7aa0f68e129553f519d1e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a5fd1a9f132c7aa0f68e129553f519d1e">cutlass::gemm::IgemmContiguousGlobalTileTraits::Threads</a></div><div class="ttdeci">Base::Threads Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:66</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html_a1864c5556529afdc8445021cad780b04"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">cutlass::gemm::GemmGlobalIteratorAb::thread_offset</a></div><div class="ttdeci">Coord&lt; 4 &gt; thread_offset</div><div class="ttdoc">Offset of an individual lane from the start of the tile. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:237</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_html_ac14f4ef560bd8068d16c0471af6df82c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ac14f4ef560bd8068d16c0471af6df82c">cutlass::gemm::IgemmGlobalTileTraits::Base</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:64</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/igemm__multiply__add_8h.html b/docs/igemm__multiply__add_8h.html
index 266cb5f16c..d67e57b8dd 100644
--- a/docs/igemm__multiply__add_8h.html
+++ b/docs/igemm__multiply__add_8h.html
@@ -82,15 +82,15 @@
 
 <p>Implements matrix multiply accumulate operation of 8-bit integer data using DP4A instruction.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="thread__multiply__add_8h_source.html">cutlass/gemm/thread_multiply_add.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="thread__multiply__add_8h_source.html">cutlass/gemm/thread_multiply_add.h</a>&quot;</code><br />
 </div>
 <p><a href="igemm__multiply__add_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#details">More...</a><br /></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -103,7 +103,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/igemm__multiply__add_8h_source.html b/docs/igemm__multiply__add_8h_source.html
index 414c2ce175..b67129ef46 100644
--- a/docs/igemm__multiply__add_8h_source.html
+++ b/docs/igemm__multiply__add_8h_source.html
@@ -76,29 +76,30 @@
 <div class="title">igemm_multiply_add.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="igemm__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="thread__multiply__add_8h.html">cutlass/gemm/thread_multiply_add.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> AccumulatorsPerThread_, <span class="keyword">typename</span> ThreadsPerWarp_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html">   42</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt;AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int&gt; {</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad73372a37315b0c17a8db21e40a78574">   44</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;4, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad73372a37315b0c17a8db21e40a78574">InstructionShape</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a47807c9c9fb43e7f7b5f409a49986c30">   46</a></span>&#160;  <span class="keyword">typedef</span> AccumulatorsPerThread_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a47807c9c9fb43e7f7b5f409a49986c30">AccumulatorsPerThread</a>;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a5bc98fd196c1f1e4e3f1bfc621df4f50">   48</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a5bc98fd196c1f1e4e3f1bfc621df4f50">ThreadsPerWarp</a>;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a327ce1b7b6478c27c80baf5d9e26bdbc">   50</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">ShapeMul&lt;AccumulatorsPerThread, ThreadsPerWarp&gt;::Shape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a327ce1b7b6478c27c80baf5d9e26bdbc">AccumulatorsPerWarp</a>;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aeef5fa0437b4ce1c2e8ac4bc7e062b65">   52</a></span>&#160;  <span class="keyword">typedef</span> int8_t <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aeef5fa0437b4ce1c2e8ac4bc7e062b65">ScalarA</a>;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a71aadbb130d4b1a6532c45282b37354f">   54</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarA, AccumulatorsPerThread::kW * 4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a71aadbb130d4b1a6532c45282b37354f">FragmentA</a>;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aaf9e4b8b16150a6ad826c228af2bf103">   56</a></span>&#160;  <span class="keyword">typedef</span> int8_t <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aaf9e4b8b16150a6ad826c228af2bf103">ScalarB</a>;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a43e278686b493d0aef943f32a9f47b9e">   58</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarB, AccumulatorsPerThread::kH * 4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a43e278686b493d0aef943f32a9f47b9e">FragmentB</a>;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#acdd554e996a712ff62eb70d6ecf8e116">   60</a></span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#acdd554e996a712ff62eb70d6ecf8e116">ScalarC</a>;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a4712650b46b6183ea60d79ef18f55b86">   62</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarC, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a4712650b46b6183ea60d79ef18f55b86">Accumulators</a>;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a9b75e499f4c14369b5c86051dceeb81d">   65</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a9b75e499f4c14369b5c86051dceeb81d">ThreadMultiplyAdd</a>() {}</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad22dd143c304c22c2630aedbfd3459af">   68</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad22dd143c304c22c2630aedbfd3459af">multiply_add</a>(<a class="code" href="structcutlass_1_1Fragment.html">FragmentA</a> <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">FragmentB</a> <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a> <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a>&amp; d) {</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;    <span class="comment">// The inputs.</span></div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span>* a_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span> const*<span class="keyword">&gt;</span>(&amp;a[0]);</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span>* b_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span> const*<span class="keyword">&gt;</span>(&amp;b[0]);</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; AccumulatorsPerThread::kH; ++j) {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; AccumulatorsPerThread::kW; ++i) {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;        <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;dp4a.s32.s32 %0, %1, %2, %3;&quot;</span></div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;                     : <span class="stringliteral">&quot;=r&quot;</span>(d[j * AccumulatorsPerThread::kW + i])</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;                     : <span class="stringliteral">&quot;r&quot;</span>(a_int[i]), <span class="stringliteral">&quot;r&quot;</span>(b_int[j]), <span class="stringliteral">&quot;r&quot;</span>(c[j * AccumulatorsPerThread::kW + i]));</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;      }</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    }</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  }</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;};</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_aeef5fa0437b4ce1c2e8ac4bc7e062b65"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aeef5fa0437b4ce1c2e8ac4bc7e062b65">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarA</a></div><div class="ttdeci">int8_t ScalarA</div><div class="ttdoc">The type for A. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:52</div></div>
-<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<a href="igemm__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="thread__multiply__add_8h.html">cutlass/gemm/thread_multiply_add.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> ThreadGemmShape_, <span class="keyword">typename</span> ThreadsPerWarp_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">   42</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt;ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int&gt; {</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa84c3d4efc7947d6efb75536c88043bd">   44</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;4, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa84c3d4efc7947d6efb75536c88043bd">InstructionShape</a>;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">   46</a></span>&#160;  <span class="keyword">typedef</span> ThreadGemmShape_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">ThreadGemmShape</a>;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa88edf2e89062be00181f5dc4f4a0947">   48</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">ThreadGemmShape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa88edf2e89062be00181f5dc4f4a0947">AccumulatorsPerThread</a>;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df">   50</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df">ThreadsPerWarp</a>;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ae3152470cbbba2310d9c83b9d5d43027">   52</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">ShapeMul&lt;ThreadGemmShape, ThreadsPerWarp&gt;::Shape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ae3152470cbbba2310d9c83b9d5d43027">AccumulatorsPerWarp</a>;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b">   54</a></span>&#160;  <span class="keyword">typedef</span> int8_t <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b">ScalarA</a>;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4">   56</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarA, AccumulatorsPerThread::kW * 4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4">FragmentA</a>;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d">   58</a></span>&#160;  <span class="keyword">typedef</span> int8_t <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d">ScalarB</a>;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e">   60</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarB, AccumulatorsPerThread::kH * 4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e">FragmentB</a>;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7">   62</a></span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7">ScalarC</a>;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">   64</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarC, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">Accumulators</a>;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aad8a642f46c88e407a1150ee1d42b8dd">   67</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aad8a642f46c88e407a1150ee1d42b8dd">ThreadMultiplyAdd</a>() {}</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ad9d8e47e8896d8d4eab538aa78b56e47">   70</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ad9d8e47e8896d8d4eab538aa78b56e47">multiply_add</a>(<a class="code" href="structcutlass_1_1Fragment.html">FragmentA</a> <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">FragmentB</a> <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a> <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a>&amp; d) {</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;    <span class="comment">// The inputs.</span></div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span>* a_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span> const*<span class="keyword">&gt;</span>(&amp;a[0]);</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span>* b_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span> const*<span class="keyword">&gt;</span>(&amp;b[0]);</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; AccumulatorsPerThread::kH; ++j) {</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; AccumulatorsPerThread::kW; ++i) {</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;        <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;dp4a.s32.s32 %0, %1, %2, %3;&quot;</span></div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;                     : <span class="stringliteral">&quot;=r&quot;</span>(d[j * AccumulatorsPerThread::kW + i])</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;                     : <span class="stringliteral">&quot;r&quot;</span>(a_int[i]), <span class="stringliteral">&quot;r&quot;</span>(b_int[j]), <span class="stringliteral">&quot;r&quot;</span>(c[j * AccumulatorsPerThread::kW + i]));</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      }</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    }</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;  }</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;};</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_a8d0734b8e797576adcf89f70c62160d4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentA</a></div><div class="ttdeci">Fragment&lt; ScalarA, AccumulatorsPerThread::kW *4 &gt; FragmentA</div><div class="ttdoc">The fragment for A. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:56</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeMul_html_a8875fc5e861339f981360ed774e8cc94"><div class="ttname"><a href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">cutlass::ShapeMul::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD *B_::kD, A_::kH *B_::kH, A_::kW *B_::kW, A_::kC *B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:119</div></div>
 <div class="ttc" id="structcutlass_1_1Fragment_html"><div class="ttname"><a href="structcutlass_1_1Fragment.html">cutlass::Fragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:99</div></div>
 <div class="ttc" id="thread__multiply__add_8h_html"><div class="ttname"><a href="thread__multiply__add_8h.html">thread_multiply_add.h</a></div><div class="ttdoc">Template implementing matrix multiply-add operations on fragments. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_a4712650b46b6183ea60d79ef18f55b86"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a4712650b46b6183ea60d79ef18f55b86">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::Accumulators</a></div><div class="ttdeci">Fragment&lt; ScalarC, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW &gt; Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_a327ce1b7b6478c27c80baf5d9e26bdbc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a327ce1b7b6478c27c80baf5d9e26bdbc">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerWarp</a></div><div class="ttdeci">ShapeMul&lt; AccumulatorsPerThread, ThreadsPerWarp &gt;::Shape AccumulatorsPerWarp</div><div class="ttdoc">The number of accumulators per warp. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:50</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_a43e278686b493d0aef943f32a9f47b9e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a43e278686b493d0aef943f32a9f47b9e">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentB</a></div><div class="ttdeci">Fragment&lt; ScalarB, AccumulatorsPerThread::kH *4 &gt; FragmentB</div><div class="ttdoc">The fragment for B. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:58</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_a9b75e499f4c14369b5c86051dceeb81d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a9b75e499f4c14369b5c86051dceeb81d">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE ThreadMultiplyAdd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:65</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_ad73372a37315b0c17a8db21e40a78574"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad73372a37315b0c17a8db21e40a78574">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::InstructionShape</a></div><div class="ttdeci">Shape&lt; 4, 1, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:44</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_a5bc98fd196c1f1e4e3f1bfc621df4f50"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a5bc98fd196c1f1e4e3f1bfc621df4f50">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The number of threads per warp. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:48</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_a47807c9c9fb43e7f7b5f409a49986c30"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a47807c9c9fb43e7f7b5f409a49986c30">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerThread</a></div><div class="ttdeci">AccumulatorsPerThread_ AccumulatorsPerThread</div><div class="ttdoc">The number of accumulators per thread. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_aad8a642f46c88e407a1150ee1d42b8dd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aad8a642f46c88e407a1150ee1d42b8dd">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE ThreadMultiplyAdd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:67</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_ad9d8e47e8896d8d4eab538aa78b56e47"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ad9d8e47e8896d8d4eab538aa78b56e47">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:70</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_a703b329ebf14d78f576e83c5e6fe23a7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarC</a></div><div class="ttdeci">int ScalarC</div><div class="ttdoc">The type for C and D. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_aa84c3d4efc7947d6efb75536c88043bd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa84c3d4efc7947d6efb75536c88043bd">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::InstructionShape</a></div><div class="ttdeci">Shape&lt; 4, 1, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_a6bb1afd96da05370e61b38f2a93e40df"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The number of threads per warp. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:50</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_ac5cde71eb825b0a4311bd0ce982f47aa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadGemmShape</a></div><div class="ttdeci">ThreadGemmShape_ ThreadGemmShape</div><div class="ttdoc">Shape of the thread-level GEMM (K-by-N-by-M) </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_a1ae57ab39203313cfd20208947750786"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::Accumulators</a></div><div class="ttdeci">Fragment&lt; ScalarC, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW &gt; Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:64</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_a71aadbb130d4b1a6532c45282b37354f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a71aadbb130d4b1a6532c45282b37354f">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentA</a></div><div class="ttdeci">Fragment&lt; ScalarA, AccumulatorsPerThread::kW *4 &gt; FragmentA</div><div class="ttdoc">The fragment for A. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:54</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_acdd554e996a712ff62eb70d6ecf8e116"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#acdd554e996a712ff62eb70d6ecf8e116">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarC</a></div><div class="ttdeci">int ScalarC</div><div class="ttdoc">The type for C and D. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:60</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_aaf9e4b8b16150a6ad826c228af2bf103"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aaf9e4b8b16150a6ad826c228af2bf103">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarB</a></div><div class="ttdeci">int8_t ScalarB</div><div class="ttdoc">The type for B. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:56</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6_html_ad22dd143c304c22c2630aedbfd3459af"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad22dd143c304c22c2630aedbfd3459af">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:68</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_ae3152470cbbba2310d9c83b9d5d43027"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ae3152470cbbba2310d9c83b9d5d43027">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerWarp</a></div><div class="ttdeci">ShapeMul&lt; ThreadGemmShape, ThreadsPerWarp &gt;::Shape AccumulatorsPerWarp</div><div class="ttdoc">The number of accumulators per warp. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_aa88edf2e89062be00181f5dc4f4a0947"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa88edf2e89062be00181f5dc4f4a0947">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerThread</a></div><div class="ttdeci">ThreadGemmShape AccumulatorsPerThread</div><div class="ttdoc">Aliased for compatibility. Will be removed in CUTLASS v2.0. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_a6439d8fc71727cc6d50f87eae549157e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentB</a></div><div class="ttdeci">Fragment&lt; ScalarB, AccumulatorsPerThread::kH *4 &gt; FragmentB</div><div class="ttdoc">The fragment for B. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_a11be198f90afb859be51ec5feb5dcd2b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarA</a></div><div class="ttdeci">int8_t ScalarA</div><div class="ttdoc">The type for A. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:54</div></div>
 <div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4_html_a6a9c4f906a4930f4fc415009ead2e05d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarB</a></div><div class="ttdeci">int8_t ScalarB</div><div class="ttdoc">The type for B. </div><div class="ttdef"><b>Definition:</b> igemm_multiply_add.h:58</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/igemm__swizzle_8h.html b/docs/igemm__swizzle_8h.html
index a631d215c0..c878552194 100644
--- a/docs/igemm__swizzle_8h.html
+++ b/docs/igemm__swizzle_8h.html
@@ -82,7 +82,7 @@
 
 <p>Transposes a fragment of data containing packed 8-bit integer elements.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
 </div>
 <p><a href="igemm__swizzle_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -101,7 +101,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/igemm__swizzle_8h_source.html b/docs/igemm__swizzle_8h_source.html
index 9399083015..015b5f9afb 100644
--- a/docs/igemm__swizzle_8h_source.html
+++ b/docs/igemm__swizzle_8h_source.html
@@ -76,14 +76,14 @@
 <div class="title">igemm_swizzle.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="igemm__swizzle_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GlobalIterator_&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">IgemmSwizzle</a> {</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a880878914c25db44a1781725c24af514">   40</a></span>&#160;  <span class="keyword">typedef</span> GlobalIterator_ <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a880878914c25db44a1781725c24af514">GlobalIterator</a>;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">   42</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalIterator::Fragment <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">Fragment</a>;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004">   44</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalIterator::FragmentShape <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004">FragmentShape</a>;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727">   47</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727">InputFragment</a>;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8">   49</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8">OutputFragment</a>;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;typename Fragment::Element, int8_t&gt;::value</a>), <span class="stringliteral">&quot;Works on int8&quot;</span>);</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(FragmentShape::kH % 4 == 0 &amp;&amp; <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> % 4 == 0,</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;                <span class="stringliteral">&quot;Not multiple of 4&quot;</span>);</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac041d287c966cf568599d7e462e81d5a">   59</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac041d287c966cf568599d7e462e81d5a">IgemmSwizzle</a>() {}</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811">   62</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811">transform</a>(<a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">Fragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">Fragment</a>&amp; dst) {</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;    <span class="comment">// Expose src/dst as int arrays.</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span>* src_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span> const*<span class="keyword">&gt;</span>(&amp;src[0]);</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keywordtype">int</span>* dst_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span>*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    <span class="comment">// Transpose the data.</span></div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; FragmentShape::kD; ++d) {</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; FragmentShape::kH / 4; ++h) {</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; ShapeCount&lt;FragmentShape&gt;::kWc / 4; ++w) {</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> i0 = d * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kHwc</a> / 4) +</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                         (4 * h + 0) * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> / 4) + w;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> i1 = d * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kHwc</a> / 4) +</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;                         (4 * h + 1) * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> / 4) + w;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> i2 = d * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kHwc</a> / 4) +</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;                         (4 * h + 2) * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> / 4) + w;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> i3 = d * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kHwc</a> / 4) +</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;                         (4 * h + 3) * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> / 4) + w;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;          <span class="keywordtype">int</span> a0 = src_int[i0];</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;          <span class="keywordtype">int</span> a1 = src_int[i1];</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;          <span class="keywordtype">int</span> a2 = src_int[i2];</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;          <span class="keywordtype">int</span> a3 = src_int[i3];</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;          <span class="keywordtype">int</span> b0, b1, b2, b3, c0;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0040;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b0) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0040;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(c0) : <span class="stringliteral">&quot;r&quot;</span>(a2), <span class="stringliteral">&quot;r&quot;</span>(a3));</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x5410;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b0) : <span class="stringliteral">&quot;r&quot;</span>(b0), <span class="stringliteral">&quot;r&quot;</span>(c0));</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0051;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b1) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0051;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(c0) : <span class="stringliteral">&quot;r&quot;</span>(a2), <span class="stringliteral">&quot;r&quot;</span>(a3));</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x5410;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b1) : <span class="stringliteral">&quot;r&quot;</span>(b1), <span class="stringliteral">&quot;r&quot;</span>(c0));</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0062;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b2) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0062;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(c0) : <span class="stringliteral">&quot;r&quot;</span>(a2), <span class="stringliteral">&quot;r&quot;</span>(a3));</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x5410;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b2) : <span class="stringliteral">&quot;r&quot;</span>(b2), <span class="stringliteral">&quot;r&quot;</span>(c0));</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0073;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b3) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0073;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(c0) : <span class="stringliteral">&quot;r&quot;</span>(a2), <span class="stringliteral">&quot;r&quot;</span>(a3));</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x5410;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b3) : <span class="stringliteral">&quot;r&quot;</span>(b3), <span class="stringliteral">&quot;r&quot;</span>(c0));</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;          dst_int[i0] = b0;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;          dst_int[i1] = b1;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;          dst_int[i2] = b2;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;          dst_int[i3] = b3;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;        }</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;      }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;    }</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;  }</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;};</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:412</div></div>
+<a href="igemm__swizzle_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GlobalIterator_&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">IgemmSwizzle</a> {</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a880878914c25db44a1781725c24af514">   40</a></span>&#160;  <span class="keyword">typedef</span> GlobalIterator_ <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a880878914c25db44a1781725c24af514">GlobalIterator</a>;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">   42</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalIterator::Fragment <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">Fragment</a>;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004">   44</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GlobalIterator::FragmentShape <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004">FragmentShape</a>;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727">   47</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727">InputFragment</a>;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8">   49</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">Fragment</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8">OutputFragment</a>;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="structcutlass_1_1platform_1_1is__same.html">platform::is_same&lt;typename Fragment::Element, int8_t&gt;::value</a>), <span class="stringliteral">&quot;Works on int8&quot;</span>);</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(FragmentShape::kH % 4 == 0 &amp;&amp; <a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> % 4 == 0,</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;                <span class="stringliteral">&quot;Not multiple of 4&quot;</span>);</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac041d287c966cf568599d7e462e81d5a">   59</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac041d287c966cf568599d7e462e81d5a">IgemmSwizzle</a>() {}</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811">   62</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811">transform</a>(<a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">Fragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">Fragment</a>&amp; dst) {</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;    <span class="comment">// Expose src/dst as int arrays.</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span>* src_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span> const*<span class="keyword">&gt;</span>(&amp;src[0]);</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keywordtype">int</span>* dst_int = <span class="keyword">reinterpret_cast&lt;</span><span class="keywordtype">int</span>*<span class="keyword">&gt;</span>(&amp;dst[0]);</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    <span class="comment">// Transpose the data.</span></div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; FragmentShape::kD; ++d) {</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; FragmentShape::kH / 4; ++h) {</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; ShapeCount&lt;FragmentShape&gt;::kWc / 4; ++w) {</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> i0 = d * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kHwc</a> / 4) +</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                         (4 * h + 0) * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> / 4) + w;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> i1 = d * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kHwc</a> / 4) +</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;                         (4 * h + 1) * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> / 4) + w;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> i2 = d * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kHwc</a> / 4) +</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;                         (4 * h + 2) * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> / 4) + w;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> i3 = d * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kHwc</a> / 4) +</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;                         (4 * h + 3) * (<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;FragmentShape&gt;::kWc</a> / 4) + w;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;          <span class="keywordtype">int</span> a0 = src_int[i0];</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;          <span class="keywordtype">int</span> a1 = src_int[i1];</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;          <span class="keywordtype">int</span> a2 = src_int[i2];</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;          <span class="keywordtype">int</span> a3 = src_int[i3];</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;          <span class="comment">// // DEBUG.</span></div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;          <span class="comment">// if (threadIdx.x == 0) {</span></div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;          <span class="comment">//     printf(&quot;a=0x%08x 0x%08x 0x%08x 0x%08x\n&quot;, a0, a1, a2, a3);</span></div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;          <span class="comment">// }</span></div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;          <span class="keywordtype">int</span> b0, b1, b2, b3, c0;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0040;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b0) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0040;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(c0) : <span class="stringliteral">&quot;r&quot;</span>(a2), <span class="stringliteral">&quot;r&quot;</span>(a3));</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x5410;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b0) : <span class="stringliteral">&quot;r&quot;</span>(b0), <span class="stringliteral">&quot;r&quot;</span>(c0));</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0051;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b1) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0051;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(c0) : <span class="stringliteral">&quot;r&quot;</span>(a2), <span class="stringliteral">&quot;r&quot;</span>(a3));</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x5410;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b1) : <span class="stringliteral">&quot;r&quot;</span>(b1), <span class="stringliteral">&quot;r&quot;</span>(c0));</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0062;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b2) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0062;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(c0) : <span class="stringliteral">&quot;r&quot;</span>(a2), <span class="stringliteral">&quot;r&quot;</span>(a3));</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x5410;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b2) : <span class="stringliteral">&quot;r&quot;</span>(b2), <span class="stringliteral">&quot;r&quot;</span>(c0));</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0073;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b3) : <span class="stringliteral">&quot;r&quot;</span>(a0), <span class="stringliteral">&quot;r&quot;</span>(a1));</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x0073;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(c0) : <span class="stringliteral">&quot;r&quot;</span>(a2), <span class="stringliteral">&quot;r&quot;</span>(a3));</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;          <span class="keyword">asm</span> <span class="keyword">volatile</span>(<span class="stringliteral">&quot;prmt.b32 %0, %1, %2, 0x5410;&quot;</span> : <span class="stringliteral">&quot;=r&quot;</span>(b3) : <span class="stringliteral">&quot;r&quot;</span>(b3), <span class="stringliteral">&quot;r&quot;</span>(c0));</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;          <span class="comment">// // DEBUG.</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;          <span class="comment">// if (threadIdx.x == 0) {</span></div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;          <span class="comment">//     printf(&quot;b=0x%08x 0x%08x 0x%08x 0x%08x\n&quot;, b0, b1, b2, b3);</span></div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;          <span class="comment">// }</span></div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;          dst_int[i0] = b0;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;          dst_int[i1] = b1;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;          dst_int[i2] = b2;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;          dst_int[i3] = b3;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;        }</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;      }</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;    }</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  }</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;};</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:420</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSwizzle_html_a13a3b052cd8b714471489a9cc4dc7004"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004">cutlass::gemm::IgemmSwizzle::FragmentShape</a></div><div class="ttdeci">GlobalIterator::FragmentShape FragmentShape</div><div class="ttdoc">The shape of the source fragment. </div><div class="ttdef"><b>Definition:</b> igemm_swizzle.h:44</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSwizzle_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">cutlass::gemm::IgemmSwizzle</a></div><div class="ttdef"><b>Definition:</b> igemm_swizzle.h:38</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSwizzle_html_a880878914c25db44a1781725c24af514"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a880878914c25db44a1781725c24af514">cutlass::gemm::IgemmSwizzle::GlobalIterator</a></div><div class="ttdeci">GlobalIterator_ GlobalIterator</div><div class="ttdoc">The global iterator. </div><div class="ttdef"><b>Definition:</b> igemm_swizzle.h:40</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSwizzle_html_a084917a512c7a411b76a69f86b906811"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811">cutlass::gemm::IgemmSwizzle::transform</a></div><div class="ttdeci">CUTLASS_DEVICE void transform(Fragment const &amp;src, Fragment &amp;dst)</div><div class="ttdoc">Transform a fragment. </div><div class="ttdef"><b>Definition:</b> igemm_swizzle.h:62</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSwizzle_html_ac0a4e31e95f8e0c77ae087284bb02ff8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8">cutlass::gemm::IgemmSwizzle::OutputFragment</a></div><div class="ttdeci">Fragment OutputFragment</div><div class="ttdoc">The destination fragment. </div><div class="ttdef"><b>Definition:</b> igemm_swizzle.h:49</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSwizzle_html_a24a0bd5a9251ba5204b35eb4c4ac7727"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727">cutlass::gemm::IgemmSwizzle::InputFragment</a></div><div class="ttdeci">Fragment InputFragment</div><div class="ttdoc">The source fragment. </div><div class="ttdef"><b>Definition:</b> igemm_swizzle.h:47</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSwizzle_html_a67693ee79f93cb61fc37f2e632eaea8d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d">cutlass::gemm::IgemmSwizzle::Fragment</a></div><div class="ttdeci">GlobalIterator::Fragment Fragment</div><div class="ttdoc">The source fragment. </div><div class="ttdef"><b>Definition:</b> igemm_swizzle.h:42</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSwizzle_html_ac041d287c966cf568599d7e462e81d5a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac041d287c966cf568599d7e462e81d5a">cutlass::gemm::IgemmSwizzle::IgemmSwizzle</a></div><div class="ttdeci">CUTLASS_DEVICE IgemmSwizzle()</div><div class="ttdoc">The src/dst must be int8 fragments. </div><div class="ttdef"><b>Definition:</b> igemm_swizzle.h:59</div></div>
@@ -92,7 +92,7 @@
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/igemm__traits_8h.html b/docs/igemm__traits_8h.html
index 32d14d876c..897687ee2c 100644
--- a/docs/igemm__traits_8h.html
+++ b/docs/igemm__traits_8h.html
@@ -82,34 +82,38 @@
 
 <p>Defies structural properties of mixed-precision integer GEMM. Multiplicands are assumed to be packed 8bit integers, accumulators are assumed to be 32b signed integers, and output formats vary.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm_8h_source.html">cutlass/gemm/gemm.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__epilogue_8h_source.html">cutlass/gemm/gemm_epilogue.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__epilogue__traits_8h_source.html">cutlass/gemm/gemm_epilogue_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__traits_8h_source.html">cutlass/gemm/gemm_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="igemm__epilogue_8h_source.html">cutlass/gemm/igemm_epilogue.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="igemm__global__tile_8h_source.html">cutlass/gemm/igemm_global_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="igemm__multiply__add_8h_source.html">cutlass/gemm/igemm_multiply_add.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="igemm__swizzle_8h_source.html">cutlass/gemm/igemm_swizzle.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm_8h_source.html">cutlass/gemm/gemm.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__epilogue_8h_source.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__epilogue__traits_8h_source.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__traits_8h_source.html">cutlass/gemm/gemm_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="igemm__epilogue_8h_source.html">cutlass/gemm/igemm_epilogue.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="igemm__global__tile_8h_source.html">cutlass/gemm/igemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="igemm__multiply__add_8h_source.html">cutlass/gemm/igemm_multiply_add.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="igemm__swizzle_8h_source.html">cutlass/gemm/igemm_swizzle.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="reshape__tile_8h_source.html">cutlass/reshape_tile.h</a>&quot;</code><br />
 </div>
 <p><a href="igemm__traits_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, AccumulatorsPerThread_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, ThreadGemmShape_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01AccumulatorsPerThread___01_4.html">cutlass::gemm::IgemmConfig&lt; OutputTile_, int8_t, AccumulatorsPerThread_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html">cutlass::gemm::IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_, Index_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">cutlass::gemm::IgemmTransformerA&lt; kLayout_, Iterator_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -123,13 +127,13 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">cutlass::gemm::IgemmEpilogueScalar&lt; ScalarD_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html">cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html">cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_, Helper_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html">cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_, Helper_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -142,7 +146,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/igemm__traits_8h_source.html b/docs/igemm__traits_8h_source.html
index ecdd4f1df6..e1fa87e400 100644
--- a/docs/igemm__traits_8h_source.html
+++ b/docs/igemm__traits_8h_source.html
@@ -76,89 +76,108 @@
 <div class="title">igemm_traits.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="igemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&gt;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="igemm__epilogue_8h.html">cutlass/gemm/igemm_epilogue.h</a>&gt;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="igemm__global__tile_8h.html">cutlass/gemm/igemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="igemm__multiply__add_8h.html">cutlass/gemm/igemm_multiply_add.h</a>&gt;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="igemm__swizzle_8h.html">cutlass/gemm/igemm_swizzle.h</a>&gt;</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&gt;</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    <span class="keyword">typename</span> ScalarD_,</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerThread_&gt;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmConfig.html">   57</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;          int8_t,</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;          int8_t,</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;          ScalarD_,</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;          ScalarD_,</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;          OutputTile_,</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;          ThreadMultiplyAdd&lt;AccumulatorsPerThread_, Shape&lt;1, 4, 8&gt;, int8_t, int8_t, int&gt;,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;          4,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;          4,</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;          16,</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;          4,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;          4,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;          16,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;          1,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;          4,</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;          1,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;          2&gt; {};</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputTile_, <span class="keyword">typename</span> AccumulatorsPerThread_&gt;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01AccumulatorsPerThread___01_4.html">   95</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a>&lt;OutputTile_, int8_t, AccumulatorsPerThread_&gt;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;          int8_t,</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;          int8_t,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;          int8_t,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;          int8_t,</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;          OutputTile_,</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;          ThreadMultiplyAdd&lt;AccumulatorsPerThread_, Shape&lt;1, 4, 8&gt;, int8_t, int8_t, int&gt;,</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;          4,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;          4,</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;          16,</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;          4,</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;          4,</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;          16,</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;          4,</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;          4,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;          4,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;          2&gt; {};</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">  133</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;kLayout_, GemmConfig_&gt; {};</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00138"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">  138</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, GemmConfig_&gt;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00141"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#affd04d88a0bbef13c54f10000a5dc15d">  141</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperA&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#affd04d88a0bbef13c54f10000a5dc15d">Base</a>;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ae396f7301f934c179e054f68f0420edf">  144</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerStsA = 16;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html">IgemmContiguousGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;      <span class="comment">// The layout.</span></div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      int8_t <span class="keyword">const</span>,</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW&gt;</a>,</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;      4&gt;</div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a738774d1eb79de7e29c372ddfd48258d">  159</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a738774d1eb79de7e29c372ddfd48258d">GlobalTileTraits</a>;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;      int8_t,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / 4, GemmConfig_::OutputTile::kW * 4&gt;,</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;      kScalarsPerStsA&gt;</div><div class="line"><a name="l00171"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a7624585480f83a46725c92b5dee20ebc">  171</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a7624585480f83a46725c92b5dee20ebc">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;};</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00177"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">  177</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;kLayout_, GemmConfig_&gt; {};</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00182"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">  182</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, GemmConfig_&gt;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;MatrixLayout::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aef7047c6a0d0c3db0bfb6bec08520aad">  185</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperB&lt;MatrixLayout::kRowMajor, GemmConfig_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aef7047c6a0d0c3db0bfb6bec08520aad">Base</a>;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;</div><div class="line"><a name="l00188"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a47d99d98c783cf1d317698bd465ffa9a">  188</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerStsB = 16;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html">IgemmContiguousGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;      <span class="comment">// The layout.</span></div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;      int8_t <span class="keyword">const</span>,</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH&gt;</a>,</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;      4&gt;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a24f38105e3c331c733cb672c3a9be588">  203</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a24f38105e3c331c733cb672c3a9be588">GlobalTileTraits</a>;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;      int8_t,</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / 4, GemmConfig_::OutputTile::kH * 4&gt;,</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      kScalarsPerStsB&gt;</div><div class="line"><a name="l00215"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aca6118b5bbe6f667f05c53bd52543045">  215</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aca6118b5bbe6f667f05c53bd52543045">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;};</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00221"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">  221</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a> {};</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">  224</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, Iterator_&gt; {</div><div class="line"><a name="l00225"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197">  225</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename Iterator_::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197">Transformer</a>;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;};</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">  229</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, Iterator_&gt; {</div><div class="line"><a name="l00230"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a8a4e3ce1174789e2b695bda7b863079f">  230</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">IgemmSwizzle&lt;Iterator_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a8a4e3ce1174789e2b695bda7b863079f">Transformer</a>;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;};</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00236"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">  236</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a> {};</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00239"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">  239</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, Iterator_&gt; {</div><div class="line"><a name="l00240"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49">  240</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename Iterator_::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49">Transformer</a>;</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;};</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00244"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">  244</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, Iterator_&gt; {</div><div class="line"><a name="l00245"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a">  245</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">IgemmSwizzle&lt;Iterator_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a">Transformer</a>;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;};</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    <span class="keyword">typename</span> ScalarD_,</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_,</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerThread_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;32, 8, 8&gt;</a>,</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;    <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00265"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">  265</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">IgemmTraitsHelper</a> {</div><div class="line"><a name="l00267"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">  267</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig&lt;OutputTile_, ScalarD_, AccumulatorsPerThread_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">GemmConfig</a>;</div><div class="line"><a name="l00269"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ab9e10d54c81a359db0eba58a11b9a0cf">  269</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA&lt;kLayoutA_, GemmConfig&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ab9e10d54c81a359db0eba58a11b9a0cf">GemmTileTraitsHelperA</a>;</div><div class="line"><a name="l00271"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a095505bfcea6791accd06bf4d37b9df8">  271</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB&lt;kLayoutB_, GemmConfig&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a095505bfcea6791accd06bf4d37b9df8">GemmTileTraitsHelperB</a>;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperA::GlobalTileTraits, Index_&gt;</a></div><div class="line"><a name="l00275"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">  275</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">GlobalLoadIteratorA</a>;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a>&lt;GemmTileTraitsHelperA::kLayout,</div><div class="line"><a name="l00278"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d">  278</a></span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GlobalLoadIteratorA</a>&gt;::Transformer <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d">GlobalTransformerA</a>;</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits,</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00284"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46">  284</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46">SharedStoreIteratorA</a>;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream&lt;GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA&gt;</a></div><div class="line"><a name="l00287"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7fb1354154f303642da72e6fd157d846">  287</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7fb1354154f303642da72e6fd157d846">GlobalLoadStreamA</a>;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperB::GlobalTileTraits, Index_&gt;</a></div><div class="line"><a name="l00291"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">  291</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">GlobalLoadIteratorB</a>;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;  <span class="comment">// The default transformer for B.</span></div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a>&lt;GemmTileTraitsHelperB::kLayout,</div><div class="line"><a name="l00294"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9">  294</a></span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GlobalLoadIteratorB</a>&gt;::Transformer <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9">GlobalTransformerB</a>;</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00300"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f">  300</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f">SharedStoreIteratorB</a>;</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream&lt;GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB&gt;</a></div><div class="line"><a name="l00303"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a88e66ee760aea03687e7b3ccc6ea535b">  303</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a88e66ee760aea03687e7b3ccc6ea535b">GlobalLoadStreamB</a>;</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits,</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00310"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99">  310</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99">SharedLoadIteratorA</a>;</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorA, Copy&lt;typename SharedLoadIteratorA::Fragment&gt;</a> &gt;</div><div class="line"><a name="l00313"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a70063eb7e19921efef55a6f32562773f">  313</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a70063eb7e19921efef55a6f32562773f">SharedLoadStreamA</a>;</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits,</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00319"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8">  319</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8">SharedLoadIteratorB</a>;</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorB, Copy&lt;typename SharedLoadIteratorB::Fragment&gt;</a> &gt;</div><div class="line"><a name="l00322"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a54e8ad5874306a3764951a9791f02c96">  322</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a54e8ad5874306a3764951a9791f02c96">SharedLoadStreamB</a>;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;</div><div class="line"><a name="l00325"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a87e34d56fa955670331749724bee9fd8">  325</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">GemmConfig::MultiplyAdd</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a87e34d56fa955670331749724bee9fd8">MultiplyAdd</a>;</div><div class="line"><a name="l00327"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">  327</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">ClearAccumulators&lt;typename MultiplyAdd::ScalarC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">ClearAccumulators</a>;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00330"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5e2ed697a9091a1ca8b19855b5a2c651">  330</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue&lt;IgemmEpilogueTraits&lt;GemmConfig, EpilogueFunctor_&gt;</a> &gt; <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5e2ed697a9091a1ca8b19855b5a2c651">Epilogue</a>;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;};</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScalarD_&gt;</div><div class="line"><a name="l00336"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">  336</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">IgemmEpilogueScalar</a> {</div><div class="line"><a name="l00337"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317">  337</a></span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">float</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317">Scalar</a>;</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;};</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00341"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html">  341</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">IgemmEpilogueScalar</a>&lt;int&gt; {</div><div class="line"><a name="l00342"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650">  342</a></span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650">Scalar</a>;</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;};</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;    <span class="keyword">typename</span> OutputTile_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;32, 128, 128&gt;</a>,</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;    <span class="keyword">typename</span> ScalarD_ = int,</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling&lt;typename IgemmEpilogueScalar&lt;ScalarD_&gt;::Scalar</a>&gt;,</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerThread_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;32, 8, 8&gt;</a>,</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;    <span class="keyword">typename</span> Helper_ = <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">IgemmTraitsHelper</a>&lt;kLayoutA_,</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;                                         kLayoutB_,</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;                                         OutputTile_,</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;                                         ScalarD_,</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;                                         EpilogueFunctor_,</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;                                         AccumulatorsPerThread_,</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;                                         Index_&gt; &gt;</div><div class="line"><a name="l00370"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraits.html">  370</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTraits.html">IgemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt;</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;                         <span class="comment">// The config.</span></div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;                         typename Helper_::GemmConfig,</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;                         <span class="comment">// The stream to load A from global memory to shared memory.</span></div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;                         typename Helper_::GlobalLoadStreamA,</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;                         <span class="comment">// The stream to load B from global memory to shared memory.</span></div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;                         typename Helper_::GlobalLoadStreamB,</div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;                         <span class="comment">// The stream to load A from shared memory.</span></div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;                         typename Helper_::SharedLoadStreamA,</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;                         <span class="comment">// The stream to load B from shared memory.</span></div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;                         typename Helper_::SharedLoadStreamB,</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;                         <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;                         typename Helper_::Epilogue,</div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;                         <span class="comment">// The block swizzle to reorganize the grid.</span></div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;                         IdentityBlockSwizzle,</div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;                         <span class="comment">// The index.</span></div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;                         Index_,</div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;                         <span class="comment">// The tool used to clear accumulators.</span></div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;                         typename Helper_::ClearAccumulators&gt; {};</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a42322b9b10e894fe157e527b378c59f8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8">cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorB</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorB</div><div class="ttdoc">The iterator to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:319</div></div>
+<a href="igemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&quot;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="igemm__epilogue_8h.html">cutlass/gemm/igemm_epilogue.h</a>&quot;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="igemm__global__tile_8h.html">cutlass/gemm/igemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="igemm__multiply__add_8h.html">cutlass/gemm/igemm_multiply_add.h</a>&quot;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="igemm__swizzle_8h.html">cutlass/gemm/igemm_swizzle.h</a>&quot;</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    <span class="keyword">typename</span> ScalarD_,</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_&gt;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmConfig.html">   57</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;                         int8_t,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;                         int8_t,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;                         ScalarD_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;                         ScalarD_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;                         OutputTile_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;                         ThreadMultiplyAdd&lt;ThreadGemmShape_, Shape&lt;1, 4, 8&gt;, int8_t, int8_t, int&gt;,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                         4,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                         4,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;                         16,</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;                         4,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;                         4,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;                         16,</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;                         1,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;                         4,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;                         1,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;                         2,</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;                         false,</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;                         false,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;                         false&gt; {};</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputTile_, <span class="keyword">typename</span> ThreadGemmShape_&gt;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html">  100</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a>&lt;OutputTile_, int8_t, ThreadGemmShape_&gt;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;          int8_t,</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;          int8_t,</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;          int8_t,</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;          int8_t,</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;          OutputTile_,</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;          ThreadMultiplyAdd&lt;ThreadGemmShape_, Shape&lt;1, 4, 8&gt;, int8_t, int8_t, int&gt;,</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;          4,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;          4,</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;          16,</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;          4,</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;          4,</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;          16,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;          4,</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;          4,</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;          4,</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;          2,</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;          false,</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;          true,</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;          false&gt; {};</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">  144</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;kLayout_, GemmConfig_&gt; {};</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00149"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">  149</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, GemmConfig_, Index_&gt;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00152"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#adbbf19c2f86c198bbe4cc596c63e65ae">  152</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperA&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#adbbf19c2f86c198bbe4cc596c63e65ae">Base</a>;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a69775031f651795f697b628677b8e4eb">  155</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerStsA = 16;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;      <span class="comment">// The layout.</span></div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;      int8_t <span class="keyword">const</span>,</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW&gt;</a>,</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;      GemmConfig_::kScalarsPerLdgA&gt;</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a66f11407e9f5bf0d6123c81dfee6b330">  170</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a66f11407e9f5bf0d6123c81dfee6b330">GlobalTileTraits</a>;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a4237c6c9e33397bc1633182e9c3b6504">  173</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;GlobalTileTraits, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a4237c6c9e33397bc1633182e9c3b6504">GlobalLoadIterator</a>;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      int8_t,</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / 4, GemmConfig_::OutputTile::kW * 4&gt;,</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;      kScalarsPerStsA&gt;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aa21c231aa56c9e5f2705cac62b17bbbe">  185</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aa21c231aa56c9e5f2705cac62b17bbbe">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;};</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">  191</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, GemmConfig_, Index_&gt; {</div><div class="line"><a name="l00193"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a32729d0fad10fcbbcf2643a2fa5671d6">  193</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aa37f285c74bb63c8bb8cbfc767378c41">  196</a></span>&#160;  <span class="keyword">typedef</span> int8_t <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aa37f285c74bb63c8bb8cbfc767378c41">Scalar</a>;</div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a29c3a5e4ea1fb6d0ea8b234849684daf">  198</a></span>&#160;  <span class="keyword">typedef</span> int8_t <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a29c3a5e4ea1fb6d0ea8b234849684daf">MultiplyAddScalar</a>;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aedb61c43d8fb9c4ba18ae72601b9f6e1">  201</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerStsA = 16;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;      <span class="comment">// The layout.</span></div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      int8_t <span class="keyword">const</span>,</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;      <span class="comment">// The tile has size NxK in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD&gt;</a>,</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;      GemmConfig_::kScalarsPerLdgA&gt;</div><div class="line"><a name="l00216"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4">  216</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4">GlobalTileTraits</a>;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;</div><div class="line"><a name="l00219"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aed9492775f012986a7c158156bf4e01e">  219</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb&lt;GlobalTileTraits, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aed9492775f012986a7c158156bf4e01e">GlobalLoadIterator</a>;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      <span class="comment">// The pointer is int8.</span></div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;      int8_t,</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / 4, GemmConfig_::OutputTile::kW * 4&gt;,</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;      <span class="comment">// The number of scalars per STS.</span></div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;      kScalarsPerStsA,</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;      <span class="comment">// The skew to avoid bank conflicts added in the tile W dimension.</span></div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;      16&gt;</div><div class="line"><a name="l00233"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d">  233</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;      int8_t <span class="keyword">const</span>,</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;      16,</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;      SharedStoreTileTraits::kSkew&gt;</div><div class="line"><a name="l00253"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a53dd72126a43a1c5811ed92a2313d19d">  253</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a53dd72126a43a1c5811ed92a2313d19d">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;};</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00259"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">  259</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;kLayout_, GemmConfig_&gt; {};</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00264"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">  264</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, GemmConfig_, Index_&gt; {</div><div class="line"><a name="l00266"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a11026d05b2b32f1373020c049f2cfa66">  266</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>;</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;</div><div class="line"><a name="l00269"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a1ebf24984863d0422356031615b74c53">  269</a></span>&#160;  <span class="keyword">typedef</span> int8_t <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a1ebf24984863d0422356031615b74c53">Scalar</a>;</div><div class="line"><a name="l00271"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aac06796d174a2d54103903e7dbe7b194">  271</a></span>&#160;  <span class="keyword">typedef</span> int8_t <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aac06796d174a2d54103903e7dbe7b194">MultiplyAddScalar</a>;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;</div><div class="line"><a name="l00274"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aaa3228d45ff4428bba0f88a7a6e8b31b">  274</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerStsB = 16;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;      <span class="comment">// The layout.</span></div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;      int8_t <span class="keyword">const</span>,</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;      <span class="comment">// The tile has size NxK in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD&gt;</a>,</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;      GemmConfig_::kScalarsPerLdgB&gt;</div><div class="line"><a name="l00289"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa">  289</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa">GlobalTileTraits</a>;</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;</div><div class="line"><a name="l00292"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#acd7e5d5b940f410275ebbcd6c27e4327">  292</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb&lt;GlobalTileTraits, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#acd7e5d5b940f410275ebbcd6c27e4327">GlobalLoadIterator</a>;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt;</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;      <span class="comment">// The pointer is int8.</span></div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;      int8_t,</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;      <span class="comment">// The tile has size KxN in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / 4, GemmConfig_::OutputTile::kH * 4&gt;,</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;      <span class="comment">// The threads are distributed as (threads / K) x K (the traits may reorganize).</span></div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;      <span class="comment">// The number of scalars per STS.</span></div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      kScalarsPerStsB,</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;      <span class="comment">// The skew to avoid bank conflicts added in the tile W dimension.</span></div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;      16&gt;</div><div class="line"><a name="l00306"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a86ed2ebc5b6e4426ab35a1f30a3e47bb">  306</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a86ed2ebc5b6e4426ab35a1f30a3e47bb">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt;</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;      int8_t <span class="keyword">const</span>,</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;      <span class="comment">// The number of threads per warp.</span></div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;      <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ThreadsPerWarp,</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;      <span class="comment">// The shape of the FMA instruction.</span></div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape,</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;      <span class="comment">// The number of stages.</span></div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;      GemmConfig_::kStages,</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;      16,</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;      <span class="comment">// The skew.</span></div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;      SharedStoreTileTraits::kSkew&gt;</div><div class="line"><a name="l00326"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#ad8f1b0fda40f1fb7dc598cc841f38afe">  326</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#ad8f1b0fda40f1fb7dc598cc841f38afe">SharedLoadTileTraits</a>;</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;};</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00332"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">  332</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, GemmConfig_, Index_&gt;</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;MatrixLayout::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00335"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4f7dfa33f6b6e52aac05ad5072710aa9">  335</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">GemmTileTraitsHelperB&lt;MatrixLayout::kRowMajor, GemmConfig_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4f7dfa33f6b6e52aac05ad5072710aa9">Base</a>;</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;</div><div class="line"><a name="l00338"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a8a6cef5e733eab9c0ead20b1e345ad6f">  338</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerStsB = 16;</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt;</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;      <span class="comment">// The layout.</span></div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;      int8_t <span class="keyword">const</span>,</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH&gt;</a>,</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount</a>, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;      GemmConfig_::kScalarsPerLdgB&gt;</div><div class="line"><a name="l00353"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a125c9a43da3bcdc00d5194a1376f613c">  353</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a125c9a43da3bcdc00d5194a1376f613c">GlobalTileTraits</a>;</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00356"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a57670718427808a241005f5e27acce5d">  356</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb&lt;GlobalTileTraits, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a57670718427808a241005f5e27acce5d">GlobalLoadIterator</a>;</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt;</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;      int8_t,</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;      <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / 4, GemmConfig_::OutputTile::kH * 4&gt;,</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>,</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;      kScalarsPerStsB&gt;</div><div class="line"><a name="l00368"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a872dc2d0b8ed6c75c41d258a23183861">  368</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a872dc2d0b8ed6c75c41d258a23183861">SharedStoreTileTraits</a>;</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;};</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00374"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">  374</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a> {};</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00377"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">  377</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, Iterator_&gt; {</div><div class="line"><a name="l00378"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197">  378</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename Iterator_::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197">Transformer</a>;</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;};</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00382"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">  382</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, Iterator_&gt; {</div><div class="line"><a name="l00383"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a8a4e3ce1174789e2b695bda7b863079f">  383</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">IgemmSwizzle&lt;Iterator_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a8a4e3ce1174789e2b695bda7b863079f">Transformer</a>;</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;};</div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;</div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00389"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">  389</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a> {};</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00392"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html">  392</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kColumnMajor, Iterator_&gt; {</div><div class="line"><a name="l00393"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49">  393</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Copy.html">Copy&lt;typename Iterator_::Fragment&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49">Transformer</a>;</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;};</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_&gt;</div><div class="line"><a name="l00397"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">  397</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a>&lt;<a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a>::kRowMajor, Iterator_&gt; {</div><div class="line"><a name="l00398"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a">  398</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">IgemmSwizzle&lt;Iterator_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a">Transformer</a>;</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;};</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;    <span class="keyword">typename</span> ScalarD_,</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_,</div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;32, 8, 8&gt;</a>,</div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;    <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00418"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">  418</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">IgemmTraitsHelper</a> {</div><div class="line"><a name="l00420"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">  420</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig&lt;OutputTile_, ScalarD_, ThreadGemmShape_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">GemmConfig</a>;</div><div class="line"><a name="l00422"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aee1dfb15e1b63f838a712af93777e5d3">  422</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA&lt;kLayoutA_, GemmConfig, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aee1dfb15e1b63f838a712af93777e5d3">GemmTileTraitsHelperA</a>;</div><div class="line"><a name="l00424"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7f175193ac6bcdccba012f5d80324685">  424</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB&lt;kLayoutB_, GemmConfig, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7f175193ac6bcdccba012f5d80324685">GemmTileTraitsHelperB</a>;</div><div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;</div><div class="line"><a name="l00427"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">  427</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmTileTraitsHelperA::GlobalLoadIterator <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">GlobalLoadIteratorA</a>;</div><div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a>&lt;GemmTileTraitsHelperA::kLayout,</div><div class="line"><a name="l00430"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">  430</a></span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">GlobalLoadIteratorA</a>&gt;::Transformer <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">GlobalTransformerA</a>;</div><div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits,</div><div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00436"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">  436</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">SharedStoreIteratorA</a>;</div><div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">GlobalLoadIteratorA</a>,</div><div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">SharedStoreIteratorA</a>,</div><div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">GlobalTransformerA</a>&gt;</div><div class="line"><a name="l00442"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2aceaceb30287e909c254f01f1716845">  442</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2aceaceb30287e909c254f01f1716845">GlobalLoadStreamA</a>;</div><div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;</div><div class="line"><a name="l00445"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">  445</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmTileTraitsHelperB::GlobalLoadIterator <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">GlobalLoadIteratorB</a>;</div><div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;  <span class="comment">// The default transformer for B.</span></div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a>&lt;GemmTileTraitsHelperB::kLayout,</div><div class="line"><a name="l00448"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">  448</a></span>&#160;                                     <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">GlobalLoadIteratorB</a>&gt;::Transformer <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">GlobalTransformerB</a>;</div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits,</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00454"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">  454</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">SharedStoreIteratorB</a>;</div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">GlobalLoadIteratorB</a>,</div><div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">SharedStoreIteratorB</a>,</div><div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;                              <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">GlobalTransformerB</a>&gt;</div><div class="line"><a name="l00460"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae59454c1b3862522c8ea293bacb194a8">  460</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae59454c1b3862522c8ea293bacb194a8">GlobalLoadStreamB</a>;</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;</div><div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits,</div><div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00467"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c">  467</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c">SharedLoadIteratorA</a>;</div><div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorA, Copy&lt;typename SharedLoadIteratorA::Fragment&gt;</a> &gt;</div><div class="line"><a name="l00470"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7e035ceab26dc904726ddbf14371f476">  470</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7e035ceab26dc904726ddbf14371f476">SharedLoadStreamA</a>;</div><div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits,</div><div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00476"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312">  476</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312">SharedLoadIteratorB</a>;</div><div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream&lt;SharedLoadIteratorB, Copy&lt;typename SharedLoadIteratorB::Fragment&gt;</a> &gt;</div><div class="line"><a name="l00479"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aff287e2ca10a437a82736baab2d7c28d">  479</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aff287e2ca10a437a82736baab2d7c28d">SharedLoadStreamB</a>;</div><div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;</div><div class="line"><a name="l00482"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae84c7fd1567580dc3da15a520c47ff6e">  482</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">GemmConfig::MultiplyAdd</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae84c7fd1567580dc3da15a520c47ff6e">MultiplyAdd</a>;</div><div class="line"><a name="l00484"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">  484</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">ClearAccumulators&lt;typename MultiplyAdd::ScalarC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">ClearAccumulators</a>;</div><div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;</div><div class="line"><a name="l00487"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a36c8b17c98723934d9d75228dd9c2915">  487</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue&lt;IgemmEpilogueTraits&lt;GemmConfig, EpilogueFunctor_&gt;</a> &gt; <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a36c8b17c98723934d9d75228dd9c2915">Epilogue</a>;</div><div class="line"><a name="l00488"></a><span class="lineno">  488</span>&#160;};</div><div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;</div><div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160;</div><div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScalarD_&gt;</div><div class="line"><a name="l00493"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">  493</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">IgemmEpilogueScalar</a> {</div><div class="line"><a name="l00494"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317">  494</a></span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">float</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317">Scalar</a>;</div><div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;};</div><div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;</div><div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00498"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html">  498</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">IgemmEpilogueScalar</a>&lt;int&gt; {</div><div class="line"><a name="l00499"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650">  499</a></span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650">Scalar</a>;</div><div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;};</div><div class="line"><a name="l00501"></a><span class="lineno">  501</span>&#160;</div><div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;</div><div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;    <span class="keyword">typename</span> OutputTile_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;32, 128, 128&gt;</a>,</div><div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;    <span class="keyword">typename</span> ScalarD_ = int,</div><div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling&lt;typename IgemmEpilogueScalar&lt;ScalarD_&gt;::Scalar</a>&gt;,</div><div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;32, 8, 8&gt;</a>,</div><div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;    <span class="keyword">typename</span> Helper_ = <a class="code" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">IgemmTraitsHelper</a>&lt;kLayoutA_,</div><div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;                                         kLayoutB_,</div><div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;                                         OutputTile_,</div><div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;                                         ScalarD_,</div><div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;                                         EpilogueFunctor_,</div><div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;                                         ThreadGemmShape_,</div><div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;                                         Index_&gt; &gt;</div><div class="line"><a name="l00527"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IgemmTraits.html">  527</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IgemmTraits.html">IgemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt;</div><div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;                         <span class="comment">// The config.</span></div><div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;                         typename Helper_::GemmConfig,</div><div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;                         <span class="comment">// The stream to load A from global memory to shared memory.</span></div><div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;                         typename Helper_::GlobalLoadStreamA,</div><div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;                         <span class="comment">// The stream to load B from global memory to shared memory.</span></div><div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;                         typename Helper_::GlobalLoadStreamB,</div><div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;                         <span class="comment">// The stream to load A from shared memory.</span></div><div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;                         typename Helper_::SharedLoadStreamA,</div><div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;                         <span class="comment">// The stream to load B from shared memory.</span></div><div class="line"><a name="l00537"></a><span class="lineno">  537</span>&#160;                         typename Helper_::SharedLoadStreamB,</div><div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;                         <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;                         typename Helper_::Epilogue,</div><div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;                         <span class="comment">// The block swizzle to reorganize the grid.</span></div><div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;                         IdentityBlockSwizzle,</div><div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;                         <span class="comment">// The index.</span></div><div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;                         Index_,</div><div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;                         <span class="comment">// The tool used to clear accumulators.</span></div><div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;                         typename Helper_::ClearAccumulators&gt; {};</div><div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;</div><div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;</div><div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00550"></a><span class="lineno">  550</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a7b25e0203997662a537b21674c3d0cd2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">cutlass::gemm::IgemmTraitsHelper::GlobalTransformerB</a></div><div class="ttdeci">IgemmTransformerB&lt; GemmTileTraitsHelperB::kLayout, GlobalLoadIteratorB &gt;::Transformer GlobalTransformerB</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:448</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4_html_a4f7dfa33f6b6e52aac05ad5072710aa9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4f7dfa33f6b6e52aac05ad5072710aa9">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::Base</a></div><div class="ttdeci">GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt; Base</div><div class="ttdoc">The base config. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:335</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4_html_a8a4e3ce1174789e2b695bda7b863079f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a8a4e3ce1174789e2b695bda7b863079f">cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">IgemmSwizzle&lt; Iterator_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:230</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:128</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_html_a72fe2fb9077d072f8266f07374624a1f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">cutlass::gemm::IgemmGlobalTileTraits::Threads</a></div><div class="ttdeci">Base::Threads Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:66</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a7f175193ac6bcdccba012f5d80324685"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7f175193ac6bcdccba012f5d80324685">cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperB</a></div><div class="ttdeci">IgemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig, Index_ &gt; GemmTileTraitsHelperB</div><div class="ttdoc">The GEMM config for B. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:424</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:80</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4_html_a8a4e3ce1174789e2b695bda7b863079f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a8a4e3ce1174789e2b695bda7b863079f">cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">IgemmSwizzle&lt; Iterator_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:383</div></div>
 <div class="ttc" id="gemm__global__tile_8h_html"><div class="ttname"><a href="gemm__global__tile_8h.html">gemm_global_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing to global memory. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_ac7ee33e683e48511a1a220df6c9d4758"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorA</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; typename GemmTileTraitsHelperA::GlobalTileTraits, Index_ &gt; GlobalLoadIteratorA</div><div class="ttdoc">The iterator to load A from global memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:275</div></div>
 <div class="ttc" id="igemm__swizzle_8h_html"><div class="ttname"><a href="igemm__swizzle_8h.html">igemm_swizzle.h</a></div><div class="ttdoc">Transposes a fragment of data containing packed 8-bit integer elements. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4_html_a92320b7224a77a8af61e55beef30ad49"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">Copy&lt; typename Iterator_::Fragment &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:240</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4_html_a92320b7224a77a8af61e55beef30ad49"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">Copy&lt; typename Iterator_::Fragment &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:393</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4_html_a11d02ea6e4ab68a0f4dff1eb8ecf4f9d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreWithSkewTileAbTraits&lt; int8_t, Shape&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/4, GemmConfig_::OutputTile::kW *4 &gt;, typename GlobalTileTraits::Threads, kScalarsPerStsA, 16 &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to shared memory for A^N. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:233</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4_html_af6f6d293f058666f9f0da53f34c712aa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">IgemmGlobalTileTraits&lt; GemmOperand::kB, MatrixLayout::kColumnMajor, int8_t const, Shape&lt; 1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgB &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for B^T. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:289</div></div>
 <div class="ttc" id="gemm__traits_8h_html"><div class="ttname"><a href="gemm__traits_8h.html">gemm_traits.h</a></div><div class="ttdoc">Defines structural properties of complete GEMM computation. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a88e66ee760aea03687e7b3ccc6ea535b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a88e66ee760aea03687e7b3ccc6ea535b">cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamB</a></div><div class="ttdeci">GlobalLoadStream&lt; GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB &gt; GlobalLoadStreamB</div><div class="ttdoc">The stream to load B from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:303</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:133</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a4d6658f3a3b53760b10a3da9c807b81f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f">cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorB</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorB</div><div class="ttdoc">The iterator to store B to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:300</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a600bcc571ea5e04a98663c134d4664b9"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9">cutlass::gemm::IgemmTraitsHelper::GlobalTransformerB</a></div><div class="ttdeci">IgemmTransformerB&lt; GemmTileTraitsHelperB::kLayout, GlobalLoadIteratorB &gt;::Transformer GlobalTransformerB</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:294</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4_html_aed9492775f012986a7c158156bf4e01e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aed9492775f012986a7c158156bf4e01e">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator</a></div><div class="ttdeci">IgemmGlobalIteratorAb&lt; GlobalTileTraits, Index_ &gt; GlobalLoadIterator</div><div class="ttdoc">The global load iterator. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:219</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:144</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogue_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">cutlass::gemm::IgemmEpilogue</a></div><div class="ttdef"><b>Definition:</b> igemm_epilogue.h:290</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_a24f38105e3c331c733cb672c3a9be588"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a24f38105e3c331c733cb672c3a9be588">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">IgemmContiguousGlobalTileTraits&lt; GemmOperand::kB, MatrixLayout::kRowMajor, int8_t const, Shape&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, 4 &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for B^T. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:203</div></div>
 <div class="ttc" id="structcutlass_1_1Copy_html"><div class="ttname"><a href="structcutlass_1_1Copy.html">cutlass::Copy</a></div><div class="ttdef"><b>Definition:</b> convert.h:69</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_affd04d88a0bbef13c54f10000a5dc15d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#affd04d88a0bbef13c54f10000a5dc15d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Base</a></div><div class="ttdeci">GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt; Base</div><div class="ttdoc">The base config. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:141</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_af10aebe7ca4e24cce435ac4cd60e7bac"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">cutlass::gemm::IgemmTraitsHelper::GemmConfig</a></div><div class="ttdeci">IgemmConfig&lt; OutputTile_, ScalarD_, AccumulatorsPerThread_ &gt; GemmConfig</div><div class="ttdoc">The IGEMM config. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:267</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4_html_a125c9a43da3bcdc00d5194a1376f613c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a125c9a43da3bcdc00d5194a1376f613c">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">IgemmGlobalTileTraits&lt; GemmOperand::kB, MatrixLayout::kRowMajor, int8_t const, Shape&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgB &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for B^T. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:353</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">cutlass::gemm::GemmSharedStoreTileAbTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:38</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4_html_a29c3a5e4ea1fb6d0ea8b234849684daf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a29c3a5e4ea1fb6d0ea8b234849684daf">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::MultiplyAddScalar</a></div><div class="ttdeci">int8_t MultiplyAddScalar</div><div class="ttdoc">The scalar stored in shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:198</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_ad1a34cb78f88fe2fcbf13239e89f6137"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorB</a></div><div class="ttdeci">GemmTileTraitsHelperB::GlobalLoadIterator GlobalLoadIteratorB</div><div class="ttdoc">The iterator to load B from global memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:445</div></div>
 <div class="ttc" id="igemm__multiply__add_8h_html"><div class="ttname"><a href="igemm__multiply__add_8h.html">igemm_multiply_add.h</a></div><div class="ttdoc">Implements matrix multiply accumulate operation of 8-bit integer data using DP4A instruction. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:159</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_aca6118b5bbe6f667f05c53bd52543045"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aca6118b5bbe6f667f05c53bd52543045">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreTileAbTraits&lt; int8_t, Shape&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/4, GemmConfig_::OutputTile::kH *4 &gt;, typename GlobalTileTraits::Threads, kScalarsPerStsB &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to shared memory for B^N. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:215</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_tile.h:200</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a2953ae145fdb2eadf871aee8219e92d1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorB</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorB</div><div class="ttdoc">The iterator to store B to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:454</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4_html_ad8f1b0fda40f1fb7dc598cc841f38afe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#ad8f1b0fda40f1fb7dc598cc841f38afe">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileBTraits&lt; int8_t const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 16, SharedStoreTileTraits::kSkew &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for B^N. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:326</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:163</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4_html_aac06796d174a2d54103903e7dbe7b194"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aac06796d174a2d54103903e7dbe7b194">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::MultiplyAddScalar</a></div><div class="ttdeci">int8_t MultiplyAddScalar</div><div class="ttdoc">The scalar stored in shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:271</div></div>
 <div class="ttc" id="gemm__epilogue_8h_html"><div class="ttname"><a href="gemm__epilogue_8h.html">gemm_epilogue.h</a></div><div class="ttdoc">Implements the epilogue phase of the GEMM kernel that efficiently updates global memory with the comp...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:161</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:273</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a3a6d816852cca926afa08103f754477b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorB</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; typename GemmTileTraitsHelperB::GlobalTileTraits, Index_ &gt; GlobalLoadIteratorB</div><div class="ttdoc">The iterator to load B from global memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:291</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a738774d1eb79de7e29c372ddfd48258d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a738774d1eb79de7e29c372ddfd48258d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">IgemmContiguousGlobalTileTraits&lt; GemmOperand::kA, MatrixLayout::kColumnMajor, int8_t const, Shape&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, 4 &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for A^N. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:159</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4_html_a0983fd25494f6a7ed5af37a02e99f650"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650">cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;::Scalar</a></div><div class="ttdeci">int Scalar</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:342</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4_html_a9728f71c2e7a6a649bd28d8c11241b0a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">IgemmSwizzle&lt; Iterator_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:245</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html">cutlass::MatrixLayout</a></div><div class="ttdoc">Describes layouts of matrices. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:35</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a095505bfcea6791accd06bf4d37b9df8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a095505bfcea6791accd06bf4d37b9df8">cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperB</a></div><div class="ttdeci">IgemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig &gt; GemmTileTraitsHelperB</div><div class="ttdoc">The GEMM config for B. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:271</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4_html_a4241971b8a82af2c1f5f930be3cdd5c4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">IgemmGlobalTileTraits&lt; GemmOperand::kA, MatrixLayout::kRowMajor, int8_t const, Shape&lt; 1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgA &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for A^T. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:216</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GlobalLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_global_stream.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:191</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a36c8b17c98723934d9d75228dd9c2915"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a36c8b17c98723934d9d75228dd9c2915">cutlass::gemm::IgemmTraitsHelper::Epilogue</a></div><div class="ttdeci">IgemmEpilogue&lt; IgemmEpilogueTraits&lt; GemmConfig, EpilogueFunctor_ &gt; &gt; Epilogue</div><div class="ttdoc">The epilogue. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:487</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4_html_a0983fd25494f6a7ed5af37a02e99f650"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650">cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;::Scalar</a></div><div class="ttdeci">int Scalar</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:499</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4_html_a9728f71c2e7a6a649bd28d8c11241b0a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a">cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">IgemmSwizzle&lt; Iterator_ &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:398</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html">cutlass::MatrixLayout</a></div><div class="ttdoc">Defines data layouts of various matrix formats usable by TensorRef and other classes. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:156</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4_html_aa21c231aa56c9e5f2705cac62b17bbbe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aa21c231aa56c9e5f2705cac62b17bbbe">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreTileAbTraits&lt; int8_t, Shape&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/4, GemmConfig_::OutputTile::kW *4 &gt;, typename GlobalTileTraits::Threads, kScalarsPerStsA &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to shared memory for A^N. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:185</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmSwizzle_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmSwizzle.html">cutlass::gemm::IgemmSwizzle</a></div><div class="ttdef"><b>Definition:</b> igemm_swizzle.h:38</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:177</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:265</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:302</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a7fb1354154f303642da72e6fd157d846"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7fb1354154f303642da72e6fd157d846">cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamA</a></div><div class="ttdeci">GlobalLoadStream&lt; GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA &gt; GlobalLoadStreamA</div><div class="ttdoc">The stream to load A from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:287</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a54e8ad5874306a3764951a9791f02c96"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a54e8ad5874306a3764951a9791f02c96">cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamB</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorB, Copy&lt; typename SharedLoadIteratorB::Fragment &gt; &gt; SharedLoadStreamB</div><div class="ttdoc">The stream to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:322</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:259</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:418</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:399</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_af394532cb8e7b088f950122b42eaa2fb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">cutlass::gemm::IgemmTraitsHelper::GlobalTransformerA</a></div><div class="ttdeci">IgemmTransformerA&lt; GemmTileTraitsHelperA::kLayout, GlobalLoadIteratorA &gt;::Transformer GlobalTransformerA</div><div class="ttdoc">The default transformer for A. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:430</div></div>
 <div class="ttc" id="gemm__shared__tile_8h_html"><div class="ttname"><a href="gemm__shared__tile_8h.html">gemm_shared_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing tiles to and from shared memory. </div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_ab9e10d54c81a359db0eba58a11b9a0cf"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ab9e10d54c81a359db0eba58a11b9a0cf">cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperA</a></div><div class="ttdeci">IgemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig &gt; GemmTileTraitsHelperA</div><div class="ttdoc">The GEMM config for A. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:269</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_ae59454c1b3862522c8ea293bacb194a8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae59454c1b3862522c8ea293bacb194a8">cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamB</a></div><div class="ttdeci">GlobalLoadStream&lt; GemmOperand::kB, GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB &gt; GlobalLoadStreamB</div><div class="ttdoc">The stream to load B from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:460</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SharedLoadStream_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a></div><div class="ttdef"><b>Definition:</b> gemm_shared_stream.h:45</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:50</div></div>
 <div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_aa93043ac87d89ce7fb991c9195c3bf99"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99">cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorA</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorA</div><div class="ttdoc">The iterator to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:310</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a5645e18de29a84c9a9b3f3105966f0c5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">cutlass::gemm::IgemmTraitsHelper::ClearAccumulators</a></div><div class="ttdeci">ClearAccumulators&lt; typename MultiplyAdd::ScalarC &gt; ClearAccumulators</div><div class="ttdoc">The object to clear accumulators. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:327</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:79</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:137</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a48f6b161acb181aee1e5bdb3bc909b04"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorA</a></div><div class="ttdeci">GemmTileTraitsHelperA::GlobalLoadIterator GlobalLoadIteratorA</div><div class="ttdoc">The iterator to load A from global memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:427</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_config.h:76</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a3d2b39cacb975afbfeae9e368f0656ae"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorA</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorA</div><div class="ttdoc">The iterator to store A to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:436</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1IgemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmConfig.html">cutlass::gemm::IgemmConfig</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:57</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">cutlass::gemm::IgemmTransformerA</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:221</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html">cutlass::gemm::IgemmContiguousGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:50</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_html_ab1068ba72468f9ede1d05ba41ea31317"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317">cutlass::gemm::IgemmEpilogueScalar::Scalar</a></div><div class="ttdeci">float Scalar</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:337</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:428</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4_html_a0b53e18f109ac0fd116e0d01ed6ec197"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197">cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">Copy&lt; typename Iterator_::Fragment &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:225</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraits.html">cutlass::gemm::IgemmTraits</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:370</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4_html_a66f11407e9f5bf0d6123c81dfee6b330"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a66f11407e9f5bf0d6123c81dfee6b330">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits</a></div><div class="ttdeci">IgemmGlobalTileTraits&lt; GemmOperand::kA, MatrixLayout::kColumnMajor, int8_t const, Shape&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW &gt;, Shape&lt; 1, ShapeCount&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgA &gt; GlobalTileTraits</div><div class="ttdoc">The traits class to build the iterator to load data from global memory for A^N. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:170</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb</a></div><div class="ttdef"><b>Definition:</b> igemm_global_tile.h:95</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerA_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">cutlass::gemm::IgemmTransformerA</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:374</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_html_ab1068ba72468f9ede1d05ba41ea31317"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317">cutlass::gemm::IgemmEpilogueScalar::Scalar</a></div><div class="ttdeci">float Scalar</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:494</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:349</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4_html_a0b53e18f109ac0fd116e0d01ed6ec197"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197">cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer</a></div><div class="ttdeci">Copy&lt; typename Iterator_::Fragment &gt; Transformer</div><div class="ttdef"><b>Definition:</b> igemm_traits.h:378</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraits.html">cutlass::gemm::IgemmTraits</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:527</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html_a7624585480f83a46725c92b5dee20ebc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a7624585480f83a46725c92b5dee20ebc">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreTileAbTraits&lt; int8_t, Shape&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/4, GemmConfig_::OutputTile::kW *4 &gt;, typename GlobalTileTraits::Threads, kScalarsPerStsA &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to shared memory for A^N. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:171</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:346</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:142</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a5e2ed697a9091a1ca8b19855b5a2c651"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5e2ed697a9091a1ca8b19855b5a2c651">cutlass::gemm::IgemmTraitsHelper::Epilogue</a></div><div class="ttdeci">IgemmEpilogue&lt; IgemmEpilogueTraits&lt; GemmConfig, EpilogueFunctor_ &gt; &gt; Epilogue</div><div class="ttdoc">The epilogue. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:330</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a23bb732b7237bcabe3667408f288844d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d">cutlass::gemm::IgemmTraitsHelper::GlobalTransformerA</a></div><div class="ttdeci">IgemmTransformerA&lt; GemmTileTraitsHelperA::kLayout, GlobalLoadIteratorA &gt;::Transformer GlobalTransformerA</div><div class="ttdoc">The default transformer for A. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:278</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">cutlass::gemm::IgemmTransformerB</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:236</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_ae187303a8da63f36960687a4730f4c46"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46">cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorA</a></div><div class="ttdeci">TileStoreIterator&lt; typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedStoreIteratorA</div><div class="ttdoc">The iterator to store A to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:284</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:40</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a94111367763890341e88450f43b59312"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312">cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorB</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorB</div><div class="ttdoc">The iterator to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:476</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4_html_a872dc2d0b8ed6c75c41d258a23183861"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a872dc2d0b8ed6c75c41d258a23183861">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreTileAbTraits&lt; int8_t, Shape&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/4, GemmConfig_::OutputTile::kH *4 &gt;, typename GlobalTileTraits::Threads, kScalarsPerStsB &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to shared memory for B^N. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:368</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_aae7128f5522383c857d2639031b64c30"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; VectorizedTile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:267</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:57</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4_html_aa37f285c74bb63c8bb8cbfc767378c41"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aa37f285c74bb63c8bb8cbfc767378c41">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::Scalar</a></div><div class="ttdeci">int8_t Scalar</div><div class="ttdoc">The input scalar. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:196</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a52c2c7b45156e53d9bc66ed185fc3d71"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">cutlass::gemm::IgemmTraitsHelper::GemmConfig</a></div><div class="ttdeci">IgemmConfig&lt; OutputTile_, ScalarD_, ThreadGemmShape_ &gt; GemmConfig</div><div class="ttdoc">The IGEMM config. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:420</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4_html_acd7e5d5b940f410275ebbcd6c27e4327"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#acd7e5d5b940f410275ebbcd6c27e4327">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator</a></div><div class="ttdeci">IgemmGlobalIteratorAb&lt; GlobalTileTraits, Index_ &gt; GlobalLoadIterator</div><div class="ttdoc">The global load iterator. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:292</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4_html_a4237c6c9e33397bc1633182e9c3b6504"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a4237c6c9e33397bc1633182e9c3b6504">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; GlobalTileTraits, Index_ &gt; GlobalLoadIterator</div><div class="ttdoc">The global load iterator. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:173</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4_html_a57670718427808a241005f5e27acce5d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a57670718427808a241005f5e27acce5d">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator</a></div><div class="ttdeci">GemmGlobalIteratorAb&lt; GlobalTileTraits, Index_ &gt; GlobalLoadIterator</div><div class="ttdoc">The global load iterator. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:356</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_ae84c7fd1567580dc3da15a520c47ff6e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae84c7fd1567580dc3da15a520c47ff6e">cutlass::gemm::IgemmTraitsHelper::MultiplyAdd</a></div><div class="ttdeci">GemmConfig::MultiplyAdd MultiplyAdd</div><div class="ttdoc">The multiply-add functor. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:482</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTransformerB_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">cutlass::gemm::IgemmTransformerB</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:389</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:51</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a7e035ceab26dc904726ddbf14371f476"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7e035ceab26dc904726ddbf14371f476">cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamA</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorA, Copy&lt; typename SharedLoadIteratorA::Fragment &gt; &gt; SharedLoadStreamA</div><div class="ttdoc">The stream to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:470</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a2aceaceb30287e909c254f01f1716845"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2aceaceb30287e909c254f01f1716845">cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamA</a></div><div class="ttdeci">GlobalLoadStream&lt; GemmOperand::kA, GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA &gt; GlobalLoadStreamA</div><div class="ttdoc">The stream to load A from global memory to shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:442</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_aee1dfb15e1b63f838a712af93777e5d3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aee1dfb15e1b63f838a712af93777e5d3">cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperA</a></div><div class="ttdeci">IgemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig, Index_ &gt; GemmTileTraitsHelperA</div><div class="ttdoc">The GEMM config for A. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:422</div></div>
 <div class="ttc" id="gemm_8h_html"><div class="ttname"><a href="gemm_8h.html">gemm.h</a></div><div class="ttdoc">Implements a software-pipelined efficient GEMM. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html_a29bd05960cc541bb67098f5483c84cf6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">cutlass::gemm::GemmGlobalTileTraits::Threads</a></div><div class="ttdeci">ReshapeThreads&lt; Tile, Threads_ &gt;::Threads Threads</div><div class="ttdoc">The threads shape. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:87</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4_html_a53dd72126a43a1c5811ed92a2313d19d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a53dd72126a43a1c5811ed92a2313d19d">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::SharedLoadTileTraits</a></div><div class="ttdeci">GemmSharedLoadTileATraits&lt; int8_t const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 16, SharedStoreTileTraits::kSkew &gt; SharedLoadTileTraits</div><div class="ttdoc">The traits class to build the iterator to load from shared memory for A^N. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:253</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_aff287e2ca10a437a82736baab2d7c28d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aff287e2ca10a437a82736baab2d7c28d">cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamB</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorB, Copy&lt; typename SharedLoadIteratorB::Fragment &gt; &gt; SharedLoadStreamB</div><div class="ttdoc">The stream to load B from shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:479</div></div>
 <div class="ttc" id="gemm__epilogue__traits_8h_html"><div class="ttname"><a href="gemm__epilogue__traits_8h.html">gemm_epilogue_traits.h</a></div><div class="ttdoc">Defines structural properties of the GEMM epilogue. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">cutlass::gemm::IgemmEpilogueScalar</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:336</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmEpilogueScalar_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html">cutlass::gemm::IgemmEpilogueScalar</a></div><div class="ttdef"><b>Definition:</b> igemm_traits.h:493</div></div>
 <div class="ttc" id="igemm__epilogue_8h_html"><div class="ttname"><a href="igemm__epilogue_8h.html">igemm_epilogue.h</a></div><div class="ttdoc">Defines the epilogue phase of the GEMM computation for IGEMM, supporting integer and floating-point o...</div></div>
 <div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4_html_aef7047c6a0d0c3db0bfb6bec08520aad"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aef7047c6a0d0c3db0bfb6bec08520aad">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Base</a></div><div class="ttdeci">GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt; Base</div><div class="ttdoc">The base config. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:185</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a70063eb7e19921efef55a6f32562773f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a70063eb7e19921efef55a6f32562773f">cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamA</a></div><div class="ttdeci">SharedLoadStream&lt; SharedLoadIteratorA, Copy&lt; typename SharedLoadIteratorA::Fragment &gt; &gt; SharedLoadStreamA</div><div class="ttdoc">The stream to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:313</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4_html_a86ed2ebc5b6e4426ab35a1f30a3e47bb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a86ed2ebc5b6e4426ab35a1f30a3e47bb">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits</a></div><div class="ttdeci">GemmSharedStoreWithSkewTileAbTraits&lt; int8_t, Shape&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/4, GemmConfig_::OutputTile::kH *4 &gt;, typename GlobalTileTraits::Threads, kScalarsPerStsB, 16 &gt; SharedStoreTileTraits</div><div class="ttdoc">The traits class to build the iterator to store data to shared memory for B^N. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:306</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4_html_a1ebf24984863d0422356031615b74c53"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a1ebf24984863d0422356031615b74c53">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::Scalar</a></div><div class="ttdeci">int8_t Scalar</div><div class="ttdoc">The input scalar. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:269</div></div>
 <div class="ttc" id="igemm__global__tile_8h_html"><div class="ttname"><a href="igemm__global__tile_8h.html">igemm_global_tile.h</a></div><div class="ttdoc">Implements tile iterators to partition the thread block tile into 2D subtiles and efficiently load ea...</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:620</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a87e34d56fa955670331749724bee9fd8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a87e34d56fa955670331749724bee9fd8">cutlass::gemm::IgemmTraitsHelper::MultiplyAdd</a></div><div class="ttdeci">GemmConfig::MultiplyAdd MultiplyAdd</div><div class="ttdoc">The multiply-add functor. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:325</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_a03d7378c46b517438fce25e0f1e4d98c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c">cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorA</a></div><div class="ttdeci">TileLoadIterator&lt; typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, IteratorAdvance::kH, MemorySpace::kShared &gt; SharedLoadIteratorA</div><div class="ttdoc">The iterator to load A from shared memory. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:467</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4_html_adbbf19c2f86c198bbe4cc596c63e65ae"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#adbbf19c2f86c198bbe4cc596c63e65ae">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::Base</a></div><div class="ttdeci">GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt; Base</div><div class="ttdoc">The base config. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:152</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:836</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IgemmTraitsHelper_html_af6c45c949a8dee887924bba4de92e760"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">cutlass::gemm::IgemmTraitsHelper::ClearAccumulators</a></div><div class="ttdeci">ClearAccumulators&lt; typename MultiplyAdd::ScalarC &gt; ClearAccumulators</div><div class="ttdoc">The object to clear accumulators. </div><div class="ttdef"><b>Definition:</b> igemm_traits.h:484</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/index.html b/docs/index.html
index f2ba68993a..6fab15e104 100644
--- a/docs/index.html
+++ b/docs/index.html
@@ -75,7 +75,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/iterator__access_8h.html b/docs/iterator__access_8h.html
index cc41cd5af7..06fd90ad6f 100644
--- a/docs/iterator__access_8h.html
+++ b/docs/iterator__access_8h.html
@@ -82,10 +82,9 @@
 
 <p>Free functions for loading and storing to implementations of tile iteartor concepts.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="fragment__load__store_8h_source.html">cutlass/fragment_load_store.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="load__store_8h_source.html">cutlass/load_store.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="predicate__vector_8h_source.html">cutlass/predicate_vector.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="load__store_8h_source.html">cutlass/load_store.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="predicate__vector_8h_source.html">cutlass/predicate_vector.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&quot;</code><br />
 </div>
 <p><a href="iterator__access_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -98,76 +97,15 @@
 Functions</h2></td></tr>
 <tr class="memitem:a45dd7add04736cb5c3e69991d2f210be"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment &gt; </td></tr>
 <tr class="memitem:a45dd7add04736cb5c3e69991d2f210be"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">cutlass::iterator_load</a> (InputIterator &amp;iterator, Fragment &amp;fragment)</td></tr>
-<tr class="memdesc:a45dd7add04736cb5c3e69991d2f210be"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator.  <a href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">More...</a><br /></td></tr>
 <tr class="separator:a45dd7add04736cb5c3e69991d2f210be"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abcec976c59cab75ca55b338d125154a3"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:abcec976c59cab75ca55b338d125154a3"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">cutlass::shared_iterator_load</a> (InputIterator &amp;iterator, Fragment &amp;fragment)</td></tr>
-<tr class="memdesc:abcec976c59cab75ca55b338d125154a3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from a shared memory input iterator.  <a href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">More...</a><br /></td></tr>
-<tr class="separator:abcec976c59cab75ca55b338d125154a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa9416026c6db08d92a34c2ac08fea8c3"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:aa9416026c6db08d92a34c2ac08fea8c3"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#aa9416026c6db08d92a34c2ac08fea8c3">cutlass::shared_iterator_load</a> (InputIterator &amp;iterator, Fragment &amp;fragment, int d)</td></tr>
-<tr class="memdesc:aa9416026c6db08d92a34c2ac08fea8c3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from a shared memory input iterator.  <a href="namespacecutlass.html#aa9416026c6db08d92a34c2ac08fea8c3">More...</a><br /></td></tr>
-<tr class="separator:aa9416026c6db08d92a34c2ac08fea8c3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3965068d8a4fdfe5e05782930fb4fe6b"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:a3965068d8a4fdfe5e05782930fb4fe6b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">cutlass::iterator_load_post_increment</a> (InputIterator &amp;iterator, Fragment &amp;fragment, typename InputIterator::Index offset, ConstPredicateAdapter predicate_adapter)</td></tr>
-<tr class="memdesc:a3965068d8a4fdfe5e05782930fb4fe6b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator, masked by a predicate iterator.  <a href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">More...</a><br /></td></tr>
-<tr class="separator:a3965068d8a4fdfe5e05782930fb4fe6b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af5abe551df7461eab66aa43907063d6b"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:af5abe551df7461eab66aa43907063d6b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#af5abe551df7461eab66aa43907063d6b">cutlass::iterator_load_post_increment</a> (InputIterator &amp;iterator, Fragment &amp;fragment, typename InputIterator::Index offset=0)</td></tr>
-<tr class="memdesc:af5abe551df7461eab66aa43907063d6b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator.  <a href="namespacecutlass.html#af5abe551df7461eab66aa43907063d6b">More...</a><br /></td></tr>
-<tr class="separator:af5abe551df7461eab66aa43907063d6b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afb8e7a4e611e8b5ae7ca19d02f791d37"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:afb8e7a4e611e8b5ae7ca19d02f791d37"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#afb8e7a4e611e8b5ae7ca19d02f791d37">cutlass::iterator_load_post_increment</a> (InputIterator &amp;iterator, Fragment &amp;fragment, ConstPredicateAdapter pred_it)</td></tr>
-<tr class="memdesc:afb8e7a4e611e8b5ae7ca19d02f791d37"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator.  <a href="namespacecutlass.html#afb8e7a4e611e8b5ae7ca19d02f791d37">More...</a><br /></td></tr>
-<tr class="separator:afb8e7a4e611e8b5ae7ca19d02f791d37"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a50f08aa93d7fe6825599d17e3c977031"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:a50f08aa93d7fe6825599d17e3c977031"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a50f08aa93d7fe6825599d17e3c977031">cutlass::iterator_load</a> (InputIterator const &amp;_iterator, Fragment &amp;fragment, typename InputIterator::Index offset, ConstPredicateAdapter predicate_adapter)</td></tr>
-<tr class="separator:a50f08aa93d7fe6825599d17e3c977031"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aca491136bdb966638a7ae57c47f86d1e"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:aca491136bdb966638a7ae57c47f86d1e"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#aca491136bdb966638a7ae57c47f86d1e">cutlass::iterator_load</a> (InputIterator const &amp;iterator, Fragment &amp;fragment, typename InputIterator::Index offset=0)</td></tr>
-<tr class="memdesc:aca491136bdb966638a7ae57c47f86d1e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator.  <a href="namespacecutlass.html#aca491136bdb966638a7ae57c47f86d1e">More...</a><br /></td></tr>
-<tr class="separator:aca491136bdb966638a7ae57c47f86d1e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af25d56f7391322d9a3b9aa3c507f90dc"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:af25d56f7391322d9a3b9aa3c507f90dc"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#af25d56f7391322d9a3b9aa3c507f90dc">cutlass::iterator_load</a> (InputIterator const &amp;iterator, Fragment &amp;fragment, ConstPredicateAdapter pred_it)</td></tr>
-<tr class="memdesc:af25d56f7391322d9a3b9aa3c507f90dc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator.  <a href="namespacecutlass.html#af25d56f7391322d9a3b9aa3c507f90dc">More...</a><br /></td></tr>
-<tr class="separator:af25d56f7391322d9a3b9aa3c507f90dc"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a0cb5bdf7bef498705c51a9cdcbef71f9"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment &gt; </td></tr>
 <tr class="memitem:a0cb5bdf7bef498705c51a9cdcbef71f9"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">cutlass::iterator_store</a> (OutputIterator &amp;iterator, Fragment &amp;fragment)</td></tr>
-<tr class="memdesc:a0cb5bdf7bef498705c51a9cdcbef71f9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator.  <a href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">More...</a><br /></td></tr>
 <tr class="separator:a0cb5bdf7bef498705c51a9cdcbef71f9"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a705c6d75513e112d2731d1c40f4cf109"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:a705c6d75513e112d2731d1c40f4cf109"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109">cutlass::shared_iterator_store</a> (OutputIterator &amp;iterator, Fragment const &amp;fragment)</td></tr>
-<tr class="memdesc:a705c6d75513e112d2731d1c40f4cf109"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to a shared memory output iterator.  <a href="namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109">More...</a><br /></td></tr>
-<tr class="separator:a705c6d75513e112d2731d1c40f4cf109"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5bf15cbf4cf4649d895fcbc2edf6a2de"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:a5bf15cbf4cf4649d895fcbc2edf6a2de"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">cutlass::iterator_store_post_increment</a> (OutputIterator &amp;iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset, ConstPredicateAdapter predicate_adapter)</td></tr>
-<tr class="memdesc:a5bf15cbf4cf4649d895fcbc2edf6a2de"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator, masked by a predicate iterator.  <a href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">More...</a><br /></td></tr>
-<tr class="separator:a5bf15cbf4cf4649d895fcbc2edf6a2de"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab8efb0edefca7a59acc5a14b7311130c"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:ab8efb0edefca7a59acc5a14b7311130c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#ab8efb0edefca7a59acc5a14b7311130c">cutlass::iterator_store_post_increment</a> (OutputIterator &amp;iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset=0)</td></tr>
-<tr class="memdesc:ab8efb0edefca7a59acc5a14b7311130c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator.  <a href="namespacecutlass.html#ab8efb0edefca7a59acc5a14b7311130c">More...</a><br /></td></tr>
-<tr class="separator:ab8efb0edefca7a59acc5a14b7311130c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a96fdb65e922f6a3d46aa5de9ea78d460"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:a96fdb65e922f6a3d46aa5de9ea78d460"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a96fdb65e922f6a3d46aa5de9ea78d460">cutlass::iterator_store_post_increment</a> (OutputIterator &amp;iterator, Fragment const &amp;fragment, ConstPredicateAdapter pred_it)</td></tr>
-<tr class="memdesc:a96fdb65e922f6a3d46aa5de9ea78d460"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator.  <a href="namespacecutlass.html#a96fdb65e922f6a3d46aa5de9ea78d460">More...</a><br /></td></tr>
-<tr class="separator:a96fdb65e922f6a3d46aa5de9ea78d460"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a88dce4b124a294cc123f7cf5fd2d6472"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:a88dce4b124a294cc123f7cf5fd2d6472"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a88dce4b124a294cc123f7cf5fd2d6472">cutlass::iterator_store</a> (OutputIterator const &amp;_iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset, ConstPredicateAdapter predicate_adapter)</td></tr>
-<tr class="memdesc:a88dce4b124a294cc123f7cf5fd2d6472"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator, masked by a predicate iterator.  <a href="namespacecutlass.html#a88dce4b124a294cc123f7cf5fd2d6472">More...</a><br /></td></tr>
-<tr class="separator:a88dce4b124a294cc123f7cf5fd2d6472"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a410ed4d45ccafc2db842967740b6211f"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:a410ed4d45ccafc2db842967740b6211f"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a410ed4d45ccafc2db842967740b6211f">cutlass::iterator_store</a> (OutputIterator const &amp;iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset=0)</td></tr>
-<tr class="memdesc:a410ed4d45ccafc2db842967740b6211f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator.  <a href="namespacecutlass.html#a410ed4d45ccafc2db842967740b6211f">More...</a><br /></td></tr>
-<tr class="separator:a410ed4d45ccafc2db842967740b6211f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad804b804ac19360b293046f9cbfd8dd5"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:ad804b804ac19360b293046f9cbfd8dd5"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#ad804b804ac19360b293046f9cbfd8dd5">cutlass::iterator_store</a> (OutputIterator const &amp;iterator, Fragment const &amp;fragment, ConstPredicateAdapter pred_it)</td></tr>
-<tr class="memdesc:ad804b804ac19360b293046f9cbfd8dd5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator.  <a href="namespacecutlass.html#ad804b804ac19360b293046f9cbfd8dd5">More...</a><br /></td></tr>
-<tr class="separator:ad804b804ac19360b293046f9cbfd8dd5"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/iterator__access_8h_source.html b/docs/iterator__access_8h_source.html
index 11289a933b..fac9ea1e5a 100644
--- a/docs/iterator__access_8h_source.html
+++ b/docs/iterator__access_8h_source.html
@@ -76,30 +76,18 @@
 <div class="title">iterator_access.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="iterator__access_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment__load__store_8h.html">cutlass/fragment_load_store.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="load__store_8h.html">cutlass/load_store.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="predicate__vector_8h.html">cutlass/predicate_vector.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">   41</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">iterator_load</a>(InputIterator &amp;iterator, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment) {</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;  <span class="keyword">typename</span> InputIterator::FragmentIterator frag_iterator(fragment);</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; InputIterator::Iterations::kD; ++d) {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; InputIterator::Iterations::kH; ++h) {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; InputIterator::Iterations::kW; ++w) {</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; InputIterator::Iterations::kC; ++c) {</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;          <span class="keywordflow">if</span> (iterator.valid(d, h, w, c)) {</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;            <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;                <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">ComputeOffsetFromStrides&lt;typename InputIterator::ImmediateOffsetStrides&gt;::get</a>(</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;                    0, 0, w, c);</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;            <a class="code" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">Load&lt;typename Fragment::Element, InputIterator::Tile::kC, InputIterator::kMemorySpace&gt;::</a></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<a class="code" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">                load</a>(reinterpret_cast&lt;typename InputIterator::AccessType &amp;&gt;(</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;                         frag_iterator.at(d, h, w, c)),</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;                     iterator.data(),</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;                     offset);</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;          }</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;        }</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;        <span class="keywordflow">if</span> (w &lt; InputIterator::Iterations::kW - 1) {</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;          iterator.inc_w();</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;        }</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;      }</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;      <span class="keywordflow">if</span> (h &lt; InputIterator::Iterations::kH - 1) {</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;        iterator.inc_h();</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;      }</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    }</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;    <span class="keywordflow">if</span> (d &lt; InputIterator::Iterations::kD - 1) {</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;      iterator.inc_d();</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;    }</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  }</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  iterator.inc_advance();</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;}</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">   75</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">shared_iterator_load</a>(InputIterator &amp;iterator, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment) {</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <span class="keyword">typename</span> InputIterator::FragmentIterator frag_iterator(fragment);</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; InputIterator::Iterations::kD; ++d) {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; InputIterator::Iterations::kH; ++h) {</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; InputIterator::Iterations::kW; ++w) {</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; InputIterator::Iterations::kC; ++c) {</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;              <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">ComputeOffsetFromStrides&lt;typename InputIterator::ImmediateOffsetStrides&gt;::get</a>(</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;                  d, h, w, c);</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;          <a class="code" href="structcutlass_1_1FragmentLoad.html">FragmentLoad</a>&lt;InputIterator::kIteratorFragment,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;                       InputIterator::Tile::kC,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;                       <span class="keyword">typename</span> InputIterator::Scalar,</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;                       InputIterator::kMemorySpace,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;                       <span class="keyword">typename</span> InputIterator::FragmentElement,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;                       InputIterator::Tile::kW&gt;::load(frag_iterator.at(d, h, w, c),</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;                                                      iterator.data(),</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;                                                      offset);</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;        }</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;      }</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  }</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;}</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="namespacecutlass.html#aa9416026c6db08d92a34c2ac08fea8c3">  101</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">shared_iterator_load</a>(InputIterator &amp;iterator, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment, <span class="keywordtype">int</span> d) {</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  <span class="keyword">typename</span> InputIterator::FragmentIterator frag_iterator(fragment);</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; InputIterator::Iterations::kH; ++h) {</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; InputIterator::Iterations::kW; ++w) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; InputIterator::Iterations::kC; ++c) {</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;        <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;            <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">ComputeOffsetFromStrides&lt;typename InputIterator::ImmediateOffsetStrides&gt;::get</a>(</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;                d, h, w, c);</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;        <a class="code" href="structcutlass_1_1FragmentLoad.html">FragmentLoad</a>&lt;InputIterator::kIteratorFragment,</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;                     InputIterator::Tile::kC,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;                     <span class="keyword">typename</span> InputIterator::Scalar,</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                     InputIterator::kMemorySpace,</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;                     <span class="keyword">typename</span> InputIterator::FragmentElement,</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;                     InputIterator::Tile::kW&gt;::load(frag_iterator.at(0, h, w, c),</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;                                                    iterator.data(),</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;                                                    offset);</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;      }</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;    }</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  }</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;}</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputIterator, <span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> ConstPredicateAdapter&gt;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">  125</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">iterator_load_post_increment</a>(InputIterator &amp;iterator,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;                                                      <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;                                                      <span class="keyword">typename</span> InputIterator::Index offset,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                                                      ConstPredicateAdapter predicate_adapter) {</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; InputIterator::Iterations::kD; ++d, iterator.inc_d()) {</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; InputIterator::Iterations::kH; ++h, iterator.inc_h()) {</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; InputIterator::Iterations::kW; ++w, iterator.inc_w()) {</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;        <span class="keywordflow">if</span> (predicate_adapter.at(d, h, w, 0)) {</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;          <span class="keywordtype">int</span> idx = InputIterator::Tile::kC *</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;                    (w + InputIterator::Iterations::kW * (h + InputIterator::Iterations::kH * d));</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;          <a class="code" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">Load&lt;typename Fragment::Element, InputIterator::Tile::kC, InputIterator::kMemorySpace&gt;::</a></div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;<a class="code" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">              load</a>(reinterpret_cast&lt;typename InputIterator::AccessType &amp;&gt;(fragment[idx]),</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;                   iterator.data(),</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;                   offset);</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;        }</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      }</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    }</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;  }</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;}</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00148"></a><span class="lineno"><a class="line" href="namespacecutlass.html#af5abe551df7461eab66aa43907063d6b">  148</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">iterator_load_post_increment</a>(InputIterator &amp;iterator,</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;                                                      <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment,</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;                                                      <span class="keyword">typename</span> InputIterator::Index offset = 0) {</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  <a class="code" href="structcutlass_1_1TrivialPredicateTileAdapter.html">TrivialPredicateTileAdapter</a> pred;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  <a class="code" href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">iterator_load_post_increment</a>(iterator, fragment, offset, pred);</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;}</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputIterator, <span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> ConstPredicateAdapter&gt;</div><div class="line"><a name="l00157"></a><span class="lineno"><a class="line" href="namespacecutlass.html#afb8e7a4e611e8b5ae7ca19d02f791d37">  157</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">iterator_load_post_increment</a>(InputIterator &amp;iterator,</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;                                                      <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment,</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;                                                      ConstPredicateAdapter pred_it) {</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;  <a class="code" href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">iterator_load_post_increment</a>(iterator, fragment, 0, pred_it);</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;}</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputIterator, <span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> ConstPredicateAdapter&gt;</div><div class="line"><a name="l00164"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a50f08aa93d7fe6825599d17e3c977031">  164</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">iterator_load</a>(InputIterator <span class="keyword">const</span> &amp;_iterator,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;                                       <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment,</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;                                       <span class="keyword">typename</span> InputIterator::Index offset,</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;                                       ConstPredicateAdapter predicate_adapter) {</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  InputIterator iterator(_iterator);</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  <a class="code" href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">iterator_load_post_increment</a>(iterator, fragment, offset, predicate_adapter);</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;}</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00174"></a><span class="lineno"><a class="line" href="namespacecutlass.html#aca491136bdb966638a7ae57c47f86d1e">  174</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">iterator_load</a>(InputIterator <span class="keyword">const</span> &amp;iterator,</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;                                       <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment,</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;                                       <span class="keyword">typename</span> InputIterator::Index offset = 0) {</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;  <a class="code" href="structcutlass_1_1TrivialPredicateTileAdapter.html">TrivialPredicateTileAdapter</a> pred;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;  <a class="code" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">iterator_load</a>(iterator, fragment, offset, pred);</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;}</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputIterator, <span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> ConstPredicateAdapter&gt;</div><div class="line"><a name="l00183"></a><span class="lineno"><a class="line" href="namespacecutlass.html#af25d56f7391322d9a3b9aa3c507f90dc">  183</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">iterator_load</a>(InputIterator <span class="keyword">const</span> &amp;iterator,</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;                                       <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment,</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;                                       ConstPredicateAdapter pred_it) {</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;  <a class="code" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">iterator_load</a>(iterator, fragment, 0, pred_it);</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;}</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00193"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">  193</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">iterator_store</a>(OutputIterator &amp;iterator, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment) {</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;  <span class="keyword">typename</span> OutputIterator::FragmentIterator frag_iterator(fragment);</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; OutputIterator::Iterations::kD; ++d) {</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; OutputIterator::Iterations::kH; ++h) {</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; OutputIterator::Iterations::kW; ++w) {</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;        <span class="keywordflow">if</span> (iterator.valid(d, h, w, 0)) {</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;              <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">ComputeOffsetFromStrides&lt;typename OutputIterator::ImmediateOffsetStrides&gt;::get</a>(</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;                  d, h, w, 0);</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;          <a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Fragment::Element</a>,</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;                OutputIterator::Tile::kC,</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;                OutputIterator::kMemorySpace&gt;::</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;              store(reinterpret_cast&lt;typename OutputIterator::AccessType &amp;&gt;(</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;                        frag_iterator.at(d, h, w, 0)),</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;                    iterator.data(),</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;                    offset);</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;        }</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;        <span class="keywordflow">if</span> (w &lt; OutputIterator::Iterations::kW - 1) {</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;          iterator.inc_w();</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;        }</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      }</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;      <span class="keywordflow">if</span> (h &lt; OutputIterator::Iterations::kH - 1) {</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;        iterator.inc_h();</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;      }</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;    }</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;    <span class="keywordflow">if</span> (d &lt; OutputIterator::Iterations::kD - 1) {</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;      iterator.inc_d();</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;    }</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;  }</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;  iterator.inc_advance();</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;}</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00228"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109">  228</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109">shared_iterator_store</a>(OutputIterator &amp;iterator, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment) {</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;  <span class="keyword">typename</span> OutputIterator::FragmentConstIterator frag_iterator(fragment);</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; OutputIterator::Iterations::kD; ++d) {</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; OutputIterator::Iterations::kH; ++h) {</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; OutputIterator::Iterations::kW; ++w) {</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; OutputIterator::Iterations::kC; ++c) {</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;          <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;              <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">ComputeOffsetFromStrides&lt;typename OutputIterator::ImmediateOffsetStrides&gt;::get</a>(</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;                  d, h, w, c);</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;          <a class="code" href="structcutlass_1_1FragmentStore.html">FragmentStore</a>&lt;OutputIterator::kIteratorFragment,</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;                        OutputIterator::Tile::kC,</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;                        <span class="keyword">typename</span> OutputIterator::Scalar,</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;                        OutputIterator::kMemorySpace,</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;                        <span class="keyword">typename</span> OutputIterator::FragmentElement,</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;                        OutputIterator::Tile::kW&gt;::store(frag_iterator.at(d, h, w, c),</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;                                                         iterator.data(),</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;                                                         offset);</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;        }</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      }</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;    }</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;  }</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;}</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> ConstPredicateAdapter&gt;</div><div class="line"><a name="l00256"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">  256</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">iterator_store_post_increment</a>(OutputIterator &amp;iterator,</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;                                                       <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment,</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;                                                       <span class="keyword">typename</span> OutputIterator::Index offset,</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;                                                       ConstPredicateAdapter predicate_adapter) {</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; OutputIterator::Iterations::kD; ++d, iterator.inc_d()) {</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; OutputIterator::Iterations::kH; ++h, iterator.inc_h()) {</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; OutputIterator::Iterations::kW; ++w, iterator.inc_w()) {</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;        <span class="keywordflow">if</span> (predicate_adapter.at(d, h, w, 0)) {</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;          <span class="keywordtype">int</span> idx = OutputIterator::Tile::kC *</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;                    (w + OutputIterator::Iterations::kW * (h + OutputIterator::Iterations::kH * d));</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;          <a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;<span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Fragment::Element</a>,</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;                OutputIterator::Tile::kC,</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;                OutputIterator::kMemorySpace&gt;::</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;              store(reinterpret_cast&lt;typename OutputIterator::AccessType const &amp;&gt;(fragment[idx]),</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;                    iterator.data(),</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;                    offset);</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;        }</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;      }</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;    }</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;  }</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;}</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00281"></a><span class="lineno"><a class="line" href="namespacecutlass.html#ab8efb0edefca7a59acc5a14b7311130c">  281</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">iterator_store_post_increment</a>(OutputIterator &amp;iterator,</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;                                                       <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment,</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;                                                       <span class="keyword">typename</span> OutputIterator::Index offset = 0) {</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;  <a class="code" href="structcutlass_1_1TrivialPredicateTileAdapter.html">TrivialPredicateTileAdapter</a> pred;</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;  <a class="code" href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">iterator_store_post_increment</a>(iterator, fragment, offset, pred);</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;}</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> ConstPredicateAdapter&gt;</div><div class="line"><a name="l00290"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a96fdb65e922f6a3d46aa5de9ea78d460">  290</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">iterator_store_post_increment</a>(OutputIterator &amp;iterator,</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;                                                       <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment,</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;                                                       ConstPredicateAdapter pred_it) {</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;  <a class="code" href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">iterator_store_post_increment</a>(iterator, fragment, 0, pred_it);</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;}</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> ConstPredicateAdapter&gt;</div><div class="line"><a name="l00298"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a88dce4b124a294cc123f7cf5fd2d6472">  298</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">iterator_store</a>(OutputIterator <span class="keyword">const</span> &amp;_iterator,</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;                                        <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment,</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;                                        <span class="keyword">typename</span> OutputIterator::Index offset,</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;                                        ConstPredicateAdapter predicate_adapter) {</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;  OutputIterator iterator(_iterator);</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;  <a class="code" href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">iterator_store_post_increment</a>(iterator, fragment, offset, predicate_adapter);</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;}</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00308"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a410ed4d45ccafc2db842967740b6211f">  308</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">iterator_store</a>(OutputIterator <span class="keyword">const</span> &amp;iterator,</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;                                        <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment,</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;                                        <span class="keyword">typename</span> OutputIterator::Index offset = 0) {</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;  <a class="code" href="structcutlass_1_1TrivialPredicateTileAdapter.html">TrivialPredicateTileAdapter</a> pred;</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;  <a class="code" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">iterator_store</a>(iterator, fragment, offset, pred);</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;}</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> ConstPredicateAdapter&gt;</div><div class="line"><a name="l00317"></a><span class="lineno"><a class="line" href="namespacecutlass.html#ad804b804ac19360b293046f9cbfd8dd5">  317</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">iterator_store</a>(OutputIterator <span class="keyword">const</span> &amp;iterator,</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;                                        <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment,</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;                                        ConstPredicateAdapter pred_it) {</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;  <a class="code" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">iterator_store</a>(iterator, fragment, 0, pred_it);</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;}</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1FragmentLoad_html"><div class="ttname"><a href="structcutlass_1_1FragmentLoad.html">cutlass::FragmentLoad</a></div><div class="ttdef"><b>Definition:</b> fragment_load_store.h:43</div></div>
-<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="namespacecutlass_html_abcec976c59cab75ca55b338d125154a3"><div class="ttname"><a href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">cutlass::shared_iterator_load</a></div><div class="ttdeci">CUTLASS_DEVICE void shared_iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdoc">Loads a fragment from a shared memory input iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:75</div></div>
-<div class="ttc" id="namespacecutlass_html_a5bf15cbf4cf4649d895fcbc2edf6a2de"><div class="ttname"><a href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">cutlass::iterator_store_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void iterator_store_post_increment(OutputIterator &amp;iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset, ConstPredicateAdapter predicate_adapter)</div><div class="ttdoc">Stores a fragment to an output iterator, masked by a predicate iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:256</div></div>
-<div class="ttc" id="fragment__load__store_8h_html"><div class="ttname"><a href="fragment__load__store_8h.html">fragment_load_store.h</a></div><div class="ttdoc">Defines accessors for loading and storing fragments to memory efficiently. </div></div>
-<div class="ttc" id="structcutlass_1_1Load_html_ad033ebc1452d96b18913333bf7068140"><div class="ttname"><a href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">cutlass::Load::load</a></div><div class="ttdeci">static CUTLASS_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:59</div></div>
+<a href="iterator__access_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="load__store_8h.html">cutlass/load_store.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="predicate__vector_8h.html">cutlass/predicate_vector.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="comment">// Used by convolution</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> InputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">   39</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">iterator_load</a>(InputIterator &amp;iterator, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment) {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;  <span class="keyword">typename</span> InputIterator::FragmentIterator frag_iterator(fragment);</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; InputIterator::Iterations::kD; ++d) {</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; InputIterator::Iterations::kH; ++h) {</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; InputIterator::Iterations::kW; ++w) {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; InputIterator::Iterations::kC; ++c) {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;          <span class="keywordflow">if</span> (iterator.valid(d, h, w, c)) {</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;            iterator.load_element(reinterpret_cast&lt;typename InputIterator::AccessType &amp;&gt;(</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;                                      frag_iterator.at(d, h, w, c)),</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;                                  d,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;                                  h,</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;                                  w,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;                                  c);</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;          }</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;        }</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;        <span class="keywordflow">if</span> (w &lt; InputIterator::Iterations::kW - 1) {</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;          iterator.inc_w();</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;        }</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;      }</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;      <span class="keywordflow">if</span> (h &lt; InputIterator::Iterations::kH - 1) {</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;        iterator.inc_h();</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;      }</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    }</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;    <span class="keywordflow">if</span> (d &lt; InputIterator::Iterations::kD - 1) {</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;      iterator.inc_d();</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    }</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  }</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  iterator.inc_advance();</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;}</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputIterator, <span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">   70</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">iterator_store</a>(OutputIterator &amp;iterator, <a class="code" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment) {</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="keyword">typename</span> OutputIterator::FragmentIterator frag_iterator(fragment);</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; OutputIterator::Iterations::kD; ++d) {</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; OutputIterator::Iterations::kH; ++h) {</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; OutputIterator::Iterations::kW; ++w) {</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; OutputIterator::Iterations::kC; ++c) {</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;          <span class="keywordflow">if</span> (iterator.valid(d, h, w, c)) {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;            iterator.store_element(reinterpret_cast&lt;typename OutputIterator::AccessType &amp;&gt;(</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;                                       frag_iterator.at(d, h, w, c)),</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;                                   d,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;                                   h,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;                                   w,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;                                   c);</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;          }</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;        }</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;        <span class="keywordflow">if</span> (w &lt; OutputIterator::Iterations::kW - 1) {</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;          iterator.inc_w();</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;        }</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;      }</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;      <span class="keywordflow">if</span> (h &lt; OutputIterator::Iterations::kH - 1) {</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;        iterator.inc_h();</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;      }</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;    }</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;    <span class="keywordflow">if</span> (d &lt; OutputIterator::Iterations::kD - 1) {</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;      iterator.inc_d();</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  }</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  iterator.inc_advance();</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;}</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="structcutlass_1_1Fragment_html"><div class="ttname"><a href="structcutlass_1_1Fragment.html">cutlass::Fragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:99</div></div>
-<div class="ttc" id="structcutlass_1_1Store_html"><div class="ttname"><a href="structcutlass_1_1Store.html">cutlass::Store</a></div><div class="ttdef"><b>Definition:</b> load_store.h:131</div></div>
 <div class="ttc" id="predicate__vector_8h_html"><div class="ttname"><a href="predicate__vector_8h.html">predicate_vector.h</a></div><div class="ttdoc">Defines container classes and iterators for managing a statically sized vector of boolean predicates...</div></div>
-<div class="ttc" id="structcutlass_1_1ComputeOffsetFromStrides_html_af5e46bc2b325cb6952d2d68c8aca1409"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">cutlass::ComputeOffsetFromStrides::get</a></div><div class="ttdeci">static CUTLASS_DEVICE int get(int d, int h, int w, int c)</div><div class="ttdef"><b>Definition:</b> shape.h:211</div></div>
-<div class="ttc" id="namespacecutlass_html_a3965068d8a4fdfe5e05782930fb4fe6b"><div class="ttname"><a href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">cutlass::iterator_load_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void iterator_load_post_increment(InputIterator &amp;iterator, Fragment &amp;fragment, typename InputIterator::Index offset, ConstPredicateAdapter predicate_adapter)</div><div class="ttdoc">Loads a fragment from an input iterator, masked by a predicate iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:125</div></div>
 <div class="ttc" id="load__store_8h_html"><div class="ttname"><a href="load__store_8h.html">load_store.h</a></div><div class="ttdoc">Defines abstractions for efficiently loading and storing vectors to memory. </div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="namespacecutlass_html_a705c6d75513e112d2731d1c40f4cf109"><div class="ttname"><a href="namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109">cutlass::shared_iterator_store</a></div><div class="ttdeci">CUTLASS_DEVICE void shared_iterator_store(OutputIterator &amp;iterator, Fragment const &amp;fragment)</div><div class="ttdoc">Stores a fragment to a shared memory output iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:228</div></div>
-<div class="ttc" id="structcutlass_1_1Fragment_html_a9c67fa5bbd0b8b49bd6ec002dee3cbab"><div class="ttname"><a href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">cutlass::Fragment::Element</a></div><div class="ttdeci">Element_ Element</div><div class="ttdoc">The element. </div><div class="ttdef"><b>Definition:</b> fragment.h:108</div></div>
-<div class="ttc" id="structcutlass_1_1TrivialPredicateTileAdapter_html"><div class="ttname"><a href="structcutlass_1_1TrivialPredicateTileAdapter.html">cutlass::TrivialPredicateTileAdapter</a></div><div class="ttdoc">Always returns true predicate. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:426</div></div>
-<div class="ttc" id="namespacecutlass_html_a0cb5bdf7bef498705c51a9cdcbef71f9"><div class="ttname"><a href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">cutlass::iterator_store</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void iterator_store(OutputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdoc">Stores a fragment to an output iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:193</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentStore_html"><div class="ttname"><a href="structcutlass_1_1FragmentStore.html">cutlass::FragmentStore</a></div><div class="ttdef"><b>Definition:</b> fragment_load_store.h:91</div></div>
-<div class="ttc" id="namespacecutlass_html_a45dd7add04736cb5c3e69991d2f210be"><div class="ttname"><a href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">cutlass::iterator_load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdoc">Loads a fragment from an input iterator. </div><div class="ttdef"><b>Definition:</b> iterator_access.h:41</div></div>
+<div class="ttc" id="namespacecutlass_html_a0cb5bdf7bef498705c51a9cdcbef71f9"><div class="ttname"><a href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">cutlass::iterator_store</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void iterator_store(OutputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdef"><b>Definition:</b> iterator_access.h:70</div></div>
+<div class="ttc" id="namespacecutlass_html_a45dd7add04736cb5c3e69991d2f210be"><div class="ttname"><a href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">cutlass::iterator_load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)</div><div class="ttdef"><b>Definition:</b> iterator_access.h:39</div></div>
 <div class="ttc" id="shape_8h_html"><div class="ttname"><a href="shape_8h.html">shape.h</a></div><div class="ttdoc">Defines Shape implementing the Layout concept for representing a 4D hypercube of objects. </div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/kernel__launch_8h.html b/docs/kernel__launch_8h.html
new file mode 100644
index 0000000000..192d541b3f
--- /dev/null
+++ b/docs/kernel__launch_8h.html
@@ -0,0 +1,108 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: kernel_launch.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">kernel_launch.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Defines structures and helpers to launch CUDA kernels within CUTLASS.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
+</div>
+<p><a href="kernel__launch_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Structure containing the basic launch configuration of a CUDA kernel.  <a href="structcutlass_1_1KernelLaunchConfiguration.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/kernel__launch_8h_source.html b/docs/kernel__launch_8h_source.html
new file mode 100644
index 0000000000..52c7a5e075
--- /dev/null
+++ b/docs/kernel__launch_8h_source.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: kernel_launch.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">kernel_launch.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="kernel__launch_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *   * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *     conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *   * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *     conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *     provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *   * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *     to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *     permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1KernelLaunchConfiguration.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html">KernelLaunchConfiguration</a> {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">   41</a></span>&#160;  dim3 <a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">grid</a>;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">   44</a></span>&#160;  dim3 <a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">block</a>;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">   47</a></span>&#160;  <span class="keywordtype">size_t</span> <a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">dynamic_smem</a>;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa">   55</a></span>&#160;  <a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa">KernelLaunchConfiguration</a>(</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    dim3 _grid = dim3(1,1,1),</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;    dim3 _block = dim3(1,1,1),</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    <span class="keywordtype">size_t</span> _dynamic_smem = 0</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  ):</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;    <a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">grid</a>(_grid),</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    <a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">block</a>(_block),</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;    <a class="code" href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">dynamic_smem</a>(_dynamic_smem) { }</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;};</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1KernelLaunchConfiguration_html_a726db328ccc8f5e186ff8e7cef568eaa"><div class="ttname"><a href="structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa">cutlass::KernelLaunchConfiguration::KernelLaunchConfiguration</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE KernelLaunchConfiguration(dim3 _grid=dim3(1, 1, 1), dim3 _block=dim3(1, 1, 1), size_t _dynamic_smem=0)</div><div class="ttdoc">Constructs a KernellaunchConfiguration object. </div><div class="ttdef"><b>Definition:</b> kernel_launch.h:55</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1KernelLaunchConfiguration_html"><div class="ttname"><a href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></div><div class="ttdoc">Structure containing the basic launch configuration of a CUDA kernel. </div><div class="ttdef"><b>Definition:</b> kernel_launch.h:38</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1KernelLaunchConfiguration_html_a4a6ac693d4284c84301279219623e2bc"><div class="ttname"><a href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">cutlass::KernelLaunchConfiguration::dynamic_smem</a></div><div class="ttdeci">size_t dynamic_smem</div><div class="ttdoc">Bytes of dynamically allocated SMEM in addition to static SMEM. </div><div class="ttdef"><b>Definition:</b> kernel_launch.h:47</div></div>
+<div class="ttc" id="structcutlass_1_1KernelLaunchConfiguration_html_a09535026bf08f94c6940c358d95d1edd"><div class="ttname"><a href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">cutlass::KernelLaunchConfiguration::block</a></div><div class="ttdeci">dim3 block</div><div class="ttdoc">CUDA threablock dimensions. </div><div class="ttdef"><b>Definition:</b> kernel_launch.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1KernelLaunchConfiguration_html_ab86ba1464dd9c6cd15ae0de4a552201b"><div class="ttname"><a href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">cutlass::KernelLaunchConfiguration::grid</a></div><div class="ttdeci">dim3 grid</div><div class="ttdoc">CUDA grid dimensions. </div><div class="ttdef"><b>Definition:</b> kernel_launch.h:41</div></div>
+<div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/linear__scaling_8h.html b/docs/linear__scaling_8h.html
index 060be3aa3e..132c09d484 100644
--- a/docs/linear__scaling_8h.html
+++ b/docs/linear__scaling_8h.html
@@ -74,7 +74,8 @@
 <div class="header">
   <div class="summary">
 <a href="#nested-classes">Classes</a> &#124;
-<a href="#namespaces">Namespaces</a>  </div>
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
   <div class="headertitle">
 <div class="title">linear_scaling.h File Reference</div>  </div>
 </div><!--header-->
@@ -82,7 +83,7 @@
 
 <p>Implements the BLAS linear scaling function alpha*AB + beta*C.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="fragment__multiply__add_8h_source.html">cutlass/fragment_multiply_add.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="fragment__multiply__add_8h_source.html">cutlass/fragment_multiply_add.h</a>&quot;</code><br />
 </div>
 <p><a href="linear__scaling_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -101,11 +102,19 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a3e30ae89e6f7501725028144cd2d88cb"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a3e30ae89e6f7501725028144cd2d88cb"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">cutlass::gemm::is_zero</a> (T x)</td></tr>
+<tr class="separator:a3e30ae89e6f7501725028144cd2d88cb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4a12fcfae60f26efa47bf0a79483d8ac"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a4a12fcfae60f26efa47bf0a79483d8ac">cutlass::gemm::is_zero</a> (half x)</td></tr>
+<tr class="separator:a4a12fcfae60f26efa47bf0a79483d8ac"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/linear__scaling_8h_source.html b/docs/linear__scaling_8h_source.html
index d9817ed095..b00e585988 100644
--- a/docs/linear__scaling_8h_source.html
+++ b/docs/linear__scaling_8h_source.html
@@ -76,25 +76,33 @@
 <div class="title">linear_scaling.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="linear__scaling_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;</div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment__multiply__add_8h.html">cutlass/fragment_multiply_add.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt; &gt;</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html">   40</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a> {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;  <span class="comment">// The scalar.</span></div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">   42</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a>;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;  <span class="comment">// The adapater.</span></div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">   44</a></span>&#160;  <span class="keyword">typedef</span> FragmentMultiplyAdd_ <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a>;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">   47</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a> {</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">   49</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">alpha</a>, <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">beta</a>;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmDesc_&gt;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">   53</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">initialize</a>(GemmDesc_ <span class="keyword">const</span>&amp; desc) {</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">alpha</a> = desc.alpha;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">beta</a> = desc.beta;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;    }</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;  };</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#a34df6970f033b3090ad8f4d40063b1b2">   61</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a34df6970f033b3090ad8f4d40063b1b2">LinearScaling</a>(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; params) : <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6">alpha</a>(params.<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6">alpha</a>), <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e">beta</a>(params.<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e">beta</a>) {}</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00065"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#a2e0d140aed388d2457dfb24d28fcd08a">   65</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a2e0d140aed388d2457dfb24d28fcd08a">evaluate</a>(Fragment_ <span class="keyword">const</span>&amp; accum, Fragment_&amp; output) {</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a> mad;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    mad.multiply(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6">alpha</a>, accum, output);</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  }</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment_&gt;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#a47a53e5b67b2207fb3ba38a8b9cef448">   72</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a47a53e5b67b2207fb3ba38a8b9cef448">evaluate</a>(Fragment_ <span class="keyword">const</span>&amp; accum, Fragment_ <span class="keyword">const</span>&amp; old, Fragment_&amp; output) {</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a> mad;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;    Fragment_ tmp;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    mad.multiply(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e">beta</a>, old, tmp);</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;    mad.multiply_add(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6">alpha</a>, accum, tmp, output);</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  }</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e">   80</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6">alpha</a>, <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e">beta</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;};</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_1_1Params_html_a3248d6b3d9bcc59365d582b879292a70"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">cutlass::gemm::LinearScaling::Params::alpha</a></div><div class="ttdeci">Scalar alpha</div><div class="ttdoc">The alpha/beta scaling params. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:49</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_ab9c51c8b1f06e935a353ac5b1c22cee6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6">cutlass::gemm::LinearScaling::alpha</a></div><div class="ttdeci">Scalar alpha</div><div class="ttdoc">The alpha/beta scaling factors. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:80</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_a34df6970f033b3090ad8f4d40063b1b2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#a34df6970f033b3090ad8f4d40063b1b2">cutlass::gemm::LinearScaling::LinearScaling</a></div><div class="ttdeci">CUTLASS_DEVICE LinearScaling(Params const &amp;params)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:61</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_a47a53e5b67b2207fb3ba38a8b9cef448"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#a47a53e5b67b2207fb3ba38a8b9cef448">cutlass::gemm::LinearScaling::evaluate</a></div><div class="ttdeci">CUTLASS_DEVICE void evaluate(Fragment_ const &amp;accum, Fragment_ const &amp;old, Fragment_ &amp;output)</div><div class="ttdoc">Evaluate the functor. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:72</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_1_1Params_html_a0e455ad2e4eba67259867f9123ca817b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">cutlass::gemm::LinearScaling::Params::beta</a></div><div class="ttdeci">Scalar beta</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:49</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_1_1Params_html_a4946e45e10661307f562b27bad5cb72d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">cutlass::gemm::LinearScaling::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const &amp;desc)</div><div class="ttdoc">Initialize the parameters. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:53</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_a8af4e58c4988838f2dd0a2172c47e12e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e">cutlass::gemm::LinearScaling::beta</a></div><div class="ttdeci">Scalar beta</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:80</div></div>
+<a href="linear__scaling_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;</div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment__multiply__add_8h.html">cutlass/fragment_multiply_add.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">   39</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">is_zero</a>(T x) {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;  <span class="keywordflow">return</span> x == T(0);</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;}</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)</span></div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html#a4a12fcfae60f26efa47bf0a79483d8ac">   44</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">is_zero</a>(half x) { <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span>int16_t&amp;<span class="keyword">&gt;</span>(x) == int16_t(0); }</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt; &gt;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html">   51</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a> {</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <span class="comment">// The scalar.</span></div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">   53</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a>;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;  <span class="comment">// The accumulator Type</span></div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">   55</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> FragmentMultiplyAdd_::ScalarAccum <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a>;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="comment">// The adapater.</span></div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">   57</a></span>&#160;  <span class="keyword">typedef</span> FragmentMultiplyAdd_ <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a>;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">   60</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a> {</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">   62</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">alpha</a>, <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">beta</a>;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="comment">// Methods</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;    <span class="comment">// Constructor</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ae515cd98a75ff3eafffcc69692d6301a">   70</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ae515cd98a75ff3eafffcc69692d6301a">Params</a>(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> _alpha = 0, <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> _beta = 0) : <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">alpha</a>(_alpha), <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">beta</a>(_beta) {}</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ad4089906220d4656ba075fb9afd1012c">   73</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ad4089906220d4656ba075fb9afd1012c">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> _alpha, <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> _beta) {</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">alpha</a> = _alpha;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">beta</a> = _beta;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    }</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmDesc_&gt;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">   81</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">initialize</a>(GemmDesc_ <span class="keyword">const</span>&amp; desc) {</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">alpha</a> = desc.alpha;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">beta</a> = desc.beta;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    }</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;  };</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">   92</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a>;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae5ed200fe8c45b6478d3893e67da0ebe">   99</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae5ed200fe8c45b6478d3893e67da0ebe">LinearScaling</a>() { }</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889">  102</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889">LinearScaling</a>(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; _params) : <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a>(_params) {}</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54">  108</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54">source_required</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;    <span class="keywordflow">return</span> !<a class="code" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">is_zero</a>(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">beta</a>);</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  }</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> FragmentA_, <span class="keyword">typename</span> FragmentB_&gt;</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">  114</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">evaluate</a>(FragmentA_ <span class="keyword">const</span>&amp; accum, FragmentB_&amp; output) {</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a> mad;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    mad.multiply(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">alpha</a>, accum, output);</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  }</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScalarAccum, <span class="keyword">typename</span> ScalarOutput, <span class="keywordtype">int</span> size&gt;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02">  122</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02">evaluate</a>(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a> <span class="keyword">const</span> *accum, ScalarOutput *output) {</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;    <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarAccum, size&gt;</a> FragAccum;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;    <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarOutput, size&gt;</a> FragOutput;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;<span class="preprocessor">#pragma unroll</span></div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; size; i++) {</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;      FragAccum[i] = accum[i];</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;      FragOutput[i] = output[i];</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    }</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">evaluate</a>(FragAccum, FragOutput);</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;<span class="preprocessor">#pragma unroll</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; size; i++) {</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;      output[i] = FragOutput[i];</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    }</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  }</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> FragmentA_, <span class="keyword">typename</span> FragmentB_&gt;</div><div class="line"><a name="l00139"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#a429d78c47d55929903ee02733ad881c1">  139</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a429d78c47d55929903ee02733ad881c1">evaluate</a>(FragmentA_ <span class="keyword">const</span>&amp; accum, FragmentB_ <span class="keyword">const</span>&amp; old, FragmentB_&amp; output) {</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a> mad;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;    FragmentB_ tmp;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    mad.multiply(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">beta</a>, old, tmp);</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    mad.multiply_add(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">alpha</a>, accum, tmp, output);</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  }</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> ScalarAccum, <span class="keyword">typename</span> ScalarOutput, <span class="keywordtype">int</span> size&gt;</div><div class="line"><a name="l00148"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScaling.html#aad0708f7681b16e6d6b4ca8d1f59a947">  148</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#aad0708f7681b16e6d6b4ca8d1f59a947">evaluate</a>(<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a> <span class="keyword">const</span> *accum, ScalarOutput <span class="keyword">const</span> *old, ScalarOutput *output) {</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarAccum, size&gt;</a> FragAccum;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarOutput, size&gt;</a> FragOutput;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarOutput, size&gt;</a> FragOld;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;<span class="preprocessor">#pragma unroll</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; size; i++) {</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;      FragAccum[i] = accum[i];</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      FragOutput[i] = output[i];</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      FragOld[i] = old[i];</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    }</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">evaluate</a>(FragAccum, FragOld, FragOutput);</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;<span class="preprocessor">#pragma unroll</span></div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; size; i++) {</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      output[i] = FragOutput[i];</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    }</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;  }</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;};</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_1_1Params_html_ad4089906220d4656ba075fb9afd1012c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ad4089906220d4656ba075fb9afd1012c">cutlass::gemm::LinearScaling::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar _alpha, Scalar _beta)</div><div class="ttdoc">Initialize the parameters. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:73</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_1_1Params_html_a3248d6b3d9bcc59365d582b879292a70"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">cutlass::gemm::LinearScaling::Params::alpha</a></div><div class="ttdeci">Scalar alpha</div><div class="ttdoc">The alpha/beta scaling params. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_aae313f3e691334f80d1316ac4cd30d54"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54">cutlass::gemm::LinearScaling::source_required</a></div><div class="ttdeci">CUTLASS_DEVICE bool source_required() const</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:108</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_a0159214b89d7648f1e8f3b5dd228df02"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02">cutlass::gemm::LinearScaling::evaluate</a></div><div class="ttdeci">CUTLASS_DEVICE void evaluate(ScalarAccum const *accum, ScalarOutput *output)</div><div class="ttdoc">Evaluate the functor, without using fragment in the API. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:122</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_a429d78c47d55929903ee02733ad881c1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#a429d78c47d55929903ee02733ad881c1">cutlass::gemm::LinearScaling::evaluate</a></div><div class="ttdeci">CUTLASS_DEVICE void evaluate(FragmentA_ const &amp;accum, FragmentB_ const &amp;old, FragmentB_ &amp;output)</div><div class="ttdoc">Evaluate the functor. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:139</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_a303c8dd75a31c01aa4e1de5097aca8eb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">cutlass::gemm::LinearScaling::evaluate</a></div><div class="ttdeci">CUTLASS_DEVICE void evaluate(FragmentA_ const &amp;accum, FragmentB_ &amp;output)</div><div class="ttdoc">Evaluate the functor. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:114</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_1_1Params_html_a0e455ad2e4eba67259867f9123ca817b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">cutlass::gemm::LinearScaling::Params::beta</a></div><div class="ttdeci">Scalar beta</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1Fragment_html"><div class="ttname"><a href="structcutlass_1_1Fragment.html">cutlass::Fragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:99</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_a7bbf90dc0938698a0fa22468f9df315d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">cutlass::gemm::LinearScaling::params</a></div><div class="ttdeci">Params params</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:92</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_ae80882255b71c1ec94c6caeded2d0309"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">cutlass::gemm::LinearScaling::ScalarAccum</a></div><div class="ttdeci">FragmentMultiplyAdd_::ScalarAccum ScalarAccum</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:55</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_1_1Params_html_a4946e45e10661307f562b27bad5cb72d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">cutlass::gemm::LinearScaling::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const &amp;desc)</div><div class="ttdoc">Initialize the parameters. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:81</div></div>
 <div class="ttc" id="fragment__multiply__add_8h_html"><div class="ttname"><a href="fragment__multiply__add_8h.html">fragment_multiply_add.h</a></div><div class="ttdoc">Defines multiply-add operations on fragments within a thread. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_aa697d4eaced1ef08247aeb1fcc0f0ea8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">cutlass::gemm::LinearScaling::FragmentMultiplyAdd</a></div><div class="ttdeci">FragmentMultiplyAdd_ FragmentMultiplyAdd</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_aa697d4eaced1ef08247aeb1fcc0f0ea8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">cutlass::gemm::LinearScaling::FragmentMultiplyAdd</a></div><div class="ttdeci">FragmentMultiplyAdd_ FragmentMultiplyAdd</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:57</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_ae5ed200fe8c45b6478d3893e67da0ebe"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#ae5ed200fe8c45b6478d3893e67da0ebe">cutlass::gemm::LinearScaling::LinearScaling</a></div><div class="ttdeci">CUTLASS_DEVICE LinearScaling()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:99</div></div>
+<div class="ttc" id="namespacecutlass_1_1gemm_html_a3e30ae89e6f7501725028144cd2d88cb"><div class="ttname"><a href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">cutlass::gemm::is_zero</a></div><div class="ttdeci">CUTLASS_DEVICE bool is_zero(T x)</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:39</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_a2e0d140aed388d2457dfb24d28fcd08a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#a2e0d140aed388d2457dfb24d28fcd08a">cutlass::gemm::LinearScaling::evaluate</a></div><div class="ttdeci">CUTLASS_DEVICE void evaluate(Fragment_ const &amp;accum, Fragment_ &amp;output)</div><div class="ttdoc">Evaluate the functor. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:65</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">cutlass::gemm::LinearScaling::Params</a></div><div class="ttdoc">The parameters. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:47</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:40</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_ae6b053ca059932f7c0d3c99243854183"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">cutlass::gemm::LinearScaling::Scalar</a></div><div class="ttdeci">Scalar_ Scalar</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_a46965529bd1384465c6f2b8c2a244889"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889">cutlass::gemm::LinearScaling::LinearScaling</a></div><div class="ttdeci">CUTLASS_DEVICE LinearScaling(Params const &amp;_params)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:102</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">cutlass::gemm::LinearScaling::Params</a></div><div class="ttdoc">The parameters. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:51</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_ae6b053ca059932f7c0d3c99243854183"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">cutlass::gemm::LinearScaling::Scalar</a></div><div class="ttdeci">Scalar_ Scalar</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:53</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_aad0708f7681b16e6d6b4ca8d1f59a947"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#aad0708f7681b16e6d6b4ca8d1f59a947">cutlass::gemm::LinearScaling::evaluate</a></div><div class="ttdeci">CUTLASS_DEVICE void evaluate(ScalarAccum const *accum, ScalarOutput const *old, ScalarOutput *output)</div><div class="ttdoc">Evaluate the functor, without using fragment in the API. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:148</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_1_1Params_html_ae515cd98a75ff3eafffcc69692d6301a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ae515cd98a75ff3eafffcc69692d6301a">cutlass::gemm::LinearScaling::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(Scalar _alpha=0, Scalar _beta=0)</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:70</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/linear__scaling__device__ptr_8h.html b/docs/linear__scaling__device__ptr_8h.html
new file mode 100644
index 0000000000..ad2add1db4
--- /dev/null
+++ b/docs/linear__scaling__device__ptr_8h.html
@@ -0,0 +1,114 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: linear_scaling_device_ptr.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">linear_scaling_device_ptr.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Implements the BLAS linear scaling function alpha*AB + beta*C.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="scalar__or__pointer_8h_source.html">cutlass/gemm/scalar_or_pointer.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="linear__scaling_8h_source.html">cutlass/gemm/linear_scaling.h</a>&quot;</code><br />
+</div>
+<p><a href="linear__scaling__device__ptr_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The parameters.  <a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/linear__scaling__device__ptr_8h_source.html b/docs/linear__scaling__device__ptr_8h_source.html
new file mode 100644
index 0000000000..2fae588f7a
--- /dev/null
+++ b/docs/linear__scaling__device__ptr_8h_source.html
@@ -0,0 +1,109 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: linear_scaling_device_ptr.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">linear_scaling_device_ptr.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="linear__scaling__device__ptr_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="scalar__or__pointer_8h.html">cutlass/gemm/scalar_or_pointer.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="linear__scaling_8h.html">cutlass/gemm/linear_scaling.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt; &gt;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">   46</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">LinearScalingDevicePtr</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a>&lt;Scalar_, FragmentMultiplyAdd_&gt; {</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#ad10463da3f5a421f9b87638775ef0a85">   49</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling&lt;Scalar_, FragmentMultiplyAdd_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#ad10463da3f5a421f9b87638775ef0a85">Base</a>;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="comment">// The scalar.</span></div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">   52</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Base::Scalar</a> <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a>;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">   55</a></span>&#160;  <span class="keyword">class </span><a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">Params</a>  {</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="keyword">private</span>:</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">detail::ScalarOrPointer&lt;Scalar&gt;</a> alpha_;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">detail::ScalarOrPointer&lt;Scalar&gt;</a> beta_;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="keyword">public</span>:</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="comment">// Methods</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;    <span class="comment">// Constructor</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae28323819fc8950bc0fee3a34b2184ff">   70</a></span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae28323819fc8950bc0fee3a34b2184ff">Params</a>() {}</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;    <span class="comment">// Constructor</span></div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a26b04702140a550f3ab598132a74cd93">   74</a></span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a26b04702140a550f3ab598132a74cd93">Params</a>(</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>,</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a></div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    ):</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;      alpha_(<a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>),</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;      beta_(<a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>) {}</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    <span class="comment">// Constructor</span></div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a38aa3e6beb09c7c4bea952094a2ea682">   83</a></span>&#160;    <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a38aa3e6beb09c7c4bea952094a2ea682">Params</a>(</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <span class="keyword">const</span> *alpha_ptr,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <span class="keyword">const</span> *beta_ptr</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;    ):</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      alpha_(alpha_ptr),</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;      beta_(alpha_ptr) {}</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ad1b2291b898091ee1966b73bd1ad56fa">   91</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ad1b2291b898091ee1966b73bd1ad56fa">initialize</a>(</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>,</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>) {</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;      alpha_ = <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;      beta_ = <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    }</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ab4dbffb32daffb64d2033e3091963507">  102</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ab4dbffb32daffb64d2033e3091963507">initialize</a>(</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <span class="keyword">const</span> *<a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <span class="keyword">const</span> *<a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      alpha_ = <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;      beta_= <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    }</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;    <span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmDesc_&gt;</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a491496037bf6613e128e667f87fda696">  114</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a491496037bf6613e128e667f87fda696">initialize</a>(GemmDesc_ <span class="keyword">const</span>&amp; desc) {</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;      alpha_ = desc.alpha;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;      beta_ = desc.beta;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    }</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">  124</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;      <span class="keywordflow">return</span> alpha_;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;    }</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00130"></a><span class="lineno"><a class="line" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">  130</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> <a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      <span class="keywordflow">return</span> beta_;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;    }</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  };</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a9dcb15bbcf3785280fd5cea0e0da5602">  140</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a9dcb15bbcf3785280fd5cea0e0da5602">LinearScalingDevicePtr</a>(<a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; _params) {</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;    this-&gt;<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a>.<a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a> = _params.<a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">alpha</a>();</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    this-&gt;<a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a>.<a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a> = _params.<a class="code" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">beta</a>();</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;  }</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;};</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;} <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params_html_ab4dbffb32daffb64d2033e3091963507"><div class="ttname"><a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ab4dbffb32daffb64d2033e3091963507">cutlass::gemm::LinearScalingDevicePtr::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar const *alpha, Scalar const *beta)</div><div class="ttdoc">Initialize the parameters. </div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:102</div></div>
+<div class="ttc" id="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params_html"><div class="ttname"><a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">cutlass::gemm::LinearScalingDevicePtr::Params</a></div><div class="ttdoc">The parameters. </div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:55</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params_html_a38aa3e6beb09c7c4bea952094a2ea682"><div class="ttname"><a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a38aa3e6beb09c7c4bea952094a2ea682">cutlass::gemm::LinearScalingDevicePtr::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(Scalar const *alpha_ptr, Scalar const *beta_ptr)</div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:83</div></div>
+<div class="ttc" id="linear__scaling_8h_html"><div class="ttname"><a href="linear__scaling_8h.html">linear_scaling.h</a></div><div class="ttdoc">Implements the BLAS linear scaling function alpha*AB + beta*C. </div></div>
+<div class="ttc" id="scalar__or__pointer_8h_html"><div class="ttname"><a href="scalar__or__pointer_8h.html">scalar_or_pointer.h</a></div><div class="ttdoc">Implements the BLAS linear scaling function alpha*AB + beta*C. </div></div>
+<div class="ttc" id="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params_html_ad1b2291b898091ee1966b73bd1ad56fa"><div class="ttname"><a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ad1b2291b898091ee1966b73bd1ad56fa">cutlass::gemm::LinearScalingDevicePtr::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar alpha, Scalar beta)</div><div class="ttdoc">Initialize the parameters. </div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:91</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_a7bbf90dc0938698a0fa22468f9df315d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">cutlass::gemm::LinearScaling::params</a></div><div class="ttdeci">Params params</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:92</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScalingDevicePtr_html_ad10463da3f5a421f9b87638775ef0a85"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#ad10463da3f5a421f9b87638775ef0a85">cutlass::gemm::LinearScalingDevicePtr::Base</a></div><div class="ttdeci">LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt; Base</div><div class="ttdoc">Linear Scaling class used. </div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:49</div></div>
+<div class="ttc" id="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params_html_ae28323819fc8950bc0fee3a34b2184ff"><div class="ttname"><a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae28323819fc8950bc0fee3a34b2184ff">cutlass::gemm::LinearScalingDevicePtr::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params()</div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:70</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params_html_a26b04702140a550f3ab598132a74cd93"><div class="ttname"><a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a26b04702140a550f3ab598132a74cd93">cutlass::gemm::LinearScalingDevicePtr::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(Scalar alpha, Scalar beta)</div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:74</div></div>
+<div class="ttc" id="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params_html_a0938bcb61d2572d5cf6cf2de95d11816"><div class="ttname"><a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816">cutlass::gemm::LinearScalingDevicePtr::Params::beta</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar beta() const</div><div class="ttdoc">Gets the beta scalar. </div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:130</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScalingDevicePtr_html_a9dcb15bbcf3785280fd5cea0e0da5602"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a9dcb15bbcf3785280fd5cea0e0da5602">cutlass::gemm::LinearScalingDevicePtr::LinearScalingDevicePtr</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE LinearScalingDevicePtr(Params const &amp;_params)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:140</div></div>
+<div class="ttc" id="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params_html_ae4038a59658c87d52cee3330bee59662"><div class="ttname"><a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662">cutlass::gemm::LinearScalingDevicePtr::Params::alpha</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar alpha() const</div><div class="ttdoc">Gets the alpha scalar. </div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:124</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScalingDevicePtr_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a></div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:51</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html_ae6b053ca059932f7c0d3c99243854183"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">cutlass::gemm::LinearScaling::Scalar</a></div><div class="ttdeci">Scalar_ Scalar</div><div class="ttdef"><b>Definition:</b> linear_scaling.h:53</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScalingDevicePtr_html_a0599650f5cc68b430782d2db74e73d2e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">cutlass::gemm::LinearScalingDevicePtr::Scalar</a></div><div class="ttdeci">Base::Scalar Scalar</div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:52</div></div>
+<div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
+<div class="ttc" id="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params_html_a491496037bf6613e128e667f87fda696"><div class="ttname"><a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a491496037bf6613e128e667f87fda696">cutlass::gemm::LinearScalingDevicePtr::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(GemmDesc_ const &amp;desc)</div><div class="ttdoc">Initialize the parameters. </div><div class="ttdef"><b>Definition:</b> linear_scaling_device_ptr.h:114</div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar &gt;</a></div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/load__store_8h.html b/docs/load__store_8h.html
index b23ec3cbff..30a4e73349 100644
--- a/docs/load__store_8h.html
+++ b/docs/load__store_8h.html
@@ -82,7 +82,7 @@
 
 <p>Defines abstractions for efficiently loading and storing vectors to memory.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&quot;</code><br />
 </div>
 <p><a href="load__store_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -91,25 +91,43 @@
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MemorySpace.html">cutlass::MemorySpace</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Enum to specify which memory space data resides in.  <a href="structcutlass_1_1MemorySpace.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load.html">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentElementType.html">cutlass::FragmentElementType</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix.  <a href="structcutlass_1_1FragmentElementType.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for 16b loads.  <a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html">cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store.html">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html">cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -120,7 +138,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/load__store_8h_source.html b/docs/load__store_8h_source.html
index e421cbf273..9fc9c86683 100644
--- a/docs/load__store_8h_source.html
+++ b/docs/load__store_8h_source.html
@@ -76,41 +76,64 @@
 <div class="title">load_store.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="load__store_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="structcutlass_1_1MemorySpace.html">   39</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1MemorySpace.html">MemorySpace</a> {</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">   40</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">Kind</a> {</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">   41</a></span>&#160;    <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">kGeneric</a>,  <span class="comment">// Data accessed through pointer dereferencing</span></div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">   42</a></span>&#160;    <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">kShared</a>,   <span class="comment">// Data resides in shared memory</span></div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">   43</a></span>&#160;    <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">kGlobal</a>    <span class="comment">// Data resides in global memory</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;  };</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;};</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;          <span class="keywordtype">int</span> Lanes_,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> Memory_,</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;          <span class="keywordtype">bool</span> = (Lanes_ &gt; 1),</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;          <span class="keywordtype">size_t</span> = (<span class="keyword">sizeof</span>(Scalar_) * Lanes_)&gt;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load.html">   54</a></span>&#160;<span class="keyword">struct</span> <a class="code" href="structcutlass_1_1Load.html">Load</a> {</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae">   56</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, Lanes_&gt;::Type</a> <a class="code" href="structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae">AccessType</a>;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">   59</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;    dst = <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> const*<span class="keyword">&gt;</span>(&amp;pointer[offset])[0];</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  }</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;};</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> Lanes_, MemorySpace::Kind Memory_&gt;</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html">   67</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;Scalar_, Lanes_, Memory_, true, 4&gt; {</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a5d7ed0abaeea99ec3399f8eea930f761">   69</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, Lanes_&gt;::Type</a> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a5d7ed0abaeea99ec3399f8eea930f761">AccessType</a>;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#aa9d5e227ea20ad3c6952f296016ec167">   72</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#aa9d5e227ea20ad3c6952f296016ec167">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0] = <span class="keyword">reinterpret_cast&lt;</span>uint32_t const*<span class="keyword">&gt;</span>(&amp;pointer[offset])[0];</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;  }</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;};</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> Lanes_, MemorySpace::Kind Memory_&gt;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html">   80</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;Scalar_, Lanes_, Memory_, true, 8&gt; {</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a2b9faed8d92f55a46e313d79d214316d">   82</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, Lanes_&gt;::Type</a> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a2b9faed8d92f55a46e313d79d214316d">AccessType</a>;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a0e58d26dd68aabb6cb9678f5656c7e6f">   85</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a0e58d26dd68aabb6cb9678f5656c7e6f">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;    uint2 tmp = <span class="keyword">reinterpret_cast&lt;</span>uint2 const*<span class="keyword">&gt;</span>(&amp;pointer[offset])[0];</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0] = tmp.x;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[1] = tmp.y;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  }</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;};</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;<span class="keyword">template</span> &lt;MemorySpace::Kind Memory_&gt;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html">   95</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;double, 2, Memory_, true, 16&gt; {</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a8611550c045d6def964d9dafb2be80c6">   97</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;double, 2&gt;::Type</a> <a class="code" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a8611550c045d6def964d9dafb2be80c6">AccessType</a>;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a7ba77016bee8e941f7831cc9fbfa994d">  100</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a7ba77016bee8e941f7831cc9fbfa994d">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, <span class="keywordtype">double</span> <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;    double2 tmp = <span class="keyword">reinterpret_cast&lt;</span>double2 const*<span class="keyword">&gt;</span>(&amp;pointer[offset])[0];</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    dst[0] = tmp.x;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    dst[1] = tmp.y;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  }</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;};</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> Lanes_, MemorySpace::Kind Memory_&gt;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html">  110</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;Scalar_, Lanes_, Memory_, true, 16&gt; {</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a942970f88e13c88f496a9da67ed47a6f">  112</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, Lanes_&gt;::Type</a> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a942970f88e13c88f496a9da67ed47a6f">AccessType</a>;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a4ee00178c441bdf4d4a1f8cf984bc03f">  115</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a4ee00178c441bdf4d4a1f8cf984bc03f">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    uint4 tmp = <span class="keyword">reinterpret_cast&lt;</span>uint4 const*<span class="keyword">&gt;</span>(&amp;pointer[offset])[0];</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0] = tmp.x;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[1] = tmp.y;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[2] = tmp.z;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[3] = tmp.w;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;};</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;          <span class="keywordtype">int</span> Lanes_,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> Memory_,</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;          <span class="keywordtype">bool</span> = (Lanes_ &gt; 1),</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;          <span class="keywordtype">size_t</span> = (<span class="keyword">sizeof</span>(Scalar_) * Lanes_)&gt;</div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store.html">  131</a></span>&#160;<span class="keyword">struct</span> <a class="code" href="structcutlass_1_1Store.html">Store</a> {</div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942">  133</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, Lanes_&gt;::Type</a> <a class="code" href="structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942">AccessType</a>;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf">  136</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, Scalar_* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;    pointer[offset] = src;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  }</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;};</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> Lanes_, MemorySpace::Kind Memory_&gt;</div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html">  144</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;Scalar_, Lanes_, Memory_, true, 4&gt; {</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a89f329ba11f96ee3ce4428cbc792ac3d">  146</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, Lanes_&gt;::Type</a> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a89f329ba11f96ee3ce4428cbc792ac3d">AccessType</a>;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a00f6bb93d318bf4cff35c9dabc630167">  149</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a00f6bb93d318bf4cff35c9dabc630167">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, Scalar_* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    uint32_t* addr = <span class="keyword">reinterpret_cast&lt;</span>uint32_t*<span class="keyword">&gt;</span>(&amp;pointer[offset]);</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    addr[0] = src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0];</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  }</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;};</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> Lanes_, MemorySpace::Kind Memory_&gt;</div><div class="line"><a name="l00158"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html">  158</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;Scalar_, Lanes_, Memory_, true, 8&gt; {</div><div class="line"><a name="l00160"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#ac0af6ae18137156abe24d6479232b955">  160</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, Lanes_&gt;::Type</a> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#ac0af6ae18137156abe24d6479232b955">AccessType</a>;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a027980b8456243974b0c442866a66e3a">  163</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a027980b8456243974b0c442866a66e3a">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, Scalar_* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    uint2* addr = <span class="keyword">reinterpret_cast&lt;</span>uint2*<span class="keyword">&gt;</span>(&amp;pointer[offset]);</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;    addr[0] = make_uint2(src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0], src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[1]);</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  }</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;};</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;<span class="keyword">template</span> &lt;MemorySpace::Kind Memory_&gt;</div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html">  172</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;double, 2, Memory_, true, 16&gt; {</div><div class="line"><a name="l00174"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ad073f5e8252ad24b086f14bd2a109cf9">  174</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;double, 2&gt;::Type</a> <a class="code" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ad073f5e8252ad24b086f14bd2a109cf9">AccessType</a>;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ab70d04589637f285f861902f649f834e">  177</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ab70d04589637f285f861902f649f834e">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, <span class="keywordtype">double</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;    double2* addr = <span class="keyword">reinterpret_cast&lt;</span>double2*<span class="keyword">&gt;</span>(&amp;pointer[offset]);</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    addr[0] = make_double2(src[0], src[1]);</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;  }</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;};</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> Lanes_, MemorySpace::Kind Memory_&gt;</div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html">  186</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;Scalar_, Lanes_, Memory_, true, 16&gt; {</div><div class="line"><a name="l00188"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aeb70e4859e2795b6af63ad5e203b4da9">  188</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, Lanes_&gt;::Type</a> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aeb70e4859e2795b6af63ad5e203b4da9">AccessType</a>;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aa130564bb2eba7b07e1f183c98f1d9e2">  191</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aa130564bb2eba7b07e1f183c98f1d9e2">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, Scalar_* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;    uint4* addr = <span class="keyword">reinterpret_cast&lt;</span>uint4*<span class="keyword">&gt;</span>(&amp;pointer[offset]);</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;    addr[0] = make_uint4(src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0], src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[1], src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[2], src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[3]);</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;  }</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;};</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4_html_aeb70e4859e2795b6af63ad5e203b4da9"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aeb70e4859e2795b6af63ad5e203b4da9">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, Lanes_ &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:188</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
+<a href="load__store_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1MemorySpace.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1MemorySpace.html">MemorySpace</a> {</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">   39</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">Kind</a> {</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">   40</a></span>&#160;    <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">kGeneric</a>,  <span class="comment">// Data accessed through pointer dereferencing</span></div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">   41</a></span>&#160;    <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">kShared</a>,   <span class="comment">// Data resides in shared memory</span></div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">   42</a></span>&#160;    <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">kGlobal</a>    <span class="comment">// Data resides in global memory</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;  };</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;};</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentElementType.html">   47</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a> {</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">   48</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">Kind</a> { <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">kScalar</a>, <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">kWmmaMatrix</a> };</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;};</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;          <span class="keywordtype">int</span> kAccessSize,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> Memory_,</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;          <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> kFragmentElementType = <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;          <span class="keyword">typename</span> FragmentElement_ = Scalar_,</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;          <span class="keywordtype">int</span> kStride = 1,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;          <span class="keywordtype">size_t</span> size = (<span class="keyword">sizeof</span>(Scalar_) * kAccessSize)&gt;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load.html">   60</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a> {</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">   62</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">AccessType</a>;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load.html#a0d13c39fdb813c3f043cdfaf0f1221a7">   65</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load.html#a0d13c39fdb813c3f043cdfaf0f1221a7">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;    dst = *<span class="keyword">reinterpret_cast&lt;</span><a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> const*<span class="keyword">&gt;</span>(pointer + offset);</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  }</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;};</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kAccessSize, MemorySpace::Kind Memory_&gt;</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html">   75</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;Scalar_, kAccessSize, Memory_, <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kScalar, Scalar_, 1, 2&gt; {</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0">   77</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0">AccessType</a>;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a4bab8959d29ee868fb6b3e1f9abc04fc">   80</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a4bab8959d29ee868fb6b3e1f9abc04fc">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    <span class="keyword">reinterpret_cast&lt;</span>uint16_t&amp;<span class="keyword">&gt;</span>(dst) = reinterpret_cast&lt;uint16_t const*&gt;(&amp;pointer[offset])[0];</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  }</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;};</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kAccessSize, MemorySpace::Kind Memory_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>e&gt;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html">   88</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;Scalar_, kAccessSize, Memory_, <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kScalar, Scalar_, kStride, 4&gt; {</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59">   90</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59">AccessType</a>;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#a2e906364a0631c2c9f97acd0ae4a1873">   93</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#a2e906364a0631c2c9f97acd0ae4a1873">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0] = <span class="keyword">reinterpret_cast&lt;</span>uint32_t const*<span class="keyword">&gt;</span>(&amp;pointer[offset])[0];</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;};</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kAccessSize, MemorySpace::Kind Memory_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>e&gt;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html">  102</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;Scalar_, kAccessSize, Memory_, <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kScalar, Scalar_, kStride, 8&gt; {</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78">  104</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78">AccessType</a>;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#afee69b86f070e3badc75ab00bcc5996b">  107</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#afee69b86f070e3badc75ab00bcc5996b">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;    uint2 tmp = <span class="keyword">reinterpret_cast&lt;</span>uint2 const*<span class="keyword">&gt;</span>(&amp;pointer[offset])[0];</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0] = tmp.x;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[1] = tmp.y;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;  }</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;};</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;<span class="keyword">template</span> &lt;MemorySpace::Kind Memory_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>e&gt;</div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html">  117</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;double, 2, Memory_, <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kScalar, double, kStride, 16&gt; {</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57">  119</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;double, 2&gt;::Type</a> <a class="code" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57">AccessType</a>;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a7d9027453aa78d4448d70dc44307791e">  122</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a7d9027453aa78d4448d70dc44307791e">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, <span class="keywordtype">double</span> <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;    double2 tmp = <span class="keyword">reinterpret_cast&lt;</span>double2 const*<span class="keyword">&gt;</span>(&amp;pointer[offset])[0];</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;    dst[0] = tmp.x;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;    dst[1] = tmp.y;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  }</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;};</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;<span class="preprocessor">#if defined(__CUDACC_VERSION_MAJOR) &amp;&amp; __CUDACC_VERSION_MAJOR &lt; 10</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;<span class="comment">// WAR bug in NVCC where the upper and lower half of the register end up being the same</span></div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;<span class="keyword">template</span> &lt;MemorySpace::Kind Memory_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>e&gt;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;<span class="keyword">struct </span>Load&lt;half, 8, Memory_, FragmentElementType::kScalar, half, kStride, 16&gt; {</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">Vectorize&lt;half, 8&gt;::Type</a> <a class="code" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">AccessType</a>;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load.html#a0d13c39fdb813c3f043cdfaf0f1221a7">load</a>(<a class="code" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">AccessType</a>&amp; dst, half <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;    int2 tmp = <span class="keyword">reinterpret_cast&lt;</span>int2 const*<span class="keyword">&gt;</span>(&amp;pointer[offset])[0];</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;    dst.registers[0] = tmp.x;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    dst.registers[1] = tmp.y;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    tmp = <span class="keyword">reinterpret_cast&lt;</span>int2 const*<span class="keyword">&gt;</span>(&amp;pointer[offset + 4])[0];</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;    dst.registers[2] = tmp.x;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;    dst.registers[3] = tmp.y;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  }</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;};</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kAccessSize, MemorySpace::Kind Memory_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>e&gt;</div><div class="line"><a name="l00155"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html">  155</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;Scalar_, kAccessSize, Memory_, <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kScalar, Scalar_, kStride, 16&gt; {</div><div class="line"><a name="l00157"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064">  157</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064">AccessType</a>;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a7d3d3e156dc527f9c00acc7a66d21326">  160</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a7d3d3e156dc527f9c00acc7a66d21326">load</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a>&amp; dst, Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;    uint4 tmp = <span class="keyword">reinterpret_cast&lt;</span>uint4 const*<span class="keyword">&gt;</span>(&amp;pointer[offset])[0];</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0] = tmp.x;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[1] = tmp.y;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[2] = tmp.z;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;    dst.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[3] = tmp.w;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  }</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;};</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;          <span class="keywordtype">int</span> kAccessSize,</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> Memory_,</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;          <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> kFragmentElementType = <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>,</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;          <span class="keyword">typename</span> FragmentElement_ = Scalar_,</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;          <span class="keywordtype">int</span> kStride = 1,</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;          <span class="keywordtype">size_t</span> size = (<span class="keyword">sizeof</span>(Scalar_) * kAccessSize)&gt;</div><div class="line"><a name="l00178"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store.html">  178</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a> {</div><div class="line"><a name="l00180"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7">  180</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;FragmentElement_, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7">AccessType</a>;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;</div><div class="line"><a name="l00183"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store.html#a187b63f682f7f00f8bf9ed3ee59d602f">  183</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store.html#a187b63f682f7f00f8bf9ed3ee59d602f">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, Scalar_* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;    pointer[offset] = *<span class="keyword">reinterpret_cast&lt;</span>Scalar_ const*<span class="keyword">&gt;</span>(&amp;src);</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;  }</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;};</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kAccessSize, MemorySpace::Kind Memory_&gt;</div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html">  191</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;Scalar_, kAccessSize, Memory_, <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kScalar, Scalar_, 1, 2&gt; {</div><div class="line"><a name="l00193"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f">  193</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f">AccessType</a>;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#a535b4356c9bc21352fc2459b3c2246d1">  196</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#a535b4356c9bc21352fc2459b3c2246d1">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, Scalar_* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;    uint16_t* addr = <span class="keyword">reinterpret_cast&lt;</span>uint16_t*<span class="keyword">&gt;</span>(&amp;pointer[offset]);</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    addr[0] = <span class="keyword">reinterpret_cast&lt;</span>uint16_t const&amp;<span class="keyword">&gt;</span>(src);</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;  }</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;};</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kAccessSize, MemorySpace::Kind Memory_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>e&gt;</div><div class="line"><a name="l00205"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html">  205</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;Scalar_, kAccessSize, Memory_, <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kScalar, Scalar_, kStride, 4&gt; {</div><div class="line"><a name="l00207"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6">  207</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6">AccessType</a>;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;</div><div class="line"><a name="l00210"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a453a2eed81a86d6637778a50bed06b59">  210</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a453a2eed81a86d6637778a50bed06b59">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, Scalar_* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;    uint32_t* addr = <span class="keyword">reinterpret_cast&lt;</span>uint32_t*<span class="keyword">&gt;</span>(&amp;pointer[offset]);</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;    addr[0] = src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0];</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;  }</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;};</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kAccessSize, MemorySpace::Kind Memory_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>e&gt;</div><div class="line"><a name="l00219"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html">  219</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;Scalar_, kAccessSize, Memory_, <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kScalar, Scalar_, kStride, 8&gt; {</div><div class="line"><a name="l00221"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b">  221</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b">AccessType</a>;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a1fcdc328d4b2deb1c50be5d31ef9e55f">  224</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a1fcdc328d4b2deb1c50be5d31ef9e55f">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, Scalar_* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    uint2* addr = <span class="keyword">reinterpret_cast&lt;</span>uint2*<span class="keyword">&gt;</span>(&amp;pointer[offset]);</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;    addr[0] = make_uint2(src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0], src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[1]);</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;  }</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;};</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;<span class="keyword">template</span> &lt;MemorySpace::Kind Memory_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>e&gt;</div><div class="line"><a name="l00233"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html">  233</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;double, 2, Memory_, <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kScalar, double, kStride, 16&gt; {</div><div class="line"><a name="l00235"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44">  235</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;double, 2&gt;::Type</a> <a class="code" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44">AccessType</a>;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;</div><div class="line"><a name="l00238"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a174ed368f1c702b4c958887f0b895eee">  238</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a174ed368f1c702b4c958887f0b895eee">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, <span class="keywordtype">double</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;    double2* addr = <span class="keyword">reinterpret_cast&lt;</span>double2*<span class="keyword">&gt;</span>(&amp;pointer[offset]);</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;    addr[0] = make_double2(src[0], src[1]);</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;  }</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;};</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kAccessSize, MemorySpace::Kind Memory_, <span class="keywordtype">int</span> kStr<span class="keywordtype">id</span>e&gt;</div><div class="line"><a name="l00247"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html">  247</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;Scalar_, kAccessSize, Memory_, <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kScalar, Scalar_, kStride, 16&gt; {</div><div class="line"><a name="l00249"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900">  249</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;Scalar_, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900">AccessType</a>;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;</div><div class="line"><a name="l00252"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#ae16a5d6d7a42ffeba0f0ebe2d252ec28">  252</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#ae16a5d6d7a42ffeba0f0ebe2d252ec28">store</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span>&amp; src, Scalar_* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;    uint4* addr = <span class="keyword">reinterpret_cast&lt;</span>uint4*<span class="keyword">&gt;</span>(&amp;pointer[offset]);</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;    addr[0] = make_uint4(src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0], src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[1], src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[2], src.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[3]);</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;  }</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;};</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;          <span class="keywordtype">int</span> kAccessSize,</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> Memory_,</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;          <span class="keyword">typename</span> FragmentElement_,</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;          <span class="keywordtype">int</span> kStride,</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;          <span class="keywordtype">size_t</span> size&gt;</div><div class="line"><a name="l00266"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html">  266</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;Scalar_,</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;            kAccessSize,</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;            Memory_,</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;            <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kWmmaMatrix,</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;            FragmentElement_,</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;            kStride,</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;            size&gt; {</div><div class="line"><a name="l00274"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">  274</a></span>&#160;  <span class="keyword">typedef</span> FragmentElement_ <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">AccessType</a>;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;</div><div class="line"><a name="l00277"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a854c684b3f6c1a10b6e8fcf7967f6642">  277</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a854c684b3f6c1a10b6e8fcf7967f6642">load</a>(<a class="code" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">AccessType</a>&amp; value, Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;    value.load(&amp;pointer[offset], kStride);</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;  }</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;};</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kAccessSize,</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> Memory_,</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;          <span class="keyword">typename</span> FragmentElement_,</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;          <span class="keywordtype">int</span> kStride,</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;          <span class="keywordtype">size_t</span> size&gt;</div><div class="line"><a name="l00289"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html">  289</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="code" href="structcutlass_1_1bin1__t.html">bin1_t</a>, 32&gt;,</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;            kAccessSize,</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;            Memory_,</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;            <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kWmmaMatrix,</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;            FragmentElement_,</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;            kStride,</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;            size&gt; {</div><div class="line"><a name="l00297"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">  297</a></span>&#160;  <span class="keyword">typedef</span> FragmentElement_ <a class="code" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">AccessType</a>;</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;</div><div class="line"><a name="l00300"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#a619f643794f51b35f3c0a1011ba00bbd">  300</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#a619f643794f51b35f3c0a1011ba00bbd">load</a>(<a class="code" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">AccessType</a>&amp; value, <a class="code" href="unioncutlass_1_1Vector.html">Vector&lt;bin1_t, 32&gt;</a> <span class="keyword">const</span>* pointer,</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;                                       <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;    value.load(&amp;pointer[offset], kStride * 32);</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;  }</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;};</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kAccessSize,</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> Memory_,</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;          <span class="keyword">typename</span> FragmentElement_,</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;          <span class="keywordtype">int</span> kStride,</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;          <span class="keywordtype">size_t</span> size&gt;</div><div class="line"><a name="l00313"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html">  313</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="code" href="structcutlass_1_1int4__t.html">int4_t</a>, 8&gt;,</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;            kAccessSize,</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;            Memory_,</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;            <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kWmmaMatrix,</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;            FragmentElement_,</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;            kStride,</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;            size&gt; {</div><div class="line"><a name="l00321"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">  321</a></span>&#160;  <span class="keyword">typedef</span> FragmentElement_ <a class="code" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">AccessType</a>;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;</div><div class="line"><a name="l00324"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#abc4f879290c847a6e73dc9e68a340f74">  324</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#abc4f879290c847a6e73dc9e68a340f74">load</a>(<a class="code" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">AccessType</a>&amp; value, <a class="code" href="unioncutlass_1_1Vector.html">Vector&lt;int4_t, 8&gt;</a> <span class="keyword">const</span>* pointer,</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;                                       <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;    value.load(&amp;pointer[offset], kStride * 8);</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;  }</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;};</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kAccessSize,</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> Memory_,</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;          <span class="keyword">typename</span> FragmentElement_,</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;          <span class="keywordtype">int</span> kStride,</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;          <span class="keywordtype">size_t</span> size&gt;</div><div class="line"><a name="l00337"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html">  337</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="code" href="structcutlass_1_1uint4__t.html">uint4_t</a>, 8&gt;,</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;            kAccessSize,</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;            Memory_,</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;            <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kWmmaMatrix,</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;            FragmentElement_,</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;            kStride,</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;            size&gt; {</div><div class="line"><a name="l00345"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">  345</a></span>&#160;  <span class="keyword">typedef</span> FragmentElement_ <a class="code" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">AccessType</a>;</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;</div><div class="line"><a name="l00348"></a><span class="lineno"><a class="line" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#af587adae1103b4242e0d56eb902f9302">  348</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#af587adae1103b4242e0d56eb902f9302">load</a>(<a class="code" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">AccessType</a>&amp; value, <a class="code" href="unioncutlass_1_1Vector.html">Vector&lt;uint4_t, 8&gt;</a> <span class="keyword">const</span>* pointer,</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;                                       <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;    value.load(&amp;pointer[offset], kStride * 8);</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;  }</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;};</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;          <span class="keywordtype">int</span> kAccessSize,</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> Memory_,</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;          <span class="keyword">typename</span> FragmentElement_,</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;          <span class="keywordtype">int</span> kStride,</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;          <span class="keywordtype">size_t</span> size&gt;</div><div class="line"><a name="l00361"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html">  361</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;Scalar_,</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;             kAccessSize,</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;             Memory_,</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;             <a class="code" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a>::kWmmaMatrix,</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;             FragmentElement_,</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;             kStride,</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;             size&gt; {</div><div class="line"><a name="l00369"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">  369</a></span>&#160;  <span class="keyword">typedef</span> FragmentElement_ <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">AccessType</a>;</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;</div><div class="line"><a name="l00372"></a><span class="lineno"><a class="line" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a298a08c8c4c1ea871e92e2491b2cb549">  372</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a298a08c8c4c1ea871e92e2491b2cb549">store</a>(<a class="code" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">AccessType</a> <span class="keyword">const</span>&amp; value, Scalar_* pointer, <span class="keywordtype">int</span> offset) {</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;    value.store(&amp;pointer[offset], kStride);</div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;  }</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;};</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538_html_a619f643794f51b35f3c0a1011ba00bbd"><div class="ttname"><a href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#a619f643794f51b35f3c0a1011ba00bbd">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void load(AccessType &amp;value, Vector&lt; bin1_t, 32 &gt; const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:300</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5_html_a379269fb6baf7f5e5a1c3173ed048064"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:157</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad_html_a33f5160c8c038680ba2fe4c98cf036b0"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:77</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d_html_a174ed368f1c702b4c958887f0b895eee"><div class="ttname"><a href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a174ed368f1c702b4c958887f0b895eee">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::store</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void store(AccessType const &amp;src, double *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:238</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26_html_abc4f879290c847a6e73dc9e68a340f74"><div class="ttname"><a href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#abc4f879290c847a6e73dc9e68a340f74">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void load(AccessType &amp;value, Vector&lt; int4_t, 8 &gt; const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:324</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4_html_a027980b8456243974b0c442866a66e3a"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a027980b8456243974b0c442866a66e3a">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::store</a></div><div class="ttdeci">static CUTLASS_DEVICE void store(AccessType const &amp;src, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:163</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html">cutlass::MemorySpace</a></div><div class="ttdoc">Enum to specify which memory space data resides in. </div><div class="ttdef"><b>Definition:</b> load_store.h:39</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">cutlass::MemorySpace::kGlobal</a></div><div class="ttdef"><b>Definition:</b> load_store.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1Load_html_ad033ebc1452d96b18913333bf7068140"><div class="ttname"><a href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">cutlass::Load::load</a></div><div class="ttdeci">static CUTLASS_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:59</div></div>
-<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4_html_a942970f88e13c88f496a9da67ed47a6f"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a942970f88e13c88f496a9da67ed47a6f">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, Lanes_ &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:112</div></div>
-<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4_html_a89f329ba11f96ee3ce4428cbc792ac3d"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a89f329ba11f96ee3ce4428cbc792ac3d">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, Lanes_ &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:146</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03c"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:40</div></div>
-<div class="ttc" id="structcutlass_1_1Store_html"><div class="ttname"><a href="structcutlass_1_1Store.html">cutlass::Store</a></div><div class="ttdef"><b>Definition:</b> load_store.h:131</div></div>
-<div class="ttc" id="structcutlass_1_1Store_html_a1117fa7b7bdeeb3a7f2d647a1d340aaf"><div class="ttname"><a href="structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf">cutlass::Store::store</a></div><div class="ttdeci">static CUTLASS_DEVICE void store(AccessType const &amp;src, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:136</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html_a29dab07949206cc1609543ffcefd1e5a"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">cutlass::Vector::registers</a></div><div class="ttdeci">uint32_t registers[kRegisters]</div><div class="ttdoc">The data in registers. </div><div class="ttdef"><b>Definition:</b> vector.h:80</div></div>
-<div class="ttc" id="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4_html_ad073f5e8252ad24b086f14bd2a109cf9"><div class="ttname"><a href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ad073f5e8252ad24b086f14bd2a109cf9">cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; double, 2 &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:174</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">cutlass::MemorySpace::kGeneric</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
-<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4_html_aa9d5e227ea20ad3c6952f296016ec167"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#aa9d5e227ea20ad3c6952f296016ec167">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::load</a></div><div class="ttdeci">static CUTLASS_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:72</div></div>
-<div class="ttc" id="structcutlass_1_1Store_html_a8d2f927b2b61987dcea40e84f4575942"><div class="ttname"><a href="structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942">cutlass::Store::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, Lanes_ &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:133</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html"><div class="ttname"><a href="unioncutlass_1_1Vector.html">cutlass::Vector</a></div><div class="ttdef"><b>Definition:</b> vector.h:61</div></div>
-<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4_html_a0e58d26dd68aabb6cb9678f5656c7e6f"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a0e58d26dd68aabb6cb9678f5656c7e6f">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::load</a></div><div class="ttdeci">static CUTLASS_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:85</div></div>
-<div class="ttc" id="structcutlass_1_1Load_html"><div class="ttname"><a href="structcutlass_1_1Load.html">cutlass::Load</a></div><div class="ttdef"><b>Definition:</b> load_store.h:54</div></div>
-<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4_html_a2b9faed8d92f55a46e313d79d214316d"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a2b9faed8d92f55a46e313d79d214316d">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, Lanes_ &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:82</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26_html_a2265e1ad87bc6fd227f0a83e7043c87a"><div class="ttname"><a href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType</a></div><div class="ttdeci">FragmentElement_ AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:321</div></div>
+<div class="ttc" id="structcutlass_1_1bin1__t_html"><div class="ttname"><a href="structcutlass_1_1bin1__t.html">cutlass::bin1_t</a></div><div class="ttdef"><b>Definition:</b> numeric_types.h:39</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html">cutlass::MemorySpace</a></div><div class="ttdoc">Enum to specify which memory space data resides in. </div><div class="ttdef"><b>Definition:</b> load_store.h:38</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e_html_a535b4356c9bc21352fc2459b3c2246d1"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#a535b4356c9bc21352fc2459b3c2246d1">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::store</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void store(AccessType const &amp;src, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:196</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac_html_ae16a5d6d7a42ffeba0f0ebe2d252ec28"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#ae16a5d6d7a42ffeba0f0ebe2d252ec28">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::store</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void store(AccessType const &amp;src, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:252</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538_html_ae5df4a17f7f946534cfe7cdbd325e301"><div class="ttname"><a href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType</a></div><div class="ttdeci">FragmentElement_ AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:297</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentElementType_html"><div class="ttname"><a href="structcutlass_1_1FragmentElementType.html">cutlass::FragmentElementType</a></div><div class="ttdoc">Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix. </div><div class="ttdef"><b>Definition:</b> load_store.h:47</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">cutlass::MemorySpace::kGlobal</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentElementType_html_a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd"><div class="ttname"><a href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">cutlass::FragmentElementType::kWmmaMatrix</a></div><div class="ttdef"><b>Definition:</b> load_store.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f_html_ae82bca88b6dcca352bfb45d5789d9ce9"><div class="ttname"><a href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType</a></div><div class="ttdeci">FragmentElement_ AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:345</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4_html_a925ca73bca88c8a1835061cc1391ae57"><div class="ttname"><a href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; double, 2 &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:119</div></div>
+<div class="ttc" id="structcutlass_1_1Store_html_a82acff2a97f8e08d040b4e603419c2c7"><div class="ttname"><a href="structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7">cutlass::Store::AccessType</a></div><div class="ttdeci">Vectorize&lt; FragmentElement_, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:180</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03c"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:39</div></div>
+<div class="ttc" id="structcutlass_1_1Store_html"><div class="ttname"><a href="structcutlass_1_1Store.html">cutlass::Store</a></div><div class="ttdef"><b>Definition:</b> load_store.h:178</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5_html_a7d3d3e156dc527f9c00acc7a66d21326"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a7d3d3e156dc527f9c00acc7a66d21326">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::load</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:160</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html_a29dab07949206cc1609543ffcefd1e5a"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">cutlass::Vector::registers</a></div><div class="ttdeci">uint32_t registers[kRegisters]</div><div class="ttdoc">The data in registers. </div><div class="ttdef"><b>Definition:</b> vector.h:81</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2_html_a854c684b3f6c1a10b6e8fcf7967f6642"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a854c684b3f6c1a10b6e8fcf7967f6642">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void load(AccessType &amp;value, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:277</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e_html_ab4e4ac8a34b08fe38676f9fe7efe4c4f"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:193</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99_html_a7eab78b09f87ca0ee3646eec4fd91b78"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:104</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentElementType_html_a62883b0695dc3a7ff82916ff9d75df0b"><div class="ttname"><a href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">cutlass::FragmentElementType::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">cutlass::MemorySpace::kGeneric</a></div><div class="ttdef"><b>Definition:</b> load_store.h:40</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1Load_html_ad34e83ea01c482100c0557e23bc688f8"><div class="ttname"><a href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">cutlass::Load::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99_html_afee69b86f070e3badc75ab00bcc5996b"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#afee69b86f070e3badc75ab00bcc5996b">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::load</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:107</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html"><div class="ttname"><a href="unioncutlass_1_1Vector.html">cutlass::Vector</a></div><div class="ttdef"><b>Definition:</b> vector.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1Load_html"><div class="ttname"><a href="structcutlass_1_1Load.html">cutlass::Load</a></div><div class="ttdef"><b>Definition:</b> load_store.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417_html_a5ca5fcd2d6d2ca350d4470b4a3e65385"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType</a></div><div class="ttdeci">FragmentElement_ AccessType</div><div class="ttdoc">The input type. </div><div class="ttdef"><b>Definition:</b> load_store.h:369</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce_html_a2e906364a0631c2c9f97acd0ae4a1873"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#a2e906364a0631c2c9f97acd0ae4a1873">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::load</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:93</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentElementType_html_a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b"><div class="ttname"><a href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">cutlass::FragmentElementType::kScalar</a></div><div class="ttdef"><b>Definition:</b> load_store.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1Vectorize_html_a070ec95f4297d769ee53a4d8a650c05e"><div class="ttname"><a href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">cutlass::Vectorize::Type</a></div><div class="ttdeci">Vector&lt; Element_, kLanes_ &gt; Type</div><div class="ttdef"><b>Definition:</b> vector.h:271</div></div>
 <div class="ttc" id="vector_8h_html"><div class="ttname"><a href="vector_8h.html">vector.h</a></div><div class="ttdoc">Defines a 1D vector of elements held in the registers of each thread. </div></div>
-<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4_html_ac0af6ae18137156abe24d6479232b955"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#ac0af6ae18137156abe24d6479232b955">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, Lanes_ &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:160</div></div>
-<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4_html_a4ee00178c441bdf4d4a1f8cf984bc03f"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a4ee00178c441bdf4d4a1f8cf984bc03f">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::load</a></div><div class="ttdeci">static CUTLASS_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:115</div></div>
-<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4_html_a5d7ed0abaeea99ec3399f8eea930f761"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a5d7ed0abaeea99ec3399f8eea930f761">cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, Lanes_ &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:69</div></div>
-<div class="ttc" id="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4_html_a7ba77016bee8e941f7831cc9fbfa994d"><div class="ttname"><a href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a7ba77016bee8e941f7831cc9fbfa994d">cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;::load</a></div><div class="ttdeci">static CUTLASS_DEVICE void load(AccessType &amp;dst, double const *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:100</div></div>
-<div class="ttc" id="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4_html_a8611550c045d6def964d9dafb2be80c6"><div class="ttname"><a href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a8611550c045d6def964d9dafb2be80c6">cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; double, 2 &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:97</div></div>
-<div class="ttc" id="structcutlass_1_1Load_html_ad0bf2da0c240f3a2a3f4c92162d347ae"><div class="ttname"><a href="structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae">cutlass::Load::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, Lanes_ &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:56</div></div>
-<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4_html_aa130564bb2eba7b07e1f183c98f1d9e2"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aa130564bb2eba7b07e1f183c98f1d9e2">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::store</a></div><div class="ttdeci">static CUTLASS_DEVICE void store(AccessType const &amp;src, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:191</div></div>
-<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4_html_a00f6bb93d318bf4cff35c9dabc630167"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a00f6bb93d318bf4cff35c9dabc630167">cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::store</a></div><div class="ttdeci">static CUTLASS_DEVICE void store(AccessType const &amp;src, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:149</div></div>
-<div class="ttc" id="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4_html_ab70d04589637f285f861902f649f834e"><div class="ttname"><a href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ab70d04589637f285f861902f649f834e">cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;::store</a></div><div class="ttdeci">static CUTLASS_DEVICE void store(AccessType const &amp;src, double *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:177</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac_html_affe0bee9dcc3d88c169472b421449900"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:249</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f_html_af587adae1103b4242e0d56eb902f9302"><div class="ttname"><a href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#af587adae1103b4242e0d56eb902f9302">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void load(AccessType &amp;value, Vector&lt; uint4_t, 8 &gt; const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:348</div></div>
+<div class="ttc" id="structcutlass_1_1uint4__t_html"><div class="ttname"><a href="structcutlass_1_1uint4__t.html">cutlass::uint4_t</a></div><div class="ttdef"><b>Definition:</b> numeric_types.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce_html_ab3f1d2f24c3aaec7690aae184b57bc59"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1Store_html_a187b63f682f7f00f8bf9ed3ee59d602f"><div class="ttname"><a href="structcutlass_1_1Store.html#a187b63f682f7f00f8bf9ed3ee59d602f">cutlass::Store::store</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void store(AccessType const &amp;src, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:183</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1_html_a1fcdc328d4b2deb1c50be5d31ef9e55f"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a1fcdc328d4b2deb1c50be5d31ef9e55f">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::store</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void store(AccessType const &amp;src, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:224</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1_html_a3fe2c0be6113ecb0ae4535cccb87680b"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:221</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011_html_a996c9a38e018d250ce8f0a7a474bc6e6"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; Scalar_, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:207</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417_html_a298a08c8c4c1ea871e92e2491b2cb549"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a298a08c8c4c1ea871e92e2491b2cb549">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::store</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void store(AccessType const &amp;value, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:372</div></div>
+<div class="ttc" id="structcutlass_1_1int4__t_html"><div class="ttname"><a href="structcutlass_1_1int4__t.html">cutlass::int4_t</a></div><div class="ttdef"><b>Definition:</b> numeric_types.h:41</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2_html_a1aa08c9c7424ba4f998d7445ba83eaab"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType</a></div><div class="ttdeci">FragmentElement_ AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:274</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011_html_a453a2eed81a86d6637778a50bed06b59"><div class="ttname"><a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a453a2eed81a86d6637778a50bed06b59">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::store</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void store(AccessType const &amp;src, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:210</div></div>
+<div class="ttc" id="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d_html_a6c7ee589e65cf77578402a5ae01afe44"><div class="ttname"><a href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::AccessType</a></div><div class="ttdeci">Vectorize&lt; double, 2 &gt;::Type AccessType</div><div class="ttdoc">The output type. </div><div class="ttdef"><b>Definition:</b> load_store.h:235</div></div>
+<div class="ttc" id="structcutlass_1_1Load_html_a0d13c39fdb813c3f043cdfaf0f1221a7"><div class="ttname"><a href="structcutlass_1_1Load.html#a0d13c39fdb813c3f043cdfaf0f1221a7">cutlass::Load::load</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad_html_a4bab8959d29ee868fb6b3e1f9abc04fc"><div class="ttname"><a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a4bab8959d29ee868fb6b3e1f9abc04fc">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::load</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:80</div></div>
+<div class="ttc" id="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4_html_a7d9027453aa78d4448d70dc44307791e"><div class="ttname"><a href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a7d9027453aa78d4448d70dc44307791e">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::load</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void load(AccessType &amp;dst, double const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:122</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/matrix__traits_8h.html b/docs/matrix__traits_8h.html
index f83c89f0df..097d5f4ae5 100644
--- a/docs/matrix__traits_8h.html
+++ b/docs/matrix__traits_8h.html
@@ -82,17 +82,39 @@
 
 <p>Defines properties of matrices used to denote layout and operands to GEMM kernels.  
 <a href="#details">More...</a></p>
-
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+</div>
 <p><a href="matrix__traits_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout.html">cutlass::MatrixLayout</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Describes layouts of matrices.  <a href="structcutlass_1_1MatrixLayout.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines data layouts of various matrix formats usable by <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> and other classes.  <a href="structcutlass_1_1MatrixLayout.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">cutlass::MatrixLayout::RowMajor</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Mapping function for row-major matrices.  <a href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">cutlass::MatrixLayout::ColumnMajor</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Mapping function for column-major matrices.  <a href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">cutlass::MatrixLayout::ContiguousLayout</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1GemmOperand.html">cutlass::GemmOperand</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gemm operand - D = A * B + C.  <a href="structcutlass_1_1GemmOperand.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixTransform.html">cutlass::MatrixTransform</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformation applied to matrix operands.  <a href="structcutlass_1_1MatrixTransform.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
 Namespaces</h2></td></tr>
@@ -102,7 +124,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/matrix__traits_8h_source.html b/docs/matrix__traits_8h_source.html
index 9f8de2dc64..2e78c5a2b0 100644
--- a/docs/matrix__traits_8h_source.html
+++ b/docs/matrix__traits_8h_source.html
@@ -76,21 +76,88 @@
 <div class="title">matrix_traits.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="matrix__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout.html">   35</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a> {</div><div class="line"><a name="l00036"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">   36</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">Kind</a> { <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">kRowMajor</a>, <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">kColumnMajor</a> };</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;};</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1GemmOperand.html">   42</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a> {</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">   43</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">Kind</a> { <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">kA</a>, <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">kB</a>, <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">kC</a>, <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe">kD</a> };</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;};</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html">cutlass::MatrixLayout</a></div><div class="ttdoc">Describes layouts of matrices. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:35</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html">cutlass::GemmOperand</a></div><div class="ttdoc">Gemm operand - D = A * B + C. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:42</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe">cutlass::GemmOperand::kD</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<a href="matrix__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&lt;2, int&gt; {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">   41</a></span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a>;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">   44</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2, Index&gt;</a> <a class="code" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a>;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a5149f4a37407746407251efc0779bb53">   47</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixCoord.html#a5149f4a37407746407251efc0779bb53">kRow</a> = 0;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a1e096b25138e027c31ea8624729ec433">   50</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixCoord.html#a1e096b25138e027c31ea8624729ec433">kColumn</a> = 1;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">   58</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">MatrixCoord</a>() { }</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a64bddbf8238dc937a01a140722f7f39c">   62</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html#a64bddbf8238dc937a01a140722f7f39c">MatrixCoord</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2, Index&gt;</a> <span class="keyword">const</span> &amp;coord): <a class="code" href="structcutlass_1_1Coord.html">Base</a>(coord) { }</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#ac77b18e67be18cfdfe1935939e7f2017">   66</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html#ac77b18e67be18cfdfe1935939e7f2017">MatrixCoord</a>(<a class="code" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> <a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>, <a class="code" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> <a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>): <a class="code" href="structcutlass_1_1Coord.html">Base</a>(<a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>, <a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>)) { }</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">   70</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> <span class="keyword">const</span> &amp; <a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kRow); }</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a67f3102e51abad1205e8a3450e7a6c7e">   74</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> &amp; <a class="code" href="structcutlass_1_1MatrixCoord.html#a67f3102e51abad1205e8a3450e7a6c7e">row</a>() { <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kRow); }</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">   78</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> <span class="keyword">const</span> &amp; <a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kColumn); }</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a093f5e568a81c6464dbf4aef996c32ba">   82</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> &amp; <a class="code" href="structcutlass_1_1MatrixCoord.html#a093f5e568a81c6464dbf4aef996c32ba">column</a>() { <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kColumn); }</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;  <span class="comment">// Coord operators</span></div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a25236953237f965965b1c9b7a04ba26e">   90</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <a class="code" href="structcutlass_1_1MatrixCoord.html#a25236953237f965965b1c9b7a04ba26e">operator+</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">MatrixCoord</a>(Base::operator+(b));</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  }</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#aa462303d75a5d98b680b6e20080ce877">   96</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <a class="code" href="structcutlass_1_1MatrixCoord.html#aa462303d75a5d98b680b6e20080ce877">operator-</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">MatrixCoord</a>(Base::operator-(b));</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;  }</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#ac68a57c17811b0a04dc6fb21423ab226">  102</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <a class="code" href="structcutlass_1_1MatrixCoord.html#ac68a57c17811b0a04dc6fb21423ab226">operator*</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">MatrixCoord</a>(Base::operator*(b));</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  }</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#aa89b196410d25d8c9ed3746fb6833374">  108</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <a class="code" href="structcutlass_1_1MatrixCoord.html#aa89b196410d25d8c9ed3746fb6833374">operator/</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">MatrixCoord</a>(Base::operator/(b));</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  }</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#ad105615dbf7ede75caa0e778c873bd06">  114</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&amp; <a class="code" href="structcutlass_1_1MatrixCoord.html#ad105615dbf7ede75caa0e778c873bd06">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">Base::operator+=</a>(b);</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;  }</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00121"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a6feef48cf24733d22ca53a27cbc33ac0">  121</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&amp; <a class="code" href="structcutlass_1_1MatrixCoord.html#a6feef48cf24733d22ca53a27cbc33ac0">operator-=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">Base::operator-=</a>(b);</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;  }</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#a5fd3c3b58af1147a5c73657c05a16f5b">  128</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&amp; <a class="code" href="structcutlass_1_1MatrixCoord.html#a5fd3c3b58af1147a5c73657c05a16f5b">operator*=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">Base::operator*=</a>(b);</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  }</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00135"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixCoord.html#aab345c8ddb8048bfe3d667bc7ce6522f">  135</a></span>&#160;  <a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&amp; <a class="code" href="structcutlass_1_1MatrixCoord.html#aab345c8ddb8048bfe3d667bc7ce6522f">operator/=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">Base::operator/=</a>(b);</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  }</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;};</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;<span class="comment">// The following define classes satisfying the TensorRefMapFunc concept. These must support the</span></div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;<span class="comment">// following operations, where func is an instance of type TensorRefMapFunc.</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;<span class="comment">//   Coord&lt;TensorRefMapFunc::kStorageRank&gt; = func(Coord&lt;kRank&gt;);</span></div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;<span class="comment">// Though not required to be usable by TensorRef, each of the following also define a helper</span></div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;<span class="comment">// function to map the &quot;leading dimension&quot; to an appropriate stride vector. Implementations</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;<span class="comment">// following this convention should also implement the following static method:</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;<span class="comment">//   Coord&lt;TensorRefMapFunc::kStorageRank&gt; stride = TensorRefMapFunc::stride(leading_dim);</span></div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00156"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout.html">  156</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a> {</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">  159</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">Kind</a> { <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">kRowMajor</a>, <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">kColumnMajor</a> };</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;  <span class="comment">// TensorRefMapFunc definitions for common layouts</span></div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">  166</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">RowMajor</a> {</div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30">  167</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30">kStorageRank</a> = 2;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a736620aef395e4224d7aae098573aa34">  170</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a736620aef395e4224d7aae098573aa34">operator()</a>(<a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <span class="keyword">const</span> &amp;coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;      <span class="keywordflow">return</span> coord;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;    }</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;  };</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;</div><div class="line"><a name="l00176"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">  176</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">ColumnMajor</a> {</div><div class="line"><a name="l00177"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70">  177</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70">kStorageRank</a> = 2;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00180"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#af51e07c6605524581e5d27d290c8b8d2">  180</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#af51e07c6605524581e5d27d290c8b8d2">operator()</a>(<a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <span class="keyword">const</span> &amp;coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>(), coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>());</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    }</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;  };</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Interleave&gt;</div><div class="line"><a name="l00188"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">  188</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">RowMajorInterleaved</a> {</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">  191</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">kStorageRank</a> = 3;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">  194</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">kInterleave</a> = Interleave;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a5199cb7f7c10f6123c63703453b7937c">  198</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a5199cb7f7c10f6123c63703453b7937c">operator()</a>(<a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <span class="keyword">const</span> &amp;coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>() / <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">kInterleave</a>,</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>(),</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>() % <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">kInterleave</a></div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;      );</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;    }</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00208"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a56f728be8b1a3e71f4f322e1dbfb3495">  208</a></span>&#160;    <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a56f728be8b1a3e71f4f322e1dbfb3495">stride</a>(<span class="keywordtype">int</span> ldm) {</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;        ldm * <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">kInterleave</a>,</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;        <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">kInterleave</a>,</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;        1</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;      );</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;    }</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;  };</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Interleave&gt;</div><div class="line"><a name="l00220"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">  220</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">ColumnMajorInterleaved</a> {</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">  223</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">kStorageRank</a> = 3;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;</div><div class="line"><a name="l00226"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">  226</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">kInterleave</a> = Interleave;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00230"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dbf79e5df5bcf52d54a699d2587319d">  230</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dbf79e5df5bcf52d54a699d2587319d">operator()</a>(<a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <span class="keyword">const</span> &amp;coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>() / <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">kInterleave</a>,</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>(),</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>() % <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">kInterleave</a></div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;      );</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;    }</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00240"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dab2c5aee6958c9d99109183401f41f">  240</a></span>&#160;    <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dab2c5aee6958c9d99109183401f41f">stride</a>(<span class="keywordtype">int</span> ldm) {</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;        ldm * <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">kInterleave</a>,</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;        <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">kInterleave</a>,</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;        1</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      );</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;    }</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;  };</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;</div><div class="line"><a name="l00251"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">  251</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">ContiguousLayout</a> {</div><div class="line"><a name="l00253"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">  253</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">kStorageRank</a> = 3;</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;</div><div class="line"><a name="l00256"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#ae97a9ba9d5045bef258d8994eb732256">  256</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#ae97a9ba9d5045bef258d8994eb732256">kRow</a> = 0;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div><div class="line"><a name="l00259"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#adb3b8cccf1ac91265fff998a3d48f5e7">  259</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#adb3b8cccf1ac91265fff998a3d48f5e7">kColumn</a> = 1;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00264"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a512248a443c5914fab6aeabc4a73978e">  264</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a512248a443c5914fab6aeabc4a73978e">operator()</a>(<a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <span class="keyword">const</span> &amp;coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;        <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>(), coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>(), 0);</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;    }</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00270"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#aa3c5b8d44216fdeeee9cce5e38ce418b">  270</a></span>&#160;    <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#aa3c5b8d44216fdeeee9cce5e38ce418b">stride</a>(<a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> layout, <span class="keywordtype">int</span> ldm) {</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;      <span class="keywordflow">if</span> (layout == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>) {</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;        <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(ldm, 1, 1);</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;      }</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(1, ldm, 1);</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;    }</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;  };</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> BlockRows, <span class="keywordtype">int</span> BlockColumns&gt;</div><div class="line"><a name="l00281"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">  281</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">ColumnMajorBlockLinear</a> {</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;</div><div class="line"><a name="l00284"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">  284</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">kStorageRank</a> = 4;</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;</div><div class="line"><a name="l00287"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">  287</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">kBlockRows</a> = BlockRows;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00290"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">  290</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">kBlockColumns</a> = BlockColumns;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00294"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a24c06bb7e64a8015ac528b3ae954a689">  294</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a24c06bb7e64a8015ac528b3ae954a689">operator()</a>(<a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <span class="keyword">const</span> &amp;coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>() / <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">kBlockColumns</a>,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>() / <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">kBlockRows</a>,</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>() % <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">kBlockColumns</a>,</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>() % <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">kBlockRows</a></div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;      );</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;    }</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00305"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#abb88bd43e5493682d1132c550b734a36">  305</a></span>&#160;    <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#abb88bd43e5493682d1132c550b734a36">stride</a>(<span class="keywordtype">int</span> ldm) {</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;        ldm * <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">kBlockRows</a> * <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">kBlockColumns</a>,</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;        <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">kBlockRows</a> * <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">kBlockColumns</a>,</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;        <a class="code" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">kBlockRows</a>,</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;        1</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;      );</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;    }</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;  };</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;  <span class="keyword">template</span> &lt;<span class="keywordtype">int</span> BlockRows, <span class="keywordtype">int</span> BlockColumns&gt;</div><div class="line"><a name="l00318"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">  318</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">RowMajorBlockLinear</a> {</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;</div><div class="line"><a name="l00321"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">  321</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">kStorageRank</a> = 4;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;</div><div class="line"><a name="l00324"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">  324</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">kBlockRows</a> = BlockRows;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;</div><div class="line"><a name="l00327"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">  327</a></span>&#160;    <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">kBlockColumns</a> = BlockColumns;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00331"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#abde0a4a7c487da0c78ea2519323c04af">  331</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#abde0a4a7c487da0c78ea2519323c04af">operator()</a>(<a class="code" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> <span class="keyword">const</span> &amp;coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>() / <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">kBlockRows</a>,</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>() / <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">kBlockColumns</a>,</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>() % <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">kBlockRows</a>,</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;        coord.<a class="code" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>() % <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">kBlockColumns</a></div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;      );</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;    }</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00342"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a1b25b4a7061d81041a8e2a548128ca71">  342</a></span>&#160;    <span class="keyword">static</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a1b25b4a7061d81041a8e2a548128ca71">stride</a>(<span class="keywordtype">int</span> ldm) {</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;        ldm * <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">kBlockRows</a> * <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">kBlockColumns</a>,</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;        <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">kBlockRows</a> * <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">kBlockColumns</a>,</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;        <a class="code" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">kBlockColumns</a>,</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;        1</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;      );</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;    }</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;  };</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;};</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00356"></a><span class="lineno"><a class="line" href="structcutlass_1_1GemmOperand.html">  356</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1GemmOperand.html">GemmOperand</a> {</div><div class="line"><a name="l00357"></a><span class="lineno"><a class="line" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">  357</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">Kind</a> { <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">kA</a>, <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">kB</a>, <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">kC</a>, <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe">kD</a> };</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;};</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;</div><div class="line"><a name="l00363"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixTransform.html">  363</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1MatrixTransform.html">MatrixTransform</a> {</div><div class="line"><a name="l00364"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48">  364</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48">Kind</a> {</div><div class="line"><a name="l00365"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5">  365</a></span>&#160;    <a class="code" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5">kNone</a>,       </div><div class="line"><a name="l00366"></a><span class="lineno"><a class="line" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683">  366</a></span>&#160;    <a class="code" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683">kConjugate</a>,  </div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;  };</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;};</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1MatrixCoord_html_a33eea222c3dcaf22cf62502e41afb24f"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">cutlass::MatrixCoord::Index</a></div><div class="ttdeci">int Index</div><div class="ttdoc">Integer-valued index. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:41</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajor_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">cutlass::MatrixLayout::ColumnMajor</a></div><div class="ttdoc">Mapping function for column-major matrices. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:176</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear_html_a8ee57a9b5364f20890c5d3ace21c4b4e"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">cutlass::MatrixLayout::RowMajorBlockLinear::kBlockColumns</a></div><div class="ttdeci">static int const kBlockColumns</div><div class="ttdoc">Interleaving size in columns dimension. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:327</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved_html_a9dbf79e5df5bcf52d54a699d2587319d"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dbf79e5df5bcf52d54a699d2587319d">cutlass::MatrixLayout::ColumnMajorInterleaved::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; operator()(MatrixCoord const &amp;coord) const</div><div class="ttdoc">Maps (row, col) to (col, row, col) </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:230</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajor_html_a736620aef395e4224d7aae098573aa34"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a736620aef395e4224d7aae098573aa34">cutlass::MatrixLayout::RowMajor::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; operator()(MatrixCoord const &amp;coord) const</div><div class="ttdoc">Maps (i, j) to (i, j) </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:170</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixTransform_html"><div class="ttname"><a href="structcutlass_1_1MatrixTransform.html">cutlass::MatrixTransform</a></div><div class="ttdoc">Transformation applied to matrix operands. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:363</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:188</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear_html_a0c2fe4bc9ffbc347f14dad8ffb4f7b21"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">cutlass::MatrixLayout::ColumnMajorBlockLinear::kBlockColumns</a></div><div class="ttdeci">static int const kBlockColumns</div><div class="ttdoc">Interleaving size in columns dimension. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:290</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixTransform_html_abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5"><div class="ttname"><a href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5">cutlass::MatrixTransform::kNone</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:365</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:281</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:220</div></div>
+<div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixTransform_html_abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683"><div class="ttname"><a href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683">cutlass::MatrixTransform::kConjugate</a></div><div class="ttdoc">no operation </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:366</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_aab345c8ddb8048bfe3d667bc7ce6522f"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#aab345c8ddb8048bfe3d667bc7ce6522f">cutlass::MatrixCoord::operator/=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord &amp; operator/=(Base const &amp;b)</div><div class="ttdoc">In-place division. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:135</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajor_html_a87fe43681c95afc9ef46818fd84d9f30"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30">cutlass::MatrixLayout::RowMajor::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:167</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ContiguousLayout_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">cutlass::MatrixLayout::ContiguousLayout</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:251</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajor_html_af51e07c6605524581e5d27d290c8b8d2"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#af51e07c6605524581e5d27d290c8b8d2">cutlass::MatrixLayout::ColumnMajor::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; operator()(MatrixCoord const &amp;coord) const</div><div class="ttdoc">Maps (i, j) to (j, i) </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:180</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixTransform_html_abf79785f7ae47385d0bbc38d0c431f48"><div class="ttname"><a href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48">cutlass::MatrixTransform::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:364</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a07f7e0ff4347aa6d75a5b3a63676d51d"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">cutlass::MatrixCoord::Base</a></div><div class="ttdeci">Coord&lt; 2, Index &gt; Base</div><div class="ttdoc">Base type is a Coord of rank=2. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a25236953237f965965b1c9b7a04ba26e"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a25236953237f965965b1c9b7a04ba26e">cutlass::MatrixCoord::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord operator+(Base const &amp;b) const</div><div class="ttdoc">Element-wise addition. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ad4303b578b72b5cb2a0198375290e168"><div class="ttname"><a href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">cutlass::Coord::operator*=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator*=(Coord const &amp;b)</div><div class="ttdoc">In-place multiplication. </div><div class="ttdef"><b>Definition:</b> coord.h:197</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ContiguousLayout_html_ae97a9ba9d5045bef258d8994eb732256"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#ae97a9ba9d5045bef258d8994eb732256">cutlass::MatrixLayout::ContiguousLayout::kRow</a></div><div class="ttdeci">static int const kRow</div><div class="ttdoc">Dimension of rows. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:256</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajor_html_ab6be000553d79c0a6e39ccabe1f38c70"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70">cutlass::MatrixLayout::ColumnMajor::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:177</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear_html_ada7a9316475bb6b2f4e7a70bc654ef5b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">cutlass::MatrixLayout::ColumnMajorBlockLinear::kBlockRows</a></div><div class="ttdeci">static int const kBlockRows</div><div class="ttdoc">Interleaving size in rows dimension. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:287</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html">cutlass::MatrixLayout</a></div><div class="ttdoc">Defines data layouts of various matrix formats usable by TensorRef and other classes. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:156</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved_html_aea33a554c0b02e455fba76c945527143"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">cutlass::MatrixLayout::RowMajorInterleaved::kInterleave</a></div><div class="ttdeci">static int const kInterleave</div><div class="ttdoc">Interleaving size. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:194</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a6a34cc85c9816263982e6253fe02abf9"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">cutlass::MatrixCoord::column</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; column() const</div><div class="ttdoc">Returns the column of the coordinate. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:78</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_ac77b18e67be18cfdfe1935939e7f2017"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#ac77b18e67be18cfdfe1935939e7f2017">cutlass::MatrixCoord::MatrixCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord(Index row, Index column)</div><div class="ttdoc">Helper to construct from a row and column. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:66</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved_html_a56f728be8b1a3e71f4f322e1dbfb3495"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a56f728be8b1a3e71f4f322e1dbfb3495">cutlass::MatrixLayout::RowMajorInterleaved::stride</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; stride(int ldm)</div><div class="ttdoc">Helper to compute stride vector from leading dimension. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:208</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ContiguousLayout_html_adb3b8cccf1ac91265fff998a3d48f5e7"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#adb3b8cccf1ac91265fff998a3d48f5e7">cutlass::MatrixLayout::ContiguousLayout::kColumn</a></div><div class="ttdeci">static int const kColumn</div><div class="ttdoc">Dimension of columns. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:259</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved_html_a7be6d445e879f042a0b8aa2c9a378800"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">cutlass::MatrixLayout::RowMajorInterleaved::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdoc">Rank of storage n-D array. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:191</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a304334cbcad636d7b058fdc6310f0e6b"><div class="ttname"><a href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">cutlass::Coord::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator-=(Coord const &amp;b)</div><div class="ttdoc">In-place subtraction. </div><div class="ttdef"><b>Definition:</b> coord.h:188</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ContiguousLayout_html_a68bde445429b6b3a5156460eaff6a8a7"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">cutlass::MatrixLayout::ContiguousLayout::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdoc">Arbitrary storage rank. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:253</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ae4f2cb12b84411118cb93e7c4cb88b20"><div class="ttname"><a href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">cutlass::Coord::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator+=(Coord const &amp;b)</div><div class="ttdoc">In-place addition. </div><div class="ttdef"><b>Definition:</b> coord.h:179</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved_html_a5199cb7f7c10f6123c63703453b7937c"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a5199cb7f7c10f6123c63703453b7937c">cutlass::MatrixLayout::RowMajorInterleaved::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; operator()(MatrixCoord const &amp;coord) const</div><div class="ttdoc">Maps (row, col) to (row, col, row) </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:198</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear_html_a64cf7313c507bb13e010850d6a2ff922"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">cutlass::MatrixLayout::RowMajorBlockLinear::kBlockRows</a></div><div class="ttdeci">static int const kBlockRows</div><div class="ttdoc">Interleaving size in rows dimension. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:324</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a525949dd8a6b631e755511764848e546"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">cutlass::MatrixCoord::row</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; row() const</div><div class="ttdoc">Returns the row of the coordinate. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:70</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a9eff24a3b74b68d11839b92324613c93"><div class="ttname"><a href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">cutlass::Coord&lt; 2, int &gt;::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; at()</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:240</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ac87199c4c9a4e20aac4eb6e3b9a68f28"><div class="ttname"><a href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">cutlass::Coord::operator/=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator/=(Coord const &amp;b)</div><div class="ttdoc">In-place division. </div><div class="ttdef"><b>Definition:</b> coord.h:206</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_aa462303d75a5d98b680b6e20080ce877"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#aa462303d75a5d98b680b6e20080ce877">cutlass::MatrixCoord::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord operator-(Base const &amp;b) const</div><div class="ttdoc">Element-wise subtraction. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:96</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a64bddbf8238dc937a01a140722f7f39c"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a64bddbf8238dc937a01a140722f7f39c">cutlass::MatrixCoord::MatrixCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord(Coord&lt; 2, Index &gt; const &amp;coord)</div><div class="ttdoc">Constructs from Coord&lt;2&gt; </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear_html_ab1ef1db408fd1e4bda8d6ef203d50c3d"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">cutlass::MatrixLayout::RowMajorBlockLinear::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdoc">Rank of storage n-D array. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:321</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:49</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html">cutlass::GemmOperand</a></div><div class="ttdoc">Gemm operand - D = A * B + C. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:356</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear_html_a1b25b4a7061d81041a8e2a548128ca71"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a1b25b4a7061d81041a8e2a548128ca71">cutlass::MatrixLayout::RowMajorBlockLinear::stride</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; stride(int ldm)</div><div class="ttdoc">Helper to compute stride vector from leading dimension. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:342</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a5149f4a37407746407251efc0779bb53"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a5149f4a37407746407251efc0779bb53">cutlass::MatrixCoord::kRow</a></div><div class="ttdeci">static int const kRow</div><div class="ttdoc">Rows dimension. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:47</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a6feef48cf24733d22ca53a27cbc33ac0"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a6feef48cf24733d22ca53a27cbc33ac0">cutlass::MatrixCoord::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord &amp; operator-=(Base const &amp;b)</div><div class="ttdoc">In-place subtraction. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:121</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_ac68a57c17811b0a04dc6fb21423ab226"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#ac68a57c17811b0a04dc6fb21423ab226">cutlass::MatrixCoord::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord operator*(Base const &amp;b) const</div><div class="ttdoc">Element-wise multiplication. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:102</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved_html_a9dab2c5aee6958c9d99109183401f41f"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dab2c5aee6958c9d99109183401f41f">cutlass::MatrixLayout::ColumnMajorInterleaved::stride</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; stride(int ldm)</div><div class="ttdoc">Helper to compute stride vector from leading dimension. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:240</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ContiguousLayout_html_a512248a443c5914fab6aeabc4a73978e"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a512248a443c5914fab6aeabc4a73978e">cutlass::MatrixLayout::ContiguousLayout::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; operator()(MatrixCoord const &amp;coord) const</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:264</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a67f3102e51abad1205e8a3450e7a6c7e"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a67f3102e51abad1205e8a3450e7a6c7e">cutlass::MatrixCoord::row</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; row()</div><div class="ttdoc">Returns the row of the coordinate. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:74</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear_html_a626305f3e11ad87e8185e028095a91d3"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">cutlass::MatrixLayout::ColumnMajorBlockLinear::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdoc">Rank of storage n-D array. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:284</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved_html_ae0ff392e62f2af6614ab502df0cdbab7"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">cutlass::MatrixLayout::ColumnMajorInterleaved::kInterleave</a></div><div class="ttdeci">static int const kInterleave</div><div class="ttdoc">Interleaving size. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:226</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear_html_abde0a4a7c487da0c78ea2519323c04af"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#abde0a4a7c487da0c78ea2519323c04af">cutlass::MatrixLayout::RowMajorBlockLinear::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; operator()(MatrixCoord const &amp;coord) const</div><div class="ttdoc">Maps (row, col) to (row, col, row, col) </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:331</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a093f5e568a81c6464dbf4aef996c32ba"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a093f5e568a81c6464dbf4aef996c32ba">cutlass::MatrixCoord::column</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; column()</div><div class="ttdoc">Returns the column of the coordinate. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:82</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a5fd3c3b58af1147a5c73657c05a16f5b"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a5fd3c3b58af1147a5c73657c05a16f5b">cutlass::MatrixCoord::operator*=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord &amp; operator*=(Base const &amp;b)</div><div class="ttdoc">In-place multiplication. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:128</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved_html_af32144a5875e5db43cf395307a4ab00f"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">cutlass::MatrixLayout::ColumnMajorInterleaved::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdoc">Rank of storage n-D array. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:223</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_ad105615dbf7ede75caa0e778c873bd06"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#ad105615dbf7ede75caa0e778c873bd06">cutlass::MatrixCoord::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord &amp; operator+=(Base const &amp;b)</div><div class="ttdoc">In-place addition. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:114</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear_html_abb88bd43e5493682d1132c550b734a36"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#abb88bd43e5493682d1132c550b734a36">cutlass::MatrixLayout::ColumnMajorBlockLinear::stride</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; stride(int ldm)</div><div class="ttdoc">Helper to compute stride vector from leading dimension. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:305</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear_html_a24c06bb7e64a8015ac528b3ae954a689"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a24c06bb7e64a8015ac528b3ae954a689">cutlass::MatrixLayout::ColumnMajorBlockLinear::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; operator()(MatrixCoord const &amp;coord) const</div><div class="ttdoc">Maps (row, col) to (col, row, col, row) </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:294</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1ContiguousLayout_html_aa3c5b8d44216fdeeee9cce5e38ce418b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#aa3c5b8d44216fdeeee9cce5e38ce418b">cutlass::MatrixLayout::ContiguousLayout::stride</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE Coord&lt; kStorageRank &gt; stride(MatrixLayout::Kind layout, int ldm)</div><div class="ttdoc">Helper to construct a stride vector based on contiguous matrix layout and leading dimension...</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:270</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:38</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_aa89b196410d25d8c9ed3746fb6833374"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#aa89b196410d25d8c9ed3746fb6833374">cutlass::MatrixCoord::operator/</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord operator/(Base const &amp;b) const</div><div class="ttdoc">Element-wise division. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:108</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a1e096b25138e027c31ea8624729ec433"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a1e096b25138e027c31ea8624729ec433">cutlass::MatrixCoord::kColumn</a></div><div class="ttdeci">static int const kColumn</div><div class="ttdoc">Columns dimension. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:50</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixCoord_html_a36a8a680a466b55325eb0c0cb9fc29c6"><div class="ttname"><a href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">cutlass::MatrixCoord::MatrixCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE MatrixCoord()</div><div class="ttdoc">Default ctor. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:58</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe">cutlass::GemmOperand::kD</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_1_1RowMajor_html"><div class="ttname"><a href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">cutlass::MatrixLayout::RowMajor</a></div><div class="ttdoc">Mapping function for row-major matrices. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:166</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/menudata.js b/docs/menudata.js
index 725988aa85..dde1bbfea2 100644
--- a/docs/menudata.js
+++ b/docs/menudata.js
@@ -29,24 +29,33 @@ var menudata={children:[
 {text:"Namespace Members",url:"namespacemembers.html",children:[
 {text:"All",url:"namespacemembers.html",children:[
 {text:"_",url:"namespacemembers.html#index__"},
+{text:"a",url:"namespacemembers.html#index_a"},
 {text:"c",url:"namespacemembers.html#index_c"},
+{text:"e",url:"namespacemembers.html#index_e"},
 {text:"f",url:"namespacemembers.html#index_f"},
 {text:"g",url:"namespacemembers.html#index_g"},
 {text:"i",url:"namespacemembers.html#index_i"},
 {text:"l",url:"namespacemembers.html#index_l"},
 {text:"m",url:"namespacemembers.html#index_m"},
+{text:"n",url:"namespacemembers.html#index_n"},
 {text:"o",url:"namespacemembers.html#index_o"},
+{text:"p",url:"namespacemembers.html#index_p"},
 {text:"r",url:"namespacemembers.html#index_r"},
 {text:"s",url:"namespacemembers.html#index_s"},
 {text:"t",url:"namespacemembers.html#index_t"}]},
 {text:"Functions",url:"namespacemembers_func.html",children:[
 {text:"_",url:"namespacemembers_func.html#index__"},
+{text:"a",url:"namespacemembers_func.html#index_a"},
 {text:"c",url:"namespacemembers_func.html#index_c"},
+{text:"e",url:"namespacemembers_func.html#index_e"},
+{text:"f",url:"namespacemembers_func.html#index_f"},
 {text:"g",url:"namespacemembers_func.html#index_g"},
 {text:"i",url:"namespacemembers_func.html#index_i"},
 {text:"l",url:"namespacemembers_func.html#index_l"},
 {text:"m",url:"namespacemembers_func.html#index_m"},
+{text:"n",url:"namespacemembers_func.html#index_n"},
 {text:"o",url:"namespacemembers_func.html#index_o"},
+{text:"p",url:"namespacemembers_func.html#index_p"},
 {text:"r",url:"namespacemembers_func.html#index_r"},
 {text:"s",url:"namespacemembers_func.html#index_s"}]},
 {text:"Typedefs",url:"namespacemembers_type.html"}]}]},
@@ -78,6 +87,7 @@ var menudata={children:[
 {text:"v",url:"functions_v.html#index_v"},
 {text:"w",url:"functions_w.html#index_w"},
 {text:"y",url:"functions_y.html#index_y"},
+{text:"z",url:"functions_z.html#index_z"},
 {text:"~",url:"functions_0x7e.html#index_0x7e"}]},
 {text:"Functions",url:"functions_func.html",children:[
 {text:"a",url:"functions_func.html#index_a"},
@@ -89,8 +99,10 @@ var menudata={children:[
 {text:"g",url:"functions_func_g.html#index_g"},
 {text:"h",url:"functions_func_h.html#index_h"},
 {text:"i",url:"functions_func_i.html#index_i"},
+{text:"k",url:"functions_func_k.html#index_k"},
 {text:"l",url:"functions_func_l.html#index_l"},
 {text:"m",url:"functions_func_m.html#index_m"},
+{text:"n",url:"functions_func_n.html#index_n"},
 {text:"o",url:"functions_func_o.html#index_o"},
 {text:"p",url:"functions_func_p.html#index_p"},
 {text:"r",url:"functions_func_r.html#index_r"},
@@ -99,6 +111,7 @@ var menudata={children:[
 {text:"u",url:"functions_func_u.html#index_u"},
 {text:"v",url:"functions_func_v.html#index_v"},
 {text:"w",url:"functions_func_w.html#index_w"},
+{text:"z",url:"functions_func_z.html#index_z"},
 {text:"~",url:"functions_func_0x7e.html#index_0x7e"}]},
 {text:"Variables",url:"functions_vars.html",children:[
 {text:"a",url:"functions_vars.html#index_a"},
@@ -113,6 +126,7 @@ var menudata={children:[
 {text:"l",url:"functions_vars_l.html#index_l"},
 {text:"m",url:"functions_vars_m.html#index_m"},
 {text:"n",url:"functions_vars_n.html#index_n"},
+{text:"o",url:"functions_vars_o.html#index_o"},
 {text:"p",url:"functions_vars_p.html#index_p"},
 {text:"r",url:"functions_vars_r.html#index_r"},
 {text:"s",url:"functions_vars_s.html#index_s"},
@@ -127,6 +141,7 @@ var menudata={children:[
 {text:"f",url:"functions_type_f.html#index_f"},
 {text:"g",url:"functions_type_g.html#index_g"},
 {text:"i",url:"functions_type_i.html#index_i"},
+{text:"k",url:"functions_type_k.html#index_k"},
 {text:"l",url:"functions_type_l.html#index_l"},
 {text:"m",url:"functions_type_m.html#index_m"},
 {text:"n",url:"functions_type_n.html#index_n"},
@@ -140,8 +155,10 @@ var menudata={children:[
 {text:"Enumerations",url:"functions_enum.html"},
 {text:"Enumerator",url:"functions_eval.html",children:[
 {text:"a",url:"functions_eval.html#index_a"},
+{text:"b",url:"functions_eval.html#index_b"},
 {text:"k",url:"functions_eval.html#index_k"},
 {text:"m",url:"functions_eval.html#index_m"},
+{text:"o",url:"functions_eval.html#index_o"},
 {text:"v",url:"functions_eval.html#index_v"}]}]}]},
 {text:"Files",url:"files.html",children:[
 {text:"File List",url:"files.html"},
diff --git a/docs/modules.html b/docs/modules.html
index c42247bd4f..8fc9084405 100644
--- a/docs/modules.html
+++ b/docs/modules.html
@@ -76,19 +76,20 @@
 <table class="directory">
 <tr id="row_0_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__fragment__concept.html" target="_self">Fragment Concept</a></td><td class="desc"></td></tr>
 <tr id="row_1_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__fragment__iterator__concept.html" target="_self">Fragment Iterator Concept</a></td><td class="desc"></td></tr>
-<tr id="row_2_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__predicate__vector__concept.html" target="_self">Predicate Vector Concept</a></td><td class="desc"></td></tr>
-<tr id="row_3_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__predicate__iterator__concept.html" target="_self">Predicate Iterator Concept</a></td><td class="desc"></td></tr>
-<tr id="row_4_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__predicate__tile__adapter.html" target="_self">Predicate Tile Adapter Concept</a></td><td class="desc"></td></tr>
-<tr id="row_5_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__layout__concept.html" target="_self">Layout Concept</a></td><td class="desc"></td></tr>
-<tr id="row_6_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__tile__traits__concept.html" target="_self">Tile Traits Concept</a></td><td class="desc"></td></tr>
-<tr id="row_7_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__tile__load__iterator__concept.html" target="_self">Tile Load Iterator Concept</a></td><td class="desc"></td></tr>
-<tr id="row_8_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__tile__store__iterator__concept.html" target="_self">Tile Store Iterator Concept</a></td><td class="desc"></td></tr>
+<tr id="row_2_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__IdentityBlockSwizzle.html" target="_self">Identity Block Swizzle</a></td><td class="desc"></td></tr>
+<tr id="row_3_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__predicate__vector__concept.html" target="_self">Predicate Vector Concept</a></td><td class="desc"></td></tr>
+<tr id="row_4_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__predicate__iterator__concept.html" target="_self">Predicate Iterator Concept</a></td><td class="desc"></td></tr>
+<tr id="row_5_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__predicate__tile__adapter.html" target="_self">Predicate Tile Adapter Concept</a></td><td class="desc"></td></tr>
+<tr id="row_6_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__layout__concept.html" target="_self">Layout Concept</a></td><td class="desc"></td></tr>
+<tr id="row_7_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__tile__traits__concept.html" target="_self">Tile Traits Concept</a></td><td class="desc"></td></tr>
+<tr id="row_8_" class="even"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__tile__load__iterator__concept.html" target="_self">Tile Load Iterator Concept</a></td><td class="desc"></td></tr>
+<tr id="row_9_"><td class="entry"><span style="width:16px;display:inline-block;">&#160;</span><a class="el" href="group__tile__store__iterator__concept.html" target="_self">Tile Store Iterator Concept</a></td><td class="desc"></td></tr>
 </table>
 </div><!-- directory -->
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/namespacecutlass.html b/docs/namespacecutlass.html
index 989135cbaf..4fb1ce9a28 100644
--- a/docs/namespacecutlass.html
+++ b/docs/namespacecutlass.html
@@ -79,6 +79,8 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
 Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass_1_1detail"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1detail.html">detail</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:namespacecutlass_1_1platform"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html">platform</a></td></tr>
@@ -88,24 +90,14 @@
 Classes</h2></td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html">ComputeOffsetFromShape</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube.  <a href="structcutlass_1_1ComputeOffsetFromShape.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html">ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube with one channel and a depth of 1.  <a href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html">ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube with a depth of 1.  <a href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html">ComputeOffsetFromStrides</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube.  <a href="structcutlass_1_1ComputeOffsetFromStrides.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html">ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube with one channel and a depth of 1.  <a href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html">ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube with a depth of 1.  <a href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">ComputeThreadOffsetFromStrides</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Decompose threadId.x into coordinate of a cube whose dimensions are specified by Threads_. Afterwards compute the offset of those coordinates using Strides_.  <a href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -129,6 +121,8 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1divide__assert.html">divide_assert</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1DumpType.html">DumpType</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Extent.html">Extent</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the extent of a scalar or vector.  <a href="structcutlass_1_1Extent.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -143,44 +137,50 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">FragmentConstIterator</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix.  <a href="structcutlass_1_1FragmentElementType.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html">FragmentIterator</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">A template defining <a class="el" href="group__fragment__iterator__concept.html">Fragment Iterator Concept</a>.  <a href="structcutlass_1_1FragmentIterator.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentLoad.html">FragmentLoad</a></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html">FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html">FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentStore.html">FragmentStore</a></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html">FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html">FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;</a></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1GemmOperand.html">GemmOperand</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gemm operand - D = A * B + C.  <a href="structcutlass_1_1GemmOperand.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Identity.html">Identity</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Describes identity elements.  <a href="structcutlass_1_1Identity.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html">IdentityTensorMapFunc</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1int4__t.html">int4_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1is__pow2.html">is_pow2</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1IteratorAdvance.html">IteratorAdvance</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1IteratorAdvance.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1IteratorFragment.html">IteratorFragment</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix.  <a href="structcutlass_1_1IteratorFragment.html#details">More...</a><br /></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">KernelLaunchConfiguration</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Structure containing the basic launch configuration of a CUDA kernel.  <a href="structcutlass_1_1KernelLaunchConfiguration.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load.html">Load</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html">Load&lt; double, 2, Memory_, true, 16 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html">Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html">Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for 16b loads.  <a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html">Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html">Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html">Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html">Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html">Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1log2__down.html">log2_down</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -190,22 +190,43 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html">log2_up&lt; N, 1, Count &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Describes layouts of matrices.  <a href="structcutlass_1_1MatrixLayout.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines data layouts of various matrix formats usable by <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> and other classes.  <a href="structcutlass_1_1MatrixLayout.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixTransform.html">MatrixTransform</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformation applied to matrix operands.  <a href="structcutlass_1_1MatrixTransform.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Max.html">Max</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Enum to specify which memory space data resides in.  <a href="structcutlass_1_1MemorySpace.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Min.html">Min</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">PredicatedTileLoadStream</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Generic stream for loading and transforming fragments.  <a href="structcutlass_1_1PredicatedTileLoadStream.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">PredicatedTileStoreStream</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Generic stream for transforming and storing fragments.  <a href="structcutlass_1_1PredicatedTileStoreStream.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicateTileAdapter.html">PredicateTileAdapter</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adapter to enable random access to predicates via logical coordinate within a tile.  <a href="structcutlass_1_1PredicateTileAdapter.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicateVector.html">PredicateVector</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Statically sized array of bits implementing.  <a href="structcutlass_1_1PredicateVector.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">RegularTilePredicateFunctor</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Functor computing a predicate given the logical position of an access.  <a href="structcutlass_1_1RegularTilePredicateFunctor.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html">ReshapeTile&lt; Tile_, kAccessSize_, true &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to enable formatted printing of CUTLASS scalar types to an ostream.  <a href="structcutlass_1_1ScalarIO.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Shape.html">Shape</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">A <a class="el" href="structcutlass_1_1Shape.html" title="A Shape implementing Layout Concept describing the dimensions of a cube. ">Shape</a> implementing <a class="el" href="group__layout__concept.html">Layout Concept</a> describing the dimensions of a cube.  <a href="structcutlass_1_1Shape.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -216,6 +237,8 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeDivCeiling.html">ShapeDivCeiling</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeMax.html">ShapeMax</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeMin.html">ShapeMin</a></td></tr>
@@ -240,19 +263,34 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store.html">Store</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html">Store&lt; double, 2, Memory_, true, 16 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html">Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html">Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html">Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html">Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Structure modeling a pointer and stride into a tensor.  <a href="classcutlass_1_1TensorRef.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specialization for rank=1 case with no internal <a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html">StrideVector</a>.  <a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html">TensorView</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Host-side reference implementation of tensor operations.  <a href="classcutlass_1_1TensorView.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines a view into a logical tensor.  <a href="classcutlass_1_1TensorView.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html">TileAllocation</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Class for storing a tile in memory and accessing it through a tensor ref.  <a href="structcutlass_1_1TileAllocation.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TiledThreadOffset.html">TiledThreadOffset</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Basic thread offset function computed from a thread shape.  <a href="structcutlass_1_1TiledThreadOffset.html#details">More...</a><br /></td></tr>
@@ -263,9 +301,15 @@
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">An iterator implementing <a class="el" href="group__tile__load__iterator__concept.html">Tile Load Iterator Concept</a> for loading a tile from memory.  <a href="structcutlass_1_1TileLoadIterator.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Generic stream for loading and transforming fragments.  <a href="structcutlass_1_1TileLoadStream.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">An iterator implementing <a class="el" href="group__tile__store__iterator__concept.html">Tile Store Iterator Concept</a> for storing a tile to memory.  <a href="structcutlass_1_1TileStoreIterator.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Generic stream for transforming and storing fragments.  <a href="structcutlass_1_1TileStoreStream.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html">TileTraits</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">A template defining <a class="el" href="group__tile__traits__concept.html">Tile Traits Concept</a>.  <a href="structcutlass_1_1TileTraits.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -282,13 +326,30 @@
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TrivialPredicateTileAdapter.html">TrivialPredicateTileAdapter</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Always returns true predicate.  <a href="structcutlass_1_1TrivialPredicateTileAdapter.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">Vector&lt; bin1_t, kLanes_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 1-bit binary datatype.  <a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">Vector&lt; half, 1 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">Vector&lt; half, kLanes_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">Vector&lt; int4_t, kLanes_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 4-bit signed integer datatype.  <a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">Vector&lt; uint4_t, kLanes_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 4-bit unsigned integer datatype.  <a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html">Vectorize&lt; Element_, 1 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1VectorTraits.html">VectorTraits</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Traits describing properties of vectors and scalar-as-vectors.  <a href="structcutlass_1_1VectorTraits.html#details">More...</a><br /></td></tr>
@@ -299,6 +360,20 @@
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html">VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for actual <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>.  <a href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html">ZipConvert</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Zips two convert operations.  <a href="structcutlass_1_1ZipConvert.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">A template defining <a class="el" href="group__fragment__concept.html">Fragment Concept</a>.  <a href="structcutlass_1_1ZipFragment.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">ZipTileAllocation</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Manages a pair of tile allocations as if they are one allocation.  <a href="structcutlass_1_1ZipTileAllocation.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs an iterator from a pair of iterators.  <a href="classcutlass_1_1ZipTileIterator.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
 Functions</h2></td></tr>
@@ -314,85 +389,42 @@
 <tr class="memitem:a9410b1f5956d3aaf4584e65d047428fc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a9410b1f5956d3aaf4584e65d047428fc">make_Coord</a> (int _0, int _1, int _2, int _3)</td></tr>
 <tr class="memdesc:a9410b1f5956d3aaf4584e65d047428fc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to make a 4-element coordinate.  <a href="#a9410b1f5956d3aaf4584e65d047428fc">More...</a><br /></td></tr>
 <tr class="separator:a9410b1f5956d3aaf4584e65d047428fc"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7d2ab683e29b47d245e183ad5aeb962e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e">get_Coord_hw</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;coord)</td></tr>
-<tr class="memdesc:a7d2ab683e29b47d245e183ad5aeb962e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Getter.  <a href="#a7d2ab683e29b47d245e183ad5aeb962e">More...</a><br /></td></tr>
-<tr class="separator:a7d2ab683e29b47d245e183ad5aeb962e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a082e7a2e4acc2879468243f5732ccf0b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a082e7a2e4acc2879468243f5732ccf0b">get_Coord_hw</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;coord)</td></tr>
-<tr class="memdesc:a082e7a2e4acc2879468243f5732ccf0b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Getter.  <a href="#a082e7a2e4acc2879468243f5732ccf0b">More...</a><br /></td></tr>
-<tr class="separator:a082e7a2e4acc2879468243f5732ccf0b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a71f3e2a12b9e98be1fba082610fa9d4f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a71f3e2a12b9e98be1fba082610fa9d4f">get_Coord_hwc</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;coord)</td></tr>
-<tr class="memdesc:a71f3e2a12b9e98be1fba082610fa9d4f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Getter.  <a href="#a71f3e2a12b9e98be1fba082610fa9d4f">More...</a><br /></td></tr>
-<tr class="separator:a71f3e2a12b9e98be1fba082610fa9d4f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4680709eeeb679ef0219938f85f7394e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a4680709eeeb679ef0219938f85f7394e">get_Coord_dhw</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;coord)</td></tr>
-<tr class="memdesc:a4680709eeeb679ef0219938f85f7394e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Getter.  <a href="#a4680709eeeb679ef0219938f85f7394e">More...</a><br /></td></tr>
-<tr class="separator:a4680709eeeb679ef0219938f85f7394e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a90028a415a05ce09073860e5c761aa6f"><td class="memTemplParams" colspan="2">template&lt;typename Shape_ &gt; </td></tr>
+<tr class="memitem:a90028a415a05ce09073860e5c761aa6f"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a90028a415a05ce09073860e5c761aa6f">make_Coord_from_shape</a> ()</td></tr>
+<tr class="separator:a90028a415a05ce09073860e5c761aa6f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afe231b125bbb1e9aa51307a8abdf9a60"><td class="memTemplParams" colspan="2">template&lt;int Rank&gt; </td></tr>
+<tr class="memitem:afe231b125bbb1e9aa51307a8abdf9a60"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#afe231b125bbb1e9aa51307a8abdf9a60">operator&lt;&lt;</a> (std::ostream &amp;out, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank &gt; const &amp;coord)</td></tr>
+<tr class="separator:afe231b125bbb1e9aa51307a8abdf9a60"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a30ddfc5e90b9103840cb30c9f9b96b49"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a30ddfc5e90b9103840cb30c9f9b96b49"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a30ddfc5e90b9103840cb30c9f9b96b49">operator&lt;&lt;</a> (std::ostream &amp;out, <a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; T &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:a30ddfc5e90b9103840cb30c9f9b96b49"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default printing to ostream.  <a href="#a30ddfc5e90b9103840cb30c9f9b96b49">More...</a><br /></td></tr>
+<tr class="separator:a30ddfc5e90b9103840cb30c9f9b96b49"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a36690681ed19dc7e398fcdafdbfe9975"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:a36690681ed19dc7e398fcdafdbfe9975"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a36690681ed19dc7e398fcdafdbfe9975">operator&lt;&lt;</a> (std::ostream &amp;out, <a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; int8_t &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:a36690681ed19dc7e398fcdafdbfe9975"><td class="mdescLeft">&#160;</td><td class="mdescRight">Printing to ostream of int8_t as integer rather than character.  <a href="#a36690681ed19dc7e398fcdafdbfe9975">More...</a><br /></td></tr>
+<tr class="separator:a36690681ed19dc7e398fcdafdbfe9975"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1a35d6b9b984a9c143957db733a93f51"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:a1a35d6b9b984a9c143957db733a93f51"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a1a35d6b9b984a9c143957db733a93f51">operator&lt;&lt;</a> (std::ostream &amp;out, <a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; uint8_t &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:a1a35d6b9b984a9c143957db733a93f51"><td class="mdescLeft">&#160;</td><td class="mdescRight">Printing to ostream of uint8_t as integer rather than character.  <a href="#a1a35d6b9b984a9c143957db733a93f51">More...</a><br /></td></tr>
+<tr class="separator:a1a35d6b9b984a9c143957db733a93f51"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2fd306c63f71877f9231a7e1265752cf"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:a2fd306c63f71877f9231a7e1265752cf"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a2fd306c63f71877f9231a7e1265752cf">operator&lt;&lt;</a> (std::ostream &amp;out, <a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">cutlass::bin1_t</a>, 32 &gt; &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:a2fd306c63f71877f9231a7e1265752cf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Printing to ostream of vector of 1b elements.  <a href="#a2fd306c63f71877f9231a7e1265752cf">More...</a><br /></td></tr>
+<tr class="separator:a2fd306c63f71877f9231a7e1265752cf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aecf2cd62eee939946b7173a110ecf76e"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:aecf2cd62eee939946b7173a110ecf76e"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#aecf2cd62eee939946b7173a110ecf76e">operator&lt;&lt;</a> (std::ostream &amp;out, <a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">cutlass::int4_t</a>, 8 &gt; &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:aecf2cd62eee939946b7173a110ecf76e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Printing to ostream of vector of 4b signed integer elements.  <a href="#aecf2cd62eee939946b7173a110ecf76e">More...</a><br /></td></tr>
+<tr class="separator:aecf2cd62eee939946b7173a110ecf76e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3ceda5ed2d923222662a37e8f355c9b8"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:a3ceda5ed2d923222662a37e8f355c9b8"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a3ceda5ed2d923222662a37e8f355c9b8">operator&lt;&lt;</a> (std::ostream &amp;out, <a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">cutlass::uint4_t</a>, 8 &gt; &gt; const &amp;scalar)</td></tr>
+<tr class="memdesc:a3ceda5ed2d923222662a37e8f355c9b8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Printing to ostream of vector of 4b unsigned integer elements.  <a href="#a3ceda5ed2d923222662a37e8f355c9b8">More...</a><br /></td></tr>
+<tr class="separator:a3ceda5ed2d923222662a37e8f355c9b8"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a45dd7add04736cb5c3e69991d2f210be"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment &gt; </td></tr>
 <tr class="memitem:a45dd7add04736cb5c3e69991d2f210be"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">iterator_load</a> (InputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment)</td></tr>
-<tr class="memdesc:a45dd7add04736cb5c3e69991d2f210be"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator.  <a href="#a45dd7add04736cb5c3e69991d2f210be">More...</a><br /></td></tr>
 <tr class="separator:a45dd7add04736cb5c3e69991d2f210be"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abcec976c59cab75ca55b338d125154a3"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:abcec976c59cab75ca55b338d125154a3"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">shared_iterator_load</a> (InputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment)</td></tr>
-<tr class="memdesc:abcec976c59cab75ca55b338d125154a3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from a shared memory input iterator.  <a href="#abcec976c59cab75ca55b338d125154a3">More...</a><br /></td></tr>
-<tr class="separator:abcec976c59cab75ca55b338d125154a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa9416026c6db08d92a34c2ac08fea8c3"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:aa9416026c6db08d92a34c2ac08fea8c3"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#aa9416026c6db08d92a34c2ac08fea8c3">shared_iterator_load</a> (InputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment, int d)</td></tr>
-<tr class="memdesc:aa9416026c6db08d92a34c2ac08fea8c3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from a shared memory input iterator.  <a href="#aa9416026c6db08d92a34c2ac08fea8c3">More...</a><br /></td></tr>
-<tr class="separator:aa9416026c6db08d92a34c2ac08fea8c3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3965068d8a4fdfe5e05782930fb4fe6b"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:a3965068d8a4fdfe5e05782930fb4fe6b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">iterator_load_post_increment</a> (InputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment, typename InputIterator::Index offset, ConstPredicateAdapter predicate_adapter)</td></tr>
-<tr class="memdesc:a3965068d8a4fdfe5e05782930fb4fe6b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator, masked by a predicate iterator.  <a href="#a3965068d8a4fdfe5e05782930fb4fe6b">More...</a><br /></td></tr>
-<tr class="separator:a3965068d8a4fdfe5e05782930fb4fe6b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af5abe551df7461eab66aa43907063d6b"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:af5abe551df7461eab66aa43907063d6b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#af5abe551df7461eab66aa43907063d6b">iterator_load_post_increment</a> (InputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment, typename InputIterator::Index offset=0)</td></tr>
-<tr class="memdesc:af5abe551df7461eab66aa43907063d6b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator.  <a href="#af5abe551df7461eab66aa43907063d6b">More...</a><br /></td></tr>
-<tr class="separator:af5abe551df7461eab66aa43907063d6b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afb8e7a4e611e8b5ae7ca19d02f791d37"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:afb8e7a4e611e8b5ae7ca19d02f791d37"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#afb8e7a4e611e8b5ae7ca19d02f791d37">iterator_load_post_increment</a> (InputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment, ConstPredicateAdapter pred_it)</td></tr>
-<tr class="memdesc:afb8e7a4e611e8b5ae7ca19d02f791d37"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator.  <a href="#afb8e7a4e611e8b5ae7ca19d02f791d37">More...</a><br /></td></tr>
-<tr class="separator:afb8e7a4e611e8b5ae7ca19d02f791d37"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a50f08aa93d7fe6825599d17e3c977031"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:a50f08aa93d7fe6825599d17e3c977031"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a50f08aa93d7fe6825599d17e3c977031">iterator_load</a> (InputIterator const &amp;_iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment, typename InputIterator::Index offset, ConstPredicateAdapter predicate_adapter)</td></tr>
-<tr class="separator:a50f08aa93d7fe6825599d17e3c977031"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aca491136bdb966638a7ae57c47f86d1e"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:aca491136bdb966638a7ae57c47f86d1e"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#aca491136bdb966638a7ae57c47f86d1e">iterator_load</a> (InputIterator const &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment, typename InputIterator::Index offset=0)</td></tr>
-<tr class="memdesc:aca491136bdb966638a7ae57c47f86d1e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator.  <a href="#aca491136bdb966638a7ae57c47f86d1e">More...</a><br /></td></tr>
-<tr class="separator:aca491136bdb966638a7ae57c47f86d1e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af25d56f7391322d9a3b9aa3c507f90dc"><td class="memTemplParams" colspan="2">template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:af25d56f7391322d9a3b9aa3c507f90dc"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#af25d56f7391322d9a3b9aa3c507f90dc">iterator_load</a> (InputIterator const &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment, ConstPredicateAdapter pred_it)</td></tr>
-<tr class="memdesc:af25d56f7391322d9a3b9aa3c507f90dc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment from an input iterator.  <a href="#af25d56f7391322d9a3b9aa3c507f90dc">More...</a><br /></td></tr>
-<tr class="separator:af25d56f7391322d9a3b9aa3c507f90dc"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a0cb5bdf7bef498705c51a9cdcbef71f9"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment &gt; </td></tr>
 <tr class="memitem:a0cb5bdf7bef498705c51a9cdcbef71f9"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">iterator_store</a> (OutputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;fragment)</td></tr>
-<tr class="memdesc:a0cb5bdf7bef498705c51a9cdcbef71f9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator.  <a href="#a0cb5bdf7bef498705c51a9cdcbef71f9">More...</a><br /></td></tr>
 <tr class="separator:a0cb5bdf7bef498705c51a9cdcbef71f9"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a705c6d75513e112d2731d1c40f4cf109"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:a705c6d75513e112d2731d1c40f4cf109"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109">shared_iterator_store</a> (OutputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;fragment)</td></tr>
-<tr class="memdesc:a705c6d75513e112d2731d1c40f4cf109"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to a shared memory output iterator.  <a href="#a705c6d75513e112d2731d1c40f4cf109">More...</a><br /></td></tr>
-<tr class="separator:a705c6d75513e112d2731d1c40f4cf109"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5bf15cbf4cf4649d895fcbc2edf6a2de"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:a5bf15cbf4cf4649d895fcbc2edf6a2de"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">iterator_store_post_increment</a> (OutputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;fragment, typename OutputIterator::Index offset, ConstPredicateAdapter predicate_adapter)</td></tr>
-<tr class="memdesc:a5bf15cbf4cf4649d895fcbc2edf6a2de"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator, masked by a predicate iterator.  <a href="#a5bf15cbf4cf4649d895fcbc2edf6a2de">More...</a><br /></td></tr>
-<tr class="separator:a5bf15cbf4cf4649d895fcbc2edf6a2de"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab8efb0edefca7a59acc5a14b7311130c"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:ab8efb0edefca7a59acc5a14b7311130c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#ab8efb0edefca7a59acc5a14b7311130c">iterator_store_post_increment</a> (OutputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;fragment, typename OutputIterator::Index offset=0)</td></tr>
-<tr class="memdesc:ab8efb0edefca7a59acc5a14b7311130c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator.  <a href="#ab8efb0edefca7a59acc5a14b7311130c">More...</a><br /></td></tr>
-<tr class="separator:ab8efb0edefca7a59acc5a14b7311130c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a96fdb65e922f6a3d46aa5de9ea78d460"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:a96fdb65e922f6a3d46aa5de9ea78d460"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a96fdb65e922f6a3d46aa5de9ea78d460">iterator_store_post_increment</a> (OutputIterator &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;fragment, ConstPredicateAdapter pred_it)</td></tr>
-<tr class="memdesc:a96fdb65e922f6a3d46aa5de9ea78d460"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator.  <a href="#a96fdb65e922f6a3d46aa5de9ea78d460">More...</a><br /></td></tr>
-<tr class="separator:a96fdb65e922f6a3d46aa5de9ea78d460"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a88dce4b124a294cc123f7cf5fd2d6472"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:a88dce4b124a294cc123f7cf5fd2d6472"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a88dce4b124a294cc123f7cf5fd2d6472">iterator_store</a> (OutputIterator const &amp;_iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;fragment, typename OutputIterator::Index offset, ConstPredicateAdapter predicate_adapter)</td></tr>
-<tr class="memdesc:a88dce4b124a294cc123f7cf5fd2d6472"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator, masked by a predicate iterator.  <a href="#a88dce4b124a294cc123f7cf5fd2d6472">More...</a><br /></td></tr>
-<tr class="separator:a88dce4b124a294cc123f7cf5fd2d6472"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a410ed4d45ccafc2db842967740b6211f"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment &gt; </td></tr>
-<tr class="memitem:a410ed4d45ccafc2db842967740b6211f"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a410ed4d45ccafc2db842967740b6211f">iterator_store</a> (OutputIterator const &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;fragment, typename OutputIterator::Index offset=0)</td></tr>
-<tr class="memdesc:a410ed4d45ccafc2db842967740b6211f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator.  <a href="#a410ed4d45ccafc2db842967740b6211f">More...</a><br /></td></tr>
-<tr class="separator:a410ed4d45ccafc2db842967740b6211f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad804b804ac19360b293046f9cbfd8dd5"><td class="memTemplParams" colspan="2">template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </td></tr>
-<tr class="memitem:ad804b804ac19360b293046f9cbfd8dd5"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#ad804b804ac19360b293046f9cbfd8dd5">iterator_store</a> (OutputIterator const &amp;iterator, <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;fragment, ConstPredicateAdapter pred_it)</td></tr>
-<tr class="memdesc:ad804b804ac19360b293046f9cbfd8dd5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment to an output iterator.  <a href="#ad804b804ac19360b293046f9cbfd8dd5">More...</a><br /></td></tr>
-<tr class="separator:ad804b804ac19360b293046f9cbfd8dd5"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a17c8c408d672d26f1c70d2435f6ac83e"><td class="memTemplParams" colspan="2">template&lt;typename dividend_t , typename divisor_t &gt; </td></tr>
 <tr class="memitem:a17c8c408d672d26f1c70d2435f6ac83e"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dividend_t&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e">round_nearest</a> (dividend_t dividend, divisor_t divisor)</td></tr>
 <tr class="separator:a17c8c408d672d26f1c70d2435f6ac83e"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -402,6 +434,12 @@
 <tr class="memitem:af07506fee11de882d926f4e8237eef09"><td class="memTemplParams" colspan="2">template&lt;typename value_t &gt; </td></tr>
 <tr class="memitem:af07506fee11de882d926f4e8237eef09"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#af07506fee11de882d926f4e8237eef09">lcm</a> (value_t a, value_t b)</td></tr>
 <tr class="separator:af07506fee11de882d926f4e8237eef09"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6bc666acc9f0d7278a788975e226e005"><td class="memTemplParams" colspan="2">template&lt;typename value_t &gt; </td></tr>
+<tr class="memitem:a6bc666acc9f0d7278a788975e226e005"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a6bc666acc9f0d7278a788975e226e005">clz</a> (value_t x)</td></tr>
+<tr class="separator:a6bc666acc9f0d7278a788975e226e005"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a58a119c3f7b33d97c43ae8c114004d9e"><td class="memTemplParams" colspan="2">template&lt;typename value_t &gt; </td></tr>
+<tr class="memitem:a58a119c3f7b33d97c43ae8c114004d9e"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a58a119c3f7b33d97c43ae8c114004d9e">find_log2</a> (value_t x)</td></tr>
+<tr class="separator:a58a119c3f7b33d97c43ae8c114004d9e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a6d3dfeb642a2ce3d5f52243fe48f89cc"><td class="memItemLeft" align="right" valign="top">__host__ CUTLASS_DEVICE cudaError_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a6d3dfeb642a2ce3d5f52243fe48f89cc">cuda_perror_impl</a> (cudaError_t error, const char *filename, int line)</td></tr>
 <tr class="memdesc:a6d3dfeb642a2ce3d5f52243fe48f89cc"><td class="mdescLeft">&#160;</td><td class="mdescRight">The corresponding error message is printed to <code>stderr</code> (or <code>stdout</code> in device code) along with the supplied source context.  <a href="#a6d3dfeb642a2ce3d5f52243fe48f89cc">More...</a><br /></td></tr>
 <tr class="separator:a6d3dfeb642a2ce3d5f52243fe48f89cc"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -426,12 +464,24 @@
 <tr class="memitem:aa80a7cb3febd19b96f2ecbcb610b1b9e"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
 <tr class="memitem:aa80a7cb3febd19b96f2ecbcb610b1b9e"><td class="memTemplItemLeft" align="right" valign="top">struct&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#aa80a7cb3febd19b96f2ecbcb610b1b9e">__align__</a> (64) <a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt; 64 &gt;</td></tr>
 <tr class="separator:aa80a7cb3febd19b96f2ecbcb610b1b9e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:acdb62db582cf90cfd437fc56f4ca7bbf"><td class="memTemplParams" colspan="2">template&lt;typename Scalar_ &gt; </td></tr>
-<tr class="memitem:acdb62db582cf90cfd437fc56f4ca7bbf"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#acdb62db582cf90cfd437fc56f4ca7bbf">make_zero</a> (Scalar_ &amp;x)</td></tr>
-<tr class="separator:acdb62db582cf90cfd437fc56f4ca7bbf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abc5c00b4986db5a114e774cee9999717"><td class="memTemplParams" colspan="2">template&lt;typename Scalar_ , int kLanes_&gt; </td></tr>
-<tr class="memitem:abc5c00b4986db5a114e774cee9999717"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#abc5c00b4986db5a114e774cee9999717">make_zero</a> (<a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; Scalar_, kLanes_ &gt; &amp;vec)</td></tr>
-<tr class="separator:abc5c00b4986db5a114e774cee9999717"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa03883e612d292e1b53eedd46e08ccd1"><td class="memTemplParams" colspan="2">template&lt;typename Scalar_ &gt; </td></tr>
+<tr class="memitem:aa03883e612d292e1b53eedd46e08ccd1"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#aa03883e612d292e1b53eedd46e08ccd1">make_zero</a> (Scalar_ &amp;x)</td></tr>
+<tr class="separator:aa03883e612d292e1b53eedd46e08ccd1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a55b5b15eadf125d5ddddee1ea22191ee"><td class="memTemplParams" colspan="2">template&lt;typename Scalar_ , int kLanes_&gt; </td></tr>
+<tr class="memitem:a55b5b15eadf125d5ddddee1ea22191ee"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a55b5b15eadf125d5ddddee1ea22191ee">make_zero</a> (<a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; Scalar_, kLanes_ &gt; &amp;vec)</td></tr>
+<tr class="separator:a55b5b15eadf125d5ddddee1ea22191ee"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07b0da6c47bbd827779aa871249ff4b6"><td class="memTemplParams" colspan="2">template&lt;typename First , typename Second &gt; </td></tr>
+<tr class="memitem:a07b0da6c47bbd827779aa871249ff4b6"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a>&lt; First, Second &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a07b0da6c47bbd827779aa871249ff4b6">make_ZipFragment</a> (First const &amp;first, Second const &amp;second)</td></tr>
+<tr class="memdesc:a07b0da6c47bbd827779aa871249ff4b6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct a <a class="el" href="structcutlass_1_1ZipFragment.html" title="A template defining Fragment Concept. ">ZipFragment</a> object.  <a href="#a07b0da6c47bbd827779aa871249ff4b6">More...</a><br /></td></tr>
+<tr class="separator:a07b0da6c47bbd827779aa871249ff4b6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adad916101ca58fc9714362c611a0cad8"><td class="memTemplParams" colspan="2">template&lt;typename First , typename Second &gt; </td></tr>
+<tr class="memitem:adad916101ca58fc9714362c611a0cad8"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1ZipConvert.html">ZipConvert</a>&lt; First, Second &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#adad916101ca58fc9714362c611a0cad8">make_ZipConvert</a> (First const &amp;first, Second const &amp;second)</td></tr>
+<tr class="memdesc:adad916101ca58fc9714362c611a0cad8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct a <a class="el" href="structcutlass_1_1ZipConvert.html" title="Zips two convert operations. ">ZipConvert</a> object.  <a href="#adad916101ca58fc9714362c611a0cad8">More...</a><br /></td></tr>
+<tr class="separator:adad916101ca58fc9714362c611a0cad8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64869d4ab18d70dc8604098ec03e1a5a"><td class="memTemplParams" colspan="2">template&lt;typename First , typename Second &gt; </td></tr>
+<tr class="memitem:a64869d4ab18d70dc8604098ec03e1a5a"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt; First, Second &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a64869d4ab18d70dc8604098ec03e1a5a">make_ZipTensorRef</a> (First const &amp;first, Second const &amp;second)</td></tr>
+<tr class="memdesc:a64869d4ab18d70dc8604098ec03e1a5a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>.  <a href="#a64869d4ab18d70dc8604098ec03e1a5a">More...</a><br /></td></tr>
+<tr class="separator:a64869d4ab18d70dc8604098ec03e1a5a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Function Documentation</h2>
 <a id="ae6ee3d9361526f859d737d9c68c13706"></a>
@@ -452,10 +502,30 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae6ee3d9361526f859d737d9c
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a602227fad962270da185209ecc6012f2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a602227fad962270da185209ecc6012f2">&#9670;&nbsp;</a></span>__align__() <span class="overload">[2/7]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">struct cutlass::__align__ </td>
+          <td>(</td>
+          <td class="paramtype">2&#160;</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="a266d7d2ae6e79537e46ee37b4fdface7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a266d7d2ae6e79537e46ee37b4fdface7">&#9670;&nbsp;</a></span>__align__() <span class="overload">[2/7]</span></h2>
+<h2 class="memtitle"><span class="permalink"><a href="#a266d7d2ae6e79537e46ee37b4fdface7">&#9670;&nbsp;</a></span>__align__() <span class="overload">[3/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -475,7 +545,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a266d7d2ae6e79537e46ee37b
 </div>
 </div>
 <a id="a1101e01215ddb0e5a7b120a4541a3c4e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1101e01215ddb0e5a7b120a4541a3c4e">&#9670;&nbsp;</a></span>__align__() <span class="overload">[3/7]</span></h2>
+<h2 class="memtitle"><span class="permalink"><a href="#a1101e01215ddb0e5a7b120a4541a3c4e">&#9670;&nbsp;</a></span>__align__() <span class="overload">[4/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -495,7 +565,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1101e01215ddb0e5a7b120a4
 </div>
 </div>
 <a id="aa4071cf5103f352a5100d9b4bba895e2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa4071cf5103f352a5100d9b4bba895e2">&#9670;&nbsp;</a></span>__align__() <span class="overload">[4/7]</span></h2>
+<h2 class="memtitle"><span class="permalink"><a href="#aa4071cf5103f352a5100d9b4bba895e2">&#9670;&nbsp;</a></span>__align__() <span class="overload">[5/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -515,7 +585,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa4071cf5103f352a5100d9b4
 </div>
 </div>
 <a id="ada65694bdd4b70d4c9d769a536275a47"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ada65694bdd4b70d4c9d769a536275a47">&#9670;&nbsp;</a></span>__align__() <span class="overload">[5/7]</span></h2>
+<h2 class="memtitle"><span class="permalink"><a href="#ada65694bdd4b70d4c9d769a536275a47">&#9670;&nbsp;</a></span>__align__() <span class="overload">[6/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -535,7 +605,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ada65694bdd4b70d4c9d769a5
 </div>
 </div>
 <a id="aa80a7cb3febd19b96f2ecbcb610b1b9e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa80a7cb3febd19b96f2ecbcb610b1b9e">&#9670;&nbsp;</a></span>__align__() <span class="overload">[6/7]</span></h2>
+<h2 class="memtitle"><span class="permalink"><a href="#aa80a7cb3febd19b96f2ecbcb610b1b9e">&#9670;&nbsp;</a></span>__align__() <span class="overload">[7/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -554,23 +624,24 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa80a7cb3febd19b96f2ecbcb
 
 </div>
 </div>
-<a id="a602227fad962270da185209ecc6012f2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a602227fad962270da185209ecc6012f2">&#9670;&nbsp;</a></span>__align__() <span class="overload">[7/7]</span></h2>
+<a id="a6bc666acc9f0d7278a788975e226e005"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6bc666acc9f0d7278a788975e226e005">&#9670;&nbsp;</a></span>clz()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;&gt; </div>
+template&lt;typename value_t &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">struct cutlass::__align__ </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t cutlass::clz </td>
           <td>(</td>
-          <td class="paramtype">2&#160;</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramtype">value_t&#160;</td>
+          <td class="paramname"><em>x</em></td><td>)</td>
           <td></td>
         </tr>
       </table>
 </div><div class="memdoc">
+<p>log2 computation, what's the difference between the below codes and log2_up/down codes? </p>
 
 </div>
 </div>
@@ -609,8 +680,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6d3dfeb642a2ce3d5f52243f
 
 </div>
 </div>
-<a id="a38481ebfe13bc199aa621ceecfa016b8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a38481ebfe13bc199aa621ceecfa016b8">&#9670;&nbsp;</a></span>gcd()</h2>
+<a id="a58a119c3f7b33d97c43ae8c114004d9e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a58a119c3f7b33d97c43ae8c114004d9e">&#9670;&nbsp;</a></span>find_log2()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -618,39 +689,10 @@ <h2 class="memtitle"><span class="permalink"><a href="#a38481ebfe13bc199aa621cee
 template&lt;typename value_t &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t cutlass::gcd </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t cutlass::find_log2 </td>
           <td>(</td>
           <td class="paramtype">value_t&#160;</td>
-          <td class="paramname"><em>a</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">value_t&#160;</td>
-          <td class="paramname"><em>b</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-<p>Greatest common divisor </p>
-
-</div>
-</div>
-<a id="a4680709eeeb679ef0219938f85f7394e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4680709eeeb679ef0219938f85f7394e">&#9670;&nbsp;</a></span>get_Coord_dhw()</h2>
-
-<div class="memitem">
-<div class="memproto">
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; cutlass::get_Coord_dhw </td>
-          <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td class="paramname"><em>x</em></td><td>)</td>
           <td></td>
         </tr>
       </table>
@@ -658,62 +700,39 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4680709eeeb679ef0219938f
 
 </div>
 </div>
-<a id="a7d2ab683e29b47d245e183ad5aeb962e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7d2ab683e29b47d245e183ad5aeb962e">&#9670;&nbsp;</a></span>get_Coord_hw() <span class="overload">[1/2]</span></h2>
+<a id="a38481ebfe13bc199aa621ceecfa016b8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a38481ebfe13bc199aa621ceecfa016b8">&#9670;&nbsp;</a></span>gcd()</h2>
 
 <div class="memitem">
 <div class="memproto">
+<div class="memtemplate">
+template&lt;typename value_t &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;2&gt; cutlass::get_Coord_hw </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t cutlass::gcd </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>coord</em></td><td>)</td>
-          <td></td>
+          <td class="paramtype">value_t&#160;</td>
+          <td class="paramname"><em>a</em>, </td>
         </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a082e7a2e4acc2879468243f5732ccf0b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a082e7a2e4acc2879468243f5732ccf0b">&#9670;&nbsp;</a></span>get_Coord_hw() <span class="overload">[2/2]</span></h2>
-
-<div class="memitem">
-<div class="memproto">
-      <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;2&gt; cutlass::get_Coord_hw </td>
-          <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td class="paramkey"></td>
           <td></td>
+          <td class="paramtype">value_t&#160;</td>
+          <td class="paramname"><em>b</em>&#160;</td>
         </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a71f3e2a12b9e98be1fba082610fa9d4f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a71f3e2a12b9e98be1fba082610fa9d4f">&#9670;&nbsp;</a></span>get_Coord_hwc()</h2>
-
-<div class="memitem">
-<div class="memproto">
-      <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; cutlass::get_Coord_hwc </td>
-          <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>coord</em></td><td>)</td>
           <td></td>
+          <td>)</td>
+          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
+<p>Greatest common divisor </p>
 
 </div>
 </div>
 <a id="a45dd7add04736cb5c3e69991d2f210be"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a45dd7add04736cb5c3e69991d2f210be">&#9670;&nbsp;</a></span>iterator_load() <span class="overload">[1/4]</span></h2>
+<h2 class="memtitle"><span class="permalink"><a href="#a45dd7add04736cb5c3e69991d2f210be">&#9670;&nbsp;</a></span>iterator_load()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -742,37 +761,25 @@ <h2 class="memtitle"><span class="permalink"><a href="#a45dd7add04736cb5c3e69991
 
 </div>
 </div>
-<a id="a50f08aa93d7fe6825599d17e3c977031"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a50f08aa93d7fe6825599d17e3c977031">&#9670;&nbsp;</a></span>iterator_load() <span class="overload">[2/4]</span></h2>
+<a id="a0cb5bdf7bef498705c51a9cdcbef71f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0cb5bdf7bef498705c51a9cdcbef71f9">&#9670;&nbsp;</a></span>iterator_store()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </div>
+template&lt;typename OutputIterator , typename Fragment &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_load </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_store </td>
           <td>(</td>
-          <td class="paramtype">InputIterator const &amp;&#160;</td>
-          <td class="paramname"><em>_iterator</em>, </td>
+          <td class="paramtype">OutputIterator &amp;&#160;</td>
+          <td class="paramname"><em>iterator</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">typename InputIterator::Index&#160;</td>
-          <td class="paramname"><em>offset</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">ConstPredicateAdapter&#160;</td>
-          <td class="paramname"><em>predicate_adapter</em>&#160;</td>
+          <td class="paramname"><em>fragment</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -784,31 +791,25 @@ <h2 class="memtitle"><span class="permalink"><a href="#a50f08aa93d7fe6825599d17e
 
 </div>
 </div>
-<a id="aca491136bdb966638a7ae57c47f86d1e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aca491136bdb966638a7ae57c47f86d1e">&#9670;&nbsp;</a></span>iterator_load() <span class="overload">[3/4]</span></h2>
+<a id="af07506fee11de882d926f4e8237eef09"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af07506fee11de882d926f4e8237eef09">&#9670;&nbsp;</a></span>lcm()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename InputIterator , typename Fragment &gt; </div>
+template&lt;typename value_t &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_load </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t cutlass::lcm </td>
           <td>(</td>
-          <td class="paramtype">InputIterator const &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
+          <td class="paramtype">value_t&#160;</td>
+          <td class="paramname"><em>a</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">typename InputIterator::Index&#160;</td>
-          <td class="paramname"><em>offset</em> = <code>0</code>&#160;</td>
+          <td class="paramtype">value_t&#160;</td>
+          <td class="paramname"><em>b</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -817,76 +818,45 @@ <h2 class="memtitle"><span class="permalink"><a href="#aca491136bdb966638a7ae57c
         </tr>
       </table>
 </div><div class="memdoc">
+<p>Least common multiple </p>
 
 </div>
 </div>
-<a id="af25d56f7391322d9a3b9aa3c507f90dc"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af25d56f7391322d9a3b9aa3c507f90dc">&#9670;&nbsp;</a></span>iterator_load() <span class="overload">[4/4]</span></h2>
+<a id="a7419519fa453a121dfa5f26bf87318d9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7419519fa453a121dfa5f26bf87318d9">&#9670;&nbsp;</a></span>make_Coord() <span class="overload">[1/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
-<div class="memtemplate">
-template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_load </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;1&gt; cutlass::make_Coord </td>
           <td>(</td>
-          <td class="paramtype">InputIterator const &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">ConstPredicateAdapter&#160;</td>
-          <td class="paramname"><em>pred_it</em>&#160;</td>
-        </tr>
-        <tr>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>_0</em></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a3965068d8a4fdfe5e05782930fb4fe6b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3965068d8a4fdfe5e05782930fb4fe6b">&#9670;&nbsp;</a></span>iterator_load_post_increment() <span class="overload">[1/3]</span></h2>
+<a id="a61d81e5363bcb8a7f6dd70f053242564"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a61d81e5363bcb8a7f6dd70f053242564">&#9670;&nbsp;</a></span>make_Coord() <span class="overload">[2/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
-<div class="memtemplate">
-template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_load_post_increment </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;2&gt; cutlass::make_Coord </td>
           <td>(</td>
-          <td class="paramtype">InputIterator &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">typename InputIterator::Index&#160;</td>
-          <td class="paramname"><em>offset</em>, </td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>_0</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">ConstPredicateAdapter&#160;</td>
-          <td class="paramname"><em>predicate_adapter</em>&#160;</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>_1</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -898,31 +868,29 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3965068d8a4fdfe5e0578293
 
 </div>
 </div>
-<a id="af5abe551df7461eab66aa43907063d6b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af5abe551df7461eab66aa43907063d6b">&#9670;&nbsp;</a></span>iterator_load_post_increment() <span class="overload">[2/3]</span></h2>
+<a id="a25acf680a7d2592c957a7ac603f4c361"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25acf680a7d2592c957a7ac603f4c361">&#9670;&nbsp;</a></span>make_Coord() <span class="overload">[3/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
-<div class="memtemplate">
-template&lt;typename InputIterator , typename Fragment &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_load_post_increment </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; cutlass::make_Coord </td>
           <td>(</td>
-          <td class="paramtype">InputIterator &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>_0</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>_1</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">typename InputIterator::Index&#160;</td>
-          <td class="paramname"><em>offset</em> = <code>0</code>&#160;</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>_2</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -934,61 +902,35 @@ <h2 class="memtitle"><span class="permalink"><a href="#af5abe551df7461eab66aa439
 
 </div>
 </div>
-<a id="afb8e7a4e611e8b5ae7ca19d02f791d37"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#afb8e7a4e611e8b5ae7ca19d02f791d37">&#9670;&nbsp;</a></span>iterator_load_post_increment() <span class="overload">[3/3]</span></h2>
+<a id="a9410b1f5956d3aaf4584e65d047428fc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9410b1f5956d3aaf4584e65d047428fc">&#9670;&nbsp;</a></span>make_Coord() <span class="overload">[4/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
-<div class="memtemplate">
-template&lt;typename InputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_load_post_increment </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;4&gt; cutlass::make_Coord </td>
           <td>(</td>
-          <td class="paramtype">InputIterator &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>_0</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>_1</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">ConstPredicateAdapter&#160;</td>
-          <td class="paramname"><em>pred_it</em>&#160;</td>
-        </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a0cb5bdf7bef498705c51a9cdcbef71f9"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0cb5bdf7bef498705c51a9cdcbef71f9">&#9670;&nbsp;</a></span>iterator_store() <span class="overload">[1/4]</span></h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename OutputIterator , typename Fragment &gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_store </td>
-          <td>(</td>
-          <td class="paramtype">OutputIterator &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>_2</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>&#160;</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>_3</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1000,151 +942,84 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0cb5bdf7bef498705c51a9cd
 
 </div>
 </div>
-<a id="a88dce4b124a294cc123f7cf5fd2d6472"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a88dce4b124a294cc123f7cf5fd2d6472">&#9670;&nbsp;</a></span>iterator_store() <span class="overload">[2/4]</span></h2>
+<a id="a90028a415a05ce09073860e5c761aa6f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a90028a415a05ce09073860e5c761aa6f">&#9670;&nbsp;</a></span>make_Coord_from_shape()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </div>
+template&lt;typename Shape_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_store </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; cutlass::make_Coord_from_shape </td>
           <td>(</td>
-          <td class="paramtype">OutputIterator const &amp;&#160;</td>
-          <td class="paramname"><em>_iterator</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">typename OutputIterator::Index&#160;</td>
-          <td class="paramname"><em>offset</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">ConstPredicateAdapter&#160;</td>
-          <td class="paramname"><em>predicate_adapter</em>&#160;</td>
-        </tr>
-        <tr>
+          <td class="paramname"></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a410ed4d45ccafc2db842967740b6211f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a410ed4d45ccafc2db842967740b6211f">&#9670;&nbsp;</a></span>iterator_store() <span class="overload">[3/4]</span></h2>
+<a id="aa03883e612d292e1b53eedd46e08ccd1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa03883e612d292e1b53eedd46e08ccd1">&#9670;&nbsp;</a></span>make_zero() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputIterator , typename Fragment &gt; </div>
+template&lt;typename Scalar_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_store </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::make_zero </td>
           <td>(</td>
-          <td class="paramtype">OutputIterator const &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">typename OutputIterator::Index&#160;</td>
-          <td class="paramname"><em>offset</em> = <code>0</code>&#160;</td>
-        </tr>
-        <tr>
+          <td class="paramtype">Scalar_ &amp;&#160;</td>
+          <td class="paramname"><em>x</em></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ad804b804ac19360b293046f9cbfd8dd5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad804b804ac19360b293046f9cbfd8dd5">&#9670;&nbsp;</a></span>iterator_store() <span class="overload">[4/4]</span></h2>
+<a id="a55b5b15eadf125d5ddddee1ea22191ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a55b5b15eadf125d5ddddee1ea22191ee">&#9670;&nbsp;</a></span>make_zero() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </div>
+template&lt;typename Scalar_ , int kLanes_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_store </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::make_zero </td>
           <td>(</td>
-          <td class="paramtype">OutputIterator const &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">ConstPredicateAdapter&#160;</td>
-          <td class="paramname"><em>pred_it</em>&#160;</td>
-        </tr>
-        <tr>
+          <td class="paramtype"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; Scalar_, kLanes_ &gt; &amp;&#160;</td>
+          <td class="paramname"><em>vec</em></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5bf15cbf4cf4649d895fcbc2edf6a2de"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5bf15cbf4cf4649d895fcbc2edf6a2de">&#9670;&nbsp;</a></span>iterator_store_post_increment() <span class="overload">[1/3]</span></h2>
+<a id="adad916101ca58fc9714362c611a0cad8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adad916101ca58fc9714362c611a0cad8">&#9670;&nbsp;</a></span>make_ZipConvert()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </div>
+template&lt;typename First , typename Second &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_store_post_increment </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1ZipConvert.html">ZipConvert</a>&lt;First, Second&gt; cutlass::make_ZipConvert </td>
           <td>(</td>
-          <td class="paramtype">OutputIterator &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
+          <td class="paramtype">First const &amp;&#160;</td>
+          <td class="paramname"><em>first</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">typename OutputIterator::Index&#160;</td>
-          <td class="paramname"><em>offset</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">ConstPredicateAdapter&#160;</td>
-          <td class="paramname"><em>predicate_adapter</em>&#160;</td>
+          <td class="paramtype">Second const &amp;&#160;</td>
+          <td class="paramname"><em>second</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1156,31 +1031,25 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5bf15cbf4cf4649d895fcbc2
 
 </div>
 </div>
-<a id="ab8efb0edefca7a59acc5a14b7311130c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab8efb0edefca7a59acc5a14b7311130c">&#9670;&nbsp;</a></span>iterator_store_post_increment() <span class="overload">[2/3]</span></h2>
+<a id="a07b0da6c47bbd827779aa871249ff4b6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07b0da6c47bbd827779aa871249ff4b6">&#9670;&nbsp;</a></span>make_ZipFragment()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputIterator , typename Fragment &gt; </div>
+template&lt;typename First , typename Second &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_store_post_increment </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a>&lt;First, Second&gt; cutlass::make_ZipFragment </td>
           <td>(</td>
-          <td class="paramtype">OutputIterator &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
+          <td class="paramtype">First const &amp;&#160;</td>
+          <td class="paramname"><em>first</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">typename OutputIterator::Index&#160;</td>
-          <td class="paramname"><em>offset</em> = <code>0</code>&#160;</td>
+          <td class="paramtype">Second const &amp;&#160;</td>
+          <td class="paramname"><em>second</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1192,31 +1061,25 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab8efb0edefca7a59acc5a14b
 
 </div>
 </div>
-<a id="a96fdb65e922f6a3d46aa5de9ea78d460"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a96fdb65e922f6a3d46aa5de9ea78d460">&#9670;&nbsp;</a></span>iterator_store_post_increment() <span class="overload">[3/3]</span></h2>
+<a id="a64869d4ab18d70dc8604098ec03e1a5a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64869d4ab18d70dc8604098ec03e1a5a">&#9670;&nbsp;</a></span>make_ZipTensorRef()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputIterator , typename Fragment , typename ConstPredicateAdapter &gt; </div>
+template&lt;typename First , typename Second &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void cutlass::iterator_store_post_increment </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt;First, Second&gt; cutlass::make_ZipTensorRef </td>
           <td>(</td>
-          <td class="paramtype">OutputIterator &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
+          <td class="paramtype">First const &amp;&#160;</td>
+          <td class="paramname"><em>first</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">ConstPredicateAdapter&#160;</td>
-          <td class="paramname"><em>pred_it</em>&#160;</td>
+          <td class="paramtype">Second const &amp;&#160;</td>
+          <td class="paramname"><em>second</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1228,25 +1091,25 @@ <h2 class="memtitle"><span class="permalink"><a href="#a96fdb65e922f6a3d46aa5de9
 
 </div>
 </div>
-<a id="af07506fee11de882d926f4e8237eef09"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af07506fee11de882d926f4e8237eef09">&#9670;&nbsp;</a></span>lcm()</h2>
+<a id="afe231b125bbb1e9aa51307a8abdf9a60"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afe231b125bbb1e9aa51307a8abdf9a60">&#9670;&nbsp;</a></span>operator&lt;&lt;() <span class="overload">[1/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename value_t &gt; </div>
+template&lt;int Rank&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> value_t cutlass::lcm </td>
+          <td class="memname">std::ostream&amp; cutlass::operator&lt;&lt; </td>
           <td>(</td>
-          <td class="paramtype">value_t&#160;</td>
-          <td class="paramname"><em>a</em>, </td>
+          <td class="paramtype">std::ostream &amp;&#160;</td>
+          <td class="paramname"><em>out</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">value_t&#160;</td>
-          <td class="paramname"><em>b</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1255,45 +1118,31 @@ <h2 class="memtitle"><span class="permalink"><a href="#af07506fee11de882d926f4e8
         </tr>
       </table>
 </div><div class="memdoc">
-<p>Least common multiple </p>
 
 </div>
 </div>
-<a id="a7419519fa453a121dfa5f26bf87318d9"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7419519fa453a121dfa5f26bf87318d9">&#9670;&nbsp;</a></span>make_Coord() <span class="overload">[1/4]</span></h2>
+<a id="a30ddfc5e90b9103840cb30c9f9b96b49"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a30ddfc5e90b9103840cb30c9f9b96b49">&#9670;&nbsp;</a></span>operator&lt;&lt;() <span class="overload">[2/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;1&gt; cutlass::make_Coord </td>
+          <td class="memname">std::ostream&amp; cutlass::operator&lt;&lt; </td>
           <td>(</td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>_0</em></td><td>)</td>
-          <td></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a61d81e5363bcb8a7f6dd70f053242564"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a61d81e5363bcb8a7f6dd70f053242564">&#9670;&nbsp;</a></span>make_Coord() <span class="overload">[2/4]</span></h2>
-
-<div class="memitem">
-<div class="memproto">
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;2&gt; cutlass::make_Coord </td>
-          <td>(</td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>_0</em>, </td>
+          <td class="paramtype">std::ostream &amp;&#160;</td>
+          <td class="paramname"><em>out</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>_1</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>scalar</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1301,33 +1150,37 @@ <h2 class="memtitle"><span class="permalink"><a href="#a61d81e5363bcb8a7f6dd70f0
           <td></td><td></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a25acf680a7d2592c957a7ac603f4c361"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a25acf680a7d2592c957a7ac603f4c361">&#9670;&nbsp;</a></span>make_Coord() <span class="overload">[3/4]</span></h2>
+<a id="a36690681ed19dc7e398fcdafdbfe9975"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a36690681ed19dc7e398fcdafdbfe9975">&#9670;&nbsp;</a></span>operator&lt;&lt;() <span class="overload">[3/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; cutlass::make_Coord </td>
+          <td class="memname">std::ostream&amp; cutlass::operator&lt;&lt; </td>
           <td>(</td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>_0</em>, </td>
+          <td class="paramtype">std::ostream &amp;&#160;</td>
+          <td class="paramname"><em>out</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>_1</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>_2</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; int8_t &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>scalar</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1335,39 +1188,37 @@ <h2 class="memtitle"><span class="permalink"><a href="#a25acf680a7d2592c957a7ac6
           <td></td><td></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a9410b1f5956d3aaf4584e65d047428fc"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9410b1f5956d3aaf4584e65d047428fc">&#9670;&nbsp;</a></span>make_Coord() <span class="overload">[4/4]</span></h2>
+<a id="a1a35d6b9b984a9c143957db733a93f51"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1a35d6b9b984a9c143957db733a93f51">&#9670;&nbsp;</a></span>operator&lt;&lt;() <span class="overload">[4/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;4&gt; cutlass::make_Coord </td>
+          <td class="memname">std::ostream&amp; cutlass::operator&lt;&lt; </td>
           <td>(</td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>_0</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>_1</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>_2</em>, </td>
+          <td class="paramtype">std::ostream &amp;&#160;</td>
+          <td class="paramname"><em>out</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>_3</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; uint8_t &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>scalar</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1375,69 +1226,37 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9410b1f5956d3aaf4584e65d
           <td></td><td></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="acdb62db582cf90cfd437fc56f4ca7bbf"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#acdb62db582cf90cfd437fc56f4ca7bbf">&#9670;&nbsp;</a></span>make_zero() <span class="overload">[1/2]</span></h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename Scalar_ &gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname">CUTLASS_DEVICE void cutlass::make_zero </td>
-          <td>(</td>
-          <td class="paramtype">Scalar_ &amp;&#160;</td>
-          <td class="paramname"><em>x</em></td><td>)</td>
-          <td></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="abc5c00b4986db5a114e774cee9999717"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abc5c00b4986db5a114e774cee9999717">&#9670;&nbsp;</a></span>make_zero() <span class="overload">[2/2]</span></h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename Scalar_ , int kLanes_&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname">CUTLASS_DEVICE void cutlass::make_zero </td>
-          <td>(</td>
-          <td class="paramtype"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; Scalar_, kLanes_ &gt; &amp;&#160;</td>
-          <td class="paramname"><em>vec</em></td><td>)</td>
-          <td></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a17c8c408d672d26f1c70d2435f6ac83e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a17c8c408d672d26f1c70d2435f6ac83e">&#9670;&nbsp;</a></span>round_nearest()</h2>
+<a id="a2fd306c63f71877f9231a7e1265752cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2fd306c63f71877f9231a7e1265752cf">&#9670;&nbsp;</a></span>operator&lt;&lt;() <span class="overload">[5/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename dividend_t , typename divisor_t &gt; </div>
+template&lt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dividend_t cutlass::round_nearest </td>
+          <td class="memname">std::ostream&amp; cutlass::operator&lt;&lt; </td>
           <td>(</td>
-          <td class="paramtype">dividend_t&#160;</td>
-          <td class="paramname"><em>dividend</em>, </td>
+          <td class="paramtype">std::ostream &amp;&#160;</td>
+          <td class="paramname"><em>out</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">divisor_t&#160;</td>
-          <td class="paramname"><em>divisor</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">cutlass::bin1_t</a>, 32 &gt; &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>scalar</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1445,30 +1264,37 @@ <h2 class="memtitle"><span class="permalink"><a href="#a17c8c408d672d26f1c70d243
           <td></td><td></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
-<p>Round dividend up to the nearest multiple of divisor </p>
 
 </div>
 </div>
-<a id="abcec976c59cab75ca55b338d125154a3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abcec976c59cab75ca55b338d125154a3">&#9670;&nbsp;</a></span>shared_iterator_load() <span class="overload">[1/2]</span></h2>
+<a id="aecf2cd62eee939946b7173a110ecf76e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aecf2cd62eee939946b7173a110ecf76e">&#9670;&nbsp;</a></span>operator&lt;&lt;() <span class="overload">[6/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename InputIterator , typename Fragment &gt; </div>
+template&lt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void cutlass::shared_iterator_load </td>
+          <td class="memname">std::ostream&amp; cutlass::operator&lt;&lt; </td>
           <td>(</td>
-          <td class="paramtype">InputIterator &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
+          <td class="paramtype">std::ostream &amp;&#160;</td>
+          <td class="paramname"><em>out</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">cutlass::int4_t</a>, 8 &gt; &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>scalar</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1476,35 +1302,37 @@ <h2 class="memtitle"><span class="permalink"><a href="#abcec976c59cab75ca55b338d
           <td></td><td></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aa9416026c6db08d92a34c2ac08fea8c3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa9416026c6db08d92a34c2ac08fea8c3">&#9670;&nbsp;</a></span>shared_iterator_load() <span class="overload">[2/2]</span></h2>
+<a id="a3ceda5ed2d923222662a37e8f355c9b8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3ceda5ed2d923222662a37e8f355c9b8">&#9670;&nbsp;</a></span>operator&lt;&lt;() <span class="overload">[7/7]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename InputIterator , typename Fragment &gt; </div>
+template&lt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void cutlass::shared_iterator_load </td>
+          <td class="memname">std::ostream&amp; cutlass::operator&lt;&lt; </td>
           <td>(</td>
-          <td class="paramtype">InputIterator &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>, </td>
+          <td class="paramtype">std::ostream &amp;&#160;</td>
+          <td class="paramname"><em>out</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>d</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">cutlass::uint4_t</a>, 8 &gt; &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>scalar</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1512,29 +1340,34 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa9416026c6db08d92a34c2ac
           <td></td><td></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a705c6d75513e112d2731d1c40f4cf109"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a705c6d75513e112d2731d1c40f4cf109">&#9670;&nbsp;</a></span>shared_iterator_store()</h2>
+<a id="a17c8c408d672d26f1c70d2435f6ac83e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17c8c408d672d26f1c70d2435f6ac83e">&#9670;&nbsp;</a></span>round_nearest()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputIterator , typename Fragment &gt; </div>
+template&lt;typename dividend_t , typename divisor_t &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void cutlass::shared_iterator_store </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dividend_t cutlass::round_nearest </td>
           <td>(</td>
-          <td class="paramtype">OutputIterator &amp;&#160;</td>
-          <td class="paramname"><em>iterator</em>, </td>
+          <td class="paramtype">dividend_t&#160;</td>
+          <td class="paramname"><em>dividend</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Fragment.html">Fragment</a> const &amp;&#160;</td>
-          <td class="paramname"><em>fragment</em>&#160;</td>
+          <td class="paramtype">divisor_t&#160;</td>
+          <td class="paramname"><em>divisor</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -1543,13 +1376,14 @@ <h2 class="memtitle"><span class="permalink"><a href="#a705c6d75513e112d2731d1c4
         </tr>
       </table>
 </div><div class="memdoc">
+<p>Round dividend up to the nearest multiple of divisor </p>
 
 </div>
 </div>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/namespacecutlass_1_1detail.html b/docs/namespacecutlass_1_1detail.html
new file mode 100644
index 0000000000..154ce5c455
--- /dev/null
+++ b/docs/namespacecutlass_1_1detail.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::detail Namespace Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1detail.html">detail</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::detail Namespace Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/namespacecutlass_1_1gemm.html b/docs/namespacecutlass_1_1gemm.html
index 1c84e4480a..1545f43f4e 100644
--- a/docs/namespacecutlass_1_1gemm.html
+++ b/docs/namespacecutlass_1_1gemm.html
@@ -84,19 +84,28 @@
 Classes</h2></td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">ColumnMajorBlockSwizzle</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html">DgemmConfig</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html">DgemmTraits</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html">Fp16SgemmConfig</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html">Fp16SgemmSgemmTraits</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html">FragmentMultiplyAdd&lt; half &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">FragmentMultiplyAdd&lt; half, half, true &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">GEMM problem description.  <a href="structcutlass_1_1gemm_1_1GemmDesc.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -151,7 +160,8 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">GlobalLoadStreamBase</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Collect the global load streams for multiplicands.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -187,9 +197,7 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01AccumulatorsPerThread___01_4.html">IgemmConfig&lt; OutputTile_, int8_t, AccumulatorsPerThread_ &gt;</a></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html">IgemmContiguousGlobalTileTraits</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html">IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -205,6 +213,8 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html">IgemmFloatToInt8Converter</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">IgemmGlobalLoadTransformer</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html">IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;</a></td></tr>
@@ -213,6 +223,8 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html">IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html">IgemmInt8ToFloatConverter</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">IgemmSharedStoreTransformer</a></td></tr>
@@ -221,11 +233,15 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html">IgemmTraits</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -243,9 +259,17 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html">IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html">Launch</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for launching the GEMM kernel with or without launch bounds.  <a href="structcutlass_1_1gemm_1_1Launch.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html">Launch&lt; Gemm, false &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Partial specialization for launching the GEMM kernel with or without launch bounds.  <a href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Functor to compute linear combination of fragments.  <a href="structcutlass_1_1gemm_1_1LinearScaling.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">LinearScalingDevicePtr</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand.html">ProjectOperand</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html">ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;</a></td></tr>
@@ -264,26 +288,39 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html">ReshapeThreads&lt; Tile_, Threads_, true &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">RowMajorBlockSwizzle</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html">SgemmConfig</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SgemmLBTraits.html">SgemmLBTraits</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to define SGEMM traits using <a class="el" href="structcutlass_1_1gemm_1_1Launch.html" title="Partial specialization for launching the GEMM kernel with or without launch bounds. ">Launch</a> Bounds.  <a href="structcutlass_1_1gemm_1_1SgemmLBTraits.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html">SgemmTraits</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Collect the global load streams for multiplicands.  <a href="structcutlass_1_1gemm_1_1SharedStreamPair.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html">swizzleDirection</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#details">More...</a><br /></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html">ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#details">More...</a><br /></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">WmmaGemmGlobalIteratorCd</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -292,18 +329,49 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
 Functions</h2></td></tr>
-<tr class="memitem:ad9577c9086b0f7fd1202d7f8109e4439"><td class="memTemplParams" colspan="2">template&lt;typename Gemm_ &gt; </td></tr>
-<tr class="memitem:ad9577c9086b0f7fd1202d7f8109e4439"><td class="memTemplItemLeft" align="right" valign="top">__global__ void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#ad9577c9086b0f7fd1202d7f8109e4439">gemm_kernel</a> (typename Gemm_::Params params)</td></tr>
-<tr class="separator:ad9577c9086b0f7fd1202d7f8109e4439"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a01dd61085e2b3f578a7fc266b94fac55"><td class="memTemplParams" colspan="2">template&lt;typename Gemm_ &gt; </td></tr>
+<tr class="memitem:a01dd61085e2b3f578a7fc266b94fac55"><td class="memTemplItemLeft" align="right" valign="top">__global__&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a01dd61085e2b3f578a7fc266b94fac55">__launch_bounds__</a> (Gemm_::kThreads) void gemm_kernel(typename Gemm_</td></tr>
+<tr class="memdesc:a01dd61085e2b3f578a7fc266b94fac55"><td class="mdescLeft">&#160;</td><td class="mdescRight">GEMM kernel with launch bounds specified.  <a href="#a01dd61085e2b3f578a7fc266b94fac55">More...</a><br /></td></tr>
+<tr class="separator:a01dd61085e2b3f578a7fc266b94fac55"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae23b870e60261e2322f3c6edb3d2bcb9"><td class="memTemplParams" colspan="2">template&lt;typename Gemm_ &gt; </td></tr>
+<tr class="memitem:ae23b870e60261e2322f3c6edb3d2bcb9"><td class="memTemplItemLeft" align="right" valign="top">__global__ void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#ae23b870e60261e2322f3c6edb3d2bcb9">gemm_kernel_nolb</a> (typename Gemm_::Params params)</td></tr>
+<tr class="memdesc:ae23b870e60261e2322f3c6edb3d2bcb9"><td class="mdescLeft">&#160;</td><td class="mdescRight">GEMM kernel without launch bounds specified.  <a href="#ae23b870e60261e2322f3c6edb3d2bcb9">More...</a><br /></td></tr>
+<tr class="separator:ae23b870e60261e2322f3c6edb3d2bcb9"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a3e30ae89e6f7501725028144cd2d88cb"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
 <tr class="memitem:a3e30ae89e6f7501725028144cd2d88cb"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">is_zero</a> (T x)</td></tr>
 <tr class="separator:a3e30ae89e6f7501725028144cd2d88cb"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a4a12fcfae60f26efa47bf0a79483d8ac"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a4a12fcfae60f26efa47bf0a79483d8ac">is_zero</a> (half x)</td></tr>
 <tr class="separator:a4a12fcfae60f26efa47bf0a79483d8ac"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2336880c866ef4e73bbe0c3dbcb6c40e"><td class="memTemplParams" colspan="2">template&lt;enum swizzleDirection::Kind &gt; </td></tr>
+<tr class="memitem:a2336880c866ef4e73bbe0c3dbcb6c40e"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a2336880c866ef4e73bbe0c3dbcb6c40e">getLinearIdx</a> (int groups)</td></tr>
+<tr class="separator:a2336880c866ef4e73bbe0c3dbcb6c40e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a37c566ad59d61647374f215c3d33f088"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:a37c566ad59d61647374f215c3d33f088"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a37c566ad59d61647374f215c3d33f088">getLinearIdx&lt; swizzleDirection::Boustrophedon &gt;</a> (int groups)</td></tr>
+<tr class="separator:a37c566ad59d61647374f215c3d33f088"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Function Documentation</h2>
-<a id="ad9577c9086b0f7fd1202d7f8109e4439"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad9577c9086b0f7fd1202d7f8109e4439">&#9670;&nbsp;</a></span>gemm_kernel()</h2>
+<a id="a01dd61085e2b3f578a7fc266b94fac55"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a01dd61085e2b3f578a7fc266b94fac55">&#9670;&nbsp;</a></span>__launch_bounds__()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Gemm_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">__global__ cutlass::gemm::__launch_bounds__ </td>
+          <td>(</td>
+          <td class="paramtype">Gemm_::kThreads&#160;</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae23b870e60261e2322f3c6edb3d2bcb9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae23b870e60261e2322f3c6edb3d2bcb9">&#9670;&nbsp;</a></span>gemm_kernel_nolb()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -311,7 +379,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad9577c9086b0f7fd1202d7f8
 template&lt;typename Gemm_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">__global__ void cutlass::gemm::gemm_kernel </td>
+          <td class="memname">__global__ void cutlass::gemm::gemm_kernel_nolb </td>
           <td>(</td>
           <td class="paramtype">typename Gemm_::Params&#160;</td>
           <td class="paramname"><em>params</em></td><td>)</td>
@@ -320,6 +388,46 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad9577c9086b0f7fd1202d7f8
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a2336880c866ef4e73bbe0c3dbcb6c40e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2336880c866ef4e73bbe0c3dbcb6c40e">&#9670;&nbsp;</a></span>getLinearIdx()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;enum swizzleDirection::Kind &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE int cutlass::gemm::getLinearIdx </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>groups</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a37c566ad59d61647374f215c3d33f088"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a37c566ad59d61647374f215c3d33f088">&#9670;&nbsp;</a></span>getLinearIdx&lt; swizzleDirection::Boustrophedon &gt;()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE int <a class="el" href="namespacecutlass_1_1gemm.html#a2336880c866ef4e73bbe0c3dbcb6c40e">cutlass::gemm::getLinearIdx</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa">swizzleDirection::Boustrophedon</a> &gt; </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>groups</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="a3e30ae89e6f7501725028144cd2d88cb"></a>
@@ -363,7 +471,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4a12fcfae60f26efa47bf0a7
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/namespacecutlass_1_1platform.html b/docs/namespacecutlass_1_1platform.html
index 2bf30c0df6..b62a896a71 100644
--- a/docs/namespacecutlass_1_1platform.html
+++ b/docs/namespacecutlass_1_1platform.html
@@ -122,6 +122,8 @@
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1platform_1_1bool__constant.html">bool_constant</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">std::bool_constant  <a href="structcutlass_1_1platform_1_1bool__constant.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1platform_1_1conditional.html">conditional</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">std::conditional (true specialization)  <a href="structcutlass_1_1platform_1_1conditional.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -256,6 +258,157 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
 Functions</h2></td></tr>
+<tr class="memitem:a25a36d44c7b9f182eb404a3251cd4f39"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">real</a> (cuFloatComplex const &amp;z)</td></tr>
+<tr class="memdesc:a25a36d44c7b9f182eb404a3251cd4f39"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="#a25a36d44c7b9f182eb404a3251cd4f39">More...</a><br /></td></tr>
+<tr class="separator:a25a36d44c7b9f182eb404a3251cd4f39"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa9b17e4705337452761c0d3bd5edfc67"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aa9b17e4705337452761c0d3bd5edfc67">real</a> (cuFloatComplex &amp;z)</td></tr>
+<tr class="memdesc:aa9b17e4705337452761c0d3bd5edfc67"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="#aa9b17e4705337452761c0d3bd5edfc67">More...</a><br /></td></tr>
+<tr class="separator:aa9b17e4705337452761c0d3bd5edfc67"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1f13c0049c5f94b0480c619612608f7b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a1f13c0049c5f94b0480c619612608f7b">real</a> (cuDoubleComplex const &amp;z)</td></tr>
+<tr class="memdesc:a1f13c0049c5f94b0480c619612608f7b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="#a1f13c0049c5f94b0480c619612608f7b">More...</a><br /></td></tr>
+<tr class="separator:a1f13c0049c5f94b0480c619612608f7b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3365c0200a034973b7baecede9728239"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a3365c0200a034973b7baecede9728239">real</a> (cuDoubleComplex &amp;z)</td></tr>
+<tr class="memdesc:a3365c0200a034973b7baecede9728239"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="#a3365c0200a034973b7baecede9728239">More...</a><br /></td></tr>
+<tr class="separator:a3365c0200a034973b7baecede9728239"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a18bc43cfdc4d066a6c10ad2002196ee6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">imag</a> (cuFloatComplex const &amp;z)</td></tr>
+<tr class="memdesc:a18bc43cfdc4d066a6c10ad2002196ee6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="#a18bc43cfdc4d066a6c10ad2002196ee6">More...</a><br /></td></tr>
+<tr class="separator:a18bc43cfdc4d066a6c10ad2002196ee6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af127cab494309510051d6b45914faf33"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#af127cab494309510051d6b45914faf33">imag</a> (cuFloatComplex &amp;z)</td></tr>
+<tr class="memdesc:af127cab494309510051d6b45914faf33"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="#af127cab494309510051d6b45914faf33">More...</a><br /></td></tr>
+<tr class="separator:af127cab494309510051d6b45914faf33"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1739f880ca8398f808ee57a3f0c3c30b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a1739f880ca8398f808ee57a3f0c3c30b">imag</a> (cuDoubleComplex const &amp;z)</td></tr>
+<tr class="memdesc:a1739f880ca8398f808ee57a3f0c3c30b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="#a1739f880ca8398f808ee57a3f0c3c30b">More...</a><br /></td></tr>
+<tr class="separator:a1739f880ca8398f808ee57a3f0c3c30b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f356af3c5828b7d31279a5d075c5bc9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a8f356af3c5828b7d31279a5d075c5bc9">imag</a> (cuDoubleComplex &amp;z)</td></tr>
+<tr class="memdesc:a8f356af3c5828b7d31279a5d075c5bc9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="#a8f356af3c5828b7d31279a5d075c5bc9">More...</a><br /></td></tr>
+<tr class="separator:a8f356af3c5828b7d31279a5d075c5bc9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a01e98d1c13ac9384f2bdc407fce6131b"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a01e98d1c13ac9384f2bdc407fce6131b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T const  &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a01e98d1c13ac9384f2bdc407fce6131b">real</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a01e98d1c13ac9384f2bdc407fce6131b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="#a01e98d1c13ac9384f2bdc407fce6131b">More...</a><br /></td></tr>
+<tr class="separator:a01e98d1c13ac9384f2bdc407fce6131b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa5cfa5849e12b745236485dd2db5f854"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:aa5cfa5849e12b745236485dd2db5f854"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aa5cfa5849e12b745236485dd2db5f854">real</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;z)</td></tr>
+<tr class="memdesc:aa5cfa5849e12b745236485dd2db5f854"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the real part of the complex number.  <a href="#aa5cfa5849e12b745236485dd2db5f854">More...</a><br /></td></tr>
+<tr class="separator:aa5cfa5849e12b745236485dd2db5f854"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a714db927a811c86cda26fc12ca830356"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a714db927a811c86cda26fc12ca830356"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T const  &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a714db927a811c86cda26fc12ca830356">imag</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a714db927a811c86cda26fc12ca830356"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="#a714db927a811c86cda26fc12ca830356">More...</a><br /></td></tr>
+<tr class="separator:a714db927a811c86cda26fc12ca830356"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa35ea4f804f9ed39578b595ba2620c1d"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:aa35ea4f804f9ed39578b595ba2620c1d"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aa35ea4f804f9ed39578b595ba2620c1d">imag</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;z)</td></tr>
+<tr class="memdesc:aa35ea4f804f9ed39578b595ba2620c1d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the imaginary part of the complex number.  <a href="#aa35ea4f804f9ed39578b595ba2620c1d">More...</a><br /></td></tr>
+<tr class="separator:aa35ea4f804f9ed39578b595ba2620c1d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab4c3e4eabba020d7a9faf86ee6cf437a"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:ab4c3e4eabba020d7a9faf86ee6cf437a"><td class="memTemplItemLeft" align="right" valign="top">std::ostream &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#ab4c3e4eabba020d7a9faf86ee6cf437a">operator&lt;&lt;</a> (std::ostream &amp;out, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="separator:ab4c3e4eabba020d7a9faf86ee6cf437a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a043e8559161ee0fcaf943a1dfe1a9cbb"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a043e8559161ee0fcaf943a1dfe1a9cbb"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb">operator==</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;lhs, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a043e8559161ee0fcaf943a1dfe1a9cbb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Equality operator.  <a href="#a043e8559161ee0fcaf943a1dfe1a9cbb">More...</a><br /></td></tr>
+<tr class="separator:a043e8559161ee0fcaf943a1dfe1a9cbb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa8b8911c3529ee9d433b0c4d90bde50c"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:aa8b8911c3529ee9d433b0c4d90bde50c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c">operator!=</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;lhs, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:aa8b8911c3529ee9d433b0c4d90bde50c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Inequality operator.  <a href="#aa8b8911c3529ee9d433b0c4d90bde50c">More...</a><br /></td></tr>
+<tr class="separator:aa8b8911c3529ee9d433b0c4d90bde50c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a93b0f0d73fa3cf11c5018460b257837c"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a93b0f0d73fa3cf11c5018460b257837c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a93b0f0d73fa3cf11c5018460b257837c">operator+</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;lhs, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a93b0f0d73fa3cf11c5018460b257837c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Addition.  <a href="#a93b0f0d73fa3cf11c5018460b257837c">More...</a><br /></td></tr>
+<tr class="separator:a93b0f0d73fa3cf11c5018460b257837c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa486433971cdd6b7648c1e5459c42763"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:aa486433971cdd6b7648c1e5459c42763"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aa486433971cdd6b7648c1e5459c42763">operator-</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;lhs, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:aa486433971cdd6b7648c1e5459c42763"><td class="mdescLeft">&#160;</td><td class="mdescRight">Subtraction.  <a href="#aa486433971cdd6b7648c1e5459c42763">More...</a><br /></td></tr>
+<tr class="separator:aa486433971cdd6b7648c1e5459c42763"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a34950f01ed89108b1d79c651aa58ecba"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a34950f01ed89108b1d79c651aa58ecba"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba">operator*</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;lhs, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a34950f01ed89108b1d79c651aa58ecba"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiplication.  <a href="#a34950f01ed89108b1d79c651aa58ecba">More...</a><br /></td></tr>
+<tr class="separator:a34950f01ed89108b1d79c651aa58ecba"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aef5da2c88431ab40b58fdd6afea13dba"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:aef5da2c88431ab40b58fdd6afea13dba"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#aef5da2c88431ab40b58fdd6afea13dba">operator*</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;lhs, T const &amp;s)</td></tr>
+<tr class="memdesc:aef5da2c88431ab40b58fdd6afea13dba"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar Multiplication.  <a href="#aef5da2c88431ab40b58fdd6afea13dba">More...</a><br /></td></tr>
+<tr class="separator:aef5da2c88431ab40b58fdd6afea13dba"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a289b6e31bdc0be1302b8dbab55eb568c"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a289b6e31bdc0be1302b8dbab55eb568c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a289b6e31bdc0be1302b8dbab55eb568c">operator*</a> (T const &amp;s, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a289b6e31bdc0be1302b8dbab55eb568c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar Multiplication.  <a href="#a289b6e31bdc0be1302b8dbab55eb568c">More...</a><br /></td></tr>
+<tr class="separator:a289b6e31bdc0be1302b8dbab55eb568c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4fe79c19fb599cd9b85d08676a711f9f"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a4fe79c19fb599cd9b85d08676a711f9f"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f">operator/</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;lhs, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a4fe79c19fb599cd9b85d08676a711f9f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Division.  <a href="#a4fe79c19fb599cd9b85d08676a711f9f">More...</a><br /></td></tr>
+<tr class="separator:a4fe79c19fb599cd9b85d08676a711f9f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a33f75d77ff629335c9666128837c4581"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a33f75d77ff629335c9666128837c4581"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a33f75d77ff629335c9666128837c4581">operator/</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;lhs, T const &amp;s)</td></tr>
+<tr class="memdesc:a33f75d77ff629335c9666128837c4581"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar Division.  <a href="#a33f75d77ff629335c9666128837c4581">More...</a><br /></td></tr>
+<tr class="separator:a33f75d77ff629335c9666128837c4581"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae302b414576ecb5afb0cdfdda6b30ad3"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:ae302b414576ecb5afb0cdfdda6b30ad3"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#ae302b414576ecb5afb0cdfdda6b30ad3">operator/</a> (T const &amp;s, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:ae302b414576ecb5afb0cdfdda6b30ad3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar divided by complex.  <a href="#ae302b414576ecb5afb0cdfdda6b30ad3">More...</a><br /></td></tr>
+<tr class="separator:ae302b414576ecb5afb0cdfdda6b30ad3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a34c5ca341da805d5d1bc703c53c96d9d"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a34c5ca341da805d5d1bc703c53c96d9d"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a34c5ca341da805d5d1bc703c53c96d9d">operator+=</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;lhs, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a34c5ca341da805d5d1bc703c53c96d9d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Addition.  <a href="#a34c5ca341da805d5d1bc703c53c96d9d">More...</a><br /></td></tr>
+<tr class="separator:a34c5ca341da805d5d1bc703c53c96d9d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abff9e10130849ea46f6245f4e8cc2cc9"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:abff9e10130849ea46f6245f4e8cc2cc9"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#abff9e10130849ea46f6245f4e8cc2cc9">operator-=</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;lhs, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:abff9e10130849ea46f6245f4e8cc2cc9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Subtraction.  <a href="#abff9e10130849ea46f6245f4e8cc2cc9">More...</a><br /></td></tr>
+<tr class="separator:abff9e10130849ea46f6245f4e8cc2cc9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9a4928ab582beee4e7ddd337529d45ac"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a9a4928ab582beee4e7ddd337529d45ac"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac">operator*=</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;lhs, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:a9a4928ab582beee4e7ddd337529d45ac"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiplication.  <a href="#a9a4928ab582beee4e7ddd337529d45ac">More...</a><br /></td></tr>
+<tr class="separator:a9a4928ab582beee4e7ddd337529d45ac"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a21adde191e48e604908ce886690c6d6b"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a21adde191e48e604908ce886690c6d6b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a21adde191e48e604908ce886690c6d6b">operator*=</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;lhs, T s)</td></tr>
+<tr class="memdesc:a21adde191e48e604908ce886690c6d6b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar multiplication.  <a href="#a21adde191e48e604908ce886690c6d6b">More...</a><br /></td></tr>
+<tr class="separator:a21adde191e48e604908ce886690c6d6b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac594526ef64ecf364ae957753ce64b40"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:ac594526ef64ecf364ae957753ce64b40"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#ac594526ef64ecf364ae957753ce64b40">operator/=</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;lhs, <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;rhs)</td></tr>
+<tr class="memdesc:ac594526ef64ecf364ae957753ce64b40"><td class="mdescLeft">&#160;</td><td class="mdescRight">Division.  <a href="#ac594526ef64ecf364ae957753ce64b40">More...</a><br /></td></tr>
+<tr class="separator:ac594526ef64ecf364ae957753ce64b40"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1fbf209c41242b3f605ac220c39e8fd5"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a1fbf209c41242b3f605ac220c39e8fd5"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5">abs</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a1fbf209c41242b3f605ac220c39e8fd5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the magnitude of the complex number.  <a href="#a1fbf209c41242b3f605ac220c39e8fd5">More...</a><br /></td></tr>
+<tr class="separator:a1fbf209c41242b3f605ac220c39e8fd5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8a1a03766dbd2c2ce10b10498f281bf0"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a8a1a03766dbd2c2ce10b10498f281bf0"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0">arg</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a8a1a03766dbd2c2ce10b10498f281bf0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the magnitude of the complex number.  <a href="#a8a1a03766dbd2c2ce10b10498f281bf0">More...</a><br /></td></tr>
+<tr class="separator:a8a1a03766dbd2c2ce10b10498f281bf0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9d631b040eea94d9b5af04faa5c20bb1"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a9d631b040eea94d9b5af04faa5c20bb1"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">norm</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a9d631b040eea94d9b5af04faa5c20bb1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the squared magnitude.  <a href="#a9d631b040eea94d9b5af04faa5c20bb1">More...</a><br /></td></tr>
+<tr class="separator:a9d631b040eea94d9b5af04faa5c20bb1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7167baf0f7fcf52471c0413f084d98d4"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a7167baf0f7fcf52471c0413f084d98d4"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a7167baf0f7fcf52471c0413f084d98d4">conj</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a7167baf0f7fcf52471c0413f084d98d4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the complex conjugate.  <a href="#a7167baf0f7fcf52471c0413f084d98d4">More...</a><br /></td></tr>
+<tr class="separator:a7167baf0f7fcf52471c0413f084d98d4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4e57cfad9bf0b78e338d536ff1bdda39"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a4e57cfad9bf0b78e338d536ff1bdda39"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a4e57cfad9bf0b78e338d536ff1bdda39">proj</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a4e57cfad9bf0b78e338d536ff1bdda39"><td class="mdescLeft">&#160;</td><td class="mdescRight">Projects the complex number z onto the Riemann sphere.  <a href="#a4e57cfad9bf0b78e338d536ff1bdda39">More...</a><br /></td></tr>
+<tr class="separator:a4e57cfad9bf0b78e338d536ff1bdda39"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6c9200b03868a5090027e5cfc8e27c62"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a6c9200b03868a5090027e5cfc8e27c62"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a6c9200b03868a5090027e5cfc8e27c62">polar</a> (T const &amp;r, T const &amp;theta=T())</td></tr>
+<tr class="memdesc:a6c9200b03868a5090027e5cfc8e27c62"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a complex number with magnitude r and phase theta.  <a href="#a6c9200b03868a5090027e5cfc8e27c62">More...</a><br /></td></tr>
+<tr class="separator:a6c9200b03868a5090027e5cfc8e27c62"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1a6ab5742404272f76faeaf22f3ec11b"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a1a6ab5742404272f76faeaf22f3ec11b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">exp</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a1a6ab5742404272f76faeaf22f3ec11b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the complex exponential of z.  <a href="#a1a6ab5742404272f76faeaf22f3ec11b">More...</a><br /></td></tr>
+<tr class="separator:a1a6ab5742404272f76faeaf22f3ec11b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adc1afc18e182f42f72210e2203ba293c"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:adc1afc18e182f42f72210e2203ba293c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">log</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:adc1afc18e182f42f72210e2203ba293c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the complex exponential of z.  <a href="#adc1afc18e182f42f72210e2203ba293c">More...</a><br /></td></tr>
+<tr class="separator:adc1afc18e182f42f72210e2203ba293c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a62dd6ae0e1b4476fd62ac70c26f12a06"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a62dd6ae0e1b4476fd62ac70c26f12a06"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a62dd6ae0e1b4476fd62ac70c26f12a06">log10</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a62dd6ae0e1b4476fd62ac70c26f12a06"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the complex exponential of z.  <a href="#a62dd6ae0e1b4476fd62ac70c26f12a06">More...</a><br /></td></tr>
+<tr class="separator:a62dd6ae0e1b4476fd62ac70c26f12a06"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a81308ccea406262e143e27193cbdf747"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a81308ccea406262e143e27193cbdf747"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">sqrt</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a81308ccea406262e143e27193cbdf747"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the square root of complex number z.  <a href="#a81308ccea406262e143e27193cbdf747">More...</a><br /></td></tr>
+<tr class="separator:a81308ccea406262e143e27193cbdf747"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae0ad2891ed2be526d97bc5665d5c0a92"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:ae0ad2891ed2be526d97bc5665d5c0a92"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92">cos</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:ae0ad2891ed2be526d97bc5665d5c0a92"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the cosine of complex z.  <a href="#ae0ad2891ed2be526d97bc5665d5c0a92">More...</a><br /></td></tr>
+<tr class="separator:ae0ad2891ed2be526d97bc5665d5c0a92"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3c5dc10135c54b3b212c9e107ba1476a"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a3c5dc10135c54b3b212c9e107ba1476a"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a">sin</a> (<a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;z)</td></tr>
+<tr class="memdesc:a3c5dc10135c54b3b212c9e107ba1476a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the sin of complex z.  <a href="#a3c5dc10135c54b3b212c9e107ba1476a">More...</a><br /></td></tr>
+<tr class="separator:a3c5dc10135c54b3b212c9e107ba1476a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a57c071d2a7305dd4ec60542e66b0c81c"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
 <tr class="memitem:a57c071d2a7305dd4ec60542e66b0c81c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> const T &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">min</a> (const T &amp;a, const T &amp;b)</td></tr>
 <tr class="memdesc:a57c071d2a7305dd4ec60542e66b0c81c"><td class="mdescLeft">&#160;</td><td class="mdescRight">std::min  <a href="#a57c071d2a7305dd4ec60542e66b0c81c">More...</a><br /></td></tr>
@@ -399,8 +552,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0bcb016704ec57f9499e662b
 
 </div>
 </div>
-<a id="ae792b1c7ada1a33e306cd552f583bdce"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae792b1c7ada1a33e306cd552f583bdce">&#9670;&nbsp;</a></span>__align__() <span class="overload">[3/13]</span></h2>
+<a id="a71be5af25eeffa4077777f919e67d8da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a71be5af25eeffa4077777f919e67d8da">&#9670;&nbsp;</a></span>__align__() <span class="overload">[3/13]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -410,7 +563,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae792b1c7ada1a33e306cd552
         <tr>
           <td class="memname">struct cutlass::platform::__align__ </td>
           <td>(</td>
-          <td class="paramtype">64&#160;</td>
+          <td class="paramtype">4&#160;</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
@@ -419,8 +572,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae792b1c7ada1a33e306cd552
 
 </div>
 </div>
-<a id="a5712ec4fed335a9b7f863fb3abe3c5eb"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5712ec4fed335a9b7f863fb3abe3c5eb">&#9670;&nbsp;</a></span>__align__() <span class="overload">[4/13]</span></h2>
+<a id="a42440254a16d4b6b95b95cc3360ee372"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a42440254a16d4b6b95b95cc3360ee372">&#9670;&nbsp;</a></span>__align__() <span class="overload">[4/13]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -430,7 +583,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5712ec4fed335a9b7f863fb3
         <tr>
           <td class="memname">struct cutlass::platform::__align__ </td>
           <td>(</td>
-          <td class="paramtype">128&#160;</td>
+          <td class="paramtype">8&#160;</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
@@ -439,8 +592,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5712ec4fed335a9b7f863fb3
 
 </div>
 </div>
-<a id="a595cc98db29fb4d59772d2e2f52e347a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a595cc98db29fb4d59772d2e2f52e347a">&#9670;&nbsp;</a></span>__align__() <span class="overload">[5/13]</span></h2>
+<a id="a91d5e970d6ebe619914f40a9510bdb1e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a91d5e970d6ebe619914f40a9510bdb1e">&#9670;&nbsp;</a></span>__align__() <span class="overload">[5/13]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -450,7 +603,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a595cc98db29fb4d59772d2e2
         <tr>
           <td class="memname">struct cutlass::platform::__align__ </td>
           <td>(</td>
-          <td class="paramtype">256&#160;</td>
+          <td class="paramtype">16&#160;</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
@@ -479,8 +632,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae70bb5d14a66500b47d2e3f8
 
 </div>
 </div>
-<a id="a181e44e9c66f704175590727aaa9e5a1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a181e44e9c66f704175590727aaa9e5a1">&#9670;&nbsp;</a></span>__align__() <span class="overload">[7/13]</span></h2>
+<a id="a210f4d360b1f9c3d074e71129fe4c0d9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a210f4d360b1f9c3d074e71129fe4c0d9">&#9670;&nbsp;</a></span>__align__() <span class="overload">[7/13]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -490,7 +643,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a181e44e9c66f704175590727
         <tr>
           <td class="memname">struct cutlass::platform::__align__ </td>
           <td>(</td>
-          <td class="paramtype">1024&#160;</td>
+          <td class="paramtype">32&#160;</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
@@ -499,8 +652,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a181e44e9c66f704175590727
 
 </div>
 </div>
-<a id="ae72c8fa997bb251d4140dceb03147154"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae72c8fa997bb251d4140dceb03147154">&#9670;&nbsp;</a></span>__align__() <span class="overload">[8/13]</span></h2>
+<a id="ae792b1c7ada1a33e306cd552f583bdce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae792b1c7ada1a33e306cd552f583bdce">&#9670;&nbsp;</a></span>__align__() <span class="overload">[8/13]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -510,7 +663,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae72c8fa997bb251d4140dceb
         <tr>
           <td class="memname">struct cutlass::platform::__align__ </td>
           <td>(</td>
-          <td class="paramtype">2048&#160;</td>
+          <td class="paramtype">64&#160;</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
@@ -519,8 +672,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae72c8fa997bb251d4140dceb
 
 </div>
 </div>
-<a id="ada29683f1b408ae7b73cc8fbe2108628"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ada29683f1b408ae7b73cc8fbe2108628">&#9670;&nbsp;</a></span>__align__() <span class="overload">[9/13]</span></h2>
+<a id="a5712ec4fed335a9b7f863fb3abe3c5eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5712ec4fed335a9b7f863fb3abe3c5eb">&#9670;&nbsp;</a></span>__align__() <span class="overload">[9/13]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -530,7 +683,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ada29683f1b408ae7b73cc8fb
         <tr>
           <td class="memname">struct cutlass::platform::__align__ </td>
           <td>(</td>
-          <td class="paramtype">4096&#160;</td>
+          <td class="paramtype">128&#160;</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
@@ -539,8 +692,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ada29683f1b408ae7b73cc8fb
 
 </div>
 </div>
-<a id="a210f4d360b1f9c3d074e71129fe4c0d9"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a210f4d360b1f9c3d074e71129fe4c0d9">&#9670;&nbsp;</a></span>__align__() <span class="overload">[10/13]</span></h2>
+<a id="a595cc98db29fb4d59772d2e2f52e347a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a595cc98db29fb4d59772d2e2f52e347a">&#9670;&nbsp;</a></span>__align__() <span class="overload">[10/13]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -550,7 +703,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a210f4d360b1f9c3d074e7112
         <tr>
           <td class="memname">struct cutlass::platform::__align__ </td>
           <td>(</td>
-          <td class="paramtype">32&#160;</td>
+          <td class="paramtype">256&#160;</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
@@ -559,8 +712,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a210f4d360b1f9c3d074e7112
 
 </div>
 </div>
-<a id="a71be5af25eeffa4077777f919e67d8da"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a71be5af25eeffa4077777f919e67d8da">&#9670;&nbsp;</a></span>__align__() <span class="overload">[11/13]</span></h2>
+<a id="a181e44e9c66f704175590727aaa9e5a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a181e44e9c66f704175590727aaa9e5a1">&#9670;&nbsp;</a></span>__align__() <span class="overload">[11/13]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -570,7 +723,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a71be5af25eeffa4077777f91
         <tr>
           <td class="memname">struct cutlass::platform::__align__ </td>
           <td>(</td>
-          <td class="paramtype">4&#160;</td>
+          <td class="paramtype">1024&#160;</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
@@ -579,8 +732,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a71be5af25eeffa4077777f91
 
 </div>
 </div>
-<a id="a42440254a16d4b6b95b95cc3360ee372"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a42440254a16d4b6b95b95cc3360ee372">&#9670;&nbsp;</a></span>__align__() <span class="overload">[12/13]</span></h2>
+<a id="ae72c8fa997bb251d4140dceb03147154"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae72c8fa997bb251d4140dceb03147154">&#9670;&nbsp;</a></span>__align__() <span class="overload">[12/13]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -590,7 +743,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a42440254a16d4b6b95b95cc3
         <tr>
           <td class="memname">struct cutlass::platform::__align__ </td>
           <td>(</td>
-          <td class="paramtype">8&#160;</td>
+          <td class="paramtype">2048&#160;</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
@@ -599,8 +752,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a42440254a16d4b6b95b95cc3
 
 </div>
 </div>
-<a id="a91d5e970d6ebe619914f40a9510bdb1e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a91d5e970d6ebe619914f40a9510bdb1e">&#9670;&nbsp;</a></span>__align__() <span class="overload">[13/13]</span></h2>
+<a id="ada29683f1b408ae7b73cc8fbe2108628"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada29683f1b408ae7b73cc8fbe2108628">&#9670;&nbsp;</a></span>__align__() <span class="overload">[13/13]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -610,7 +763,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a91d5e970d6ebe619914f40a9
         <tr>
           <td class="memname">struct cutlass::platform::__align__ </td>
           <td>(</td>
-          <td class="paramtype">16&#160;</td>
+          <td class="paramtype">4096&#160;</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
@@ -619,38 +772,48 @@ <h2 class="memtitle"><span class="permalink"><a href="#a91d5e970d6ebe619914f40a9
 
 </div>
 </div>
-<a id="a90ce74c7faa4e27c888ce56e957b73d5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a90ce74c7faa4e27c888ce56e957b73d5">&#9670;&nbsp;</a></span>make_pair()</h2>
+<a id="a1fbf209c41242b3f605ac220c39e8fd5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fbf209c41242b3f605ac220c39e8fd5">&#9670;&nbsp;</a></span>abs()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;class T1 , class T2 &gt; </div>
+template&lt;typename T &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> std::pair&lt;T1, T2&gt; cutlass::platform::make_pair </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T cutlass::platform::abs </td>
           <td>(</td>
-          <td class="paramtype">T1&#160;</td>
-          <td class="paramname"><em>t</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td class="paramtype">T2&#160;</td>
-          <td class="paramname"><em>u</em>&#160;</td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8a1a03766dbd2c2ce10b10498f281bf0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8a1a03766dbd2c2ce10b10498f281bf0">&#9670;&nbsp;</a></span>arg()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
         <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T cutlass::platform::arg </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="af6a9a165e53d7e85ae121d5789aa03e0"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af6a9a165e53d7e85ae121d5789aa03e0">&#9670;&nbsp;</a></span>max()</h2>
+<a id="a7167baf0f7fcf52471c0413f084d98d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7167baf0f7fcf52471c0413f084d98d4">&#9670;&nbsp;</a></span>conj()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -658,29 +821,39 @@ <h2 class="memtitle"><span class="permalink"><a href="#af6a9a165e53d7e85ae121d57
 template&lt;typename T &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> const T&amp; cutlass::platform::max </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::conj </td>
           <td>(</td>
-          <td class="paramtype">const T &amp;&#160;</td>
-          <td class="paramname"><em>a</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td class="paramtype">const T &amp;&#160;</td>
-          <td class="paramname"><em>b</em>&#160;</td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae0ad2891ed2be526d97bc5665d5c0a92"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0ad2891ed2be526d97bc5665d5c0a92">&#9670;&nbsp;</a></span>cos()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
         <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::cos </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a57c071d2a7305dd4ec60542e66b0c81c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a57c071d2a7305dd4ec60542e66b0c81c">&#9670;&nbsp;</a></span>min()</h2>
+<a id="a1a6ab5742404272f76faeaf22f3ec11b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1a6ab5742404272f76faeaf22f3ec11b">&#9670;&nbsp;</a></span>exp()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -688,89 +861,171 @@ <h2 class="memtitle"><span class="permalink"><a href="#a57c071d2a7305dd4ec60542e
 template&lt;typename T &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> const T&amp; cutlass::platform::min </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::exp </td>
           <td>(</td>
-          <td class="paramtype">const T &amp;&#160;</td>
-          <td class="paramname"><em>a</em>, </td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a18bc43cfdc4d066a6c10ad2002196ee6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a18bc43cfdc4d066a6c10ad2002196ee6">&#9670;&nbsp;</a></span>imag() <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
         <tr>
-          <td class="paramkey"></td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float const&amp; cutlass::platform::imag </td>
+          <td>(</td>
+          <td class="paramtype">cuFloatComplex const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td class="paramtype">const T &amp;&#160;</td>
-          <td class="paramname"><em>b</em>&#160;</td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af127cab494309510051d6b45914faf33"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af127cab494309510051d6b45914faf33">&#9670;&nbsp;</a></span>imag() <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
         <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float&amp; cutlass::platform::imag </td>
+          <td>(</td>
+          <td class="paramtype">cuFloatComplex &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a248f49adf09654d2cd04bd2760ab2566"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a248f49adf09654d2cd04bd2760ab2566">&#9670;&nbsp;</a></span>operator!=()</h2>
+<a id="a1739f880ca8398f808ee57a3f0c3c30b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1739f880ca8398f808ee57a3f0c3c30b">&#9670;&nbsp;</a></span>imag() <span class="overload">[3/6]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
-<div class="memtemplate">
-template&lt;class T1 , class T2 &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator!= </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double const&amp; cutlass::platform::imag </td>
           <td>(</td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>lhs</em>, </td>
+          <td class="paramtype">cuDoubleComplex const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8f356af3c5828b7d31279a5d075c5bc9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f356af3c5828b7d31279a5d075c5bc9">&#9670;&nbsp;</a></span>imag() <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
         <tr>
-          <td class="paramkey"></td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double&amp; cutlass::platform::imag </td>
+          <td>(</td>
+          <td class="paramtype">cuDoubleComplex &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>rhs</em>&#160;</td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a714db927a811c86cda26fc12ca830356"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a714db927a811c86cda26fc12ca830356">&#9670;&nbsp;</a></span>imag() <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
         <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T const&amp; cutlass::platform::imag </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a412dbdbc678ecd12b55fcad4ef4155bd"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a412dbdbc678ecd12b55fcad4ef4155bd">&#9670;&nbsp;</a></span>operator&lt;()</h2>
+<a id="aa35ea4f804f9ed39578b595ba2620c1d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa35ea4f804f9ed39578b595ba2620c1d">&#9670;&nbsp;</a></span>imag() <span class="overload">[6/6]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;class T1 , class T2 &gt; </div>
+template&lt;typename T &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator&lt; </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&amp; cutlass::platform::imag </td>
           <td>(</td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>lhs</em>, </td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adc1afc18e182f42f72210e2203ba293c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adc1afc18e182f42f72210e2203ba293c">&#9670;&nbsp;</a></span>log()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
         <tr>
-          <td class="paramkey"></td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::log </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>rhs</em>&#160;</td>
         </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a62dd6ae0e1b4476fd62ac70c26f12a06"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a62dd6ae0e1b4476fd62ac70c26f12a06">&#9670;&nbsp;</a></span>log10()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
         <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::log10 </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a41d573133357bd555f78d33afc1152d3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a41d573133357bd555f78d33afc1152d3">&#9670;&nbsp;</a></span>operator&lt;=()</h2>
+<a id="a90ce74c7faa4e27c888ce56e957b73d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a90ce74c7faa4e27c888ce56e957b73d5">&#9670;&nbsp;</a></span>make_pair()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -778,16 +1033,16 @@ <h2 class="memtitle"><span class="permalink"><a href="#a41d573133357bd555f78d33a
 template&lt;class T1 , class T2 &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator&lt;= </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> std::pair&lt;T1, T2&gt; cutlass::platform::make_pair </td>
           <td>(</td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>lhs</em>, </td>
+          <td class="paramtype">T1&#160;</td>
+          <td class="paramname"><em>t</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>rhs</em>&#160;</td>
+          <td class="paramtype">T2&#160;</td>
+          <td class="paramname"><em>u</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -799,25 +1054,25 @@ <h2 class="memtitle"><span class="permalink"><a href="#a41d573133357bd555f78d33a
 
 </div>
 </div>
-<a id="ab9b8306ae9dc21fa646c49b68fa8e197"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab9b8306ae9dc21fa646c49b68fa8e197">&#9670;&nbsp;</a></span>operator==()</h2>
+<a id="af6a9a165e53d7e85ae121d5789aa03e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af6a9a165e53d7e85ae121d5789aa03e0">&#9670;&nbsp;</a></span>max()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;class T1 , class T2 &gt; </div>
+template&lt;typename T &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator== </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> const T&amp; cutlass::platform::max </td>
           <td>(</td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>lhs</em>, </td>
+          <td class="paramtype">const T &amp;&#160;</td>
+          <td class="paramname"><em>a</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>rhs</em>&#160;</td>
+          <td class="paramtype">const T &amp;&#160;</td>
+          <td class="paramname"><em>b</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -829,25 +1084,25 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab9b8306ae9dc21fa646c49b6
 
 </div>
 </div>
-<a id="a9e8e698d40b8df881991fde9ba2a1b12"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9e8e698d40b8df881991fde9ba2a1b12">&#9670;&nbsp;</a></span>operator&gt;()</h2>
+<a id="a57c071d2a7305dd4ec60542e66b0c81c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57c071d2a7305dd4ec60542e66b0c81c">&#9670;&nbsp;</a></span>min()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;class T1 , class T2 &gt; </div>
+template&lt;typename T &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator&gt; </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> const T&amp; cutlass::platform::min </td>
           <td>(</td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>lhs</em>, </td>
+          <td class="paramtype">const T &amp;&#160;</td>
+          <td class="paramname"><em>a</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>rhs</em>&#160;</td>
+          <td class="paramtype">const T &amp;&#160;</td>
+          <td class="paramname"><em>b</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -859,30 +1114,882 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9e8e698d40b8df881991fde9
 
 </div>
 </div>
-<a id="ab0f21e67c0a4b5c6952042b502c6816f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab0f21e67c0a4b5c6952042b502c6816f">&#9670;&nbsp;</a></span>operator&gt;=()</h2>
+<a id="a9d631b040eea94d9b5af04faa5c20bb1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d631b040eea94d9b5af04faa5c20bb1">&#9670;&nbsp;</a></span>norm()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;class T1 , class T2 &gt; </div>
+template&lt;typename T &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator&gt;= </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T cutlass::platform::norm </td>
           <td>(</td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>lhs</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
           <td></td>
-          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>rhs</em>&#160;</td>
         </tr>
-        <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a248f49adf09654d2cd04bd2760ab2566"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a248f49adf09654d2cd04bd2760ab2566">&#9670;&nbsp;</a></span>operator!=() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;class T1 , class T2 &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator!= </td>
+          <td>(</td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa8b8911c3529ee9d433b0c4d90bde50c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa8b8911c3529ee9d433b0c4d90bde50c">&#9670;&nbsp;</a></span>operator!=() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool cutlass::platform::operator!= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a34950f01ed89108b1d79c651aa58ecba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a34950f01ed89108b1d79c651aa58ecba">&#9670;&nbsp;</a></span>operator*() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::operator* </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aef5da2c88431ab40b58fdd6afea13dba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef5da2c88431ab40b58fdd6afea13dba">&#9670;&nbsp;</a></span>operator*() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::operator* </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T const &amp;&#160;</td>
+          <td class="paramname"><em>s</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a289b6e31bdc0be1302b8dbab55eb568c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a289b6e31bdc0be1302b8dbab55eb568c">&#9670;&nbsp;</a></span>operator*() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::operator* </td>
+          <td>(</td>
+          <td class="paramtype">T const &amp;&#160;</td>
+          <td class="paramname"><em>s</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9a4928ab582beee4e7ddd337529d45ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a4928ab582beee4e7ddd337529d45ac">&#9670;&nbsp;</a></span>operator*=() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt;&amp; cutlass::platform::operator*= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a21adde191e48e604908ce886690c6d6b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a21adde191e48e604908ce886690c6d6b">&#9670;&nbsp;</a></span>operator*=() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt;&amp; cutlass::platform::operator*= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T&#160;</td>
+          <td class="paramname"><em>s</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a93b0f0d73fa3cf11c5018460b257837c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a93b0f0d73fa3cf11c5018460b257837c">&#9670;&nbsp;</a></span>operator+()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::operator+ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a34c5ca341da805d5d1bc703c53c96d9d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a34c5ca341da805d5d1bc703c53c96d9d">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt;&amp; cutlass::platform::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa486433971cdd6b7648c1e5459c42763"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa486433971cdd6b7648c1e5459c42763">&#9670;&nbsp;</a></span>operator-()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::operator- </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abff9e10130849ea46f6245f4e8cc2cc9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abff9e10130849ea46f6245f4e8cc2cc9">&#9670;&nbsp;</a></span>operator-=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt;&amp; cutlass::platform::operator-= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4fe79c19fb599cd9b85d08676a711f9f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4fe79c19fb599cd9b85d08676a711f9f">&#9670;&nbsp;</a></span>operator/() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::operator/ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a33f75d77ff629335c9666128837c4581"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33f75d77ff629335c9666128837c4581">&#9670;&nbsp;</a></span>operator/() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::operator/ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T const &amp;&#160;</td>
+          <td class="paramname"><em>s</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae302b414576ecb5afb0cdfdda6b30ad3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae302b414576ecb5afb0cdfdda6b30ad3">&#9670;&nbsp;</a></span>operator/() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::operator/ </td>
+          <td>(</td>
+          <td class="paramtype">T const &amp;&#160;</td>
+          <td class="paramname"><em>s</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac594526ef64ecf364ae957753ce64b40"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac594526ef64ecf364ae957753ce64b40">&#9670;&nbsp;</a></span>operator/=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt;&amp; cutlass::platform::operator/= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a412dbdbc678ecd12b55fcad4ef4155bd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a412dbdbc678ecd12b55fcad4ef4155bd">&#9670;&nbsp;</a></span>operator&lt;()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;class T1 , class T2 &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator&lt; </td>
+          <td>(</td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab4c3e4eabba020d7a9faf86ee6cf437a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab4c3e4eabba020d7a9faf86ee6cf437a">&#9670;&nbsp;</a></span>operator&lt;&lt;()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">std::ostream&amp; cutlass::platform::operator&lt;&lt; </td>
+          <td>(</td>
+          <td class="paramtype">std::ostream &amp;&#160;</td>
+          <td class="paramname"><em>out</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a41d573133357bd555f78d33afc1152d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a41d573133357bd555f78d33afc1152d3">&#9670;&nbsp;</a></span>operator&lt;=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;class T1 , class T2 &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator&lt;= </td>
+          <td>(</td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a043e8559161ee0fcaf943a1dfe1a9cbb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a043e8559161ee0fcaf943a1dfe1a9cbb">&#9670;&nbsp;</a></span>operator==() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool cutlass::platform::operator== </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab9b8306ae9dc21fa646c49b68fa8e197"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab9b8306ae9dc21fa646c49b68fa8e197">&#9670;&nbsp;</a></span>operator==() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;class T1 , class T2 &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator== </td>
+          <td>(</td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9e8e698d40b8df881991fde9ba2a1b12"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e8e698d40b8df881991fde9ba2a1b12">&#9670;&nbsp;</a></span>operator&gt;()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;class T1 , class T2 &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator&gt; </td>
+          <td>(</td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab0f21e67c0a4b5c6952042b502c6816f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab0f21e67c0a4b5c6952042b502c6816f">&#9670;&nbsp;</a></span>operator&gt;=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;class T1 , class T2 &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> bool cutlass::platform::operator&gt;= </td>
+          <td>(</td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>lhs</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const pair&lt; T1, T2 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>rhs</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c9200b03868a5090027e5cfc8e27c62"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c9200b03868a5090027e5cfc8e27c62">&#9670;&nbsp;</a></span>polar()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::polar </td>
+          <td>(</td>
+          <td class="paramtype">T const &amp;&#160;</td>
+          <td class="paramname"><em>r</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">T const &amp;&#160;</td>
+          <td class="paramname"><em>theta</em> = <code>T()</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4e57cfad9bf0b78e338d536ff1bdda39"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4e57cfad9bf0b78e338d536ff1bdda39">&#9670;&nbsp;</a></span>proj()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::proj </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25a36d44c7b9f182eb404a3251cd4f39"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25a36d44c7b9f182eb404a3251cd4f39">&#9670;&nbsp;</a></span>real() <span class="overload">[1/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float const&amp; cutlass::platform::real </td>
+          <td>(</td>
+          <td class="paramtype">cuFloatComplex const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa9b17e4705337452761c0d3bd5edfc67"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa9b17e4705337452761c0d3bd5edfc67">&#9670;&nbsp;</a></span>real() <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> float&amp; cutlass::platform::real </td>
+          <td>(</td>
+          <td class="paramtype">cuFloatComplex &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f13c0049c5f94b0480c619612608f7b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f13c0049c5f94b0480c619612608f7b">&#9670;&nbsp;</a></span>real() <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double const&amp; cutlass::platform::real </td>
+          <td>(</td>
+          <td class="paramtype">cuDoubleComplex const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3365c0200a034973b7baecede9728239"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3365c0200a034973b7baecede9728239">&#9670;&nbsp;</a></span>real() <span class="overload">[4/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> double&amp; cutlass::platform::real </td>
+          <td>(</td>
+          <td class="paramtype">cuDoubleComplex &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a01e98d1c13ac9384f2bdc407fce6131b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a01e98d1c13ac9384f2bdc407fce6131b">&#9670;&nbsp;</a></span>real() <span class="overload">[5/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T const&amp; cutlass::platform::real </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa5cfa5849e12b745236485dd2db5f854"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa5cfa5849e12b745236485dd2db5f854">&#9670;&nbsp;</a></span>real() <span class="overload">[6/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&amp; cutlass::platform::real </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3c5dc10135c54b3b212c9e107ba1476a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c5dc10135c54b3b212c9e107ba1476a">&#9670;&nbsp;</a></span>sin()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::sin </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a81308ccea406262e143e27193cbdf747"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a81308ccea406262e143e27193cbdf747">&#9670;&nbsp;</a></span>sqrt()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt;T&gt; cutlass::platform::sqrt </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1platform_1_1complex.html">complex</a>&lt; T &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>z</em></td><td>)</td>
+          <td></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -930,7 +2037,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3e83320a39137d92042eb0bf
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/namespacemembers.html b/docs/namespacemembers.html
index 9566721d18..a522eab713 100644
--- a/docs/namespacemembers.html
+++ b/docs/namespacemembers.html
@@ -73,22 +73,54 @@
 <h3><a id="index__"></a>- _ -</h3><ul>
 <li>__align__()
 : <a class="el" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">cutlass</a>
-, <a class="el" href="namespacecutlass_1_1platform.html#ae792b1c7ada1a33e306cd552f583bdce">cutlass::platform</a>
+, <a class="el" href="namespacecutlass_1_1platform.html#a71be5af25eeffa4077777f919e67d8da">cutlass::platform</a>
+</li>
+<li>__launch_bounds__()
+: <a class="el" href="namespacecutlass_1_1gemm.html#a01dd61085e2b3f578a7fc266b94fac55">cutlass::gemm</a>
+</li>
+</ul>
+
+
+<h3><a id="index_a"></a>- a -</h3><ul>
+<li>abs()
+: <a class="el" href="namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5">cutlass::platform</a>
+</li>
+<li>arg()
+: <a class="el" href="namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0">cutlass::platform</a>
 </li>
 </ul>
 
 
 <h3><a id="index_c"></a>- c -</h3><ul>
+<li>clz()
+: <a class="el" href="namespacecutlass.html#a6bc666acc9f0d7278a788975e226e005">cutlass</a>
+</li>
+<li>conj()
+: <a class="el" href="namespacecutlass_1_1platform.html#a7167baf0f7fcf52471c0413f084d98d4">cutlass::platform</a>
+</li>
+<li>cos()
+: <a class="el" href="namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92">cutlass::platform</a>
+</li>
 <li>cuda_perror_impl()
 : <a class="el" href="namespacecutlass.html#a6d3dfeb642a2ce3d5f52243fe48f89cc">cutlass</a>
 </li>
 </ul>
 
 
+<h3><a id="index_e"></a>- e -</h3><ul>
+<li>exp()
+: <a class="el" href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">cutlass::platform</a>
+</li>
+</ul>
+
+
 <h3><a id="index_f"></a>- f -</h3><ul>
 <li>false_type
 : <a class="el" href="namespacecutlass_1_1platform.html#ad8c95b2109070847b13d355120344380">cutlass::platform</a>
 </li>
+<li>find_log2()
+: <a class="el" href="namespacecutlass.html#a58a119c3f7b33d97c43ae8c114004d9e">cutlass</a>
+</li>
 </ul>
 
 
@@ -96,36 +128,30 @@ <h3><a id="index_g"></a>- g -</h3><ul>
 <li>gcd()
 : <a class="el" href="namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8">cutlass</a>
 </li>
-<li>gemm_kernel()
-: <a class="el" href="namespacecutlass_1_1gemm.html#ad9577c9086b0f7fd1202d7f8109e4439">cutlass::gemm</a>
+<li>gemm_kernel_nolb()
+: <a class="el" href="namespacecutlass_1_1gemm.html#ae23b870e60261e2322f3c6edb3d2bcb9">cutlass::gemm</a>
 </li>
-<li>get_Coord_dhw()
-: <a class="el" href="namespacecutlass.html#a4680709eeeb679ef0219938f85f7394e">cutlass</a>
+<li>getLinearIdx()
+: <a class="el" href="namespacecutlass_1_1gemm.html#a2336880c866ef4e73bbe0c3dbcb6c40e">cutlass::gemm</a>
 </li>
-<li>get_Coord_hw()
-: <a class="el" href="namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e">cutlass</a>
-</li>
-<li>get_Coord_hwc()
-: <a class="el" href="namespacecutlass.html#a71f3e2a12b9e98be1fba082610fa9d4f">cutlass</a>
+<li>getLinearIdx&lt; swizzleDirection::Boustrophedon &gt;()
+: <a class="el" href="namespacecutlass_1_1gemm.html#a37c566ad59d61647374f215c3d33f088">cutlass::gemm</a>
 </li>
 </ul>
 
 
 <h3><a id="index_i"></a>- i -</h3><ul>
+<li>imag()
+: <a class="el" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">cutlass::platform</a>
+</li>
 <li>is_zero()
-: <a class="el" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">cutlass::gemm</a>
+: <a class="el" href="namespacecutlass_1_1gemm.html#a4a12fcfae60f26efa47bf0a79483d8ac">cutlass::gemm</a>
 </li>
 <li>iterator_load()
-: <a class="el" href="namespacecutlass.html#aca491136bdb966638a7ae57c47f86d1e">cutlass</a>
-</li>
-<li>iterator_load_post_increment()
-: <a class="el" href="namespacecutlass.html#afb8e7a4e611e8b5ae7ca19d02f791d37">cutlass</a>
+: <a class="el" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">cutlass</a>
 </li>
 <li>iterator_store()
-: <a class="el" href="namespacecutlass.html#a410ed4d45ccafc2db842967740b6211f">cutlass</a>
-</li>
-<li>iterator_store_post_increment()
-: <a class="el" href="namespacecutlass.html#a96fdb65e922f6a3d46aa5de9ea78d460">cutlass</a>
+: <a class="el" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">cutlass</a>
 </li>
 </ul>
 
@@ -134,6 +160,12 @@ <h3><a id="index_l"></a>- l -</h3><ul>
 <li>lcm()
 : <a class="el" href="namespacecutlass.html#af07506fee11de882d926f4e8237eef09">cutlass</a>
 </li>
+<li>log()
+: <a class="el" href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">cutlass::platform</a>
+</li>
+<li>log10()
+: <a class="el" href="namespacecutlass_1_1platform.html#a62dd6ae0e1b4476fd62ac70c26f12a06">cutlass::platform</a>
+</li>
 </ul>
 
 
@@ -141,11 +173,23 @@ <h3><a id="index_m"></a>- m -</h3><ul>
 <li>make_Coord()
 : <a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass</a>
 </li>
+<li>make_Coord_from_shape()
+: <a class="el" href="namespacecutlass.html#a90028a415a05ce09073860e5c761aa6f">cutlass</a>
+</li>
 <li>make_pair()
 : <a class="el" href="namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5">cutlass::platform</a>
 </li>
 <li>make_zero()
-: <a class="el" href="namespacecutlass.html#acdb62db582cf90cfd437fc56f4ca7bbf">cutlass</a>
+: <a class="el" href="namespacecutlass.html#a55b5b15eadf125d5ddddee1ea22191ee">cutlass</a>
+</li>
+<li>make_ZipConvert()
+: <a class="el" href="namespacecutlass.html#adad916101ca58fc9714362c611a0cad8">cutlass</a>
+</li>
+<li>make_ZipFragment()
+: <a class="el" href="namespacecutlass.html#a07b0da6c47bbd827779aa871249ff4b6">cutlass</a>
+</li>
+<li>make_ZipTensorRef()
+: <a class="el" href="namespacecutlass.html#a64869d4ab18d70dc8604098ec03e1a5a">cutlass</a>
 </li>
 <li>max()
 : <a class="el" href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">cutlass::platform</a>
@@ -156,18 +200,53 @@ <h3><a id="index_m"></a>- m -</h3><ul>
 </ul>
 
 
+<h3><a id="index_n"></a>- n -</h3><ul>
+<li>norm()
+: <a class="el" href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">cutlass::platform</a>
+</li>
+</ul>
+
+
 <h3><a id="index_o"></a>- o -</h3><ul>
 <li>operator!=()
-: <a class="el" href="namespacecutlass_1_1platform.html#a248f49adf09654d2cd04bd2760ab2566">cutlass::platform</a>
+: <a class="el" href="namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c">cutlass::platform</a>
+</li>
+<li>operator*()
+: <a class="el" href="namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba">cutlass::platform</a>
+</li>
+<li>operator*=()
+: <a class="el" href="namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac">cutlass::platform</a>
+</li>
+<li>operator+()
+: <a class="el" href="namespacecutlass_1_1platform.html#a93b0f0d73fa3cf11c5018460b257837c">cutlass::platform</a>
+</li>
+<li>operator+=()
+: <a class="el" href="namespacecutlass_1_1platform.html#a34c5ca341da805d5d1bc703c53c96d9d">cutlass::platform</a>
+</li>
+<li>operator-()
+: <a class="el" href="namespacecutlass_1_1platform.html#aa486433971cdd6b7648c1e5459c42763">cutlass::platform</a>
+</li>
+<li>operator-=()
+: <a class="el" href="namespacecutlass_1_1platform.html#abff9e10130849ea46f6245f4e8cc2cc9">cutlass::platform</a>
+</li>
+<li>operator/()
+: <a class="el" href="namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f">cutlass::platform</a>
+</li>
+<li>operator/=()
+: <a class="el" href="namespacecutlass_1_1platform.html#ac594526ef64ecf364ae957753ce64b40">cutlass::platform</a>
 </li>
 <li>operator&lt;()
 : <a class="el" href="namespacecutlass_1_1platform.html#a412dbdbc678ecd12b55fcad4ef4155bd">cutlass::platform</a>
 </li>
+<li>operator&lt;&lt;()
+: <a class="el" href="namespacecutlass.html#a30ddfc5e90b9103840cb30c9f9b96b49">cutlass</a>
+, <a class="el" href="namespacecutlass_1_1platform.html#ab4c3e4eabba020d7a9faf86ee6cf437a">cutlass::platform</a>
+</li>
 <li>operator&lt;=()
 : <a class="el" href="namespacecutlass_1_1platform.html#a41d573133357bd555f78d33afc1152d3">cutlass::platform</a>
 </li>
 <li>operator==()
-: <a class="el" href="namespacecutlass_1_1platform.html#ab9b8306ae9dc21fa646c49b68fa8e197">cutlass::platform</a>
+: <a class="el" href="namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb">cutlass::platform</a>
 </li>
 <li>operator&gt;()
 : <a class="el" href="namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12">cutlass::platform</a>
@@ -178,7 +257,20 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 </ul>
 
 
+<h3><a id="index_p"></a>- p -</h3><ul>
+<li>polar()
+: <a class="el" href="namespacecutlass_1_1platform.html#a6c9200b03868a5090027e5cfc8e27c62">cutlass::platform</a>
+</li>
+<li>proj()
+: <a class="el" href="namespacecutlass_1_1platform.html#a4e57cfad9bf0b78e338d536ff1bdda39">cutlass::platform</a>
+</li>
+</ul>
+
+
 <h3><a id="index_r"></a>- r -</h3><ul>
+<li>real()
+: <a class="el" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">cutlass::platform</a>
+</li>
 <li>round_nearest()
 : <a class="el" href="namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e">cutlass</a>
 </li>
@@ -186,11 +278,11 @@ <h3><a id="index_r"></a>- r -</h3><ul>
 
 
 <h3><a id="index_s"></a>- s -</h3><ul>
-<li>shared_iterator_load()
-: <a class="el" href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">cutlass</a>
+<li>sin()
+: <a class="el" href="namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a">cutlass::platform</a>
 </li>
-<li>shared_iterator_store()
-: <a class="el" href="namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109">cutlass</a>
+<li>sqrt()
+: <a class="el" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">cutlass::platform</a>
 </li>
 <li>swap()
 : <a class="el" href="namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678">cutlass::platform</a>
@@ -206,7 +298,7 @@ <h3><a id="index_t"></a>- t -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/namespacemembers_func.html b/docs/namespacemembers_func.html
index 2ba52b0ef9..4fa93a9d6f 100644
--- a/docs/namespacemembers_func.html
+++ b/docs/namespacemembers_func.html
@@ -73,53 +73,83 @@
 <h3><a id="index__"></a>- _ -</h3><ul>
 <li>__align__()
 : <a class="el" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">cutlass</a>
-, <a class="el" href="namespacecutlass_1_1platform.html#ae792b1c7ada1a33e306cd552f583bdce">cutlass::platform</a>
+, <a class="el" href="namespacecutlass_1_1platform.html#a0bcb016704ec57f9499e662ba6156f98">cutlass::platform</a>
+</li>
+<li>__launch_bounds__()
+: <a class="el" href="namespacecutlass_1_1gemm.html#a01dd61085e2b3f578a7fc266b94fac55">cutlass::gemm</a>
+</li>
+</ul>
+
+
+<h3><a id="index_a"></a>- a -</h3><ul>
+<li>abs()
+: <a class="el" href="namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5">cutlass::platform</a>
+</li>
+<li>arg()
+: <a class="el" href="namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0">cutlass::platform</a>
 </li>
 </ul>
 
 
 <h3><a id="index_c"></a>- c -</h3><ul>
+<li>clz()
+: <a class="el" href="namespacecutlass.html#a6bc666acc9f0d7278a788975e226e005">cutlass</a>
+</li>
+<li>conj()
+: <a class="el" href="namespacecutlass_1_1platform.html#a7167baf0f7fcf52471c0413f084d98d4">cutlass::platform</a>
+</li>
+<li>cos()
+: <a class="el" href="namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92">cutlass::platform</a>
+</li>
 <li>cuda_perror_impl()
 : <a class="el" href="namespacecutlass.html#a6d3dfeb642a2ce3d5f52243fe48f89cc">cutlass</a>
 </li>
 </ul>
 
 
+<h3><a id="index_e"></a>- e -</h3><ul>
+<li>exp()
+: <a class="el" href="namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b">cutlass::platform</a>
+</li>
+</ul>
+
+
+<h3><a id="index_f"></a>- f -</h3><ul>
+<li>find_log2()
+: <a class="el" href="namespacecutlass.html#a58a119c3f7b33d97c43ae8c114004d9e">cutlass</a>
+</li>
+</ul>
+
+
 <h3><a id="index_g"></a>- g -</h3><ul>
 <li>gcd()
 : <a class="el" href="namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8">cutlass</a>
 </li>
-<li>gemm_kernel()
-: <a class="el" href="namespacecutlass_1_1gemm.html#ad9577c9086b0f7fd1202d7f8109e4439">cutlass::gemm</a>
-</li>
-<li>get_Coord_dhw()
-: <a class="el" href="namespacecutlass.html#a4680709eeeb679ef0219938f85f7394e">cutlass</a>
+<li>gemm_kernel_nolb()
+: <a class="el" href="namespacecutlass_1_1gemm.html#ae23b870e60261e2322f3c6edb3d2bcb9">cutlass::gemm</a>
 </li>
-<li>get_Coord_hw()
-: <a class="el" href="namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e">cutlass</a>
+<li>getLinearIdx()
+: <a class="el" href="namespacecutlass_1_1gemm.html#a2336880c866ef4e73bbe0c3dbcb6c40e">cutlass::gemm</a>
 </li>
-<li>get_Coord_hwc()
-: <a class="el" href="namespacecutlass.html#a71f3e2a12b9e98be1fba082610fa9d4f">cutlass</a>
+<li>getLinearIdx&lt; swizzleDirection::Boustrophedon &gt;()
+: <a class="el" href="namespacecutlass_1_1gemm.html#a37c566ad59d61647374f215c3d33f088">cutlass::gemm</a>
 </li>
 </ul>
 
 
 <h3><a id="index_i"></a>- i -</h3><ul>
+<li>imag()
+: <a class="el" href="namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6">cutlass::platform</a>
+</li>
 <li>is_zero()
 : <a class="el" href="namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb">cutlass::gemm</a>
 </li>
 <li>iterator_load()
 : <a class="el" href="namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be">cutlass</a>
 </li>
-<li>iterator_load_post_increment()
-: <a class="el" href="namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b">cutlass</a>
-</li>
 <li>iterator_store()
 : <a class="el" href="namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9">cutlass</a>
 </li>
-<li>iterator_store_post_increment()
-: <a class="el" href="namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de">cutlass</a>
-</li>
 </ul>
 
 
@@ -127,6 +157,12 @@ <h3><a id="index_l"></a>- l -</h3><ul>
 <li>lcm()
 : <a class="el" href="namespacecutlass.html#af07506fee11de882d926f4e8237eef09">cutlass</a>
 </li>
+<li>log()
+: <a class="el" href="namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c">cutlass::platform</a>
+</li>
+<li>log10()
+: <a class="el" href="namespacecutlass_1_1platform.html#a62dd6ae0e1b4476fd62ac70c26f12a06">cutlass::platform</a>
+</li>
 </ul>
 
 
@@ -134,11 +170,23 @@ <h3><a id="index_m"></a>- m -</h3><ul>
 <li>make_Coord()
 : <a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass</a>
 </li>
+<li>make_Coord_from_shape()
+: <a class="el" href="namespacecutlass.html#a90028a415a05ce09073860e5c761aa6f">cutlass</a>
+</li>
 <li>make_pair()
 : <a class="el" href="namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5">cutlass::platform</a>
 </li>
 <li>make_zero()
-: <a class="el" href="namespacecutlass.html#acdb62db582cf90cfd437fc56f4ca7bbf">cutlass</a>
+: <a class="el" href="namespacecutlass.html#aa03883e612d292e1b53eedd46e08ccd1">cutlass</a>
+</li>
+<li>make_ZipConvert()
+: <a class="el" href="namespacecutlass.html#adad916101ca58fc9714362c611a0cad8">cutlass</a>
+</li>
+<li>make_ZipFragment()
+: <a class="el" href="namespacecutlass.html#a07b0da6c47bbd827779aa871249ff4b6">cutlass</a>
+</li>
+<li>make_ZipTensorRef()
+: <a class="el" href="namespacecutlass.html#a64869d4ab18d70dc8604098ec03e1a5a">cutlass</a>
 </li>
 <li>max()
 : <a class="el" href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">cutlass::platform</a>
@@ -149,18 +197,53 @@ <h3><a id="index_m"></a>- m -</h3><ul>
 </ul>
 
 
+<h3><a id="index_n"></a>- n -</h3><ul>
+<li>norm()
+: <a class="el" href="namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1">cutlass::platform</a>
+</li>
+</ul>
+
+
 <h3><a id="index_o"></a>- o -</h3><ul>
 <li>operator!=()
-: <a class="el" href="namespacecutlass_1_1platform.html#a248f49adf09654d2cd04bd2760ab2566">cutlass::platform</a>
+: <a class="el" href="namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c">cutlass::platform</a>
+</li>
+<li>operator*()
+: <a class="el" href="namespacecutlass_1_1platform.html#a289b6e31bdc0be1302b8dbab55eb568c">cutlass::platform</a>
+</li>
+<li>operator*=()
+: <a class="el" href="namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac">cutlass::platform</a>
+</li>
+<li>operator+()
+: <a class="el" href="namespacecutlass_1_1platform.html#a93b0f0d73fa3cf11c5018460b257837c">cutlass::platform</a>
+</li>
+<li>operator+=()
+: <a class="el" href="namespacecutlass_1_1platform.html#a34c5ca341da805d5d1bc703c53c96d9d">cutlass::platform</a>
+</li>
+<li>operator-()
+: <a class="el" href="namespacecutlass_1_1platform.html#aa486433971cdd6b7648c1e5459c42763">cutlass::platform</a>
+</li>
+<li>operator-=()
+: <a class="el" href="namespacecutlass_1_1platform.html#abff9e10130849ea46f6245f4e8cc2cc9">cutlass::platform</a>
+</li>
+<li>operator/()
+: <a class="el" href="namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f">cutlass::platform</a>
+</li>
+<li>operator/=()
+: <a class="el" href="namespacecutlass_1_1platform.html#ac594526ef64ecf364ae957753ce64b40">cutlass::platform</a>
 </li>
 <li>operator&lt;()
 : <a class="el" href="namespacecutlass_1_1platform.html#a412dbdbc678ecd12b55fcad4ef4155bd">cutlass::platform</a>
 </li>
+<li>operator&lt;&lt;()
+: <a class="el" href="namespacecutlass.html#a36690681ed19dc7e398fcdafdbfe9975">cutlass</a>
+, <a class="el" href="namespacecutlass_1_1platform.html#ab4c3e4eabba020d7a9faf86ee6cf437a">cutlass::platform</a>
+</li>
 <li>operator&lt;=()
 : <a class="el" href="namespacecutlass_1_1platform.html#a41d573133357bd555f78d33afc1152d3">cutlass::platform</a>
 </li>
 <li>operator==()
-: <a class="el" href="namespacecutlass_1_1platform.html#ab9b8306ae9dc21fa646c49b68fa8e197">cutlass::platform</a>
+: <a class="el" href="namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb">cutlass::platform</a>
 </li>
 <li>operator&gt;()
 : <a class="el" href="namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12">cutlass::platform</a>
@@ -171,7 +254,20 @@ <h3><a id="index_o"></a>- o -</h3><ul>
 </ul>
 
 
+<h3><a id="index_p"></a>- p -</h3><ul>
+<li>polar()
+: <a class="el" href="namespacecutlass_1_1platform.html#a6c9200b03868a5090027e5cfc8e27c62">cutlass::platform</a>
+</li>
+<li>proj()
+: <a class="el" href="namespacecutlass_1_1platform.html#a4e57cfad9bf0b78e338d536ff1bdda39">cutlass::platform</a>
+</li>
+</ul>
+
+
 <h3><a id="index_r"></a>- r -</h3><ul>
+<li>real()
+: <a class="el" href="namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39">cutlass::platform</a>
+</li>
 <li>round_nearest()
 : <a class="el" href="namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e">cutlass</a>
 </li>
@@ -179,11 +275,11 @@ <h3><a id="index_r"></a>- r -</h3><ul>
 
 
 <h3><a id="index_s"></a>- s -</h3><ul>
-<li>shared_iterator_load()
-: <a class="el" href="namespacecutlass.html#abcec976c59cab75ca55b338d125154a3">cutlass</a>
+<li>sin()
+: <a class="el" href="namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a">cutlass::platform</a>
 </li>
-<li>shared_iterator_store()
-: <a class="el" href="namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109">cutlass</a>
+<li>sqrt()
+: <a class="el" href="namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747">cutlass::platform</a>
 </li>
 <li>swap()
 : <a class="el" href="namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678">cutlass::platform</a>
@@ -192,7 +288,7 @@ <h3><a id="index_s"></a>- s -</h3><ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/namespacemembers_type.html b/docs/namespacemembers_type.html
index 37618fba14..29d99bfe57 100644
--- a/docs/namespacemembers_type.html
+++ b/docs/namespacemembers_type.html
@@ -79,7 +79,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/namespaces.html b/docs/namespaces.html
index b12cce12b0..cc8745506d 100644
--- a/docs/namespaces.html
+++ b/docs/namespaces.html
@@ -75,14 +75,15 @@
 <div class="textblock">Here is a list of all namespaces with brief descriptions:</div><div class="directory">
 <div class="levels">[detail level <span onclick="javascript:toggleLevel(1);">1</span><span onclick="javascript:toggleLevel(2);">2</span>]</div><table class="directory">
 <tr id="row_0_" class="even"><td class="entry"><span style="width:0px;display:inline-block;">&#160;</span><span id="arr_0_" class="arrow" onclick="toggleFolder('0_')">&#9660;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass.html" target="_self">cutlass</a></td><td class="desc"></td></tr>
-<tr id="row_0_0_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1gemm.html" target="_self">gemm</a></td><td class="desc"></td></tr>
-<tr id="row_0_1_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1platform.html" target="_self">platform</a></td><td class="desc"></td></tr>
+<tr id="row_0_0_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1detail.html" target="_self">detail</a></td><td class="desc"></td></tr>
+<tr id="row_0_1_" class="even"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1gemm.html" target="_self">gemm</a></td><td class="desc"></td></tr>
+<tr id="row_0_2_"><td class="entry"><span style="width:32px;display:inline-block;">&#160;</span><span class="icona"><span class="icon">N</span></span><a class="el" href="namespacecutlass_1_1platform.html" target="_self">platform</a></td><td class="desc"></td></tr>
 </table>
 </div><!-- directory -->
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/numeric__types_8h.html b/docs/numeric__types_8h.html
new file mode 100644
index 0000000000..eacdfc9a0b
--- /dev/null
+++ b/docs/numeric__types_8h.html
@@ -0,0 +1,107 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: numeric_types.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_c5917a9a879e9a6c73eaf5237444ab84.html">util</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">numeric_types.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><a href="numeric__types_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1bin1__t.html">cutlass::bin1_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1int4__t.html">cutlass::int4_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1uint4__t.html">cutlass::uint4_t</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/numeric__types_8h_source.html b/docs/numeric__types_8h_source.html
new file mode 100644
index 0000000000..1d6bc27b33
--- /dev/null
+++ b/docs/numeric__types_8h_source.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: numeric_types.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_c5917a9a879e9a6c73eaf5237444ab84.html">util</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">numeric_types.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="numeric__types_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="comment">// Definitions for 1-bit binary and 4-bit integer types</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="structcutlass_1_1bin1__t.html">   39</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1bin1__t.html">bin1_t</a> {};  <span class="comment">// 1-bit binary type</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="structcutlass_1_1int4__t.html">   41</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1int4__t.html">int4_t</a> {};  <span class="comment">// 4-bit signed integer type</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1uint4__t.html">   43</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1uint4__t.html">uint4_t</a> {};  <span class="comment">// 4-bit unsigned integer type</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1bin1__t_html"><div class="ttname"><a href="structcutlass_1_1bin1__t.html">cutlass::bin1_t</a></div><div class="ttdef"><b>Definition:</b> numeric_types.h:39</div></div>
+<div class="ttc" id="structcutlass_1_1uint4__t_html"><div class="ttname"><a href="structcutlass_1_1uint4__t.html">cutlass::uint4_t</a></div><div class="ttdef"><b>Definition:</b> numeric_types.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1int4__t_html"><div class="ttname"><a href="structcutlass_1_1int4__t.html">cutlass::int4_t</a></div><div class="ttdef"><b>Definition:</b> numeric_types.h:41</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/platform_8h.html b/docs/platform_8h.html
index 8513f5b34c..a45532dd05 100644
--- a/docs/platform_8h.html
+++ b/docs/platform_8h.html
@@ -90,7 +90,7 @@
 <code>#include &lt;cstddef&gt;</code><br />
 <code>#include &lt;functional&gt;</code><br />
 <code>#include &lt;utility&gt;</code><br />
-<code>#include &lt;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&gt;</code><br />
+<code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
 </div>
 <p><a href="platform_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -624,7 +624,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#adde4c9ea91b753491851361a
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/platform_8h_source.html b/docs/platform_8h_source.html
index 9dcbacf27a..a3d6f5365c 100644
--- a/docs/platform_8h_source.html
+++ b/docs/platform_8h_source.html
@@ -76,96 +76,96 @@
 <div class="title">platform.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="platform_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;</div><div class="line"><a name="l00026"></a><span class="lineno">   26</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00027"></a><span class="lineno">   27</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;<span class="comment">// Dependencies</span></div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;<span class="preprocessor">#include &lt;stdint.h&gt;</span></div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;<span class="comment">// Include STL files that platform provides functionality for</span></div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;<span class="preprocessor">#include &lt;algorithm&gt;</span>   <span class="comment">// Minimum/maximum operations</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;<span class="preprocessor">#include &lt;cstddef&gt;</span>     <span class="comment">// nullptr_t</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;<span class="preprocessor">#include &lt;functional&gt;</span>  <span class="comment">// Arithmetic operations</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;<span class="preprocessor">#include &lt;utility&gt;</span>     <span class="comment">// For methods on std::pair</span></div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &gt;= 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MS_VER &gt;= 1500))</span></div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;<span class="preprocessor">#include &lt;type_traits&gt;</span>  <span class="comment">// For integral constants, conditional metaprogramming, and type traits</span></div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&gt;</span></div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="comment"> * Macros</span></div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;<span class="comment">// Keywords</span></div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1900))</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;<span class="preprocessor">#ifndef noexcept</span></div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">  126</a></span>&#160;<span class="preprocessor">#define noexcept</span></div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;<span class="preprocessor">#ifndef constexpr</span></div><div class="line"><a name="l00129"></a><span class="lineno"><a class="line" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">  129</a></span>&#160;<span class="preprocessor">#define constexpr</span></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1310))</span></div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;<span class="preprocessor">#ifndef nullptr</span></div><div class="line"><a name="l00136"></a><span class="lineno"><a class="line" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">  136</a></span>&#160;<span class="preprocessor">#define nullptr 0</span></div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1600))</span></div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;<span class="preprocessor">#ifndef static_assert</span></div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="platform_8h.html#acd148999a5caeba8f6fd52e7e288e659">  143</a></span>&#160;<span class="preprocessor">#define __platform_cat_(a, b) a##b</span></div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="platform_8h.html#aece7fe71be5aaf8d12dc9e2372f97de4">  144</a></span>&#160;<span class="preprocessor">#define __platform_cat(a, b) __platform_cat_(a, b)</span></div><div class="line"><a name="l00145"></a><span class="lineno"><a class="line" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">  145</a></span>&#160;<span class="preprocessor">#define static_assert(__e, __m) typedef int __platform_cat(AsSeRt, __LINE__)[(__e) ? 1 : -1]</span></div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;<span class="comment">// Functions</span></div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;<span class="preprocessor">#ifndef __NV_STD_MAX</span></div><div class="line"><a name="l00155"></a><span class="lineno"><a class="line" href="platform_8h.html#abd31f291635329bc15292954f1f01d38">  155</a></span>&#160;<span class="preprocessor">#define __NV_STD_MAX(a, b) (((b) &gt; (a)) ? (b) : (a))</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;<span class="preprocessor">#ifndef __NV_STD_MIN</span></div><div class="line"><a name="l00160"></a><span class="lineno"><a class="line" href="platform_8h.html#a39e234a3e3b0018b58df720bcb143420">  160</a></span>&#160;<span class="preprocessor">#define __NV_STD_MIN(a, b) (((b) &lt; (a)) ? (b) : (a))</span></div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;<span class="comment"> * Re-implementations</span></div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html">  167</a></span>&#160;<span class="keyword">namespace </span>platform {</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;<span class="comment">// Arithmetic operations, comparisons &lt;functional&gt;</span></div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00175"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1plus.html">  175</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1plus.html">plus</a> {</div><div class="line"><a name="l00176"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c">  176</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> T <a class="code" href="structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c">operator()</a>(<span class="keyword">const</span> T&amp; lhs, <span class="keyword">const</span> T&amp; rhs)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> lhs + rhs; }</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;};</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00181"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1less.html">  181</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1less.html">less</a> {</div><div class="line"><a name="l00182"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5">  182</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5">operator()</a>(<span class="keyword">const</span> T&amp; lhs, <span class="keyword">const</span> T&amp; rhs)<span class="keyword"> const </span>{</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    <span class="keywordflow">return</span> lhs &lt; rhs;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;  }</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;};</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00189"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1greater.html">  189</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1greater.html">greater</a> {</div><div class="line"><a name="l00190"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978">  190</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978">operator()</a>(<span class="keyword">const</span> T&amp; lhs, <span class="keyword">const</span> T&amp; rhs)<span class="keyword"> const </span>{</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;    <span class="keywordflow">return</span> lhs &gt; rhs;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;  }</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;};</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;<span class="comment">// Minimum/maximum operations &lt;algorithm&gt;</span></div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">  201</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keyword">const</span> T&amp; <a class="code" href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">min</a>(<span class="keyword">const</span> T&amp; a, <span class="keyword">const</span> T&amp; b) {</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;  <span class="keywordflow">return</span> (b &lt; a) ? b : a;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;}</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00207"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">  207</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keyword">const</span> T&amp; <a class="code" href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">max</a>(<span class="keyword">const</span> T&amp; a, <span class="keyword">const</span> T&amp; b) {</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <span class="keywordflow">return</span> (a &lt; b) ? b : a;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;}</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;<span class="comment">// Methods on std::pair</span></div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;<span class="keyword">using</span> std::pair;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00219"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ab9b8306ae9dc21fa646c49b68fa8e197">  219</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1platform.html#ab9b8306ae9dc21fa646c49b68fa8e197">operator==</a>(<span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;  <span class="keywordflow">return</span> (lhs.first == rhs.first) &amp;&amp; (lhs.second == rhs.second);</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;}</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a248f49adf09654d2cd04bd2760ab2566">  224</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1platform.html#a248f49adf09654d2cd04bd2760ab2566">operator!=</a>(<span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;  <span class="keywordflow">return</span> (lhs.first != rhs.first) &amp;&amp; (lhs.second != rhs.second);</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;}</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a412dbdbc678ecd12b55fcad4ef4155bd">  229</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> operator&lt;(const pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;  <span class="keywordflow">return</span> (lhs.first &lt; rhs.first) ? true : (rhs.first &lt; lhs.first) ? <span class="keyword">false</span></div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;                                                                  : (lhs.second &lt; rhs.second);</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;}</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00235"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a41d573133357bd555f78d33afc1152d3">  235</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> operator&lt;=(const pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  <span class="keywordflow">return</span> !(rhs &lt; lhs);</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;}</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00240"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12">  240</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12">operator&gt;</a>(<span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;  <span class="keywordflow">return</span> (rhs &lt; lhs);</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;}</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00245"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ab0f21e67c0a4b5c6952042b502c6816f">  245</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1platform.html#ab0f21e67c0a4b5c6952042b502c6816f">operator&gt;=</a>(<span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;  <span class="keywordflow">return</span> !(lhs &lt; rhs);</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;}</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00250"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5">  250</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> std::pair&lt;T1, T2&gt; <a class="code" href="namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5">make_pair</a>(T1 t, T2 u) {</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;  std::pair&lt;T1, T2&gt; retval;</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;  retval.first = t;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;  retval.second = u;</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;  <span class="keywordflow">return</span> retval;</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;}</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;}  <span class="comment">// namespace platform</span></div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;<span class="comment"> * Implementations of C++ 11/14/17/... STL features</span></div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;<span class="keyword">namespace </span>platform {</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;<span class="comment">// Integral constant helper types &lt;type_traits&gt;</span></div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1500))</span></div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t, value_t V&gt;</div><div class="line"><a name="l00274"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html">  274</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t, value_t V&gt;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a> {</div><div class="line"><a name="l00279"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">  279</a></span>&#160;  <span class="keyword">static</span> <span class="keyword">const</span> value_t <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">value</a> = V;</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;</div><div class="line"><a name="l00281"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">  281</a></span>&#160;  <span class="keyword">typedef</span> value_t <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">value_type</a>;</div><div class="line"><a name="l00282"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html#af58810ccead8f16ed88cd6a4afdc6e52">  282</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant&lt;value_t, V&gt;</a> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#af58810ccead8f16ed88cd6a4afdc6e52">type</a>;</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;</div><div class="line"><a name="l00284"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html#a55d25116387f1c6d978462b1d245d675">  284</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">operator</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">value_type</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">value</a>; }</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;</div><div class="line"><a name="l00286"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18">  286</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">value_type</a> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18">operator()</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">value</a>; }</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;};</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;<span class="keyword">using</span> std::integral_constant;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;<span class="keyword">using</span> std::pair;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;</div><div class="line"><a name="l00297"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a0eddc4a3921e137f31fd8014be96e807">  297</a></span>&#160;<span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant&lt;bool, true&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a0eddc4a3921e137f31fd8014be96e807">true_type</a>;</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;</div><div class="line"><a name="l00300"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ad8c95b2109070847b13d355120344380">  300</a></span>&#160;<span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant&lt;bool, false&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#ad8c95b2109070847b13d355120344380">false_type</a>;</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201402L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1900))</span></div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> V&gt;</div><div class="line"><a name="l00306"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1bool__constant.html">  306</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1bool__constant.html">bool_constant</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">platform::integral_constant</a>&lt;bool, V&gt; {};</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;<span class="keyword">using</span> std::bool_constant;</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1700))</span></div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;</div><div class="line"><a name="l00317"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1nullptr__t.html">  317</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1nullptr__t.html">nullptr_t</a> {};</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;<span class="keyword">using</span> std::nullptr_t;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;<span class="comment">// Conditional metaprogramming &lt;type_traits&gt;</span></div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1600))</span></div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> C, <span class="keyword">typename</span> T = <span class="keywordtype">void</span>&gt;</div><div class="line"><a name="l00333"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1enable__if.html">  333</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1enable__if.html">enable_if</a> {</div><div class="line"><a name="l00334"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1enable__if.html#aff9c0f270020cf097addf77e53a5af99">  334</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1enable__if.html#aff9c0f270020cf097addf77e53a5af99">type</a>;</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;};</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00339"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html">  339</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1enable__if.html">enable_if</a>&lt;false, T&gt; {};</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> B, <span class="keyword">class</span> T, <span class="keyword">class</span> F&gt;</div><div class="line"><a name="l00343"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1conditional.html">  343</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1conditional.html">conditional</a> {</div><div class="line"><a name="l00344"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1conditional.html#ab6484d0dd6449b5195c4e868026fed11">  344</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1conditional.html#ab6484d0dd6449b5195c4e868026fed11">type</a>;</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;};</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> F&gt;</div><div class="line"><a name="l00349"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html">  349</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1conditional.html">conditional</a>&lt;false, T, F&gt; {</div><div class="line"><a name="l00350"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html#a8d55f500f667de560650554e9c220644">  350</a></span>&#160;  <span class="keyword">typedef</span> F <a class="code" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html#a8d55f500f667de560650554e9c220644">type</a>;</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;};</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;<span class="keyword">using</span> std::enable_if;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;<span class="keyword">using</span> std::conditional;</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;<span class="comment">// Const/volatility specifiers &lt;type_traits&gt;</span></div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1500))</span></div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00368"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__const.html">  368</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1remove__const.html">remove_const</a> {</div><div class="line"><a name="l00369"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">  369</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">type</a>;</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;};</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00374"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html">  374</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1remove__const.html">remove_const</a>&lt;const T&gt; {</div><div class="line"><a name="l00375"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html#af68706cfaa6af14edc26ad5b974b47e3">  375</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html#af68706cfaa6af14edc26ad5b974b47e3">type</a>;</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;};</div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00380"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__volatile.html">  380</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1remove__volatile.html">remove_volatile</a> {</div><div class="line"><a name="l00381"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__volatile.html#a4f5b043d46206248d1bbbcf650707dd1">  381</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1remove__volatile.html#a4f5b043d46206248d1bbbcf650707dd1">type</a>;</div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;};</div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;</div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00386"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html">  386</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1remove__volatile.html">remove_volatile</a>&lt;volatile T&gt; {</div><div class="line"><a name="l00387"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3">  387</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3">type</a>;</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;};</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00392"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__cv.html">  392</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1remove__cv.html">remove_cv</a> {</div><div class="line"><a name="l00393"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08">  393</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__volatile.html">remove_volatile&lt;typename remove_const&lt;T&gt;::type</a>&gt;<a class="code" href="structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08">::type</a> <a class="code" href="structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08">type</a>;</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;};</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;</div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;<span class="keyword">using</span> std::remove_const;</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;<span class="keyword">using</span> std::remove_volatile;</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;<span class="keyword">using</span> std::remove_cv;</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;<span class="comment">// Type relationships &lt;type_traits&gt;</span></div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1500))</span></div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A, <span class="keyword">typename</span> B&gt;</div><div class="line"><a name="l00412"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__same.html">  412</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__same.html">is_same</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">false_type</a> {};</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;</div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A&gt;</div><div class="line"><a name="l00416"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html">  416</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__same.html">is_same</a>&lt;A, A&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;</div><div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> BaseT, <span class="keyword">typename</span> DerivedT&gt;</div><div class="line"><a name="l00420"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of__helper.html">  420</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html">is_base_of_helper</a> {</div><div class="line"><a name="l00421"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669">  421</a></span>&#160;  <span class="keyword">typedef</span> char (&amp;<a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669">yes</a>)[1];</div><div class="line"><a name="l00422"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af">  422</a></span>&#160;  <span class="keyword">typedef</span> char (&amp;<a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af">no</a>)[2];</div><div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;</div><div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> B, <span class="keyword">typename</span> D&gt;</div><div class="line"><a name="l00425"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html">  425</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html">dummy</a> {</div><div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">operator</span> B*() <span class="keyword">const</span>;</div><div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">operator</span> D*();</div><div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;  };</div><div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;</div><div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">static</span> <a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669">yes</a> <a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b">check</a>(DerivedT*, T);</div><div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;</div><div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">static</span> <a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af">no</a> <a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b">check</a>(BaseT*, <span class="keywordtype">int</span>);</div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;</div><div class="line"><a name="l00435"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff">  435</a></span>&#160;  <span class="keyword">static</span> <span class="keyword">const</span> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff">value</a> = <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b">check</a>(<a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html">dummy&lt;BaseT, DerivedT&gt;</a>(), <span class="keywordtype">int</span>())) == <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669">yes</a>);</div><div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;};</div><div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;</div><div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> BaseT, <span class="keyword">typename</span> DerivedT&gt;</div><div class="line"><a name="l00440"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of.html">  440</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__base__of.html">is_base_of</a></div><div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;    : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>&lt;bool,</div><div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;                        (is_base_of_helper&lt;typename remove_cv&lt;BaseT&gt;::type,</div><div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;                                           typename remove_cv&lt;DerivedT&gt;::type&gt;::value) ||</div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;                            (is_same&lt;typename remove_cv&lt;BaseT&gt;::type,</div><div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;                                     typename remove_cv&lt;DerivedT&gt;::type&gt;::value)&gt; {};</div><div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;</div><div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;<span class="keyword">using</span> std::is_same;</div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;<span class="keyword">using</span> std::is_base_of;</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;</div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;</div><div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;<span class="comment">// Type properties &lt;type_traits&gt;</span></div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;</div><div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1500))</span></div><div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00462"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__volatile.html">  462</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__volatile.html">is_volatile</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">false_type</a> {};</div><div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00464"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html">  464</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__volatile.html">is_volatile</a>&lt;volatile T&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;</div><div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00468"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__pointer__helper.html">  468</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__pointer__helper.html">is_pointer_helper</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">false_type</a> {};</div><div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;</div><div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00472"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html">  472</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__pointer__helper.html">is_pointer_helper</a>&lt;T*&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;</div><div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00476"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__pointer.html">  476</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__pointer.html">is_pointer</a> : <a class="code" href="structcutlass_1_1platform_1_1is__pointer__helper.html">is_pointer_helper</a>&lt;typename remove_cv&lt;T&gt;::type&gt; {};</div><div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;</div><div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00480"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__void.html">  480</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__void.html">is_void</a> : <a class="code" href="structcutlass_1_1platform_1_1is__same.html">is_same</a>&lt;void, typename remove_cv&lt;T&gt;::type&gt; {};</div><div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;</div><div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00484"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral.html">  484</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">false_type</a> {};</div><div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00486"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html">  486</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;char&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00488"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html">  488</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;signed char&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00490"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html">  490</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;unsigned char&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00492"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html">  492</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;short&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00494"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html">  494</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;unsigned short&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00496"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html">  496</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;int&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00498"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html">  498</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;unsigned int&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00500"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html">  500</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;long&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00501"></a><span class="lineno">  501</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00502"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html">  502</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;unsigned long&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00504"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html">  504</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;long long&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00506"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html">  506</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;unsigned long long&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00508"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html">  508</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;volatile T&gt; : <a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;T&gt; {};</div><div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00510"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html">  510</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;const T&gt; : <a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;T&gt; {};</div><div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00512"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html">  512</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;const volatile T&gt; : <a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;T&gt; {};</div><div class="line"><a name="l00513"></a><span class="lineno">  513</span>&#160;</div><div class="line"><a name="l00515"></a><span class="lineno">  515</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00516"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__floating__point.html">  516</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__floating__point.html">is_floating_point</a></div><div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;    : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>&lt;bool,</div><div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;                        (is_same&lt;float, typename remove_cv&lt;T&gt;::type&gt;::value ||</div><div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;                         is_same&lt;double, typename remove_cv&lt;T&gt;::type&gt;::value)&gt; {};</div><div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;</div><div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00523"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__arithmetic.html">  523</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__arithmetic.html">is_arithmetic</a></div><div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;    : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>&lt;bool, (is_integral&lt;T&gt;::value || is_floating_point&lt;T&gt;::value)&gt; {};</div><div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;</div><div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00528"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__fundamental.html">  528</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__fundamental.html">is_fundamental</a></div><div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;    : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>&lt;bool,</div><div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;                        (is_arithmetic&lt;T&gt;::value || is_void&lt;T&gt;::value ||</div><div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;                         is_same&lt;nullptr_t, typename remove_cv&lt;T&gt;::type&gt;::value)&gt; {};</div><div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;</div><div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;</div><div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;<span class="keyword">using</span> std::is_volatile;</div><div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;<span class="keyword">using</span> std::is_pointer;</div><div class="line"><a name="l00537"></a><span class="lineno">  537</span>&#160;<span class="keyword">using</span> std::is_void;</div><div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;<span class="keyword">using</span> std::is_integral;</div><div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;<span class="keyword">using</span> std::is_floating_point;</div><div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;<span class="keyword">using</span> std::is_arithmetic;</div><div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;<span class="keyword">using</span> std::is_fundamental;</div><div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;</div><div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;</div><div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1800)) || \</span></div><div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;<span class="preprocessor">    (defined(__GNUG__) &amp;&amp; (__GNUC__ &lt; 5))</span></div><div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;</div><div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00559"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__trivially__copyable.html">  559</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__trivially__copyable.html">is_trivially_copyable</a></div><div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160;    : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>&lt;bool, (is_fundamental&lt;T&gt;::value || is_pointer&lt;T&gt;::value)&gt; {};</div><div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;</div><div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;</div><div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;<span class="keyword">using</span> std::is_trivially_copyable;</div><div class="line"><a name="l00565"></a><span class="lineno">  565</span>&#160;</div><div class="line"><a name="l00566"></a><span class="lineno">  566</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160;</div><div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;<span class="comment">// Alignment and layout utilities</span></div><div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;</div><div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1500))</span></div><div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;</div><div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00576"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of.html">  576</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a> {</div><div class="line"><a name="l00577"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html">  577</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html">pad</a> {</div><div class="line"><a name="l00578"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#abc729cc51d5c90b1d7b0df3092d47cd4">  578</a></span>&#160;    value_t <a class="code" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#abc729cc51d5c90b1d7b0df3092d47cd4">val</a>;</div><div class="line"><a name="l00579"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#a86f075f91b80918e968951713430f0b4">  579</a></span>&#160;    <span class="keywordtype">char</span> <a class="code" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#a86f075f91b80918e968951713430f0b4">byte</a>;</div><div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;  };</div><div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;</div><div class="line"><a name="l00582"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">  582</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html">pad</a>) - <span class="keyword">sizeof</span>(value_t) };</div><div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;};</div><div class="line"><a name="l00584"></a><span class="lineno">  584</span>&#160;</div><div class="line"><a name="l00585"></a><span class="lineno">  585</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00586"></a><span class="lineno">  586</span>&#160;</div><div class="line"><a name="l00587"></a><span class="lineno">  587</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;<span class="keyword">struct </span>alignment_of : std::alignment_of&lt;value_t&gt; {};</div><div class="line"><a name="l00589"></a><span class="lineno">  589</span>&#160;</div><div class="line"><a name="l00590"></a><span class="lineno">  590</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00591"></a><span class="lineno">  591</span>&#160;</div><div class="line"><a name="l00592"></a><span class="lineno">  592</span>&#160;<span class="comment">/* 16B specializations where 32-bit Win32 host compiler disagrees with device compiler */</span></div><div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00594"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html">  594</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;int4&gt; {</div><div class="line"><a name="l00595"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html#a6005c446eb41749276e0114b82abd990a5b0129d0f9bb45f1c56506efbbb22b6f">  595</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00596"></a><span class="lineno">  596</span>&#160;};</div><div class="line"><a name="l00597"></a><span class="lineno">  597</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00598"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html">  598</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;uint4&gt; {</div><div class="line"><a name="l00599"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html#ac55e0c5a0bc4c95981744e55ee7580cea807729922944eede573430b20ad4b322">  599</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;};</div><div class="line"><a name="l00601"></a><span class="lineno">  601</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00602"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html">  602</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;float4&gt; {</div><div class="line"><a name="l00603"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html#ac9e709c32271b14b35c9607c64835a95a6a6ee3f24f4d123fc7c138fe5b776f2e">  603</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00604"></a><span class="lineno">  604</span>&#160;};</div><div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00606"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html">  606</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;long4&gt; {</div><div class="line"><a name="l00607"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html#ad58512f76f0b9b000d48f1ff869a0547a3d020dd8ba5c735a60d7c2c897e158f5">  607</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160;};</div><div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00610"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html">  610</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;ulong4&gt; {</div><div class="line"><a name="l00611"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html#adc0eec628649de183fe984bb46898830a8152a79c27d055dc3d0b8d662c0bc96a">  611</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;};</div><div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00614"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html">  614</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;longlong2&gt; {</div><div class="line"><a name="l00615"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html#aadf6522691db02f1aab22c22716f0793a940fa73dc4f0a49b78e4e0cefaf4775d">  615</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;};</div><div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00618"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html">  618</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;ulonglong2&gt; {</div><div class="line"><a name="l00619"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html#a511f088278b3de04feb55ab60bdc5a09a58b5cc7be52956c43c2966af5887db80">  619</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00620"></a><span class="lineno">  620</span>&#160;};</div><div class="line"><a name="l00621"></a><span class="lineno">  621</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00622"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html">  622</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;double2&gt; {</div><div class="line"><a name="l00623"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html#a5fb114d264023728cca5364401bd6929a7b89d57c8009e094f69ff57e196d8318">  623</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;};</div><div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00626"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html">  626</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;longlong4&gt; {</div><div class="line"><a name="l00627"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html#a666c4fd30155873e3499f5cdc11782daafc1a7c2bb5e6483d42d380a2b4fd9561">  627</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;};</div><div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00630"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html">  630</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;ulonglong4&gt; {</div><div class="line"><a name="l00631"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html#a2568c1ab218cab6505bd20e3c2c420ffa54f6e1afec0ed30b18ab79fd6faf81b5">  631</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;};</div><div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00634"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html">  634</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;double4&gt; {</div><div class="line"><a name="l00635"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html#a024eaf40a8f3e8bd38b416868e0c68bca5a60b16666306472e92ad1320473ba85">  635</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;};</div><div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;</div><div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;<span class="comment">// Specializations for volatile/const qualified types</span></div><div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00640"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html">  640</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;volatile value_t&gt; : <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;value_t&gt; {};</div><div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00642"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4.html">  642</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;const value_t&gt; : <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;value_t&gt; {};</div><div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00644"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4.html">  644</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;const volatile value_t&gt; : <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;value_t&gt; {};</div><div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;</div><div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1800))</span></div><div class="line"><a name="l00647"></a><span class="lineno">  647</span>&#160;</div><div class="line"><a name="l00648"></a><span class="lineno">  648</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">size_t</span> Align&gt;</div><div class="line"><a name="l00649"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1aligned__chunk.html">  649</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>;</div><div class="line"><a name="l00650"></a><span class="lineno">  650</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00651"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">  651</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(1) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;1&gt; {</div><div class="line"><a name="l00652"></a><span class="lineno">  652</span>&#160;  uint8_t buff;</div><div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;};</div><div class="line"><a name="l00654"></a><span class="lineno">  654</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00655"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a0bcb016704ec57f9499e662ba6156f98">  655</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(2) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;2&gt; {</div><div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;  uint16_t buff;</div><div class="line"><a name="l00657"></a><span class="lineno">  657</span>&#160;};</div><div class="line"><a name="l00658"></a><span class="lineno">  658</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00659"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a71be5af25eeffa4077777f919e67d8da">  659</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(4) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;4&gt; {</div><div class="line"><a name="l00660"></a><span class="lineno">  660</span>&#160;  uint32_t buff;</div><div class="line"><a name="l00661"></a><span class="lineno">  661</span>&#160;};</div><div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00663"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a42440254a16d4b6b95b95cc3360ee372">  663</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(8) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;8&gt; {</div><div class="line"><a name="l00664"></a><span class="lineno">  664</span>&#160;  uint32_t buff[2];</div><div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160;};</div><div class="line"><a name="l00666"></a><span class="lineno">  666</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00667"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a91d5e970d6ebe619914f40a9510bdb1e">  667</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(16) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;16&gt; {</div><div class="line"><a name="l00668"></a><span class="lineno">  668</span>&#160;  uint32_t buff[4];</div><div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;};</div><div class="line"><a name="l00670"></a><span class="lineno">  670</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00671"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a210f4d360b1f9c3d074e71129fe4c0d9">  671</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(32) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;32&gt; {</div><div class="line"><a name="l00672"></a><span class="lineno">  672</span>&#160;  uint32_t buff[8];</div><div class="line"><a name="l00673"></a><span class="lineno">  673</span>&#160;};</div><div class="line"><a name="l00674"></a><span class="lineno">  674</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00675"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ae792b1c7ada1a33e306cd552f583bdce">  675</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(64) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;64&gt; {</div><div class="line"><a name="l00676"></a><span class="lineno">  676</span>&#160;  uint32_t buff[16];</div><div class="line"><a name="l00677"></a><span class="lineno">  677</span>&#160;};</div><div class="line"><a name="l00678"></a><span class="lineno">  678</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00679"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a5712ec4fed335a9b7f863fb3abe3c5eb">  679</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(128) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;128&gt; {</div><div class="line"><a name="l00680"></a><span class="lineno">  680</span>&#160;  uint32_t buff[32];</div><div class="line"><a name="l00681"></a><span class="lineno">  681</span>&#160;};</div><div class="line"><a name="l00682"></a><span class="lineno">  682</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00683"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a595cc98db29fb4d59772d2e2f52e347a">  683</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(256) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;256&gt; {</div><div class="line"><a name="l00684"></a><span class="lineno">  684</span>&#160;  uint32_t buff[64];</div><div class="line"><a name="l00685"></a><span class="lineno">  685</span>&#160;};</div><div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00687"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ae70bb5d14a66500b47d2e3f83063d4a5">  687</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(512) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;512&gt; {</div><div class="line"><a name="l00688"></a><span class="lineno">  688</span>&#160;  uint32_t buff[128];</div><div class="line"><a name="l00689"></a><span class="lineno">  689</span>&#160;};</div><div class="line"><a name="l00690"></a><span class="lineno">  690</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00691"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a181e44e9c66f704175590727aaa9e5a1">  691</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(1024) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;1024&gt; {</div><div class="line"><a name="l00692"></a><span class="lineno">  692</span>&#160;  uint32_t buff[256];</div><div class="line"><a name="l00693"></a><span class="lineno">  693</span>&#160;};</div><div class="line"><a name="l00694"></a><span class="lineno">  694</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00695"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ae72c8fa997bb251d4140dceb03147154">  695</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(2048) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;2048&gt; {</div><div class="line"><a name="l00696"></a><span class="lineno">  696</span>&#160;  uint32_t buff[512];</div><div class="line"><a name="l00697"></a><span class="lineno">  697</span>&#160;};</div><div class="line"><a name="l00698"></a><span class="lineno">  698</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00699"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ada29683f1b408ae7b73cc8fbe2108628">  699</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(4096) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;4096&gt; {</div><div class="line"><a name="l00700"></a><span class="lineno">  700</span>&#160;  uint32_t buff[1024];</div><div class="line"><a name="l00701"></a><span class="lineno">  701</span>&#160;};</div><div class="line"><a name="l00702"></a><span class="lineno">  702</span>&#160;</div><div class="line"><a name="l00704"></a><span class="lineno">  704</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">size_t</span> Len, <span class="keywordtype">size_t</span> Align&gt;</div><div class="line"><a name="l00705"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1aligned__storage.html">  705</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1aligned__storage.html">aligned_storage</a> {</div><div class="line"><a name="l00706"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1">  706</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk&lt;Align&gt;</a> <a class="code" href="structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1">type</a>[Len / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk&lt;Align&gt;</a>)];</div><div class="line"><a name="l00707"></a><span class="lineno">  707</span>&#160;};</div><div class="line"><a name="l00708"></a><span class="lineno">  708</span>&#160;</div><div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00710"></a><span class="lineno">  710</span>&#160;</div><div class="line"><a name="l00711"></a><span class="lineno">  711</span>&#160;<span class="keyword">using</span> std::aligned_storage;</div><div class="line"><a name="l00712"></a><span class="lineno">  712</span>&#160;</div><div class="line"><a name="l00713"></a><span class="lineno">  713</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00714"></a><span class="lineno">  714</span>&#160;</div><div class="line"><a name="l00715"></a><span class="lineno">  715</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00718"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1default__delete.html">  718</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1default__delete.html">default_delete</a> {</div><div class="line"><a name="l00719"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15">  719</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15">operator()</a>(T* ptr)<span class="keyword"> const </span>{ <span class="keyword">delete</span> ptr; }</div><div class="line"><a name="l00720"></a><span class="lineno">  720</span>&#160;};</div><div class="line"><a name="l00721"></a><span class="lineno">  721</span>&#160;</div><div class="line"><a name="l00723"></a><span class="lineno">  723</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00724"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html">  724</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1default__delete.html">default_delete</a>&lt;T[]&gt; {</div><div class="line"><a name="l00725"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87">  725</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87">operator()</a>(T* ptr)<span class="keyword"> const </span>{ <span class="keyword">delete</span>[] ptr; }</div><div class="line"><a name="l00726"></a><span class="lineno">  726</span>&#160;};</div><div class="line"><a name="l00727"></a><span class="lineno">  727</span>&#160;</div><div class="line"><a name="l00729"></a><span class="lineno">  729</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> Deleter = default_delete&lt;T&gt; &gt;</div><div class="line"><a name="l00730"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html">  730</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html">unique_ptr</a> {</div><div class="line"><a name="l00731"></a><span class="lineno">  731</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00732"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">  732</a></span>&#160;  <span class="keyword">typedef</span> T* <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a>;</div><div class="line"><a name="l00733"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a94cea0ebf2ac4bec69dfa1f80ea07d50">  733</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a94cea0ebf2ac4bec69dfa1f80ea07d50">element_type</a>;</div><div class="line"><a name="l00734"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252">  734</a></span>&#160;  <span class="keyword">typedef</span> Deleter <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252">deleter_type</a>;</div><div class="line"><a name="l00735"></a><span class="lineno">  735</span>&#160;</div><div class="line"><a name="l00736"></a><span class="lineno">  736</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00738"></a><span class="lineno">  738</span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> _ptr;</div><div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;</div><div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252">deleter_type</a> _deleter;</div><div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;</div><div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00744"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#aa8a370bc7e4c2d99eb85e7fea27b3179">  744</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#aa8a370bc7e4c2d99eb85e7fea27b3179">unique_ptr</a>() : _ptr(<a class="code" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>) {}</div><div class="line"><a name="l00745"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a14c8bf5a5deefe4a6602ccd5c5af364c">  745</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a14c8bf5a5deefe4a6602ccd5c5af364c">unique_ptr</a>(<a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> p) : _ptr(p) {}</div><div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;</div><div class="line"><a name="l00747"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a8902399dac4ab64f08f909f2ad9d4bcf">  747</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a8902399dac4ab64f08f909f2ad9d4bcf">~unique_ptr</a>() {</div><div class="line"><a name="l00748"></a><span class="lineno">  748</span>&#160;    <span class="keywordflow">if</span> (_ptr) {</div><div class="line"><a name="l00749"></a><span class="lineno">  749</span>&#160;      _deleter(_ptr);</div><div class="line"><a name="l00750"></a><span class="lineno">  750</span>&#160;    }</div><div class="line"><a name="l00751"></a><span class="lineno">  751</span>&#160;  }</div><div class="line"><a name="l00753"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a2e7c14b8a118f81c1df46ea5045e297b">  753</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> <span class="keyword">get</span>() <span class="keyword">const</span> <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <span class="keywordflow">return</span> _ptr; }</div><div class="line"><a name="l00754"></a><span class="lineno">  754</span>&#160;</div><div class="line"><a name="l00756"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279">  756</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279">release</a>() <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> {</div><div class="line"><a name="l00757"></a><span class="lineno">  757</span>&#160;    <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> p(_ptr);</div><div class="line"><a name="l00758"></a><span class="lineno">  758</span>&#160;    _ptr = <span class="keyword">nullptr</span>;</div><div class="line"><a name="l00759"></a><span class="lineno">  759</span>&#160;    <span class="keywordflow">return</span> p;</div><div class="line"><a name="l00760"></a><span class="lineno">  760</span>&#160;  }</div><div class="line"><a name="l00761"></a><span class="lineno">  761</span>&#160;</div><div class="line"><a name="l00763"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331">  763</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331">reset</a>(<a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> p = <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a>()) <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> {</div><div class="line"><a name="l00764"></a><span class="lineno">  764</span>&#160;    <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> old_ptr = _ptr;</div><div class="line"><a name="l00765"></a><span class="lineno">  765</span>&#160;    _ptr = p;</div><div class="line"><a name="l00766"></a><span class="lineno">  766</span>&#160;    <span class="keywordflow">if</span> (old_ptr != <span class="keyword">nullptr</span>) {</div><div class="line"><a name="l00767"></a><span class="lineno">  767</span>&#160;      <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0">get_deleter</a>()(old_ptr);</div><div class="line"><a name="l00768"></a><span class="lineno">  768</span>&#160;    }</div><div class="line"><a name="l00769"></a><span class="lineno">  769</span>&#160;  }</div><div class="line"><a name="l00770"></a><span class="lineno">  770</span>&#160;</div><div class="line"><a name="l00772"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036">  772</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036">swap</a>(<a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html">unique_ptr</a>&amp; other) <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <a class="code" href="namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678">std::swap</a>(_ptr, other._ptr); }</div><div class="line"><a name="l00773"></a><span class="lineno">  773</span>&#160;</div><div class="line"><a name="l00775"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0">  775</a></span>&#160;  Deleter&amp; <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0">get_deleter</a>() <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <span class="keywordflow">return</span> _deleter; }</div><div class="line"><a name="l00776"></a><span class="lineno">  776</span>&#160;</div><div class="line"><a name="l00778"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#aa427ab4ea4f2336ac6db28d53a4c11ac">  778</a></span>&#160;  Deleter <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#aa427ab4ea4f2336ac6db28d53a4c11ac">get_deleter</a>() const <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <span class="keywordflow">return</span> _deleter; }</div><div class="line"><a name="l00779"></a><span class="lineno">  779</span>&#160;</div><div class="line"><a name="l00781"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a5791650488ae864f10ad04bec4a31005">  781</a></span>&#160;  <span class="keyword">operator</span> bool() const <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <span class="keywordflow">return</span> _ptr != <span class="keyword">nullptr</span>; }</div><div class="line"><a name="l00782"></a><span class="lineno">  782</span>&#160;</div><div class="line"><a name="l00784"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b">  784</a></span>&#160;  T&amp; <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b">operator*</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> *_ptr; }</div><div class="line"><a name="l00785"></a><span class="lineno">  785</span>&#160;</div><div class="line"><a name="l00787"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b">  787</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b">operator-&gt;</a>() const <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <span class="keywordflow">return</span> _ptr; }</div><div class="line"><a name="l00788"></a><span class="lineno">  788</span>&#160;</div><div class="line"><a name="l00790"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d">  790</a></span>&#160;  T&amp; <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d">operator[]</a>(<span class="keywordtype">size_t</span> i)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> _ptr[i]; }</div><div class="line"><a name="l00791"></a><span class="lineno">  791</span>&#160;};</div><div class="line"><a name="l00792"></a><span class="lineno">  792</span>&#160;</div><div class="line"><a name="l00794"></a><span class="lineno">  794</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keyword">typename</span> Deleter&gt;</div><div class="line"><a name="l00795"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678">  795</a></span>&#160;<span class="keywordtype">void</span> <a class="code" href="namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678">swap</a>(<a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html">unique_ptr&lt;T, Deleter&gt;</a>&amp; lhs, <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html">unique_ptr&lt;T, Deleter&gt;</a>&amp; rhs) <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> {</div><div class="line"><a name="l00796"></a><span class="lineno">  796</span>&#160;  lhs.swap(rhs);</div><div class="line"><a name="l00797"></a><span class="lineno">  797</span>&#160;}</div><div class="line"><a name="l00798"></a><span class="lineno">  798</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00799"></a><span class="lineno">  799</span>&#160;</div><div class="line"><a name="l00800"></a><span class="lineno">  800</span>&#160;};  <span class="comment">// namespace platform</span></div><div class="line"><a name="l00801"></a><span class="lineno">  801</span>&#160;};  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html_a9bbaca83ae76941edb9b75b2741d3ad9"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">cutlass::platform::integral_constant::value</a></div><div class="ttdeci">static const value_t value</div><div class="ttdef"><b>Definition:</b> platform.h:279</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_af6a9a165e53d7e85ae121d5789aa03e0"><div class="ttname"><a href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">cutlass::platform::max</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr const T &amp; max(const T &amp;a, const T &amp;b)</div><div class="ttdoc">std::max </div><div class="ttdef"><b>Definition:</b> platform.h:207</div></div>
+<a href="platform_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;</div><div class="line"><a name="l00026"></a><span class="lineno">   26</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00027"></a><span class="lineno">   27</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;<span class="comment">// Dependencies</span></div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;<span class="preprocessor">#include &lt;stdint.h&gt;</span></div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;<span class="comment">// Include STL files that platform provides functionality for</span></div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;<span class="preprocessor">#include &lt;algorithm&gt;</span>   <span class="comment">// Minimum/maximum operations</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;<span class="preprocessor">#include &lt;cstddef&gt;</span>     <span class="comment">// nullptr_t</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;<span class="preprocessor">#include &lt;functional&gt;</span>  <span class="comment">// Arithmetic operations</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;<span class="preprocessor">#include &lt;utility&gt;</span>     <span class="comment">// For methods on std::pair</span></div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &gt;= 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MS_VER &gt;= 1500))</span></div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;<span class="preprocessor">#include &lt;type_traits&gt;</span>  <span class="comment">// For integral constants, conditional metaprogramming, and type traits</span></div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;<span class="comment">// OS</span></div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;<span class="preprocessor">#if defined(WIN32) || defined(_WIN32) || defined(__WIN32) &amp;&amp; !defined(__CYGWIN__)</span></div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;<span class="preprocessor">#define CUTLASS_OS_WINDOWS</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;<span class="comment"> * Macros</span></div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;<span class="comment">// Keywords</span></div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1900))</span></div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;<span class="preprocessor">#ifndef noexcept</span></div><div class="line"><a name="l00134"></a><span class="lineno"><a class="line" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">  134</a></span>&#160;<span class="preprocessor">#define noexcept</span></div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;<span class="preprocessor">#ifndef constexpr</span></div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">  137</a></span>&#160;<span class="preprocessor">#define constexpr</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1310))</span></div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;<span class="preprocessor">#ifndef nullptr</span></div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">  144</a></span>&#160;<span class="preprocessor">#define nullptr 0</span></div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1600))</span></div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;<span class="preprocessor">#ifndef static_assert</span></div><div class="line"><a name="l00151"></a><span class="lineno"><a class="line" href="platform_8h.html#acd148999a5caeba8f6fd52e7e288e659">  151</a></span>&#160;<span class="preprocessor">#define __platform_cat_(a, b) a##b</span></div><div class="line"><a name="l00152"></a><span class="lineno"><a class="line" href="platform_8h.html#aece7fe71be5aaf8d12dc9e2372f97de4">  152</a></span>&#160;<span class="preprocessor">#define __platform_cat(a, b) __platform_cat_(a, b)</span></div><div class="line"><a name="l00153"></a><span class="lineno"><a class="line" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">  153</a></span>&#160;<span class="preprocessor">#define static_assert(__e, __m) typedef int __platform_cat(AsSeRt, __LINE__)[(__e) ? 1 : -1]</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;<span class="comment">// Functions</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;<span class="preprocessor">#ifndef __NV_STD_MAX</span></div><div class="line"><a name="l00163"></a><span class="lineno"><a class="line" href="platform_8h.html#abd31f291635329bc15292954f1f01d38">  163</a></span>&#160;<span class="preprocessor">#define __NV_STD_MAX(a, b) (((b) &gt; (a)) ? (b) : (a))</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;<span class="preprocessor">#ifndef __NV_STD_MIN</span></div><div class="line"><a name="l00168"></a><span class="lineno"><a class="line" href="platform_8h.html#a39e234a3e3b0018b58df720bcb143420">  168</a></span>&#160;<span class="preprocessor">#define __NV_STD_MIN(a, b) (((b) &lt; (a)) ? (b) : (a))</span></div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;<span class="comment"> * Re-implementations</span></div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;<span class="keyword">namespace </span>platform {</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;<span class="comment">// Arithmetic operations, comparisons &lt;functional&gt;</span></div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00183"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1plus.html">  183</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1plus.html">plus</a> {</div><div class="line"><a name="l00184"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c">  184</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> T <a class="code" href="structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c">operator()</a>(<span class="keyword">const</span> T&amp; lhs, <span class="keyword">const</span> T&amp; rhs)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> lhs + rhs; }</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;};</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00189"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1less.html">  189</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1less.html">less</a> {</div><div class="line"><a name="l00190"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5">  190</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5">operator()</a>(<span class="keyword">const</span> T&amp; lhs, <span class="keyword">const</span> T&amp; rhs)<span class="keyword"> const </span>{</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;    <span class="keywordflow">return</span> lhs &lt; rhs;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;  }</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;};</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00197"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1greater.html">  197</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1greater.html">greater</a> {</div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978">  198</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978">operator()</a>(<span class="keyword">const</span> T&amp; lhs, <span class="keyword">const</span> T&amp; rhs)<span class="keyword"> const </span>{</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;    <span class="keywordflow">return</span> lhs &gt; rhs;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;  }</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;};</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;<span class="comment">// Minimum/maximum operations &lt;algorithm&gt;</span></div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00209"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">  209</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keyword">const</span> T&amp; <a class="code" href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">min</a>(<span class="keyword">const</span> T&amp; a, <span class="keyword">const</span> T&amp; b) {</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;  <span class="keywordflow">return</span> (b &lt; a) ? b : a;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;}</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00215"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">  215</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keyword">const</span> T&amp; <a class="code" href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">max</a>(<span class="keyword">const</span> T&amp; a, <span class="keyword">const</span> T&amp; b) {</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;  <span class="keywordflow">return</span> (a &lt; b) ? b : a;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;}</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;<span class="comment">// Methods on std::pair</span></div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;<span class="keyword">using</span> std::pair;</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00227"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ab9b8306ae9dc21fa646c49b68fa8e197">  227</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb">operator==</a>(<span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;  <span class="keywordflow">return</span> (lhs.first == rhs.first) &amp;&amp; (lhs.second == rhs.second);</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;}</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00232"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a248f49adf09654d2cd04bd2760ab2566">  232</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c">operator!=</a>(<span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;  <span class="keywordflow">return</span> (lhs.first != rhs.first) &amp;&amp; (lhs.second != rhs.second);</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;}</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a412dbdbc678ecd12b55fcad4ef4155bd">  237</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> operator&lt;(const pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;  <span class="keywordflow">return</span> (lhs.first &lt; rhs.first) ? true : (rhs.first &lt; lhs.first) ? <span class="keyword">false</span></div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;                                                                  : (lhs.second &lt; rhs.second);</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;}</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00243"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a41d573133357bd555f78d33afc1152d3">  243</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> operator&lt;=(const pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;  <span class="keywordflow">return</span> !(rhs &lt; lhs);</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;}</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00248"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12">  248</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12">operator&gt;</a>(<span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;  <span class="keywordflow">return</span> (rhs &lt; lhs);</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;}</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00253"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ab0f21e67c0a4b5c6952042b502c6816f">  253</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a> <span class="keywordtype">bool</span> <a class="code" href="namespacecutlass_1_1platform.html#ab0f21e67c0a4b5c6952042b502c6816f">operator&gt;=</a>(<span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; lhs, <span class="keyword">const</span> pair&lt;T1, T2&gt;&amp; rhs) {</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;  <span class="keywordflow">return</span> !(lhs &lt; rhs);</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;}</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T1, <span class="keyword">class</span> T2&gt;</div><div class="line"><a name="l00258"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5">  258</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> std::pair&lt;T1, T2&gt; <a class="code" href="namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5">make_pair</a>(T1 t, T2 u) {</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;  std::pair&lt;T1, T2&gt; retval;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;  retval.first = t;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;  retval.second = u;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;  <span class="keywordflow">return</span> retval;</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;}</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;}  <span class="comment">// namespace platform</span></div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;<span class="comment">/******************************************************************************</span></div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;<span class="comment"> * Implementations of C++ 11/14/17/... STL features</span></div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;<span class="comment"> ******************************************************************************/</span></div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;<span class="keyword">namespace </span>platform {</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;<span class="comment">// Integral constant helper types &lt;type_traits&gt;</span></div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1500))</span></div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t, value_t V&gt;</div><div class="line"><a name="l00282"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html">  282</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>;</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t, value_t V&gt;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a> {</div><div class="line"><a name="l00287"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">  287</a></span>&#160;  <span class="keyword">static</span> <span class="keyword">const</span> value_t <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">value</a> = V;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">  289</a></span>&#160;  <span class="keyword">typedef</span> value_t <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">value_type</a>;</div><div class="line"><a name="l00290"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html#af58810ccead8f16ed88cd6a4afdc6e52">  290</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant&lt;value_t, V&gt;</a> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#af58810ccead8f16ed88cd6a4afdc6e52">type</a>;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;</div><div class="line"><a name="l00292"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html#a55d25116387f1c6d978462b1d245d675">  292</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">operator</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">value_type</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">value</a>; }</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;</div><div class="line"><a name="l00294"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18">  294</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">value_type</a> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18">operator()</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">value</a>; }</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;};</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;<span class="keyword">using</span> std::integral_constant;</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;<span class="keyword">using</span> std::pair;</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;</div><div class="line"><a name="l00305"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a0eddc4a3921e137f31fd8014be96e807">  305</a></span>&#160;<span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant&lt;bool, true&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#a0eddc4a3921e137f31fd8014be96e807">true_type</a>;</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;</div><div class="line"><a name="l00308"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ad8c95b2109070847b13d355120344380">  308</a></span>&#160;<span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant&lt;bool, false&gt;</a> <a class="code" href="namespacecutlass_1_1platform.html#ad8c95b2109070847b13d355120344380">false_type</a>;</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt;= 201402L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1900))</span></div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> V&gt;</div><div class="line"><a name="l00314"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1bool__constant.html">  314</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1bool__constant.html">bool_constant</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">platform::integral_constant</a>&lt;bool, V&gt; {};</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;<span class="keyword">using</span> std::bool_constant;</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1700))</span></div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;</div><div class="line"><a name="l00325"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1nullptr__t.html">  325</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1nullptr__t.html">nullptr_t</a> {};</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;<span class="keyword">using</span> std::nullptr_t;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;<span class="comment">// Conditional metaprogramming &lt;type_traits&gt;</span></div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1600))</span></div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> C, <span class="keyword">typename</span> T = <span class="keywordtype">void</span>&gt;</div><div class="line"><a name="l00341"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1enable__if.html">  341</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1enable__if.html">enable_if</a> {</div><div class="line"><a name="l00342"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1enable__if.html#aff9c0f270020cf097addf77e53a5af99">  342</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1enable__if.html#aff9c0f270020cf097addf77e53a5af99">type</a>;</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;};</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00347"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html">  347</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1enable__if.html">enable_if</a>&lt;false, T&gt; {};</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">bool</span> B, <span class="keyword">class</span> T, <span class="keyword">class</span> F&gt;</div><div class="line"><a name="l00351"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1conditional.html">  351</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1conditional.html">conditional</a> {</div><div class="line"><a name="l00352"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1conditional.html#ab6484d0dd6449b5195c4e868026fed11">  352</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1conditional.html#ab6484d0dd6449b5195c4e868026fed11">type</a>;</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;};</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> F&gt;</div><div class="line"><a name="l00357"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html">  357</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1conditional.html">conditional</a>&lt;false, T, F&gt; {</div><div class="line"><a name="l00358"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html#a8d55f500f667de560650554e9c220644">  358</a></span>&#160;  <span class="keyword">typedef</span> F <a class="code" href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html#a8d55f500f667de560650554e9c220644">type</a>;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;};</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;<span class="keyword">using</span> std::enable_if;</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;<span class="keyword">using</span> std::conditional;</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;<span class="comment">// Const/volatility specifiers &lt;type_traits&gt;</span></div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1500))</span></div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00376"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__const.html">  376</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1remove__const.html">remove_const</a> {</div><div class="line"><a name="l00377"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">  377</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">type</a>;</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;};</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00382"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html">  382</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1remove__const.html">remove_const</a>&lt;const T&gt; {</div><div class="line"><a name="l00383"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html#af68706cfaa6af14edc26ad5b974b47e3">  383</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html#af68706cfaa6af14edc26ad5b974b47e3">type</a>;</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;};</div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;</div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00388"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__volatile.html">  388</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1remove__volatile.html">remove_volatile</a> {</div><div class="line"><a name="l00389"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__volatile.html#a4f5b043d46206248d1bbbcf650707dd1">  389</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1remove__volatile.html#a4f5b043d46206248d1bbbcf650707dd1">type</a>;</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;};</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;</div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00394"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html">  394</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1remove__volatile.html">remove_volatile</a>&lt;volatile T&gt; {</div><div class="line"><a name="l00395"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3">  395</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3">type</a>;</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;};</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00400"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__cv.html">  400</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1remove__cv.html">remove_cv</a> {</div><div class="line"><a name="l00401"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08">  401</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__volatile.html">remove_volatile&lt;typename remove_const&lt;T&gt;::type</a>&gt;<a class="code" href="structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08">::type</a> <a class="code" href="structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08">type</a>;</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;};</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;<span class="keyword">using</span> std::remove_const;</div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;<span class="keyword">using</span> std::remove_volatile;</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;<span class="keyword">using</span> std::remove_cv;</div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;</div><div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;<span class="comment">// Type relationships &lt;type_traits&gt;</span></div><div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;</div><div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1500))</span></div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;</div><div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A, <span class="keyword">typename</span> B&gt;</div><div class="line"><a name="l00420"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__same.html">  420</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__same.html">is_same</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">false_type</a> {};</div><div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;</div><div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A&gt;</div><div class="line"><a name="l00424"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html">  424</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__same.html">is_same</a>&lt;A, A&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;</div><div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> BaseT, <span class="keyword">typename</span> DerivedT&gt;</div><div class="line"><a name="l00428"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of__helper.html">  428</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html">is_base_of_helper</a> {</div><div class="line"><a name="l00429"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669">  429</a></span>&#160;  <span class="keyword">typedef</span> char (&amp;<a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669">yes</a>)[1];</div><div class="line"><a name="l00430"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af">  430</a></span>&#160;  <span class="keyword">typedef</span> char (&amp;<a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af">no</a>)[2];</div><div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;</div><div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> B, <span class="keyword">typename</span> D&gt;</div><div class="line"><a name="l00433"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html">  433</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html">dummy</a> {</div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">operator</span> B*() <span class="keyword">const</span>;</div><div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">operator</span> D*();</div><div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;  };</div><div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;</div><div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">static</span> <a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669">yes</a> <a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b">check</a>(DerivedT*, T);</div><div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;</div><div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">static</span> <a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af">no</a> <a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b">check</a>(BaseT*, <span class="keywordtype">int</span>);</div><div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;</div><div class="line"><a name="l00443"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff">  443</a></span>&#160;  <span class="keyword">static</span> <span class="keyword">const</span> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff">value</a> = <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b">check</a>(<a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html">dummy&lt;BaseT, DerivedT&gt;</a>(), <span class="keywordtype">int</span>())) == <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669">yes</a>);</div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;};</div><div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> BaseT, <span class="keyword">typename</span> DerivedT&gt;</div><div class="line"><a name="l00448"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__base__of.html">  448</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__base__of.html">is_base_of</a></div><div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;    : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>&lt;bool,</div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;                        (is_base_of_helper&lt;typename remove_cv&lt;BaseT&gt;::type,</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;                                           typename remove_cv&lt;DerivedT&gt;::type&gt;::value) ||</div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;                            (is_same&lt;typename remove_cv&lt;BaseT&gt;::type,</div><div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;                                     typename remove_cv&lt;DerivedT&gt;::type&gt;::value)&gt; {};</div><div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;</div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;</div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;<span class="keyword">using</span> std::is_same;</div><div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;<span class="keyword">using</span> std::is_base_of;</div><div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;</div><div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;</div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;<span class="comment">// Type properties &lt;type_traits&gt;</span></div><div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;</div><div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1500))</span></div><div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;</div><div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00470"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__volatile.html">  470</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__volatile.html">is_volatile</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">false_type</a> {};</div><div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00472"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html">  472</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__volatile.html">is_volatile</a>&lt;volatile T&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;</div><div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00476"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__pointer__helper.html">  476</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__pointer__helper.html">is_pointer_helper</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">false_type</a> {};</div><div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;</div><div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00480"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html">  480</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__pointer__helper.html">is_pointer_helper</a>&lt;T*&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;</div><div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00484"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__pointer.html">  484</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__pointer.html">is_pointer</a> : <a class="code" href="structcutlass_1_1platform_1_1is__pointer__helper.html">is_pointer_helper</a>&lt;typename remove_cv&lt;T&gt;::type&gt; {};</div><div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;</div><div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00488"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__void.html">  488</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__void.html">is_void</a> : <a class="code" href="structcutlass_1_1platform_1_1is__same.html">is_same</a>&lt;void, typename remove_cv&lt;T&gt;::type&gt; {};</div><div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;</div><div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00492"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral.html">  492</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a> : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">false_type</a> {};</div><div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00494"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html">  494</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;char&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00496"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html">  496</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;signed char&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00498"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html">  498</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;unsigned char&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00500"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html">  500</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;short&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00501"></a><span class="lineno">  501</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00502"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html">  502</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;unsigned short&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00504"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html">  504</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;int&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00506"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html">  506</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;unsigned int&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00508"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html">  508</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;long&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00510"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html">  510</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;unsigned long&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00512"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html">  512</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;long long&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00513"></a><span class="lineno">  513</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00514"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html">  514</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;unsigned long long&gt; : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">true_type</a> {};</div><div class="line"><a name="l00515"></a><span class="lineno">  515</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00516"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html">  516</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;volatile T&gt; : <a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;T&gt; {};</div><div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00518"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html">  518</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;const T&gt; : <a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;T&gt; {};</div><div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00520"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html">  520</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;const volatile T&gt; : <a class="code" href="structcutlass_1_1platform_1_1is__integral.html">is_integral</a>&lt;T&gt; {};</div><div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;</div><div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00524"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__floating__point.html">  524</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__floating__point.html">is_floating_point</a></div><div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;    : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>&lt;bool,</div><div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;                        (is_same&lt;float, typename remove_cv&lt;T&gt;::type&gt;::value ||</div><div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;                         is_same&lt;double, typename remove_cv&lt;T&gt;::type&gt;::value)&gt; {};</div><div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;</div><div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00531"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__arithmetic.html">  531</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__arithmetic.html">is_arithmetic</a></div><div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;    : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>&lt;bool, (is_integral&lt;T&gt;::value || is_floating_point&lt;T&gt;::value)&gt; {};</div><div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;</div><div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00536"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__fundamental.html">  536</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__fundamental.html">is_fundamental</a></div><div class="line"><a name="l00537"></a><span class="lineno">  537</span>&#160;    : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>&lt;bool,</div><div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;                        (is_arithmetic&lt;T&gt;::value || is_void&lt;T&gt;::value ||</div><div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;                         is_same&lt;nullptr_t, typename remove_cv&lt;T&gt;::type&gt;::value)&gt; {};</div><div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;</div><div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;</div><div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;<span class="keyword">using</span> std::is_volatile;</div><div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;<span class="keyword">using</span> std::is_pointer;</div><div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;<span class="keyword">using</span> std::is_void;</div><div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;<span class="keyword">using</span> std::is_integral;</div><div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;<span class="keyword">using</span> std::is_floating_point;</div><div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;<span class="keyword">using</span> std::is_arithmetic;</div><div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;<span class="keyword">using</span> std::is_fundamental;</div><div class="line"><a name="l00550"></a><span class="lineno">  550</span>&#160;</div><div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160;</div><div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1800)) || \</span></div><div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;<span class="preprocessor">    (defined(__GNUG__) &amp;&amp; (__GNUC__ &lt; 5))</span></div><div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;</div><div class="line"><a name="l00566"></a><span class="lineno">  566</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00567"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1is__trivially__copyable.html">  567</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1is__trivially__copyable.html">is_trivially_copyable</a></div><div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;    : <a class="code" href="structcutlass_1_1platform_1_1integral__constant.html">integral_constant</a>&lt;bool, (is_fundamental&lt;T&gt;::value || is_pointer&lt;T&gt;::value)&gt; {};</div><div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;</div><div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;</div><div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;<span class="keyword">using</span> std::is_trivially_copyable;</div><div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;</div><div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160;</div><div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;<span class="comment">// Alignment and layout utilities</span></div><div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160;<span class="comment">//-----------------------------------------------------------------------------</span></div><div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160;</div><div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1500))</span></div><div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;</div><div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00584"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of.html">  584</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a> {</div><div class="line"><a name="l00585"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html">  585</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html">pad</a> {</div><div class="line"><a name="l00586"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#abc729cc51d5c90b1d7b0df3092d47cd4">  586</a></span>&#160;    value_t <a class="code" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#abc729cc51d5c90b1d7b0df3092d47cd4">val</a>;</div><div class="line"><a name="l00587"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#a86f075f91b80918e968951713430f0b4">  587</a></span>&#160;    <span class="keywordtype">char</span> <a class="code" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#a86f075f91b80918e968951713430f0b4">byte</a>;</div><div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;  };</div><div class="line"><a name="l00589"></a><span class="lineno">  589</span>&#160;</div><div class="line"><a name="l00590"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">  590</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html">pad</a>) - <span class="keyword">sizeof</span>(value_t) };</div><div class="line"><a name="l00591"></a><span class="lineno">  591</span>&#160;};</div><div class="line"><a name="l00592"></a><span class="lineno">  592</span>&#160;</div><div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00594"></a><span class="lineno">  594</span>&#160;</div><div class="line"><a name="l00595"></a><span class="lineno">  595</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00596"></a><span class="lineno">  596</span>&#160;<span class="keyword">struct </span>alignment_of : std::alignment_of&lt;value_t&gt; {};</div><div class="line"><a name="l00597"></a><span class="lineno">  597</span>&#160;</div><div class="line"><a name="l00598"></a><span class="lineno">  598</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00599"></a><span class="lineno">  599</span>&#160;</div><div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;<span class="comment">/* 16B specializations where 32-bit Win32 host compiler disagrees with device compiler */</span></div><div class="line"><a name="l00601"></a><span class="lineno">  601</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00602"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html">  602</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;int4&gt; {</div><div class="line"><a name="l00603"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html#a6005c446eb41749276e0114b82abd990a5b0129d0f9bb45f1c56506efbbb22b6f">  603</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00604"></a><span class="lineno">  604</span>&#160;};</div><div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00606"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html">  606</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;uint4&gt; {</div><div class="line"><a name="l00607"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html#ac55e0c5a0bc4c95981744e55ee7580cea807729922944eede573430b20ad4b322">  607</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160;};</div><div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00610"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html">  610</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;float4&gt; {</div><div class="line"><a name="l00611"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html#ac9e709c32271b14b35c9607c64835a95a6a6ee3f24f4d123fc7c138fe5b776f2e">  611</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;};</div><div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00614"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html">  614</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;long4&gt; {</div><div class="line"><a name="l00615"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html#ad58512f76f0b9b000d48f1ff869a0547a3d020dd8ba5c735a60d7c2c897e158f5">  615</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;};</div><div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00618"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html">  618</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;ulong4&gt; {</div><div class="line"><a name="l00619"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html#adc0eec628649de183fe984bb46898830a8152a79c27d055dc3d0b8d662c0bc96a">  619</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00620"></a><span class="lineno">  620</span>&#160;};</div><div class="line"><a name="l00621"></a><span class="lineno">  621</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00622"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html">  622</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;longlong2&gt; {</div><div class="line"><a name="l00623"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html#aadf6522691db02f1aab22c22716f0793a940fa73dc4f0a49b78e4e0cefaf4775d">  623</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;};</div><div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00626"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html">  626</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;ulonglong2&gt; {</div><div class="line"><a name="l00627"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html#a511f088278b3de04feb55ab60bdc5a09a58b5cc7be52956c43c2966af5887db80">  627</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;};</div><div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00630"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html">  630</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;double2&gt; {</div><div class="line"><a name="l00631"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html#a5fb114d264023728cca5364401bd6929a7b89d57c8009e094f69ff57e196d8318">  631</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;};</div><div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00634"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html">  634</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;longlong4&gt; {</div><div class="line"><a name="l00635"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html#a666c4fd30155873e3499f5cdc11782daafc1a7c2bb5e6483d42d380a2b4fd9561">  635</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;};</div><div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00638"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html">  638</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;ulonglong4&gt; {</div><div class="line"><a name="l00639"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html#a2568c1ab218cab6505bd20e3c2c420ffa54f6e1afec0ed30b18ab79fd6faf81b5">  639</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00640"></a><span class="lineno">  640</span>&#160;};</div><div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00642"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html">  642</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;double4&gt; {</div><div class="line"><a name="l00643"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html#a024eaf40a8f3e8bd38b416868e0c68bca5a60b16666306472e92ad1320473ba85">  643</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">value</a> = 16 };</div><div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160;};</div><div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;</div><div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;<span class="comment">// Specializations for volatile/const qualified types</span></div><div class="line"><a name="l00647"></a><span class="lineno">  647</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00648"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html">  648</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;volatile value_t&gt; : <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;value_t&gt; {};</div><div class="line"><a name="l00649"></a><span class="lineno">  649</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00650"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4.html">  650</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;const value_t&gt; : <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;value_t&gt; {};</div><div class="line"><a name="l00651"></a><span class="lineno">  651</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> value_t&gt;</div><div class="line"><a name="l00652"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4.html">  652</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;const volatile value_t&gt; : <a class="code" href="structcutlass_1_1platform_1_1alignment__of.html">alignment_of</a>&lt;value_t&gt; {};</div><div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;</div><div class="line"><a name="l00654"></a><span class="lineno">  654</span>&#160;<span class="preprocessor">#if (!defined(_MSC_VER) &amp;&amp; (__cplusplus &lt; 201103L)) || (defined(_MSC_VER) &amp;&amp; (_MSC_VER &lt; 1800))</span></div><div class="line"><a name="l00655"></a><span class="lineno">  655</span>&#160;</div><div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">size_t</span> Align&gt;</div><div class="line"><a name="l00657"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1aligned__chunk.html">  657</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>;</div><div class="line"><a name="l00658"></a><span class="lineno">  658</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00659"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">  659</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(1) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;1&gt; {</div><div class="line"><a name="l00660"></a><span class="lineno">  660</span>&#160;  uint8_t buff;</div><div class="line"><a name="l00661"></a><span class="lineno">  661</span>&#160;};</div><div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00663"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a0bcb016704ec57f9499e662ba6156f98">  663</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(2) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;2&gt; {</div><div class="line"><a name="l00664"></a><span class="lineno">  664</span>&#160;  uint16_t buff;</div><div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160;};</div><div class="line"><a name="l00666"></a><span class="lineno">  666</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00667"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a71be5af25eeffa4077777f919e67d8da">  667</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(4) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;4&gt; {</div><div class="line"><a name="l00668"></a><span class="lineno">  668</span>&#160;  uint32_t buff;</div><div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;};</div><div class="line"><a name="l00670"></a><span class="lineno">  670</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00671"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a42440254a16d4b6b95b95cc3360ee372">  671</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(8) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;8&gt; {</div><div class="line"><a name="l00672"></a><span class="lineno">  672</span>&#160;  uint32_t buff[2];</div><div class="line"><a name="l00673"></a><span class="lineno">  673</span>&#160;};</div><div class="line"><a name="l00674"></a><span class="lineno">  674</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00675"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a91d5e970d6ebe619914f40a9510bdb1e">  675</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(16) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;16&gt; {</div><div class="line"><a name="l00676"></a><span class="lineno">  676</span>&#160;  uint32_t buff[4];</div><div class="line"><a name="l00677"></a><span class="lineno">  677</span>&#160;};</div><div class="line"><a name="l00678"></a><span class="lineno">  678</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00679"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a210f4d360b1f9c3d074e71129fe4c0d9">  679</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(32) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;32&gt; {</div><div class="line"><a name="l00680"></a><span class="lineno">  680</span>&#160;  uint32_t buff[8];</div><div class="line"><a name="l00681"></a><span class="lineno">  681</span>&#160;};</div><div class="line"><a name="l00682"></a><span class="lineno">  682</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00683"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ae792b1c7ada1a33e306cd552f583bdce">  683</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(64) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;64&gt; {</div><div class="line"><a name="l00684"></a><span class="lineno">  684</span>&#160;  uint32_t buff[16];</div><div class="line"><a name="l00685"></a><span class="lineno">  685</span>&#160;};</div><div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00687"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a5712ec4fed335a9b7f863fb3abe3c5eb">  687</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(128) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;128&gt; {</div><div class="line"><a name="l00688"></a><span class="lineno">  688</span>&#160;  uint32_t buff[32];</div><div class="line"><a name="l00689"></a><span class="lineno">  689</span>&#160;};</div><div class="line"><a name="l00690"></a><span class="lineno">  690</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00691"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a595cc98db29fb4d59772d2e2f52e347a">  691</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(256) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;256&gt; {</div><div class="line"><a name="l00692"></a><span class="lineno">  692</span>&#160;  uint32_t buff[64];</div><div class="line"><a name="l00693"></a><span class="lineno">  693</span>&#160;};</div><div class="line"><a name="l00694"></a><span class="lineno">  694</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00695"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ae70bb5d14a66500b47d2e3f83063d4a5">  695</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(512) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;512&gt; {</div><div class="line"><a name="l00696"></a><span class="lineno">  696</span>&#160;  uint32_t buff[128];</div><div class="line"><a name="l00697"></a><span class="lineno">  697</span>&#160;};</div><div class="line"><a name="l00698"></a><span class="lineno">  698</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00699"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a181e44e9c66f704175590727aaa9e5a1">  699</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(1024) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;1024&gt; {</div><div class="line"><a name="l00700"></a><span class="lineno">  700</span>&#160;  uint32_t buff[256];</div><div class="line"><a name="l00701"></a><span class="lineno">  701</span>&#160;};</div><div class="line"><a name="l00702"></a><span class="lineno">  702</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00703"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ae72c8fa997bb251d4140dceb03147154">  703</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(2048) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;2048&gt; {</div><div class="line"><a name="l00704"></a><span class="lineno">  704</span>&#160;  uint32_t buff[512];</div><div class="line"><a name="l00705"></a><span class="lineno">  705</span>&#160;};</div><div class="line"><a name="l00706"></a><span class="lineno">  706</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00707"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#ada29683f1b408ae7b73cc8fbe2108628">  707</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">__align__</a>(4096) <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk</a>&lt;4096&gt; {</div><div class="line"><a name="l00708"></a><span class="lineno">  708</span>&#160;  uint32_t buff[1024];</div><div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;};</div><div class="line"><a name="l00710"></a><span class="lineno">  710</span>&#160;</div><div class="line"><a name="l00712"></a><span class="lineno">  712</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">size_t</span> Len, <span class="keywordtype">size_t</span> Align&gt;</div><div class="line"><a name="l00713"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1aligned__storage.html">  713</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1aligned__storage.html">aligned_storage</a> {</div><div class="line"><a name="l00714"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1">  714</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk&lt;Align&gt;</a> <a class="code" href="structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1">type</a>[Len / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1platform_1_1aligned__chunk.html">aligned_chunk&lt;Align&gt;</a>)];</div><div class="line"><a name="l00715"></a><span class="lineno">  715</span>&#160;};</div><div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;</div><div class="line"><a name="l00717"></a><span class="lineno">  717</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00718"></a><span class="lineno">  718</span>&#160;</div><div class="line"><a name="l00719"></a><span class="lineno">  719</span>&#160;<span class="keyword">using</span> std::aligned_storage;</div><div class="line"><a name="l00720"></a><span class="lineno">  720</span>&#160;</div><div class="line"><a name="l00721"></a><span class="lineno">  721</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00722"></a><span class="lineno">  722</span>&#160;</div><div class="line"><a name="l00723"></a><span class="lineno">  723</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__)</span></div><div class="line"><a name="l00724"></a><span class="lineno">  724</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00726"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1default__delete.html">  726</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1default__delete.html">default_delete</a> {</div><div class="line"><a name="l00727"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15">  727</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15">operator()</a>(T* ptr)<span class="keyword"> const </span>{ <span class="keyword">delete</span> ptr; }</div><div class="line"><a name="l00728"></a><span class="lineno">  728</span>&#160;};</div><div class="line"><a name="l00729"></a><span class="lineno">  729</span>&#160;</div><div class="line"><a name="l00731"></a><span class="lineno">  731</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00732"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html">  732</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1platform_1_1default__delete.html">default_delete</a>&lt;T[]&gt; {</div><div class="line"><a name="l00733"></a><span class="lineno"><a class="line" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87">  733</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87">operator()</a>(T* ptr)<span class="keyword"> const </span>{ <span class="keyword">delete</span>[] ptr; }</div><div class="line"><a name="l00734"></a><span class="lineno">  734</span>&#160;};</div><div class="line"><a name="l00735"></a><span class="lineno">  735</span>&#160;</div><div class="line"><a name="l00737"></a><span class="lineno">  737</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> Deleter = default_delete&lt;T&gt; &gt;</div><div class="line"><a name="l00738"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html">  738</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html">unique_ptr</a> {</div><div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00740"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">  740</a></span>&#160;  <span class="keyword">typedef</span> T* <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a>;</div><div class="line"><a name="l00741"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a94cea0ebf2ac4bec69dfa1f80ea07d50">  741</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a94cea0ebf2ac4bec69dfa1f80ea07d50">element_type</a>;</div><div class="line"><a name="l00742"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252">  742</a></span>&#160;  <span class="keyword">typedef</span> Deleter <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252">deleter_type</a>;</div><div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160;</div><div class="line"><a name="l00744"></a><span class="lineno">  744</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> _ptr;</div><div class="line"><a name="l00747"></a><span class="lineno">  747</span>&#160;</div><div class="line"><a name="l00749"></a><span class="lineno">  749</span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252">deleter_type</a> _deleter;</div><div class="line"><a name="l00750"></a><span class="lineno">  750</span>&#160;</div><div class="line"><a name="l00751"></a><span class="lineno">  751</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00752"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#aa8a370bc7e4c2d99eb85e7fea27b3179">  752</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#aa8a370bc7e4c2d99eb85e7fea27b3179">unique_ptr</a>() : _ptr(<a class="code" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>) {}</div><div class="line"><a name="l00753"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a14c8bf5a5deefe4a6602ccd5c5af364c">  753</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a14c8bf5a5deefe4a6602ccd5c5af364c">unique_ptr</a>(<a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> p) : _ptr(p) {}</div><div class="line"><a name="l00754"></a><span class="lineno">  754</span>&#160;</div><div class="line"><a name="l00755"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a8902399dac4ab64f08f909f2ad9d4bcf">  755</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a8902399dac4ab64f08f909f2ad9d4bcf">~unique_ptr</a>() {</div><div class="line"><a name="l00756"></a><span class="lineno">  756</span>&#160;    <span class="keywordflow">if</span> (_ptr) {</div><div class="line"><a name="l00757"></a><span class="lineno">  757</span>&#160;      _deleter(_ptr);</div><div class="line"><a name="l00758"></a><span class="lineno">  758</span>&#160;    }</div><div class="line"><a name="l00759"></a><span class="lineno">  759</span>&#160;  }</div><div class="line"><a name="l00761"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a2e7c14b8a118f81c1df46ea5045e297b">  761</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> <span class="keyword">get</span>() <span class="keyword">const</span> <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <span class="keywordflow">return</span> _ptr; }</div><div class="line"><a name="l00762"></a><span class="lineno">  762</span>&#160;</div><div class="line"><a name="l00764"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279">  764</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279">release</a>() <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> {</div><div class="line"><a name="l00765"></a><span class="lineno">  765</span>&#160;    <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> p(_ptr);</div><div class="line"><a name="l00766"></a><span class="lineno">  766</span>&#160;    _ptr = <span class="keyword">nullptr</span>;</div><div class="line"><a name="l00767"></a><span class="lineno">  767</span>&#160;    <span class="keywordflow">return</span> p;</div><div class="line"><a name="l00768"></a><span class="lineno">  768</span>&#160;  }</div><div class="line"><a name="l00769"></a><span class="lineno">  769</span>&#160;</div><div class="line"><a name="l00771"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331">  771</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331">reset</a>(<a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> p = <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a>()) <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> {</div><div class="line"><a name="l00772"></a><span class="lineno">  772</span>&#160;    <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> old_ptr = _ptr;</div><div class="line"><a name="l00773"></a><span class="lineno">  773</span>&#160;    _ptr = p;</div><div class="line"><a name="l00774"></a><span class="lineno">  774</span>&#160;    <span class="keywordflow">if</span> (old_ptr != <span class="keyword">nullptr</span>) {</div><div class="line"><a name="l00775"></a><span class="lineno">  775</span>&#160;      <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0">get_deleter</a>()(old_ptr);</div><div class="line"><a name="l00776"></a><span class="lineno">  776</span>&#160;    }</div><div class="line"><a name="l00777"></a><span class="lineno">  777</span>&#160;  }</div><div class="line"><a name="l00778"></a><span class="lineno">  778</span>&#160;</div><div class="line"><a name="l00780"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036">  780</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036">swap</a>(<a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html">unique_ptr</a>&amp; other) <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <a class="code" href="namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678">std::swap</a>(_ptr, other._ptr); }</div><div class="line"><a name="l00781"></a><span class="lineno">  781</span>&#160;</div><div class="line"><a name="l00783"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0">  783</a></span>&#160;  Deleter&amp; <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0">get_deleter</a>() <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <span class="keywordflow">return</span> _deleter; }</div><div class="line"><a name="l00784"></a><span class="lineno">  784</span>&#160;</div><div class="line"><a name="l00786"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#aa427ab4ea4f2336ac6db28d53a4c11ac">  786</a></span>&#160;  Deleter <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#aa427ab4ea4f2336ac6db28d53a4c11ac">get_deleter</a>() const <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <span class="keywordflow">return</span> _deleter; }</div><div class="line"><a name="l00787"></a><span class="lineno">  787</span>&#160;</div><div class="line"><a name="l00789"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a5791650488ae864f10ad04bec4a31005">  789</a></span>&#160;  <span class="keyword">operator</span> bool() const <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <span class="keywordflow">return</span> _ptr != <span class="keyword">nullptr</span>; }</div><div class="line"><a name="l00790"></a><span class="lineno">  790</span>&#160;</div><div class="line"><a name="l00792"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b">  792</a></span>&#160;  T&amp; <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b">operator*</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> *_ptr; }</div><div class="line"><a name="l00793"></a><span class="lineno">  793</span>&#160;</div><div class="line"><a name="l00795"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b">  795</a></span>&#160;  <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">pointer</a> <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b">operator-&gt;</a>() const <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> { <span class="keywordflow">return</span> _ptr; }</div><div class="line"><a name="l00796"></a><span class="lineno">  796</span>&#160;</div><div class="line"><a name="l00798"></a><span class="lineno"><a class="line" href="classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d">  798</a></span>&#160;  T&amp; <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d">operator[]</a>(<span class="keywordtype">size_t</span> i)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> _ptr[i]; }</div><div class="line"><a name="l00799"></a><span class="lineno">  799</span>&#160;};</div><div class="line"><a name="l00800"></a><span class="lineno">  800</span>&#160;</div><div class="line"><a name="l00802"></a><span class="lineno">  802</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keyword">typename</span> Deleter&gt;</div><div class="line"><a name="l00803"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678">  803</a></span>&#160;<span class="keywordtype">void</span> <a class="code" href="namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678">swap</a>(<a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html">unique_ptr&lt;T, Deleter&gt;</a>&amp; lhs, <a class="code" href="classcutlass_1_1platform_1_1unique__ptr.html">unique_ptr&lt;T, Deleter&gt;</a>&amp; rhs) <a class="code" href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a> {</div><div class="line"><a name="l00804"></a><span class="lineno">  804</span>&#160;  lhs.swap(rhs);</div><div class="line"><a name="l00805"></a><span class="lineno">  805</span>&#160;}</div><div class="line"><a name="l00806"></a><span class="lineno">  806</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00807"></a><span class="lineno">  807</span>&#160;</div><div class="line"><a name="l00808"></a><span class="lineno">  808</span>&#160;};  <span class="comment">// namespace platform</span></div><div class="line"><a name="l00809"></a><span class="lineno">  809</span>&#160;};  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html_a9bbaca83ae76941edb9b75b2741d3ad9"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9">cutlass::platform::integral_constant::value</a></div><div class="ttdeci">static const value_t value</div><div class="ttdef"><b>Definition:</b> platform.h:287</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_af6a9a165e53d7e85ae121d5789aa03e0"><div class="ttname"><a href="namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0">cutlass::platform::max</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr const T &amp; max(const T &amp;a, const T &amp;b)</div><div class="ttdoc">std::max </div><div class="ttdef"><b>Definition:</b> platform.h:215</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="platform_8h_html_a72f0657181cca64b44eb186b707eb380"><div class="ttname"><a href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a></div><div class="ttdeci">#define constexpr</div><div class="ttdef"><b>Definition:</b> platform.h:129</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1nullptr__t_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1nullptr__t.html">cutlass::platform::nullptr_t</a></div><div class="ttdoc">std::nullptr_t </div><div class="ttdef"><b>Definition:</b> platform.h:317</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_a3e83320a39137d92042eb0bf93be9678"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678">cutlass::platform::swap</a></div><div class="ttdeci">void swap(unique_ptr&lt; T, Deleter &gt; &amp;lhs, unique_ptr&lt; T, Deleter &gt; &amp;rhs) noexcept</div><div class="ttdoc">Specializes the swap algorithm. </div><div class="ttdef"><b>Definition:</b> platform.h:795</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__pointer__helper_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__pointer__helper.html">cutlass::platform::is_pointer_helper</a></div><div class="ttdoc">Helper for std::is_pointer (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:468</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a85cab9945c36dc56bd7d6adf30c0d252"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252">cutlass::platform::unique_ptr::deleter_type</a></div><div class="ttdeci">Deleter deleter_type</div><div class="ttdef"><b>Definition:</b> platform.h:734</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_html_ac3662947fa50251daf58240a9c798085"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">cutlass::platform::remove_const::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:369</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1alignment__of_1_1pad_html_abc729cc51d5c90b1d7b0df3092d47cd4"><div class="ttname"><a href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#abc729cc51d5c90b1d7b0df3092d47cd4">cutlass::platform::alignment_of::pad::val</a></div><div class="ttdeci">value_t val</div><div class="ttdef"><b>Definition:</b> platform.h:578</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1conditional_html_ab6484d0dd6449b5195c4e868026fed11"><div class="ttname"><a href="structcutlass_1_1platform_1_1conditional.html#ab6484d0dd6449b5195c4e868026fed11">cutlass::platform::conditional::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:344</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_ab6ce60d03d11b269c1e151dfa7c696f9"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">cutlass::platform::unique_ptr::pointer</a></div><div class="ttdeci">T * pointer</div><div class="ttdef"><b>Definition:</b> platform.h:732</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1less_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1less.html">cutlass::platform::less</a></div><div class="ttdoc">std::less </div><div class="ttdef"><b>Definition:</b> platform.h:181</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:412</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__pointer_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__pointer.html">cutlass::platform::is_pointer</a></div><div class="ttdoc">std::is_pointer </div><div class="ttdef"><b>Definition:</b> platform.h:476</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html_ab2ed0b3506818139f1f96639742e79fd"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">cutlass::platform::integral_constant::value_type</a></div><div class="ttdeci">value_t value_type</div><div class="ttdef"><b>Definition:</b> platform.h:281</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_a90ce74c7faa4e27c888ce56e957b73d5"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5">cutlass::platform::make_pair</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE std::pair&lt; T1, T2 &gt; make_pair(T1 t, T2 u)</div><div class="ttdef"><b>Definition:</b> platform.h:250</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_aa8a370bc7e4c2d99eb85e7fea27b3179"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#aa8a370bc7e4c2d99eb85e7fea27b3179">cutlass::platform::unique_ptr::unique_ptr</a></div><div class="ttdeci">unique_ptr()</div><div class="ttdef"><b>Definition:</b> platform.h:744</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1greater_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1greater.html">cutlass::platform::greater</a></div><div class="ttdoc">std::greater </div><div class="ttdef"><b>Definition:</b> platform.h:189</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_ab9b8306ae9dc21fa646c49b68fa8e197"><div class="ttname"><a href="namespacecutlass_1_1platform.html#ab9b8306ae9dc21fa646c49b68fa8e197">cutlass::platform::operator==</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr bool operator==(const pair&lt; T1, T2 &gt; &amp;lhs, const pair&lt; T1, T2 &gt; &amp;rhs)</div><div class="ttdef"><b>Definition:</b> platform.h:219</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__void_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__void.html">cutlass::platform::is_void</a></div><div class="ttdoc">std::is_void </div><div class="ttdef"><b>Definition:</b> platform.h:480</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_ab0f21e67c0a4b5c6952042b502c6816f"><div class="ttname"><a href="namespacecutlass_1_1platform.html#ab0f21e67c0a4b5c6952042b502c6816f">cutlass::platform::operator&gt;=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr bool operator&gt;=(const pair&lt; T1, T2 &gt; &amp;lhs, const pair&lt; T1, T2 &gt; &amp;rhs)</div><div class="ttdef"><b>Definition:</b> platform.h:245</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_afa52edcaef23461ce1f9c1dac349c24b"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b">cutlass::platform::unique_ptr::operator-&gt;</a></div><div class="ttdeci">pointer operator-&gt;() const noexcept</div><div class="ttdoc">Returns a pointer to the managed object. </div><div class="ttdef"><b>Definition:</b> platform.h:787</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a5c7a204af07a7d325b0a8303e199a50d"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d">cutlass::platform::unique_ptr::operator[]</a></div><div class="ttdeci">T &amp; operator[](size_t i) const</div><div class="ttdoc">Array access to managed object. </div><div class="ttdef"><b>Definition:</b> platform.h:790</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_a9e8e698d40b8df881991fde9ba2a1b12"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12">cutlass::platform::operator&gt;</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr bool operator&gt;(const pair&lt; T1, T2 &gt; &amp;lhs, const pair&lt; T1, T2 &gt; &amp;rhs)</div><div class="ttdef"><b>Definition:</b> platform.h:240</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1default__delete_3_01T[]_4_html_a16c5595a5aec7d7ee34e38bef4a66c87"><div class="ttname"><a href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87">cutlass::platform::default_delete&lt; T[]&gt;::operator()</a></div><div class="ttdeci">void operator()(T *ptr) const</div><div class="ttdef"><b>Definition:</b> platform.h:725</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1default__delete_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1default__delete.html">cutlass::platform::default_delete</a></div><div class="ttdoc">Default deleter. </div><div class="ttdef"><b>Definition:</b> platform.h:718</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1alignment__of_html_aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83"><div class="ttname"><a href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">cutlass::platform::alignment_of::value</a></div><div class="ttdef"><b>Definition:</b> platform.h:582</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_a248f49adf09654d2cd04bd2760ab2566"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a248f49adf09654d2cd04bd2760ab2566">cutlass::platform::operator!=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr bool operator!=(const pair&lt; T1, T2 &gt; &amp;lhs, const pair&lt; T1, T2 &gt; &amp;rhs)</div><div class="ttdef"><b>Definition:</b> platform.h:224</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html">cutlass::platform::unique_ptr</a></div><div class="ttdoc">std::unique_ptr </div><div class="ttdef"><b>Definition:</b> platform.h:730</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1alignment__of_1_1pad_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html">cutlass::platform::alignment_of::pad</a></div><div class="ttdef"><b>Definition:</b> platform.h:577</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__floating__point_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__floating__point.html">cutlass::platform::is_floating_point</a></div><div class="ttdoc">std::is_floating_point </div><div class="ttdef"><b>Definition:</b> platform.h:516</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4_html_a8d55f500f667de560650554e9c220644"><div class="ttname"><a href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html#a8d55f500f667de560650554e9c220644">cutlass::platform::conditional&lt; false, T, F &gt;::type</a></div><div class="ttdeci">F type</div><div class="ttdef"><b>Definition:</b> platform.h:350</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_ad8c95b2109070847b13d355120344380"><div class="ttname"><a href="namespacecutlass_1_1platform.html#ad8c95b2109070847b13d355120344380">cutlass::platform::false_type</a></div><div class="ttdeci">integral_constant&lt; bool, false &gt; false_type</div><div class="ttdoc">The type used as a compile-time boolean with false value. </div><div class="ttdef"><b>Definition:</b> platform.h:300</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_aa427ab4ea4f2336ac6db28d53a4c11ac"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#aa427ab4ea4f2336ac6db28d53a4c11ac">cutlass::platform::unique_ptr::get_deleter</a></div><div class="ttdeci">Deleter const  &amp; get_deleter() const noexcept</div><div class="ttdoc">Returns the deleter object. </div><div class="ttdef"><b>Definition:</b> platform.h:778</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1remove__cv_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__cv.html">cutlass::platform::remove_cv</a></div><div class="ttdoc">std::remove_cv </div><div class="ttdef"><b>Definition:</b> platform.h:392</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html_a5271a533526a535ae8b783c736252f18"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18">cutlass::platform::integral_constant::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE const value_type operator()() const</div><div class="ttdef"><b>Definition:</b> platform.h:286</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a8902399dac4ab64f08f909f2ad9d4bcf"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a8902399dac4ab64f08f909f2ad9d4bcf">cutlass::platform::unique_ptr::~unique_ptr</a></div><div class="ttdeci">~unique_ptr()</div><div class="ttdef"><b>Definition:</b> platform.h:747</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1greater_html_a8d56cf343dd33acebe19d0b51abe3978"><div class="ttname"><a href="structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978">cutlass::platform::greater::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr bool operator()(const T &amp;lhs, const T &amp;rhs) const</div><div class="ttdef"><b>Definition:</b> platform.h:190</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_ac9068e2d027ffdf5cd564deecc2cb9e8"><div class="ttname"><a href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">cutlass::platform::__align__</a></div><div class="ttdeci">struct __align__(1) aligned_chunk&lt; 1 &gt;</div><div class="ttdef"><b>Definition:</b> platform.h:651</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4_html_af68706cfaa6af14edc26ad5b974b47e3"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html#af68706cfaa6af14edc26ad5b974b47e3">cutlass::platform::remove_const&lt; const T &gt;::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:375</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1remove__volatile_html_a4f5b043d46206248d1bbbcf650707dd1"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__volatile.html#a4f5b043d46206248d1bbbcf650707dd1">cutlass::platform::remove_volatile::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:381</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__integral_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__integral.html">cutlass::platform::is_integral</a></div><div class="ttdoc">std::is_integral </div><div class="ttdef"><b>Definition:</b> platform.h:484</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__trivially__copyable_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__trivially__copyable.html">cutlass::platform::is_trivially_copyable</a></div><div class="ttdef"><b>Definition:</b> platform.h:559</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html">cutlass::platform::is_base_of_helper::dummy</a></div><div class="ttdef"><b>Definition:</b> platform.h:425</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html_af58810ccead8f16ed88cd6a4afdc6e52"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html#af58810ccead8f16ed88cd6a4afdc6e52">cutlass::platform::integral_constant::type</a></div><div class="ttdeci">integral_constant&lt; value_t, V &gt; type</div><div class="ttdef"><b>Definition:</b> platform.h:282</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__arithmetic_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__arithmetic.html">cutlass::platform::is_arithmetic</a></div><div class="ttdoc">std::is_arithmetic </div><div class="ttdef"><b>Definition:</b> platform.h:523</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1alignment__of_1_1pad_html_a86f075f91b80918e968951713430f0b4"><div class="ttname"><a href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#a86f075f91b80918e968951713430f0b4">cutlass::platform::alignment_of::pad::byte</a></div><div class="ttdeci">char byte</div><div class="ttdef"><b>Definition:</b> platform.h:579</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html">cutlass::platform::integral_constant</a></div><div class="ttdoc">std::integral_constant </div><div class="ttdef"><b>Definition:</b> platform.h:274</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of.html">cutlass::platform::is_base_of</a></div><div class="ttdoc">std::is_base_of </div><div class="ttdef"><b>Definition:</b> platform.h:440</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1enable__if_html_aff9c0f270020cf097addf77e53a5af99"><div class="ttname"><a href="structcutlass_1_1platform_1_1enable__if.html#aff9c0f270020cf097addf77e53a5af99">cutlass::platform::enable_if::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:334</div></div>
-<div class="ttc" id="platform_8h_html_ab979d9d4b4923f7c54d6caa6e1a61936"><div class="ttname"><a href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a></div><div class="ttdeci">#define nullptr</div><div class="ttdoc">nullptr </div><div class="ttdef"><b>Definition:</b> platform.h:136</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__volatile_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__volatile.html">cutlass::platform::is_volatile</a></div><div class="ttdoc">std::is_volatile </div><div class="ttdef"><b>Definition:</b> platform.h:462</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__fundamental_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__fundamental.html">cutlass::platform::is_fundamental</a></div><div class="ttdoc">std::is_fundamental </div><div class="ttdef"><b>Definition:</b> platform.h:528</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1plus_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1plus.html">cutlass::platform::plus</a></div><div class="ttdoc">platform::plus </div><div class="ttdef"><b>Definition:</b> platform.h:175</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1enable__if_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1enable__if.html">cutlass::platform::enable_if</a></div><div class="ttdoc">std::enable_if (true specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:333</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_a0eddc4a3921e137f31fd8014be96e807"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a0eddc4a3921e137f31fd8014be96e807">cutlass::platform::true_type</a></div><div class="ttdeci">integral_constant&lt; bool, true &gt; true_type</div><div class="ttdoc">The type used as a compile-time boolean with true value. </div><div class="ttdef"><b>Definition:</b> platform.h:297</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1default__delete_html_a59e6e3cc95685ac34fa6f9cf301b3a15"><div class="ttname"><a href="structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15">cutlass::platform::default_delete::operator()</a></div><div class="ttdeci">void operator()(T *ptr) const</div><div class="ttdef"><b>Definition:</b> platform.h:719</div></div>
+<div class="ttc" id="platform_8h_html_a72f0657181cca64b44eb186b707eb380"><div class="ttname"><a href="platform_8h.html#a72f0657181cca64b44eb186b707eb380">constexpr</a></div><div class="ttdeci">#define constexpr</div><div class="ttdef"><b>Definition:</b> platform.h:137</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1nullptr__t_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1nullptr__t.html">cutlass::platform::nullptr_t</a></div><div class="ttdoc">std::nullptr_t </div><div class="ttdef"><b>Definition:</b> platform.h:325</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a3e83320a39137d92042eb0bf93be9678"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678">cutlass::platform::swap</a></div><div class="ttdeci">void swap(unique_ptr&lt; T, Deleter &gt; &amp;lhs, unique_ptr&lt; T, Deleter &gt; &amp;rhs) noexcept</div><div class="ttdoc">Specializes the swap algorithm. </div><div class="ttdef"><b>Definition:</b> platform.h:803</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__pointer__helper_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__pointer__helper.html">cutlass::platform::is_pointer_helper</a></div><div class="ttdoc">Helper for std::is_pointer (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:476</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a85cab9945c36dc56bd7d6adf30c0d252"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252">cutlass::platform::unique_ptr::deleter_type</a></div><div class="ttdeci">Deleter deleter_type</div><div class="ttdef"><b>Definition:</b> platform.h:742</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_html_ac3662947fa50251daf58240a9c798085"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">cutlass::platform::remove_const::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:377</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1alignment__of_1_1pad_html_abc729cc51d5c90b1d7b0df3092d47cd4"><div class="ttname"><a href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#abc729cc51d5c90b1d7b0df3092d47cd4">cutlass::platform::alignment_of::pad::val</a></div><div class="ttdeci">value_t val</div><div class="ttdef"><b>Definition:</b> platform.h:586</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1conditional_html_ab6484d0dd6449b5195c4e868026fed11"><div class="ttname"><a href="structcutlass_1_1platform_1_1conditional.html#ab6484d0dd6449b5195c4e868026fed11">cutlass::platform::conditional::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:352</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_ab6ce60d03d11b269c1e151dfa7c696f9"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9">cutlass::platform::unique_ptr::pointer</a></div><div class="ttdeci">T * pointer</div><div class="ttdef"><b>Definition:</b> platform.h:740</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1less_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1less.html">cutlass::platform::less</a></div><div class="ttdoc">std::less </div><div class="ttdef"><b>Definition:</b> platform.h:189</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__same_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__same.html">cutlass::platform::is_same</a></div><div class="ttdoc">std::is_same (false specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:420</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__pointer_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__pointer.html">cutlass::platform::is_pointer</a></div><div class="ttdoc">std::is_pointer </div><div class="ttdef"><b>Definition:</b> platform.h:484</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html_ab2ed0b3506818139f1f96639742e79fd"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd">cutlass::platform::integral_constant::value_type</a></div><div class="ttdeci">value_t value_type</div><div class="ttdef"><b>Definition:</b> platform.h:289</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a90ce74c7faa4e27c888ce56e957b73d5"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5">cutlass::platform::make_pair</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE std::pair&lt; T1, T2 &gt; make_pair(T1 t, T2 u)</div><div class="ttdef"><b>Definition:</b> platform.h:258</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_aa8a370bc7e4c2d99eb85e7fea27b3179"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#aa8a370bc7e4c2d99eb85e7fea27b3179">cutlass::platform::unique_ptr::unique_ptr</a></div><div class="ttdeci">unique_ptr()</div><div class="ttdef"><b>Definition:</b> platform.h:752</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a043e8559161ee0fcaf943a1dfe1a9cbb"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb">cutlass::platform::operator==</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator==(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Equality operator. </div><div class="ttdef"><b>Definition:</b> complex.h:224</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1greater_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1greater.html">cutlass::platform::greater</a></div><div class="ttdoc">std::greater </div><div class="ttdef"><b>Definition:</b> platform.h:197</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__void_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__void.html">cutlass::platform::is_void</a></div><div class="ttdoc">std::is_void </div><div class="ttdef"><b>Definition:</b> platform.h:488</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_ab0f21e67c0a4b5c6952042b502c6816f"><div class="ttname"><a href="namespacecutlass_1_1platform.html#ab0f21e67c0a4b5c6952042b502c6816f">cutlass::platform::operator&gt;=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr bool operator&gt;=(const pair&lt; T1, T2 &gt; &amp;lhs, const pair&lt; T1, T2 &gt; &amp;rhs)</div><div class="ttdef"><b>Definition:</b> platform.h:253</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_afa52edcaef23461ce1f9c1dac349c24b"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b">cutlass::platform::unique_ptr::operator-&gt;</a></div><div class="ttdeci">pointer operator-&gt;() const noexcept</div><div class="ttdoc">Returns a pointer to the managed object. </div><div class="ttdef"><b>Definition:</b> platform.h:795</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a5c7a204af07a7d325b0a8303e199a50d"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d">cutlass::platform::unique_ptr::operator[]</a></div><div class="ttdeci">T &amp; operator[](size_t i) const</div><div class="ttdoc">Array access to managed object. </div><div class="ttdef"><b>Definition:</b> platform.h:798</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a9e8e698d40b8df881991fde9ba2a1b12"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12">cutlass::platform::operator&gt;</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr bool operator&gt;(const pair&lt; T1, T2 &gt; &amp;lhs, const pair&lt; T1, T2 &gt; &amp;rhs)</div><div class="ttdef"><b>Definition:</b> platform.h:248</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1default__delete_3_01T[]_4_html_a16c5595a5aec7d7ee34e38bef4a66c87"><div class="ttname"><a href="structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87">cutlass::platform::default_delete&lt; T[]&gt;::operator()</a></div><div class="ttdeci">void operator()(T *ptr) const</div><div class="ttdef"><b>Definition:</b> platform.h:733</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1default__delete_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1default__delete.html">cutlass::platform::default_delete</a></div><div class="ttdoc">Default deleter. </div><div class="ttdef"><b>Definition:</b> platform.h:726</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1alignment__of_html_aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83"><div class="ttname"><a href="structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83">cutlass::platform::alignment_of::value</a></div><div class="ttdef"><b>Definition:</b> platform.h:590</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html">cutlass::platform::unique_ptr</a></div><div class="ttdoc">std::unique_ptr </div><div class="ttdef"><b>Definition:</b> platform.h:738</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1alignment__of_1_1pad_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html">cutlass::platform::alignment_of::pad</a></div><div class="ttdef"><b>Definition:</b> platform.h:585</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__floating__point_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__floating__point.html">cutlass::platform::is_floating_point</a></div><div class="ttdoc">std::is_floating_point </div><div class="ttdef"><b>Definition:</b> platform.h:524</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4_html_a8d55f500f667de560650554e9c220644"><div class="ttname"><a href="structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html#a8d55f500f667de560650554e9c220644">cutlass::platform::conditional&lt; false, T, F &gt;::type</a></div><div class="ttdeci">F type</div><div class="ttdef"><b>Definition:</b> platform.h:358</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_ad8c95b2109070847b13d355120344380"><div class="ttname"><a href="namespacecutlass_1_1platform.html#ad8c95b2109070847b13d355120344380">cutlass::platform::false_type</a></div><div class="ttdeci">integral_constant&lt; bool, false &gt; false_type</div><div class="ttdoc">The type used as a compile-time boolean with false value. </div><div class="ttdef"><b>Definition:</b> platform.h:308</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_aa427ab4ea4f2336ac6db28d53a4c11ac"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#aa427ab4ea4f2336ac6db28d53a4c11ac">cutlass::platform::unique_ptr::get_deleter</a></div><div class="ttdeci">Deleter const  &amp; get_deleter() const noexcept</div><div class="ttdoc">Returns the deleter object. </div><div class="ttdef"><b>Definition:</b> platform.h:786</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__cv_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__cv.html">cutlass::platform::remove_cv</a></div><div class="ttdoc">std::remove_cv </div><div class="ttdef"><b>Definition:</b> platform.h:400</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html_a5271a533526a535ae8b783c736252f18"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18">cutlass::platform::integral_constant::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE const value_type operator()() const</div><div class="ttdef"><b>Definition:</b> platform.h:294</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a8902399dac4ab64f08f909f2ad9d4bcf"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a8902399dac4ab64f08f909f2ad9d4bcf">cutlass::platform::unique_ptr::~unique_ptr</a></div><div class="ttdeci">~unique_ptr()</div><div class="ttdef"><b>Definition:</b> platform.h:755</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1greater_html_a8d56cf343dd33acebe19d0b51abe3978"><div class="ttname"><a href="structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978">cutlass::platform::greater::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr bool operator()(const T &amp;lhs, const T &amp;rhs) const</div><div class="ttdef"><b>Definition:</b> platform.h:198</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_ac9068e2d027ffdf5cd564deecc2cb9e8"><div class="ttname"><a href="namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8">cutlass::platform::__align__</a></div><div class="ttdeci">struct __align__(1) aligned_chunk&lt; 1 &gt;</div><div class="ttdef"><b>Definition:</b> platform.h:659</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4_html_af68706cfaa6af14edc26ad5b974b47e3"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html#af68706cfaa6af14edc26ad5b974b47e3">cutlass::platform::remove_const&lt; const T &gt;::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:383</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__volatile_html_a4f5b043d46206248d1bbbcf650707dd1"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__volatile.html#a4f5b043d46206248d1bbbcf650707dd1">cutlass::platform::remove_volatile::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:389</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__integral_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__integral.html">cutlass::platform::is_integral</a></div><div class="ttdoc">std::is_integral </div><div class="ttdef"><b>Definition:</b> platform.h:492</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__trivially__copyable_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__trivially__copyable.html">cutlass::platform::is_trivially_copyable</a></div><div class="ttdef"><b>Definition:</b> platform.h:567</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html">cutlass::platform::is_base_of_helper::dummy</a></div><div class="ttdef"><b>Definition:</b> platform.h:433</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html_af58810ccead8f16ed88cd6a4afdc6e52"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html#af58810ccead8f16ed88cd6a4afdc6e52">cutlass::platform::integral_constant::type</a></div><div class="ttdeci">integral_constant&lt; value_t, V &gt; type</div><div class="ttdef"><b>Definition:</b> platform.h:290</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__arithmetic_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__arithmetic.html">cutlass::platform::is_arithmetic</a></div><div class="ttdoc">std::is_arithmetic </div><div class="ttdef"><b>Definition:</b> platform.h:531</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1alignment__of_1_1pad_html_a86f075f91b80918e968951713430f0b4"><div class="ttname"><a href="structcutlass_1_1platform_1_1alignment__of_1_1pad.html#a86f075f91b80918e968951713430f0b4">cutlass::platform::alignment_of::pad::byte</a></div><div class="ttdeci">char byte</div><div class="ttdef"><b>Definition:</b> platform.h:587</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1integral__constant_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1integral__constant.html">cutlass::platform::integral_constant</a></div><div class="ttdoc">std::integral_constant </div><div class="ttdef"><b>Definition:</b> platform.h:282</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of.html">cutlass::platform::is_base_of</a></div><div class="ttdoc">std::is_base_of </div><div class="ttdef"><b>Definition:</b> platform.h:448</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1enable__if_html_aff9c0f270020cf097addf77e53a5af99"><div class="ttname"><a href="structcutlass_1_1platform_1_1enable__if.html#aff9c0f270020cf097addf77e53a5af99">cutlass::platform::enable_if::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:342</div></div>
+<div class="ttc" id="platform_8h_html_ab979d9d4b4923f7c54d6caa6e1a61936"><div class="ttname"><a href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a></div><div class="ttdeci">#define nullptr</div><div class="ttdoc">nullptr </div><div class="ttdef"><b>Definition:</b> platform.h:144</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__volatile_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__volatile.html">cutlass::platform::is_volatile</a></div><div class="ttdoc">std::is_volatile </div><div class="ttdef"><b>Definition:</b> platform.h:470</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__fundamental_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__fundamental.html">cutlass::platform::is_fundamental</a></div><div class="ttdoc">std::is_fundamental </div><div class="ttdef"><b>Definition:</b> platform.h:536</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1plus_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1plus.html">cutlass::platform::plus</a></div><div class="ttdoc">platform::plus </div><div class="ttdef"><b>Definition:</b> platform.h:183</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1enable__if_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1enable__if.html">cutlass::platform::enable_if</a></div><div class="ttdoc">std::enable_if (true specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:341</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a0eddc4a3921e137f31fd8014be96e807"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a0eddc4a3921e137f31fd8014be96e807">cutlass::platform::true_type</a></div><div class="ttdeci">integral_constant&lt; bool, true &gt; true_type</div><div class="ttdoc">The type used as a compile-time boolean with true value. </div><div class="ttdef"><b>Definition:</b> platform.h:305</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1default__delete_html_a59e6e3cc95685ac34fa6f9cf301b3a15"><div class="ttname"><a href="structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15">cutlass::platform::default_delete::operator()</a></div><div class="ttdeci">void operator()(T *ptr) const</div><div class="ttdef"><b>Definition:</b> platform.h:727</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a94cea0ebf2ac4bec69dfa1f80ea07d50"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a94cea0ebf2ac4bec69dfa1f80ea07d50">cutlass::platform::unique_ptr::element_type</a></div><div class="ttdeci">T element_type</div><div class="ttdef"><b>Definition:</b> platform.h:733</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a5b8d8ecafb4da336acd50e40cd42b6e0"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0">cutlass::platform::unique_ptr::get_deleter</a></div><div class="ttdeci">Deleter &amp; get_deleter() noexcept</div><div class="ttdoc">Returns the deleter object. </div><div class="ttdef"><b>Definition:</b> platform.h:775</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1alignment__of_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1alignment__of.html">cutlass::platform::alignment_of</a></div><div class="ttdoc">std::alignment_of </div><div class="ttdef"><b>Definition:</b> platform.h:576</div></div>
-<div class="ttc" id="namespacecutlass_1_1platform_html_a57c071d2a7305dd4ec60542e66b0c81c"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">cutlass::platform::min</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr const T &amp; min(const T &amp;a, const T &amp;b)</div><div class="ttdoc">std::min </div><div class="ttdef"><b>Definition:</b> platform.h:201</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1remove__cv_html_a19e5b12cf4eb15ce13d6306735b6de08"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08">cutlass::platform::remove_cv::type</a></div><div class="ttdeci">remove_volatile&lt; typename remove_const&lt; T &gt;::type &gt;::type type</div><div class="ttdef"><b>Definition:</b> platform.h:393</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1conditional_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1conditional.html">cutlass::platform::conditional</a></div><div class="ttdoc">std::conditional (true specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:343</div></div>
-<div class="ttc" id="platform_8h_html_a189faadd7f99f6c354db09acbb2aafcd"><div class="ttname"><a href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a></div><div class="ttdeci">#define noexcept</div><div class="ttdoc">noexcept, constexpr </div><div class="ttdef"><b>Definition:</b> platform.h:126</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a6740f71511f5495d6038cf8878862331"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331">cutlass::platform::unique_ptr::reset</a></div><div class="ttdeci">void reset(pointer p=pointer()) noexcept</div><div class="ttdoc">Replaces the managed object, deleting the old object. </div><div class="ttdef"><b>Definition:</b> platform.h:763</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a45a3cb6d8641a6130991d56e84cbb38b"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b">cutlass::platform::unique_ptr::operator*</a></div><div class="ttdeci">T &amp; operator*() const</div><div class="ttdoc">Dereferences the unique_ptr. </div><div class="ttdef"><b>Definition:</b> platform.h:784</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper.html">cutlass::platform::is_base_of_helper</a></div><div class="ttdoc">Helper for std::is_base_of. </div><div class="ttdef"><b>Definition:</b> platform.h:420</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const.html">cutlass::platform::remove_const</a></div><div class="ttdoc">std::remove_const (non-const specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:368</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1plus_html_a3bf1e5147df4287bf58ad8f11ea0d98c"><div class="ttname"><a href="structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c">cutlass::platform::plus::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr T operator()(const T &amp;lhs, const T &amp;rhs) const</div><div class="ttdef"><b>Definition:</b> platform.h:176</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1less_html_adfb49ee70a700a8483c70b4b353f6bc5"><div class="ttname"><a href="structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5">cutlass::platform::less::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr bool operator()(const T &amp;lhs, const T &amp;rhs) const</div><div class="ttdef"><b>Definition:</b> platform.h:182</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1aligned__chunk_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1aligned__chunk.html">cutlass::platform::aligned_chunk</a></div><div class="ttdef"><b>Definition:</b> platform.h:649</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a94cea0ebf2ac4bec69dfa1f80ea07d50"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a94cea0ebf2ac4bec69dfa1f80ea07d50">cutlass::platform::unique_ptr::element_type</a></div><div class="ttdeci">T element_type</div><div class="ttdef"><b>Definition:</b> platform.h:741</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a5b8d8ecafb4da336acd50e40cd42b6e0"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0">cutlass::platform::unique_ptr::get_deleter</a></div><div class="ttdeci">Deleter &amp; get_deleter() noexcept</div><div class="ttdoc">Returns the deleter object. </div><div class="ttdef"><b>Definition:</b> platform.h:783</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1alignment__of_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1alignment__of.html">cutlass::platform::alignment_of</a></div><div class="ttdoc">std::alignment_of </div><div class="ttdef"><b>Definition:</b> platform.h:584</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_a57c071d2a7305dd4ec60542e66b0c81c"><div class="ttname"><a href="namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c">cutlass::platform::min</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr const T &amp; min(const T &amp;a, const T &amp;b)</div><div class="ttdoc">std::min </div><div class="ttdef"><b>Definition:</b> platform.h:209</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__cv_html_a19e5b12cf4eb15ce13d6306735b6de08"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08">cutlass::platform::remove_cv::type</a></div><div class="ttdeci">remove_volatile&lt; typename remove_const&lt; T &gt;::type &gt;::type type</div><div class="ttdef"><b>Definition:</b> platform.h:401</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1conditional_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1conditional.html">cutlass::platform::conditional</a></div><div class="ttdoc">std::conditional (true specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:351</div></div>
+<div class="ttc" id="platform_8h_html_a189faadd7f99f6c354db09acbb2aafcd"><div class="ttname"><a href="platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd">noexcept</a></div><div class="ttdeci">#define noexcept</div><div class="ttdoc">noexcept, constexpr </div><div class="ttdef"><b>Definition:</b> platform.h:134</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a6740f71511f5495d6038cf8878862331"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331">cutlass::platform::unique_ptr::reset</a></div><div class="ttdeci">void reset(pointer p=pointer()) noexcept</div><div class="ttdoc">Replaces the managed object, deleting the old object. </div><div class="ttdef"><b>Definition:</b> platform.h:771</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a45a3cb6d8641a6130991d56e84cbb38b"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b">cutlass::platform::unique_ptr::operator*</a></div><div class="ttdeci">T &amp; operator*() const</div><div class="ttdoc">Dereferences the unique_ptr. </div><div class="ttdef"><b>Definition:</b> platform.h:792</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper.html">cutlass::platform::is_base_of_helper</a></div><div class="ttdoc">Helper for std::is_base_of. </div><div class="ttdef"><b>Definition:</b> platform.h:428</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const.html">cutlass::platform::remove_const</a></div><div class="ttdoc">std::remove_const (non-const specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:376</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1plus_html_a3bf1e5147df4287bf58ad8f11ea0d98c"><div class="ttname"><a href="structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c">cutlass::platform::plus::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr T operator()(const T &amp;lhs, const T &amp;rhs) const</div><div class="ttdef"><b>Definition:</b> platform.h:184</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1less_html_adfb49ee70a700a8483c70b4b353f6bc5"><div class="ttname"><a href="structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5">cutlass::platform::less::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE constexpr bool operator()(const T &amp;lhs, const T &amp;rhs) const</div><div class="ttdef"><b>Definition:</b> platform.h:190</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1aligned__chunk_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1aligned__chunk.html">cutlass::platform::aligned_chunk</a></div><div class="ttdef"><b>Definition:</b> platform.h:657</div></div>
 <div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_html_a5bf08859497e304ca353699ad6ac332b"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b">cutlass::platform::is_base_of_helper::check</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE yes check(DerivedT *, T)</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4_html_aca9bb93efe43106321e4afe0b67542a3"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3">cutlass::platform::remove_volatile&lt; volatile T &gt;::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:387</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a748d413c50bdbbe9e2f9986fbc423036"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036">cutlass::platform::unique_ptr::swap</a></div><div class="ttdeci">void swap(unique_ptr &amp;other) noexcept</div><div class="ttdoc">Swaps the managed objects with *this and another unique_ptr. </div><div class="ttdef"><b>Definition:</b> platform.h:772</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_html_ac7e3ab73057682cc2eb6ed74c33e5eff"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff">cutlass::platform::is_base_of_helper::value</a></div><div class="ttdeci">static const bool value</div><div class="ttdef"><b>Definition:</b> platform.h:435</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1aligned__storage_html_a9cf0360f335bcd1e9d9e1b266b6dd6c1"><div class="ttname"><a href="structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1">cutlass::platform::aligned_storage::type</a></div><div class="ttdeci">aligned_chunk&lt; Align &gt; type[Len/sizeof(aligned_chunk&lt; Align &gt;)]</div><div class="ttdef"><b>Definition:</b> platform.h:706</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1aligned__storage_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1aligned__storage.html">cutlass::platform::aligned_storage</a></div><div class="ttdoc">std::aligned_storage </div><div class="ttdef"><b>Definition:</b> platform.h:705</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1remove__volatile_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__volatile.html">cutlass::platform::remove_volatile</a></div><div class="ttdoc">std::remove_volatile (non-volatile specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:380</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a14c8bf5a5deefe4a6602ccd5c5af364c"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a14c8bf5a5deefe4a6602ccd5c5af364c">cutlass::platform::unique_ptr::unique_ptr</a></div><div class="ttdeci">unique_ptr(pointer p)</div><div class="ttdef"><b>Definition:</b> platform.h:745</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_html_ac1cf3f804e7686213fd42c678cc6d669"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669">cutlass::platform::is_base_of_helper::yes</a></div><div class="ttdeci">char(&amp; yes)[1]</div><div class="ttdef"><b>Definition:</b> platform.h:421</div></div>
-<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a7ac06ebe7bc66573d3225891e12d2279"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279">cutlass::platform::unique_ptr::release</a></div><div class="ttdeci">pointer release() noexcept</div><div class="ttdoc">Releases ownership of the managed object, if any. </div><div class="ttdef"><b>Definition:</b> platform.h:756</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4_html_aca9bb93efe43106321e4afe0b67542a3"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3">cutlass::platform::remove_volatile&lt; volatile T &gt;::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:395</div></div>
+<div class="ttc" id="namespacecutlass_1_1platform_html_aa8b8911c3529ee9d433b0c4d90bde50c"><div class="ttname"><a href="namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c">cutlass::platform::operator!=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator!=(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)</div><div class="ttdoc">Inequality operator. </div><div class="ttdef"><b>Definition:</b> complex.h:232</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a748d413c50bdbbe9e2f9986fbc423036"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036">cutlass::platform::unique_ptr::swap</a></div><div class="ttdeci">void swap(unique_ptr &amp;other) noexcept</div><div class="ttdoc">Swaps the managed objects with *this and another unique_ptr. </div><div class="ttdef"><b>Definition:</b> platform.h:780</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_html_ac7e3ab73057682cc2eb6ed74c33e5eff"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff">cutlass::platform::is_base_of_helper::value</a></div><div class="ttdeci">static const bool value</div><div class="ttdef"><b>Definition:</b> platform.h:443</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1aligned__storage_html_a9cf0360f335bcd1e9d9e1b266b6dd6c1"><div class="ttname"><a href="structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1">cutlass::platform::aligned_storage::type</a></div><div class="ttdeci">aligned_chunk&lt; Align &gt; type[Len/sizeof(aligned_chunk&lt; Align &gt;)]</div><div class="ttdef"><b>Definition:</b> platform.h:714</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1aligned__storage_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1aligned__storage.html">cutlass::platform::aligned_storage</a></div><div class="ttdoc">std::aligned_storage </div><div class="ttdef"><b>Definition:</b> platform.h:713</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__volatile_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__volatile.html">cutlass::platform::remove_volatile</a></div><div class="ttdoc">std::remove_volatile (non-volatile specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:388</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a14c8bf5a5deefe4a6602ccd5c5af364c"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a14c8bf5a5deefe4a6602ccd5c5af364c">cutlass::platform::unique_ptr::unique_ptr</a></div><div class="ttdeci">unique_ptr(pointer p)</div><div class="ttdef"><b>Definition:</b> platform.h:753</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_html_ac1cf3f804e7686213fd42c678cc6d669"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669">cutlass::platform::is_base_of_helper::yes</a></div><div class="ttdeci">char(&amp; yes)[1]</div><div class="ttdef"><b>Definition:</b> platform.h:429</div></div>
+<div class="ttc" id="classcutlass_1_1platform_1_1unique__ptr_html_a7ac06ebe7bc66573d3225891e12d2279"><div class="ttname"><a href="classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279">cutlass::platform::unique_ptr::release</a></div><div class="ttdeci">pointer release() noexcept</div><div class="ttdoc">Releases ownership of the managed object, if any. </div><div class="ttdef"><b>Definition:</b> platform.h:764</div></div>
 <div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1bool__constant_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1bool__constant.html">cutlass::platform::bool_constant</a></div><div class="ttdoc">std::bool_constant </div><div class="ttdef"><b>Definition:</b> platform.h:306</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_html_ae096aa6c67f60d8d9c5a4b084118a8af"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af">cutlass::platform::is_base_of_helper::no</a></div><div class="ttdeci">char(&amp; no)[2]</div><div class="ttdef"><b>Definition:</b> platform.h:422</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1bool__constant_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1bool__constant.html">cutlass::platform::bool_constant</a></div><div class="ttdoc">std::bool_constant </div><div class="ttdef"><b>Definition:</b> platform.h:314</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1is__base__of__helper_html_ae096aa6c67f60d8d9c5a4b084118a8af"><div class="ttname"><a href="structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af">cutlass::platform::is_base_of_helper::no</a></div><div class="ttdeci">char(&amp; no)[2]</div><div class="ttdef"><b>Definition:</b> platform.h:430</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/predicate__vector_8h.html b/docs/predicate__vector_8h.html
index 42e3f56f3e..612092eda7 100644
--- a/docs/predicate__vector_8h.html
+++ b/docs/predicate__vector_8h.html
@@ -82,10 +82,11 @@
 
 <p>Defines container classes and iterators for managing a statically sized vector of boolean predicates.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;stdint.h&gt;</code><br />
-<code>#include &lt;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &lt;assert.h&gt;</code><br />
+<code>#include &lt;stdint.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&quot;</code><br />
 </div>
 <p><a href="predicate__vector_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -121,7 +122,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/predicate__vector_8h_source.html b/docs/predicate__vector_8h_source.html
index fed29ff10b..3123af79ab 100644
--- a/docs/predicate__vector_8h_source.html
+++ b/docs/predicate__vector_8h_source.html
@@ -76,78 +76,78 @@
 <div class="title">predicate_vector.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="predicate__vector_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;stdint.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <span class="keywordtype">int</span> kPredicates_,</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;    <span class="keywordtype">int</span> kPredicatesPerByte_ = 4,</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <span class="keywordtype">int</span> kPredicateStart_ = 0&gt;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html">  104</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> {</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">  106</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">kPredicates</a> = kPredicates_;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">  109</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a> = kPredicatesPerByte_;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">  112</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">kPredicateStart</a> = kPredicateStart_;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  <span class="comment">// Make sure no one tries to put more than 8 bits in a byte :)</span></div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">  115</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a> &lt;= 8, <span class="stringliteral">&quot;kPredicatesPerByte must fit within an actual byte&quot;</span>);</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;  <span class="comment">// Make sure the &quot;offsetted&quot; bits fit in one byte.</span></div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">kPredicateStart</a> + <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a> &lt; 8,</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;                <span class="stringliteral">&quot;The offsetted predicates must fit within an actual byte.&quot;</span>);</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  <span class="keyword">typedef</span> uint32_t <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a">  124</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a">kBytes</a> = (<a class="code" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">kPredicates</a> + <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a> - 1) / <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a>;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">  127</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a> = (<a class="code" href="structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a">kBytes</a> + <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>) - 1) / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>);</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> storageData[<a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>];</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> computeStorageOffset(<span class="keywordtype">int</span> &amp;word, <span class="keywordtype">int</span> &amp;bit, <span class="keywordtype">int</span> idx)<span class="keyword"> const </span>{</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    <a class="code" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">CUTLASS_ASSERT</a>(idx &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">kPredicates</a>);</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;    <span class="keywordtype">int</span> byte = (idx / <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a>);</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;    <span class="keywordtype">int</span> bit_offset = (idx % <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a>);</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    word = byte / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>);</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    <span class="keywordtype">int</span> byte_offset = (byte % <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>));</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    bit = byte_offset * 8 + bit_offset + <a class="code" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">kPredicateStart</a>;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  }</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> &amp;storage(<span class="keywordtype">int</span> word) {</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;    <a class="code" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">CUTLASS_ASSERT</a>(word &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>);</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    <span class="keywordflow">return</span> storageData[word];</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  }</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> <span class="keyword">const</span> &amp;storage(<span class="keywordtype">int</span> word)<span class="keyword"> const </span>{</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    <a class="code" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">CUTLASS_ASSERT</a>(word &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>);</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <span class="keywordflow">return</span> storageData[word];</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;  }</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  <span class="comment">// Iterator</span></div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00176"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">  176</a></span>&#160;  <span class="keyword">class </span><a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> {</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <span class="keyword">const</span> &amp;vec_;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    <span class="keywordtype">int</span> bit_;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;   <span class="keyword">public</span>:</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7">  186</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7">ConstIterator</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> <span class="keyword">const</span> &amp;it) : vec_(it.vec_), bit_(it.bit_) {}</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00190"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda">  190</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda">ConstIterator</a>(<a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <span class="keyword">const</span> &amp;_vec, <span class="keywordtype">int</span> _start = 0) : vec_(_vec), bit_(_start) {}</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70">  194</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70">operator++</a>() {</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      ++bit_;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;    }</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286">  201</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286">operator--</a>() {</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;      --bit_;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;    }</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00208"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a977a99af3166a58d5bc5a613a1abe7d5">  208</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a977a99af3166a58d5bc5a613a1abe7d5">operator++</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;      ret.bit_++;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;    }</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00216"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b">  216</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b">operator--</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;      <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;      ret.bit_--;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;    }</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357">  224</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357">operator==</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> <span class="keyword">const</span> &amp;it)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> bit_ == it.bit_; }</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00228"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685">  228</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685">operator!=</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> <span class="keyword">const</span> &amp;it)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> bit_ != it.bit_; }</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00232"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946">  232</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946">operator*</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> vec_[bit_]; }</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;  };</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;</div><div class="line"><a name="l00240"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html">  240</a></span>&#160;  <span class="keyword">class </span><a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> {</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> &amp;vec_;</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;    <span class="keywordtype">int</span> bit_;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;   <span class="keyword">public</span>:</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00250"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a91b7d25cbd64e696ef23c87671f0b077">  250</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a91b7d25cbd64e696ef23c87671f0b077">Iterator</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <span class="keyword">const</span> &amp;it) : vec_(it.vec_), bit_(it.bit_) {}</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00254"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038">  254</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038">Iterator</a>(<a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> &amp;_vec, <span class="keywordtype">int</span> _start = 0) : vec_(_vec), bit_(_start) {}</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00258"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3">  258</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> &amp;<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3">operator++</a>() {</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;      ++bit_;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    }</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00265"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61">  265</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> &amp;<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61">operator--</a>() {</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;      --bit_;</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;    }</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00272"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a6c7333ad14d545cafc707e78752bf1e3">  272</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a6c7333ad14d545cafc707e78752bf1e3">operator++</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;      <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;      ret.bit_++;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;    }</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00280"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a">  280</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a">operator--</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;      <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;      ret.bit_--;</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;    }</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00288"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e">  288</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e">operator==</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <span class="keyword">const</span> &amp;it)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> bit_ == it.bit_; }</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00292"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887">  292</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887">operator!=</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <span class="keyword">const</span> &amp;it)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> bit_ != it.bit_; }</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00296"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#af035589126434bd2dbef4000cd864b8b">  296</a></span>&#160;    <span class="keywordtype">bool</span> <span class="keyword">get</span>() { <span class="keywordflow">return</span> vec_[bit_]; }</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00300"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4">  300</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4">operator*</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> vec_[bit_]; }</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00304"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#aadfd039b5622098c9e46706a27122575">  304</a></span>&#160;    <span class="keywordtype">void</span> <span class="keyword">set</span>(<span class="keywordtype">bool</span> value = <span class="keyword">true</span>) { vec_.<a class="code" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">set</a>(bit_, value); }</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;  };</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;</div><div class="line"><a name="l00308"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">  308</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">TrivialIterator</a> {</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00311"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a6cb3664b5cba4280b7055a65ddad7850">  311</a></span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a6cb3664b5cba4280b7055a65ddad7850">TrivialIterator</a>() {}</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00315"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ada8cd3ac6db568bb9bf268ba2c3a3e14">  315</a></span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ada8cd3ac6db568bb9bf268ba2c3a3e14">TrivialIterator</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <span class="keyword">const</span> &amp;it) {}</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00319"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721">  319</a></span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721">TrivialIterator</a>(<a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <span class="keyword">const</span> &amp;_vec) {}</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00323"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a">  323</a></span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">TrivialIterator</a> &amp;<a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a">operator++</a>() { <span class="keywordflow">return</span> *<span class="keyword">this</span>; }</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00327"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051">  327</a></span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">TrivialIterator</a> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051">operator++</a>(<span class="keywordtype">int</span>) { <span class="keywordflow">return</span> *<span class="keyword">this</span>; }</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00331"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78">  331</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78">operator*</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">true</span>; }</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;  };</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;</div><div class="line"><a name="l00340"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21">  340</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21">PredicateVector</a>(<span class="keywordtype">bool</span> value = <span class="keyword">true</span>) { <a class="code" href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">fill</a>(value); }</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;</div><div class="line"><a name="l00343"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">  343</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">fill</a>(<span class="keywordtype">bool</span> value = <span class="keyword">true</span>) {</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> item = (value ? ~<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>(0) : <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>(0));</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>; ++i) {</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;      storage(i) = item;</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;    }</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;  }</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;</div><div class="line"><a name="l00353"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5">  353</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5">operator[]</a>(<span class="keywordtype">int</span> idx)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">at</a>(idx); }</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00356"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">  356</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">at</a>(<span class="keywordtype">int</span> idx)<span class="keyword"> const </span>{</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;    <span class="keywordtype">int</span> bit, word;</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;    computeStorageOffset(word, bit, idx);</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;    <span class="keywordflow">return</span> ((storage(word) &gt;&gt; bit) &amp; 1);</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;  }</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;</div><div class="line"><a name="l00364"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">  364</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <span class="keyword">set</span>(<span class="keywordtype">int</span> idx, <span class="keywordtype">bool</span> value = <span class="keyword">true</span>) {</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;    <span class="keywordtype">int</span> bit, word;</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;    computeStorageOffset(word, bit, idx);</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> disable_mask = (~(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>(1) &lt;&lt; bit));</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> enable_mask = (<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>(value) &lt;&lt; bit);</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;    storage(word) = ((storage(word) &amp; disable_mask) | enable_mask);</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;  }</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;</div><div class="line"><a name="l00375"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9">  375</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> &amp;<a class="code" href="structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9">operator&amp;=</a>(<a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <span class="keyword">const</span> &amp;predicates) {</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>; ++i) {</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;      storage(i) = (storage(i) &amp; predicates.storage(i));</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;    }</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;  }</div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;</div><div class="line"><a name="l00384"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc">  384</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> &amp;<a class="code" href="structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc">operator|=</a>(<a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <span class="keyword">const</span> &amp;predicates) {</div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>; ++i) {</div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;      storage(i) = (storage(i) | predicates.storage(i));</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;    }</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;  }</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;</div><div class="line"><a name="l00393"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a1c4fe2bec906cd7937428ed6561ac79a">  393</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1PredicateVector.html#a1c4fe2bec906cd7937428ed6561ac79a">is_zero</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> mask(0);</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> byte = 0; byte &lt; <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>); ++byte) {</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;      <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> byte_mask = (((1 &lt;&lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a>) - 1) &lt;&lt; <a class="code" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">kPredicateStart</a>);</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;      mask |= (byte_mask &lt;&lt; (byte * 8));</div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;    }</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;    uint32_t result = 0;</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> word = 0; word &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>; ++word) {</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;      result |= storage(word);</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;    }</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;    <span class="keywordflow">return</span> result == 0;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;  }</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;</div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00408"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5">  408</a></span>&#160;  Iterator <a class="code" href="structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5">begin</a>() { <span class="keywordflow">return</span> Iterator(*<span class="keyword">this</span>); }</div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00412"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#ad9493fc80fdc33330cc15641779cc275">  412</a></span>&#160;  Iterator <a class="code" href="structcutlass_1_1PredicateVector.html#ad9493fc80fdc33330cc15641779cc275">end</a>() { <span class="keywordflow">return</span> Iterator(*<span class="keyword">this</span>, <a class="code" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">kPredicates</a>); }</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;</div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00416"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#aeb7f9226a4fa49d06500c3c83958dc41">  416</a></span>&#160;  ConstIterator <a class="code" href="structcutlass_1_1PredicateVector.html#aeb7f9226a4fa49d06500c3c83958dc41">const_begin</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ConstIterator(*<span class="keyword">this</span>); }</div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;</div><div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00420"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#ab931610bc07ee0e87bb4d9a4d53a2321">  420</a></span>&#160;  ConstIterator <a class="code" href="structcutlass_1_1PredicateVector.html#ab931610bc07ee0e87bb4d9a4d53a2321">const_end</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ConstIterator(*<span class="keyword">this</span>, <a class="code" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">kPredicates</a>); }</div><div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;};</div><div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;</div><div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;</div><div class="line"><a name="l00426"></a><span class="lineno"><a class="line" href="structcutlass_1_1TrivialPredicateTileAdapter.html">  426</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TrivialPredicateTileAdapter.html">TrivialPredicateTileAdapter</a> {</div><div class="line"><a name="l00428"></a><span class="lineno"><a class="line" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a7259853a129a7e319b972d3b41dd59d7">  428</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a7259853a129a7e319b972d3b41dd59d7">TrivialPredicateTileAdapter</a>() {}</div><div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;</div><div class="line"><a name="l00431"></a><span class="lineno"><a class="line" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f">  431</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f">at</a>(<span class="keywordtype">int</span>, <span class="keywordtype">int</span>, <span class="keywordtype">int</span>, <span class="keywordtype">int</span>)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">true</span>; }</div><div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;};</div><div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;</div><div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;</div><div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> PredicateVector_, <span class="keyword">typename</span> Iterations_&gt;</div><div class="line"><a name="l00438"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html">  438</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1PredicateTileAdapter.html">PredicateTileAdapter</a> {</div><div class="line"><a name="l00440"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">  440</a></span>&#160;  <span class="keyword">typedef</span> PredicateVector_ <a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">PredicateVector</a>;</div><div class="line"><a name="l00442"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450">  442</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450">Iterations</a>;</div><div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;</div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;  <a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">PredicateVector</a> &amp;predicates;</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;</div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00450"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea">  450</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea">PredicateTileAdapter</a>(<a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">PredicateVector</a> &amp;predicates_) : predicates(predicates_) {}</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;</div><div class="line"><a name="l00453"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986">  453</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986">at</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">ComputeOffsetFromShape&lt;Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;    <span class="keywordflow">return</span> predicates.at(bit);</div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;  }</div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;</div><div class="line"><a name="l00459"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html#aeda47efdda0387f9c3c7b31f836afca5">  459</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <span class="keyword">set</span>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c, <span class="keywordtype">bool</span> value) {</div><div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">ComputeOffsetFromShape&lt;Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;    predicates.set(bit, value);</div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;  }</div><div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;};</div><div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;</div><div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;</div><div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> PredicateVector_, <span class="keyword">typename</span> Iterations_&gt;</div><div class="line"><a name="l00469"></a><span class="lineno"><a class="line" href="structcutlass_1_1ConstPredicateTileAdapter.html">  469</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html">ConstPredicateTileAdapter</a> {</div><div class="line"><a name="l00471"></a><span class="lineno"><a class="line" href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">  471</a></span>&#160;  <span class="keyword">typedef</span> PredicateVector_ <a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">PredicateVector</a>;</div><div class="line"><a name="l00473"></a><span class="lineno"><a class="line" href="structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058">  473</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058">Iterations</a>;</div><div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;</div><div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;  <a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">PredicateVector</a> <span class="keyword">const</span> &amp;predicates;</div><div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;</div><div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00481"></a><span class="lineno"><a class="line" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9abd78d5c3e444bfb23d2b1a08be2be1">  481</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9abd78d5c3e444bfb23d2b1a08be2be1">ConstPredicateTileAdapter</a>(<a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">PredicateVector</a> <span class="keyword">const</span> &amp;predicates_)</div><div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;      : predicates(predicates_) {}</div><div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;</div><div class="line"><a name="l00485"></a><span class="lineno"><a class="line" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd">  485</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd">at</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">ComputeOffsetFromShape&lt;Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;    <span class="keywordflow">return</span> predicates.at(bit);</div><div class="line"><a name="l00488"></a><span class="lineno">  488</span>&#160;  }</div><div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;};</div><div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;</div><div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;</div><div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a83c2f584bd061f0b9b6b2a6cddf5b038"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038">cutlass::PredicateVector::Iterator::Iterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator(PredicateVector &amp;_vec, int _start=0)</div><div class="ttdoc">Constructs an iterator from a PredicateVector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:254</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a3d06715a77740034697686a7977cb685"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685">cutlass::PredicateVector::ConstIterator::operator!=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator!=(ConstIterator const &amp;it) const</div><div class="ttdoc">Returns false if iterators point to the same bit. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:228</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_aab9de134132c62de1c062ca57582cdbc"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc">cutlass::PredicateVector::operator|=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE PredicateVector &amp; operator|=(PredicateVector const &amp;predicates)</div><div class="ttdoc">Computes the union of two identical predicate vectors. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:384</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_ad24e9b451064e99fb19955f772c30e6a"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a">cutlass::PredicateVector::TrivialIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialIterator &amp; operator++()</div><div class="ttdoc">Pre-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:323</div></div>
+<a href="predicate__vector_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;assert.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;stdint.h&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;    <span class="keywordtype">int</span> kPredicates_,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    <span class="keywordtype">int</span> kPredicatesPerByte_ = 4,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    <span class="keywordtype">int</span> kPredicateStart_ = 0&gt;</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html">  105</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> {</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">  107</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">kPredicates</a> = kPredicates_;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">  110</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a> = kPredicatesPerByte_;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">  113</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">kPredicateStart</a> = kPredicateStart_;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;  <span class="comment">// Make sure no one tries to put more than 8 bits in a byte :)</span></div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">  116</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a> &lt;= 8, <span class="stringliteral">&quot;kPredicatesPerByte must fit within an actual byte&quot;</span>);</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;  <span class="comment">// Make sure the &quot;offsetted&quot; bits fit in one byte.</span></div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">kPredicateStart</a> + <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a> &lt;= 8,</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;                <span class="stringliteral">&quot;The offsetted predicates must fit within an actual byte.&quot;</span>);</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  <span class="keyword">typedef</span> uint32_t <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a">  125</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a">kBytes</a> = (<a class="code" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">kPredicates</a> + <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a> - 1) / <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a>;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">  128</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a> = (<a class="code" href="structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a">kBytes</a> + <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>) - 1) / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>);</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;  <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> storageData[<a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>];</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> computeStorageOffset(<span class="keywordtype">int</span> &amp;word, <span class="keywordtype">int</span> &amp;bit, <span class="keywordtype">int</span> idx)<span class="keyword"> const </span>{</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    <a class="code" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">CUTLASS_ASSERT</a>(idx &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">kPredicates</a>);</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;    <span class="keywordtype">int</span> byte = (idx / <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a>);</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;    <span class="keywordtype">int</span> bit_offset = (idx % <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a>);</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    word = byte / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>);</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    <span class="keywordtype">int</span> byte_offset = (byte % <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>));</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    bit = byte_offset * 8 + bit_offset + <a class="code" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">kPredicateStart</a>;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  }</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> &amp;storage(<span class="keywordtype">int</span> word) {</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    <a class="code" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">CUTLASS_ASSERT</a>(word &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>);</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;    <span class="keywordflow">return</span> storageData[word];</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;  }</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> <span class="keyword">const</span> &amp;storage(<span class="keywordtype">int</span> word)<span class="keyword"> const </span>{</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <a class="code" href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">CUTLASS_ASSERT</a>(word &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>);</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    <span class="keywordflow">return</span> storageData[word];</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;  }</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  <span class="comment">// Iterator</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">  177</a></span>&#160;  <span class="keyword">class </span><a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> {</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <span class="keyword">const</span> &amp;vec_;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    <span class="keywordtype">int</span> bit_;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;   <span class="keyword">public</span>:</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00187"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7">  187</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7">ConstIterator</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> <span class="keyword">const</span> &amp;it) : vec_(it.vec_), bit_(it.bit_) {}</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda">  191</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda">ConstIterator</a>(<a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <span class="keyword">const</span> &amp;_vec, <span class="keywordtype">int</span> _start = 0) : vec_(_vec), bit_(_start) {}</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00195"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70">  195</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70">operator++</a>() {</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;      ++bit_;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    }</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00202"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286">  202</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286">operator--</a>() {</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;      --bit_;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;    }</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00209"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a977a99af3166a58d5bc5a613a1abe7d5">  209</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a977a99af3166a58d5bc5a613a1abe7d5">operator++</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;      <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      ret.bit_++;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;    }</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00217"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b">  217</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b">operator--</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;      <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      ret.bit_--;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;    }</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00225"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357">  225</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357">operator==</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> <span class="keyword">const</span> &amp;it)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> bit_ == it.bit_; }</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685">  229</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685">operator!=</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">ConstIterator</a> <span class="keyword">const</span> &amp;it)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> bit_ != it.bit_; }</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00233"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946">  233</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946">operator*</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> vec_[bit_]; }</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;  };</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;</div><div class="line"><a name="l00241"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html">  241</a></span>&#160;  <span class="keyword">class </span><a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> {</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> &amp;vec_;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;    <span class="keywordtype">int</span> bit_;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;   <span class="keyword">public</span>:</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00251"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a91b7d25cbd64e696ef23c87671f0b077">  251</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a91b7d25cbd64e696ef23c87671f0b077">Iterator</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <span class="keyword">const</span> &amp;it) : vec_(it.vec_), bit_(it.bit_) {}</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00255"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038">  255</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038">Iterator</a>(<a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> &amp;_vec, <span class="keywordtype">int</span> _start = 0) : vec_(_vec), bit_(_start) {}</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00259"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3">  259</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> &amp;<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3">operator++</a>() {</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;      ++bit_;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;    }</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00266"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61">  266</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> &amp;<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61">operator--</a>() {</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;      --bit_;</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;    }</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00273"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a6c7333ad14d545cafc707e78752bf1e3">  273</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a6c7333ad14d545cafc707e78752bf1e3">operator++</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;      <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;      ret.bit_++;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;    }</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00281"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a">  281</a></span>&#160;    <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a">operator--</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;      <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;      ret.bit_--;</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;    }</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00289"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e">  289</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e">operator==</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <span class="keyword">const</span> &amp;it)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> bit_ == it.bit_; }</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00293"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887">  293</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887">operator!=</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <span class="keyword">const</span> &amp;it)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> bit_ != it.bit_; }</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00297"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#af035589126434bd2dbef4000cd864b8b">  297</a></span>&#160;    <span class="keywordtype">bool</span> <span class="keyword">get</span>() { <span class="keywordflow">return</span> vec_[bit_]; }</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00301"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4">  301</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4">operator*</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> vec_[bit_]; }</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00305"></a><span class="lineno"><a class="line" href="classcutlass_1_1PredicateVector_1_1Iterator.html#aadfd039b5622098c9e46706a27122575">  305</a></span>&#160;    <span class="keywordtype">void</span> <span class="keyword">set</span>(<span class="keywordtype">bool</span> value = <span class="keyword">true</span>) { vec_.<a class="code" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">set</a>(bit_, value); }</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;  };</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;</div><div class="line"><a name="l00309"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">  309</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">TrivialIterator</a> {</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00312"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a6cb3664b5cba4280b7055a65ddad7850">  312</a></span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a6cb3664b5cba4280b7055a65ddad7850">TrivialIterator</a>() {}</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00316"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ada8cd3ac6db568bb9bf268ba2c3a3e14">  316</a></span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ada8cd3ac6db568bb9bf268ba2c3a3e14">TrivialIterator</a>(<a class="code" href="classcutlass_1_1PredicateVector_1_1Iterator.html">Iterator</a> <span class="keyword">const</span> &amp;it) {}</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00320"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721">  320</a></span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721">TrivialIterator</a>(<a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <span class="keyword">const</span> &amp;_vec) {}</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00324"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a">  324</a></span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">TrivialIterator</a> &amp;<a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a">operator++</a>() { <span class="keywordflow">return</span> *<span class="keyword">this</span>; }</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00328"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051">  328</a></span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">TrivialIterator</a> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051">operator++</a>(<span class="keywordtype">int</span>) { <span class="keywordflow">return</span> *<span class="keyword">this</span>; }</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00332"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78">  332</a></span>&#160;    <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78">operator*</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">true</span>; }</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;  };</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;</div><div class="line"><a name="l00341"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21">  341</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21">PredicateVector</a>(<span class="keywordtype">bool</span> value = <span class="keyword">true</span>) { <a class="code" href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">fill</a>(value); }</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;</div><div class="line"><a name="l00344"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">  344</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">fill</a>(<span class="keywordtype">bool</span> value = <span class="keyword">true</span>) {</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> item = (value ? ~<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>(0) : <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>(0));</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>; ++i) {</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;      storage(i) = item;</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;    }</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;  }</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;</div><div class="line"><a name="l00354"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5">  354</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5">operator[]</a>(<span class="keywordtype">int</span> idx)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">at</a>(idx); }</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;</div><div class="line"><a name="l00357"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">  357</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">at</a>(<span class="keywordtype">int</span> idx)<span class="keyword"> const </span>{</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;    <span class="keywordtype">int</span> bit, word;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;    computeStorageOffset(word, bit, idx);</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;    <span class="keywordflow">return</span> ((storage(word) &gt;&gt; bit) &amp; 1);</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;  }</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;</div><div class="line"><a name="l00365"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">  365</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <span class="keyword">set</span>(<span class="keywordtype">int</span> idx, <span class="keywordtype">bool</span> value = <span class="keyword">true</span>) {</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;    <span class="keywordtype">int</span> bit, word;</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;    computeStorageOffset(word, bit, idx);</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> disable_mask = (~(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>(1) &lt;&lt; bit));</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> enable_mask = (<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>(value) &lt;&lt; bit);</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;    storage(word) = ((storage(word) &amp; disable_mask) | enable_mask);</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;  }</div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;</div><div class="line"><a name="l00376"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9">  376</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> &amp;<a class="code" href="structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9">operator&amp;=</a>(<a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <span class="keyword">const</span> &amp;predicates) {</div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>; ++i) {</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;      storage(i) = (storage(i) &amp; predicates.storage(i));</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;    }</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;  }</div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;</div><div class="line"><a name="l00385"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc">  385</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> &amp;<a class="code" href="structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc">operator|=</a>(<a class="code" href="structcutlass_1_1PredicateVector.html">PredicateVector</a> <span class="keyword">const</span> &amp;predicates) {</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>; ++i) {</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;      storage(i) = (storage(i) | predicates.storage(i));</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;    }</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;  }</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;</div><div class="line"><a name="l00394"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a1c4fe2bec906cd7937428ed6561ac79a">  394</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1PredicateVector.html#a1c4fe2bec906cd7937428ed6561ac79a">is_zero</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;    <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> mask(0);</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> byte = 0; byte &lt; <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a>); ++byte) {</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;      <a class="code" href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">Storage</a> byte_mask = (((1 &lt;&lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">kPredicatesPerByte</a>) - 1) &lt;&lt; <a class="code" href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">kPredicateStart</a>);</div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;      mask |= (byte_mask &lt;&lt; (byte * 8));</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;    }</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;    uint32_t result = 0;</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> word = 0; word &lt; <a class="code" href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">kWordCount</a>; ++word) {</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;      result |= storage(word);</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;    }</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;    <span class="keywordflow">return</span> result == 0;</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;  }</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00409"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5">  409</a></span>&#160;  Iterator <a class="code" href="structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5">begin</a>() { <span class="keywordflow">return</span> Iterator(*<span class="keyword">this</span>); }</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;</div><div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00413"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#ad9493fc80fdc33330cc15641779cc275">  413</a></span>&#160;  Iterator <a class="code" href="structcutlass_1_1PredicateVector.html#ad9493fc80fdc33330cc15641779cc275">end</a>() { <span class="keywordflow">return</span> Iterator(*<span class="keyword">this</span>, <a class="code" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">kPredicates</a>); }</div><div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;</div><div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00417"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#aeb7f9226a4fa49d06500c3c83958dc41">  417</a></span>&#160;  ConstIterator <a class="code" href="structcutlass_1_1PredicateVector.html#aeb7f9226a4fa49d06500c3c83958dc41">const_begin</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ConstIterator(*<span class="keyword">this</span>); }</div><div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;</div><div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00421"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateVector.html#ab931610bc07ee0e87bb4d9a4d53a2321">  421</a></span>&#160;  ConstIterator <a class="code" href="structcutlass_1_1PredicateVector.html#ab931610bc07ee0e87bb4d9a4d53a2321">const_end</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ConstIterator(*<span class="keyword">this</span>, <a class="code" href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">kPredicates</a>); }</div><div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;};</div><div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;</div><div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;</div><div class="line"><a name="l00427"></a><span class="lineno"><a class="line" href="structcutlass_1_1TrivialPredicateTileAdapter.html">  427</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TrivialPredicateTileAdapter.html">TrivialPredicateTileAdapter</a> {</div><div class="line"><a name="l00429"></a><span class="lineno"><a class="line" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a7259853a129a7e319b972d3b41dd59d7">  429</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a7259853a129a7e319b972d3b41dd59d7">TrivialPredicateTileAdapter</a>() {}</div><div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;</div><div class="line"><a name="l00432"></a><span class="lineno"><a class="line" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f">  432</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f">at</a>(<span class="keywordtype">int</span>, <span class="keywordtype">int</span>, <span class="keywordtype">int</span>, <span class="keywordtype">int</span>)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">true</span>; }</div><div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;};</div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;</div><div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;</div><div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> PredicateVector_, <span class="keyword">typename</span> Iterations_&gt;</div><div class="line"><a name="l00439"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html">  439</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1PredicateTileAdapter.html">PredicateTileAdapter</a> {</div><div class="line"><a name="l00441"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">  441</a></span>&#160;  <span class="keyword">typedef</span> PredicateVector_ <a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">PredicateVector</a>;</div><div class="line"><a name="l00443"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450">  443</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450">Iterations</a>;</div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;</div><div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;  <a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">PredicateVector</a> &amp;predicates;</div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;</div><div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00451"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea">  451</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea">PredicateTileAdapter</a>(<a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">PredicateVector</a> &amp;predicates_) : predicates(predicates_) {}</div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;</div><div class="line"><a name="l00454"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986">  454</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986">at</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">ComputeOffsetFromShape&lt;Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;    <span class="keywordflow">return</span> predicates.at(bit);</div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;  }</div><div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;</div><div class="line"><a name="l00460"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicateTileAdapter.html#aeda47efdda0387f9c3c7b31f836afca5">  460</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <span class="keyword">set</span>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c, <span class="keywordtype">bool</span> value) {</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">ComputeOffsetFromShape&lt;Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;    predicates.set(bit, value);</div><div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;  }</div><div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;};</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;</div><div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;</div><div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> PredicateVector_, <span class="keyword">typename</span> Iterations_&gt;</div><div class="line"><a name="l00470"></a><span class="lineno"><a class="line" href="structcutlass_1_1ConstPredicateTileAdapter.html">  470</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html">ConstPredicateTileAdapter</a> {</div><div class="line"><a name="l00472"></a><span class="lineno"><a class="line" href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">  472</a></span>&#160;  <span class="keyword">typedef</span> PredicateVector_ <a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">PredicateVector</a>;</div><div class="line"><a name="l00474"></a><span class="lineno"><a class="line" href="structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058">  474</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058">Iterations</a>;</div><div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;</div><div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;  <a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">PredicateVector</a> <span class="keyword">const</span> &amp;predicates;</div><div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;</div><div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00482"></a><span class="lineno"><a class="line" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9abd78d5c3e444bfb23d2b1a08be2be1">  482</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9abd78d5c3e444bfb23d2b1a08be2be1">ConstPredicateTileAdapter</a>(<a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">PredicateVector</a> <span class="keyword">const</span> &amp;predicates_)</div><div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;      : predicates(predicates_) {}</div><div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160;</div><div class="line"><a name="l00486"></a><span class="lineno"><a class="line" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd">  486</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd">at</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> bit = <a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">ComputeOffsetFromShape&lt;Iterations&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00488"></a><span class="lineno">  488</span>&#160;    <span class="keywordflow">return</span> predicates.at(bit);</div><div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;  }</div><div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;};</div><div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160;</div><div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;</div><div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a83c2f584bd061f0b9b6b2a6cddf5b038"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038">cutlass::PredicateVector::Iterator::Iterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator(PredicateVector &amp;_vec, int _start=0)</div><div class="ttdoc">Constructs an iterator from a PredicateVector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:255</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a3d06715a77740034697686a7977cb685"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685">cutlass::PredicateVector::ConstIterator::operator!=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator!=(ConstIterator const &amp;it) const</div><div class="ttdoc">Returns false if iterators point to the same bit. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:229</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_aab9de134132c62de1c062ca57582cdbc"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc">cutlass::PredicateVector::operator|=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE PredicateVector &amp; operator|=(PredicateVector const &amp;predicates)</div><div class="ttdoc">Computes the union of two identical predicate vectors. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:385</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_ad24e9b451064e99fb19955f772c30e6a"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a">cutlass::PredicateVector::TrivialIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialIterator &amp; operator++()</div><div class="ttdoc">Pre-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:324</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a1c4fe2bec906cd7937428ed6561ac79a"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a1c4fe2bec906cd7937428ed6561ac79a">cutlass::PredicateVector::is_zero</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool is_zero() const</div><div class="ttdoc">Returns true if entire predicate array is zero. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:393</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_afe85a07b9f311327c6bf04e3a5f94e5a"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">cutlass::PredicateVector::Storage</a></div><div class="ttdeci">uint32_t Storage</div><div class="ttdoc">Storage type of individual elements. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:115</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_a3adf0440f9a0143a61b43d39c3f03721"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721">cutlass::PredicateVector::TrivialIterator::TrivialIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialIterator(PredicateVector const &amp;_vec)</div><div class="ttdoc">Constructs an iterator from a PredicateVector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:319</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a2763012a9284e97650b14e20c5668286"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286">cutlass::PredicateVector::ConstIterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator--()</div><div class="ttdoc">Pre-decrement. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:201</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_ab870e074b33c598f69fe11e104615c5a"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a">cutlass::PredicateVector::kBytes</a></div><div class="ttdeci">static int const kBytes</div><div class="ttdoc">Number of bytes needed. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:124</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_aeb7f9226a4fa49d06500c3c83958dc41"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#aeb7f9226a4fa49d06500c3c83958dc41">cutlass::PredicateVector::const_begin</a></div><div class="ttdeci">CUTLASS_DEVICE ConstIterator const_begin() const</div><div class="ttdoc">Returns a ConstIterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:416</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a590e4f4533c87162c0b79e8d876a8fda"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda">cutlass::PredicateVector::ConstIterator::ConstIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator(PredicateVector const &amp;_vec, int _start=0)</div><div class="ttdef"><b>Definition:</b> predicate_vector.h:190</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_ac8eca7087d1f7575b0c6beeb5f907bfd"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">cutlass::PredicateVector::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool at(int idx) const</div><div class="ttdoc">Accesses a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:356</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a10ee4bb2f206432aa5ee1a83cb046b70"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70">cutlass::PredicateVector::ConstIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator++()</div><div class="ttdoc">Pre-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:194</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateTileAdapter_html_a72669300eb0bd18ea8124f780862a0e4"><div class="ttname"><a href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">cutlass::PredicateTileAdapter::PredicateVector</a></div><div class="ttdeci">PredicateVector_ PredicateVector</div><div class="ttdoc">The vector of predicates. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:440</div></div>
-<div class="ttc" id="structcutlass_1_1ComputeOffsetFromShape_html_a3c6f60a59178ffb84899aa449bd51d38"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">cutlass::ComputeOffsetFromShape::get</a></div><div class="ttdeci">static CUTLASS_DEVICE int get(int d, int h, int w, int c)</div><div class="ttdef"><b>Definition:</b> shape.h:166</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a977a99af3166a58d5bc5a613a1abe7d5"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a977a99af3166a58d5bc5a613a1abe7d5">cutlass::PredicateVector::ConstIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator++(int)</div><div class="ttdoc">Post-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:208</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a6c7333ad14d545cafc707e78752bf1e3"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a6c7333ad14d545cafc707e78752bf1e3">cutlass::PredicateVector::Iterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator operator++(int)</div><div class="ttdoc">Post-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:272</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateTileAdapter_html"><div class="ttname"><a href="structcutlass_1_1PredicateTileAdapter.html">cutlass::PredicateTileAdapter</a></div><div class="ttdoc">Adapter to enable random access to predicates via logical coordinate within a tile. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:438</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_ada8cd3ac6db568bb9bf268ba2c3a3e14"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ada8cd3ac6db568bb9bf268ba2c3a3e14">cutlass::PredicateVector::TrivialIterator::TrivialIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialIterator(Iterator const &amp;it)</div><div class="ttdoc">Copy constructor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:315</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_a1c4fe2bec906cd7937428ed6561ac79a"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a1c4fe2bec906cd7937428ed6561ac79a">cutlass::PredicateVector::is_zero</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool is_zero() const</div><div class="ttdoc">Returns true if entire predicate array is zero. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:394</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_afe85a07b9f311327c6bf04e3a5f94e5a"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a">cutlass::PredicateVector::Storage</a></div><div class="ttdeci">uint32_t Storage</div><div class="ttdoc">Storage type of individual elements. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:116</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_a3adf0440f9a0143a61b43d39c3f03721"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721">cutlass::PredicateVector::TrivialIterator::TrivialIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialIterator(PredicateVector const &amp;_vec)</div><div class="ttdoc">Constructs an iterator from a PredicateVector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:320</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a2763012a9284e97650b14e20c5668286"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286">cutlass::PredicateVector::ConstIterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator--()</div><div class="ttdoc">Pre-decrement. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:202</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_ab870e074b33c598f69fe11e104615c5a"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a">cutlass::PredicateVector::kBytes</a></div><div class="ttdeci">static int const kBytes</div><div class="ttdoc">Number of bytes needed. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:125</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_aeb7f9226a4fa49d06500c3c83958dc41"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#aeb7f9226a4fa49d06500c3c83958dc41">cutlass::PredicateVector::const_begin</a></div><div class="ttdeci">CUTLASS_DEVICE ConstIterator const_begin() const</div><div class="ttdoc">Returns a ConstIterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:417</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a590e4f4533c87162c0b79e8d876a8fda"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda">cutlass::PredicateVector::ConstIterator::ConstIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator(PredicateVector const &amp;_vec, int _start=0)</div><div class="ttdef"><b>Definition:</b> predicate_vector.h:191</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_ac8eca7087d1f7575b0c6beeb5f907bfd"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">cutlass::PredicateVector::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool at(int idx) const</div><div class="ttdoc">Accesses a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:357</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a10ee4bb2f206432aa5ee1a83cb046b70"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70">cutlass::PredicateVector::ConstIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator++()</div><div class="ttdoc">Pre-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:195</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateTileAdapter_html_a72669300eb0bd18ea8124f780862a0e4"><div class="ttname"><a href="structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4">cutlass::PredicateTileAdapter::PredicateVector</a></div><div class="ttdeci">PredicateVector_ PredicateVector</div><div class="ttdoc">The vector of predicates. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:441</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a977a99af3166a58d5bc5a613a1abe7d5"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a977a99af3166a58d5bc5a613a1abe7d5">cutlass::PredicateVector::ConstIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator++(int)</div><div class="ttdoc">Post-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:209</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a6c7333ad14d545cafc707e78752bf1e3"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a6c7333ad14d545cafc707e78752bf1e3">cutlass::PredicateVector::Iterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator operator++(int)</div><div class="ttdoc">Post-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:273</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateTileAdapter_html"><div class="ttname"><a href="structcutlass_1_1PredicateTileAdapter.html">cutlass::PredicateTileAdapter</a></div><div class="ttdoc">Adapter to enable random access to predicates via logical coordinate within a tile. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:439</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_ada8cd3ac6db568bb9bf268ba2c3a3e14"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ada8cd3ac6db568bb9bf268ba2c3a3e14">cutlass::PredicateVector::TrivialIterator::TrivialIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialIterator(Iterator const &amp;it)</div><div class="ttdoc">Copy constructor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:316</div></div>
+<div class="ttc" id="structcutlass_1_1ComputeOffsetFromShape_html_a7bc0bc7e03cd974a05d00e98a72ee78b"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">cutlass::ComputeOffsetFromShape::get</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE int get(int d, int h, int w, int c)</div><div class="ttdef"><b>Definition:</b> shape.h:181</div></div>
 <div class="ttc" id="platform_8h_html"><div class="ttname"><a href="platform_8h.html">platform.h</a></div><div class="ttdoc">C++ features that may be otherwise unimplemented for CUDA device functions. </div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">cutlass::PredicateVector::TrivialIterator</a></div><div class="ttdoc">Iterator that always returns true. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:308</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_aa35b9165920b83b9a5a888df83925051"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051">cutlass::PredicateVector::TrivialIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialIterator operator++(int)</div><div class="ttdoc">Post-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:327</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a5c5266fcef67c7b263682c4bc4a5000e"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e">cutlass::PredicateVector::Iterator::operator==</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator==(Iterator const &amp;it) const</div><div class="ttdoc">Returns true if iterators point to the same bit. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:288</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateTileAdapter_html_a4c9eb6c6498ccf117427a3b35f7ce5ea"><div class="ttname"><a href="structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea">cutlass::PredicateTileAdapter::PredicateTileAdapter</a></div><div class="ttdeci">CUTLASS_DEVICE PredicateTileAdapter(PredicateVector &amp;predicates_)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:450</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateTileAdapter_html_a7d54e877bca2e840c142293b4826e986"><div class="ttname"><a href="structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986">cutlass::PredicateTileAdapter::at</a></div><div class="ttdeci">CUTLASS_DEVICE bool at(int d, int h, int w, int c) const</div><div class="ttdoc">Get the value at location (d, h, w, c). </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:453</div></div>
-<div class="ttc" id="cutlass_8h_html_a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><div class="ttname"><a href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:60</div></div>
-<div class="ttc" id="structcutlass_1_1ConstPredicateTileAdapter_html_a9e5651009a7b8df9960527c18c7b05dd"><div class="ttname"><a href="structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd">cutlass::ConstPredicateTileAdapter::at</a></div><div class="ttdeci">CUTLASS_DEVICE bool at(int d, int h, int w, int c) const</div><div class="ttdoc">Get the value at location (d, h, w, c). </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:485</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a69fb5b24eeb43331b7401768e8584e61"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61">cutlass::PredicateVector::Iterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator &amp; operator--()</div><div class="ttdoc">Pre-decrement. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:265</div></div>
-<div class="ttc" id="structcutlass_1_1ConstPredicateTileAdapter_html_ab9143288811a1262f7007f1b76b32e8f"><div class="ttname"><a href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">cutlass::ConstPredicateTileAdapter::PredicateVector</a></div><div class="ttdeci">PredicateVector_ PredicateVector</div><div class="ttdoc">The vector of predicates. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:471</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a3dd9aeba8f3cbe7a8198d68d91a0bbb9"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9">cutlass::PredicateVector::operator &amp;=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE PredicateVector &amp; operator &amp;=(PredicateVector const &amp;predicates)</div><div class="ttdoc">Computes the intersection of two identical predicate vectors. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:375</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a91b7d25cbd64e696ef23c87671f0b077"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a91b7d25cbd64e696ef23c87671f0b077">cutlass::PredicateVector::Iterator::Iterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator(Iterator const &amp;it)</div><div class="ttdoc">Copy constructor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:250</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a840985438ac8306ec680eb20edd4e5c5"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5">cutlass::PredicateVector::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator[](int idx) const</div><div class="ttdoc">Accesses a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:353</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a049b568e0f5de011ee76ce79bcedbab4"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4">cutlass::PredicateVector::Iterator::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator*() const</div><div class="ttdoc">Dereferences iterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:300</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_a78016158f99dd87e822a2a2cbd4cec78"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78">cutlass::PredicateVector::TrivialIterator::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator*() const</div><div class="ttdoc">Dereferences iterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:331</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a236bd1a822479750a809452fd58dd917"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">cutlass::PredicateVector::fill</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void fill(bool value=true)</div><div class="ttdoc">Fills all predicates with a given value. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:343</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_afff3a2142d9853606d6ad7c3a459f492"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">cutlass::PredicateVector::kPredicates</a></div><div class="ttdeci">static int const kPredicates</div><div class="ttdoc">Number of bits stored by the PredicateVector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:106</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_ad9493fc80fdc33330cc15641779cc275"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ad9493fc80fdc33330cc15641779cc275">cutlass::PredicateVector::end</a></div><div class="ttdeci">CUTLASS_DEVICE Iterator end()</div><div class="ttdoc">Returns an iterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:412</div></div>
-<div class="ttc" id="cutlass_8h_html_a0159b8e4cd578881a1ccfd0921516af7"><div class="ttname"><a href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">CUTLASS_ASSERT</a></div><div class="ttdeci">#define CUTLASS_ASSERT(x)</div><div class="ttdef"><b>Definition:</b> cutlass.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1TrivialPredicateTileAdapter_html_a3e41ab145489df08fca79251b2253d0f"><div class="ttname"><a href="structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f">cutlass::TrivialPredicateTileAdapter::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool at(int, int, int, int) const</div><div class="ttdoc">The value at location (d, h, w, c). </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:431</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">cutlass::PredicateVector::TrivialIterator</a></div><div class="ttdoc">Iterator that always returns true. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:309</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_aa35b9165920b83b9a5a888df83925051"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051">cutlass::PredicateVector::TrivialIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialIterator operator++(int)</div><div class="ttdoc">Post-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:328</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a5c5266fcef67c7b263682c4bc4a5000e"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e">cutlass::PredicateVector::Iterator::operator==</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator==(Iterator const &amp;it) const</div><div class="ttdoc">Returns true if iterators point to the same bit. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:289</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateTileAdapter_html_a4c9eb6c6498ccf117427a3b35f7ce5ea"><div class="ttname"><a href="structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea">cutlass::PredicateTileAdapter::PredicateTileAdapter</a></div><div class="ttdeci">CUTLASS_DEVICE PredicateTileAdapter(PredicateVector &amp;predicates_)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:451</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateTileAdapter_html_a7d54e877bca2e840c142293b4826e986"><div class="ttname"><a href="structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986">cutlass::PredicateTileAdapter::at</a></div><div class="ttdeci">CUTLASS_DEVICE bool at(int d, int h, int w, int c) const</div><div class="ttdoc">Get the value at location (d, h, w, c). </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:454</div></div>
+<div class="ttc" id="cutlass_8h_html_a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><div class="ttname"><a href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1ConstPredicateTileAdapter_html_a9e5651009a7b8df9960527c18c7b05dd"><div class="ttname"><a href="structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd">cutlass::ConstPredicateTileAdapter::at</a></div><div class="ttdeci">CUTLASS_DEVICE bool at(int d, int h, int w, int c) const</div><div class="ttdoc">Get the value at location (d, h, w, c). </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:486</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a69fb5b24eeb43331b7401768e8584e61"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61">cutlass::PredicateVector::Iterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator &amp; operator--()</div><div class="ttdoc">Pre-decrement. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:266</div></div>
+<div class="ttc" id="structcutlass_1_1ConstPredicateTileAdapter_html_ab9143288811a1262f7007f1b76b32e8f"><div class="ttname"><a href="structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f">cutlass::ConstPredicateTileAdapter::PredicateVector</a></div><div class="ttdeci">PredicateVector_ PredicateVector</div><div class="ttdoc">The vector of predicates. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:472</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_a3dd9aeba8f3cbe7a8198d68d91a0bbb9"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9">cutlass::PredicateVector::operator &amp;=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE PredicateVector &amp; operator &amp;=(PredicateVector const &amp;predicates)</div><div class="ttdoc">Computes the intersection of two identical predicate vectors. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:376</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a91b7d25cbd64e696ef23c87671f0b077"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a91b7d25cbd64e696ef23c87671f0b077">cutlass::PredicateVector::Iterator::Iterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator(Iterator const &amp;it)</div><div class="ttdoc">Copy constructor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:251</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_a840985438ac8306ec680eb20edd4e5c5"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5">cutlass::PredicateVector::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator[](int idx) const</div><div class="ttdoc">Accesses a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:354</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a049b568e0f5de011ee76ce79bcedbab4"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4">cutlass::PredicateVector::Iterator::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator*() const</div><div class="ttdoc">Dereferences iterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:301</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_a78016158f99dd87e822a2a2cbd4cec78"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78">cutlass::PredicateVector::TrivialIterator::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator*() const</div><div class="ttdoc">Dereferences iterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:332</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_a236bd1a822479750a809452fd58dd917"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917">cutlass::PredicateVector::fill</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void fill(bool value=true)</div><div class="ttdoc">Fills all predicates with a given value. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:344</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_afff3a2142d9853606d6ad7c3a459f492"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492">cutlass::PredicateVector::kPredicates</a></div><div class="ttdeci">static int const kPredicates</div><div class="ttdoc">Number of bits stored by the PredicateVector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:107</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_ad9493fc80fdc33330cc15641779cc275"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ad9493fc80fdc33330cc15641779cc275">cutlass::PredicateVector::end</a></div><div class="ttdeci">CUTLASS_DEVICE Iterator end()</div><div class="ttdoc">Returns an iterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:413</div></div>
+<div class="ttc" id="cutlass_8h_html_a0159b8e4cd578881a1ccfd0921516af7"><div class="ttname"><a href="cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7">CUTLASS_ASSERT</a></div><div class="ttdeci">#define CUTLASS_ASSERT(x)</div><div class="ttdef"><b>Definition:</b> cutlass.h:50</div></div>
+<div class="ttc" id="structcutlass_1_1TrivialPredicateTileAdapter_html_a3e41ab145489df08fca79251b2253d0f"><div class="ttname"><a href="structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f">cutlass::TrivialPredicateTileAdapter::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool at(int, int, int, int) const</div><div class="ttdoc">The value at location (d, h, w, c). </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:432</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a1387c4a964f971ed4611d750a09ec0b5"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">cutlass::PredicateVector::kPredicatesPerByte</a></div><div class="ttdeci">static int const kPredicatesPerByte</div><div class="ttdoc">Number of bits stored within each byte of the predicate bit vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:109</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a></div><div class="ttdoc">Statically sized array of bits implementing. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:104</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a734bbfaf3829f73ef0b44fa7db4ccd42"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">cutlass::PredicateVector::kWordCount</a></div><div class="ttdeci">static int const kWordCount</div><div class="ttdoc">Number of storage elements needed. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:127</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_ab931610bc07ee0e87bb4d9a4d53a2321"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ab931610bc07ee0e87bb4d9a4d53a2321">cutlass::PredicateVector::const_end</a></div><div class="ttdeci">CUTLASS_DEVICE ConstIterator const_end() const</div><div class="ttdoc">Returns a ConstIterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:420</div></div>
-<div class="ttc" id="structcutlass_1_1TrivialPredicateTileAdapter_html"><div class="ttname"><a href="structcutlass_1_1TrivialPredicateTileAdapter.html">cutlass::TrivialPredicateTileAdapter</a></div><div class="ttdoc">Always returns true predicate. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:426</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a7dddc0a6b5c958156beef29bedfd1bd3"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3">cutlass::PredicateVector::Iterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator &amp; operator++()</div><div class="ttdoc">Pre-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:258</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">cutlass::PredicateVector::ConstIterator</a></div><div class="ttdoc">A const iterator implementing Predicate Iterator Concept enabling sequential read-only access to pred...</div><div class="ttdef"><b>Definition:</b> predicate_vector.h:176</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a062fa8a8df725ef08ced2ffcca8336af"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">cutlass::PredicateVector::set</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void set(int idx, bool value=true)</div><div class="ttdoc">Set a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:364</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_aa2d03d88ac23051803d010f78157c357"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357">cutlass::PredicateVector::ConstIterator::operator==</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator==(ConstIterator const &amp;it) const</div><div class="ttdoc">Returns true if iterators point to the same bit. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:224</div></div>
-<div class="ttc" id="structcutlass_1_1ConstPredicateTileAdapter_html_a5e461e0eb376de60605a6ab5fdc38058"><div class="ttname"><a href="structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058">cutlass::ConstPredicateTileAdapter::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">The iterations. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:473</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateTileAdapter_html_a1f2d52eec9f488c2a53c4d62af824450"><div class="ttname"><a href="structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450">cutlass::PredicateTileAdapter::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">The iterations. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:442</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_abbc2bceb6cf8d7f168b8a00eb48c0946"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946">cutlass::PredicateVector::ConstIterator::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator*() const</div><div class="ttdoc">Dereferences iterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:232</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a08cb4d1395b88a4451fbb1a27e010887"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887">cutlass::PredicateVector::Iterator::operator!=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator!=(Iterator const &amp;it) const</div><div class="ttdoc">Returns false if iterators point to the same bit. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:292</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_acf848dce84c01453ab8a2d00c8d4f86e"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">cutlass::PredicateVector::kPredicateStart</a></div><div class="ttdeci">static int const kPredicateStart</div><div class="ttdoc">First bit withing each byte containing predicates. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:112</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a1216aab9c567ec0d4232019008ef3ea7"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7">cutlass::PredicateVector::ConstIterator::ConstIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator(ConstIterator const &amp;it)</div><div class="ttdoc">Copy constructor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:186</div></div>
-<div class="ttc" id="structcutlass_1_1TrivialPredicateTileAdapter_html_a7259853a129a7e319b972d3b41dd59d7"><div class="ttname"><a href="structcutlass_1_1TrivialPredicateTileAdapter.html#a7259853a129a7e319b972d3b41dd59d7">cutlass::TrivialPredicateTileAdapter::TrivialPredicateTileAdapter</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialPredicateTileAdapter()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:428</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a2910a714d34a688b8ea560ea2933436b"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b">cutlass::PredicateVector::ConstIterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator--(int)</div><div class="ttdoc">Post-decrement. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:216</div></div>
-<div class="ttc" id="structcutlass_1_1ConstPredicateTileAdapter_html"><div class="ttname"><a href="structcutlass_1_1ConstPredicateTileAdapter.html">cutlass::ConstPredicateTileAdapter</a></div><div class="ttdoc">Adapter to enable random access to predicates via logical coordinate within a tile. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:469</div></div>
-<div class="ttc" id="structcutlass_1_1ConstPredicateTileAdapter_html_a9abd78d5c3e444bfb23d2b1a08be2be1"><div class="ttname"><a href="structcutlass_1_1ConstPredicateTileAdapter.html#a9abd78d5c3e444bfb23d2b1a08be2be1">cutlass::ConstPredicateTileAdapter::ConstPredicateTileAdapter</a></div><div class="ttdeci">CUTLASS_DEVICE ConstPredicateTileAdapter(PredicateVector const &amp;predicates_)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:481</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_a1387c4a964f971ed4611d750a09ec0b5"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5">cutlass::PredicateVector::kPredicatesPerByte</a></div><div class="ttdeci">static int const kPredicatesPerByte</div><div class="ttdoc">Number of bits stored within each byte of the predicate bit vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:110</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a></div><div class="ttdoc">Statically sized array of bits implementing. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:105</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_a734bbfaf3829f73ef0b44fa7db4ccd42"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42">cutlass::PredicateVector::kWordCount</a></div><div class="ttdeci">static int const kWordCount</div><div class="ttdoc">Number of storage elements needed. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:128</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_ab931610bc07ee0e87bb4d9a4d53a2321"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ab931610bc07ee0e87bb4d9a4d53a2321">cutlass::PredicateVector::const_end</a></div><div class="ttdeci">CUTLASS_DEVICE ConstIterator const_end() const</div><div class="ttdoc">Returns a ConstIterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:421</div></div>
+<div class="ttc" id="structcutlass_1_1TrivialPredicateTileAdapter_html"><div class="ttname"><a href="structcutlass_1_1TrivialPredicateTileAdapter.html">cutlass::TrivialPredicateTileAdapter</a></div><div class="ttdoc">Always returns true predicate. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:427</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a7dddc0a6b5c958156beef29bedfd1bd3"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3">cutlass::PredicateVector::Iterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator &amp; operator++()</div><div class="ttdoc">Pre-increment. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:259</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html">cutlass::PredicateVector::ConstIterator</a></div><div class="ttdoc">A const iterator implementing Predicate Iterator Concept enabling sequential read-only access to pred...</div><div class="ttdef"><b>Definition:</b> predicate_vector.h:177</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_a062fa8a8df725ef08ced2ffcca8336af"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">cutlass::PredicateVector::set</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void set(int idx, bool value=true)</div><div class="ttdoc">Set a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:365</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_aa2d03d88ac23051803d010f78157c357"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357">cutlass::PredicateVector::ConstIterator::operator==</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator==(ConstIterator const &amp;it) const</div><div class="ttdoc">Returns true if iterators point to the same bit. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:225</div></div>
+<div class="ttc" id="structcutlass_1_1ConstPredicateTileAdapter_html_a5e461e0eb376de60605a6ab5fdc38058"><div class="ttname"><a href="structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058">cutlass::ConstPredicateTileAdapter::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">The iterations. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:474</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateTileAdapter_html_a1f2d52eec9f488c2a53c4d62af824450"><div class="ttname"><a href="structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450">cutlass::PredicateTileAdapter::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">The iterations. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:443</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_abbc2bceb6cf8d7f168b8a00eb48c0946"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946">cutlass::PredicateVector::ConstIterator::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator*() const</div><div class="ttdoc">Dereferences iterator. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:233</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_a08cb4d1395b88a4451fbb1a27e010887"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887">cutlass::PredicateVector::Iterator::operator!=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator!=(Iterator const &amp;it) const</div><div class="ttdoc">Returns false if iterators point to the same bit. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:293</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_acf848dce84c01453ab8a2d00c8d4f86e"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e">cutlass::PredicateVector::kPredicateStart</a></div><div class="ttdeci">static int const kPredicateStart</div><div class="ttdoc">First bit withing each byte containing predicates. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:113</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a1216aab9c567ec0d4232019008ef3ea7"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7">cutlass::PredicateVector::ConstIterator::ConstIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator(ConstIterator const &amp;it)</div><div class="ttdoc">Copy constructor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:187</div></div>
+<div class="ttc" id="structcutlass_1_1TrivialPredicateTileAdapter_html_a7259853a129a7e319b972d3b41dd59d7"><div class="ttname"><a href="structcutlass_1_1TrivialPredicateTileAdapter.html#a7259853a129a7e319b972d3b41dd59d7">cutlass::TrivialPredicateTileAdapter::TrivialPredicateTileAdapter</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialPredicateTileAdapter()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:429</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1ConstIterator_html_a2910a714d34a688b8ea560ea2933436b"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b">cutlass::PredicateVector::ConstIterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator--(int)</div><div class="ttdoc">Post-decrement. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:217</div></div>
+<div class="ttc" id="structcutlass_1_1ConstPredicateTileAdapter_html"><div class="ttname"><a href="structcutlass_1_1ConstPredicateTileAdapter.html">cutlass::ConstPredicateTileAdapter</a></div><div class="ttdoc">Adapter to enable random access to predicates via logical coordinate within a tile. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:470</div></div>
+<div class="ttc" id="structcutlass_1_1ConstPredicateTileAdapter_html_a9abd78d5c3e444bfb23d2b1a08be2be1"><div class="ttname"><a href="structcutlass_1_1ConstPredicateTileAdapter.html#a9abd78d5c3e444bfb23d2b1a08be2be1">cutlass::ConstPredicateTileAdapter::ConstPredicateTileAdapter</a></div><div class="ttdeci">CUTLASS_DEVICE ConstPredicateTileAdapter(PredicateVector const &amp;predicates_)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:482</div></div>
 <div class="ttc" id="shape_8h_html"><div class="ttname"><a href="shape_8h.html">shape.h</a></div><div class="ttdoc">Defines Shape implementing the Layout concept for representing a 4D hypercube of objects. </div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_aec1201df19c0ed0516810a3f19353c21"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21">cutlass::PredicateVector::PredicateVector</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE PredicateVector(bool value=true)</div><div class="ttdoc">Initialize the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:340</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a649045d8224514a4c28bcaf4b247b4a5"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5">cutlass::PredicateVector::begin</a></div><div class="ttdeci">CUTLASS_DEVICE Iterator begin()</div><div class="ttdoc">Returns an iterator to the start of the bit vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:408</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_aec1201df19c0ed0516810a3f19353c21"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21">cutlass::PredicateVector::PredicateVector</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE PredicateVector(bool value=true)</div><div class="ttdoc">Initialize the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:341</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_html_a649045d8224514a4c28bcaf4b247b4a5"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5">cutlass::PredicateVector::begin</a></div><div class="ttdeci">CUTLASS_DEVICE Iterator begin()</div><div class="ttdoc">Returns an iterator to the start of the bit vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:409</div></div>
 <div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html">cutlass::PredicateVector::Iterator</a></div><div class="ttdoc">An iterator implementing Predicate Iterator Concept enabling sequential read and write access to pred...</div><div class="ttdef"><b>Definition:</b> predicate_vector.h:240</div></div>
-<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_aad709a11f43b84c88e3ce3a0394f8e8a"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a">cutlass::PredicateVector::Iterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator operator--(int)</div><div class="ttdoc">Post-decrement. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:280</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_a6cb3664b5cba4280b7055a65ddad7850"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a6cb3664b5cba4280b7055a65ddad7850">cutlass::PredicateVector::TrivialIterator::TrivialIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialIterator()</div><div class="ttdoc">Constructor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:311</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html">cutlass::PredicateVector::Iterator</a></div><div class="ttdoc">An iterator implementing Predicate Iterator Concept enabling sequential read and write access to pred...</div><div class="ttdef"><b>Definition:</b> predicate_vector.h:241</div></div>
+<div class="ttc" id="classcutlass_1_1PredicateVector_1_1Iterator_html_aad709a11f43b84c88e3ce3a0394f8e8a"><div class="ttname"><a href="classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a">cutlass::PredicateVector::Iterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Iterator operator--(int)</div><div class="ttdoc">Post-decrement. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:281</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html_a6cb3664b5cba4280b7055a65ddad7850"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a6cb3664b5cba4280b7055a65ddad7850">cutlass::PredicateVector::TrivialIterator::TrivialIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TrivialIterator()</div><div class="ttdoc">Constructor. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:312</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/reshape__tile_8h.html b/docs/reshape__tile_8h.html
index 3712944a1b..9eb505f35c 100644
--- a/docs/reshape__tile_8h.html
+++ b/docs/reshape__tile_8h.html
@@ -82,7 +82,7 @@
 
 <p>Defines a type for restructuring a tile.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&quot;</code><br />
 </div>
 <p><a href="reshape__tile_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -101,7 +101,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/reshape__tile_8h_source.html b/docs/reshape__tile_8h_source.html
index bb7a117963..b3bdb43b4a 100644
--- a/docs/reshape__tile_8h_source.html
+++ b/docs/reshape__tile_8h_source.html
@@ -76,16 +76,16 @@
 <div class="title">reshape_tile.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="reshape__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="comment">// The following functor reshapes a tile of data. The goal is to have at least kAccessSize in</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="comment">// the inner-most dimension. If the user respects that constraint, there is nothing to be done. If</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="comment">// that&#39;s not the case, this functor will correct that and &quot;extract&quot; the right number of elements</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="comment">// from the next dimension.</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> kAccessSize_, <span class="keywordtype">bool</span> = (Tile_::kC &lt; kAccessSize_)&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1ReshapeTile.html">   42</a></span>&#160;struct ReshapeTile {</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">   43</a></span>&#160;  typedef Tile_ Tile;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;};</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html">   47</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html">ReshapeTile&lt;Tile_, kAccessSize_, true&gt;</a> {</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;  <span class="comment">// Make sure the W dimension of the tile is large enough.</span></div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06">   49</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Tile_::kW &gt;= kAccessSize_, <span class="stringliteral">&quot;The W dimension is too small&quot;</span>);</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  <span class="comment">// Make sure the dimension can be divided by the number of scalars.</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Tile_::kW % kAccessSize_ == 0, <span class="stringliteral">&quot;Not supported&quot;</span>);</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <span class="comment">// Collapse the W dimension.</span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;Tile_::kD, Tile_::kH, Tile_::kW / kAccessSize_, kAccessSize_&gt; <a class="code" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06">Tile</a>;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;};</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<a href="reshape__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="comment">// The following functor reshapes a tile of data. The goal is to have at least kAccessSize in</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="comment">// the inner-most dimension. If the user respects that constraint, there is nothing to be done. If</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="comment">// that&#39;s not the case, this functor will correct that and &quot;extract&quot; the right number of elements</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="comment">// from the next dimension.</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> kAccessSize_, <span class="keywordtype">bool</span> = (Tile_::kC &lt; kAccessSize_)&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1ReshapeTile.html">   42</a></span>&#160;struct ReshapeTile {</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">   43</a></span>&#160;  typedef Tile_ Tile;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;};</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html">   47</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html">ReshapeTile&lt;Tile_, kAccessSize_, true&gt;</a> {</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;  <span class="comment">// Make sure the W dimension of the tile is large enough.</span></div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06">   49</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Tile_::kW &gt;= kAccessSize_, <span class="stringliteral">&quot;The W dimension is too small&quot;</span>);</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  <span class="comment">// Make sure the dimension can be divided by the number of scalars.</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Tile_::kW % kAccessSize_ == 0, <span class="stringliteral">&quot;Not supported&quot;</span>);</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <span class="comment">// Collapse the W dimension.</span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;Tile_::kD, Tile_::kH, Tile_::kW / kAccessSize_, kAccessSize_&gt; <a class="code" href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06">Tile</a>;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;};</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4_html"><div class="ttname"><a href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html">cutlass::ReshapeTile&lt; Tile_, kAccessSize_, true &gt;</a></div><div class="ttdef"><b>Definition:</b> reshape_tile.h:47</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
 <div class="ttc" id="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4_html_a966a9432cf42dfdff8ad6b89ebd74f06"><div class="ttname"><a href="structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06">cutlass::ReshapeTile&lt; Tile_, kAccessSize_, true &gt;::Tile</a></div><div class="ttdeci">Shape&lt; Tile_::kD, Tile_::kH, Tile_::kW/kAccessSize_, kAccessSize_ &gt; Tile</div><div class="ttdef"><b>Definition:</b> reshape_tile.h:49</div></div>
 <div class="ttc" id="shape_8h_html"><div class="ttname"><a href="shape_8h.html">shape.h</a></div><div class="ttdoc">Defines Shape implementing the Layout concept for representing a 4D hypercube of objects. </div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/scalar__or__pointer_8h.html b/docs/scalar__or__pointer_8h.html
new file mode 100644
index 0000000000..85668193cb
--- /dev/null
+++ b/docs/scalar__or__pointer_8h.html
@@ -0,0 +1,109 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: scalar_or_pointer.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">scalar_or_pointer.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Implements the BLAS linear scaling function alpha*AB + beta*C.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
+</div>
+<p><a href="scalar__or__pointer_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacecutlass_1_1detail"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1detail.html">cutlass::detail</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/scalar__or__pointer_8h_source.html b/docs/scalar__or__pointer_8h_source.html
new file mode 100644
index 0000000000..a4b6c7e91e
--- /dev/null
+++ b/docs/scalar__or__pointer_8h_source.html
@@ -0,0 +1,101 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: scalar_or_pointer.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">scalar_or_pointer.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="scalar__or__pointer_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;</div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1detail.html">   37</a></span>&#160;<span class="keyword">namespace </span>detail {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">   42</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a> {</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">public</span>:</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">   45</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a>;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="keyword">private</span>:</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> scalar;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> <span class="keyword">const</span> *ptr;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;<span class="keyword">public</span>:</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a45cf72b3f0e3408a4b51990b648b71ee">   66</a></span>&#160;  <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a45cf72b3f0e3408a4b51990b648b71ee">ScalarOrPointer</a>(): scalar(0), ptr(<a class="code" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>) {}</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b85e1940149922942c7d495f9d12134">   70</a></span>&#160;  <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b85e1940149922942c7d495f9d12134">ScalarOrPointer</a>(<a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> <span class="keyword">const</span> &amp;val): scalar(val), ptr(<a class="code" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>) {}</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a03a54e9150c2cccb26d9fa688ea03f96">   74</a></span>&#160;  <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a03a54e9150c2cccb26d9fa688ea03f96">ScalarOrPointer</a>(<a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> <span class="keyword">const</span> *ptr_): scalar(0), ptr(ptr_) {}</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a95373f3d1b286c61cb204ba6a1282ce0">   78</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a95373f3d1b286c61cb204ba6a1282ce0">is_pointer</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;    <span class="keywordflow">return</span> bool(ptr);</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;  }</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a6b066568947df37094e4125b0347faf1">   84</a></span>&#160;  <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> <span class="keyword">const</span> *<a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a6b066568947df37094e4125b0347faf1">get_ptr</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    <span class="keywordflow">return</span> ptr;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;  }</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a81bd7b4f50b8d7c5effe5291ad920380">   90</a></span>&#160;  <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a81bd7b4f50b8d7c5effe5291ad920380">get_scalar</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;    <span class="keywordflow">return</span> scalar;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  }</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b29491782c3a129355fa4ef159cb970">   96</a></span>&#160;  <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a> &amp;<a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b29491782c3a129355fa4ef159cb970">operator=</a>(<a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> <span class="keyword">const</span> &amp;scalar_) {</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    scalar = scalar_;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    ptr = <span class="keyword">nullptr</span>;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;  }</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a54357e2f1d52aa8355b2ae7796740ea3">  104</a></span>&#160;  <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html">ScalarOrPointer</a> &amp;<a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a54357e2f1d52aa8355b2ae7796740ea3">operator=</a>(<a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> <span class="keyword">const</span> *ptr_) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    ptr = ptr_;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a1661baed19b4aa4eea725a6f6e6b26a3">  111</a></span>&#160;  <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a> <span class="keyword">get</span>() <span class="keyword">const</span> {</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;    <span class="keywordflow">if</span> (ptr) {</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;      <span class="keywordflow">return</span> *ptr;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    }</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;    <span class="keywordflow">return</span> scalar;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;  }</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a896f35e776c1291ceda0f432cc3da654">  120</a></span>&#160;  <span class="keyword">operator</span> <a class="code" href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">Scalar</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">get</span>();</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  }</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;};</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;} <span class="comment">// namespace detail</span></div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html_a81bd7b4f50b8d7c5effe5291ad920380"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a81bd7b4f50b8d7c5effe5291ad920380">cutlass::detail::ScalarOrPointer::get_scalar</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar get_scalar() const</div><div class="ttdoc">Gets the pointer value. </div><div class="ttdef"><b>Definition:</b> scalar_or_pointer.h:90</div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html_a3b85e1940149922942c7d495f9d12134"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b85e1940149922942c7d495f9d12134">cutlass::detail::ScalarOrPointer::ScalarOrPointer</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ScalarOrPointer(Scalar const &amp;val)</div><div class="ttdoc">Object behaves as a scalar. </div><div class="ttdef"><b>Definition:</b> scalar_or_pointer.h:70</div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html_a9d3006fc0c8bd98b9262606858b26cad"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad">cutlass::detail::ScalarOrPointer::Scalar</a></div><div class="ttdeci">Scalar_ Scalar</div><div class="ttdoc">Underlying scalar type. </div><div class="ttdef"><b>Definition:</b> scalar_or_pointer.h:45</div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html_a54357e2f1d52aa8355b2ae7796740ea3"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a54357e2f1d52aa8355b2ae7796740ea3">cutlass::detail::ScalarOrPointer::operator=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ScalarOrPointer &amp; operator=(Scalar const *ptr_)</div><div class="ttdoc">Assigns to a pointer value. </div><div class="ttdef"><b>Definition:</b> scalar_or_pointer.h:104</div></div>
+<div class="ttc" id="platform_8h_html_ab979d9d4b4923f7c54d6caa6e1a61936"><div class="ttname"><a href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a></div><div class="ttdeci">#define nullptr</div><div class="ttdoc">nullptr </div><div class="ttdef"><b>Definition:</b> platform.h:144</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html_a03a54e9150c2cccb26d9fa688ea03f96"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a03a54e9150c2cccb26d9fa688ea03f96">cutlass::detail::ScalarOrPointer::ScalarOrPointer</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ScalarOrPointer(Scalar const *ptr_)</div><div class="ttdoc">Object behaves as a scalar. </div><div class="ttdef"><b>Definition:</b> scalar_or_pointer.h:74</div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html_a95373f3d1b286c61cb204ba6a1282ce0"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a95373f3d1b286c61cb204ba6a1282ce0">cutlass::detail::ScalarOrPointer::is_pointer</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool is_pointer() const</div><div class="ttdoc">Returns true if is pointer. </div><div class="ttdef"><b>Definition:</b> scalar_or_pointer.h:78</div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html_a45cf72b3f0e3408a4b51990b648b71ee"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a45cf72b3f0e3408a4b51990b648b71ee">cutlass::detail::ScalarOrPointer::ScalarOrPointer</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ScalarOrPointer()</div><div class="ttdoc">Default ctor. </div><div class="ttdef"><b>Definition:</b> scalar_or_pointer.h:66</div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html_a6b066568947df37094e4125b0347faf1"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a6b066568947df37094e4125b0347faf1">cutlass::detail::ScalarOrPointer::get_ptr</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar const  * get_ptr() const</div><div class="ttdoc">Gets the pointer value. </div><div class="ttdef"><b>Definition:</b> scalar_or_pointer.h:84</div></div>
+<div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html_a3b29491782c3a129355fa4ef159cb970"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b29491782c3a129355fa4ef159cb970">cutlass::detail::ScalarOrPointer::operator=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ScalarOrPointer &amp; operator=(Scalar const &amp;scalar_)</div><div class="ttdoc">Assigns to a scalar and sets pointer to nullptr. </div><div class="ttdef"><b>Definition:</b> scalar_or_pointer.h:96</div></div>
+<div class="ttc" id="classcutlass_1_1detail_1_1ScalarOrPointer_html"><div class="ttname"><a href="classcutlass_1_1detail_1_1ScalarOrPointer.html">cutlass::detail::ScalarOrPointer</a></div><div class="ttdef"><b>Definition:</b> scalar_or_pointer.h:42</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/search/all_0.js b/docs/search/all_0.js
index 0165dcec14..f97d7299da 100644
--- a/docs/search/all_0.js
+++ b/docs/search/all_0.js
@@ -1,6 +1,7 @@
 var searchData=
 [
   ['_5f_5falign_5f_5f',['__align__',['../namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8',1,'cutlass::platform::__align__(1) aligned_chunk&lt; 1 &gt;'],['../namespacecutlass_1_1platform.html#a0bcb016704ec57f9499e662ba6156f98',1,'cutlass::platform::__align__(2) aligned_chunk&lt; 2 &gt;'],['../namespacecutlass_1_1platform.html#a71be5af25eeffa4077777f919e67d8da',1,'cutlass::platform::__align__(4) aligned_chunk&lt; 4 &gt;'],['../namespacecutlass_1_1platform.html#a42440254a16d4b6b95b95cc3360ee372',1,'cutlass::platform::__align__(8) aligned_chunk&lt; 8 &gt;'],['../namespacecutlass_1_1platform.html#a91d5e970d6ebe619914f40a9510bdb1e',1,'cutlass::platform::__align__(16) aligned_chunk&lt; 16 &gt;'],['../namespacecutlass_1_1platform.html#a210f4d360b1f9c3d074e71129fe4c0d9',1,'cutlass::platform::__align__(32) aligned_chunk&lt; 32 &gt;'],['../namespacecutlass_1_1platform.html#ae792b1c7ada1a33e306cd552f583bdce',1,'cutlass::platform::__align__(64) aligned_chunk&lt; 64 &gt;'],['../namespacecutlass_1_1platform.html#a5712ec4fed335a9b7f863fb3abe3c5eb',1,'cutlass::platform::__align__(128) aligned_chunk&lt; 128 &gt;'],['../namespacecutlass_1_1platform.html#a595cc98db29fb4d59772d2e2f52e347a',1,'cutlass::platform::__align__(256) aligned_chunk&lt; 256 &gt;'],['../namespacecutlass_1_1platform.html#ae70bb5d14a66500b47d2e3f83063d4a5',1,'cutlass::platform::__align__(512) aligned_chunk&lt; 512 &gt;'],['../namespacecutlass_1_1platform.html#a181e44e9c66f704175590727aaa9e5a1',1,'cutlass::platform::__align__(1024) aligned_chunk&lt; 1024 &gt;'],['../namespacecutlass_1_1platform.html#ae72c8fa997bb251d4140dceb03147154',1,'cutlass::platform::__align__(2048) aligned_chunk&lt; 2048 &gt;'],['../namespacecutlass_1_1platform.html#ada29683f1b408ae7b73cc8fbe2108628',1,'cutlass::platform::__align__(4096) aligned_chunk&lt; 4096 &gt;'],['../namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706',1,'cutlass::__align__(1) AlignedStruct&lt; 1 &gt;'],['../namespacecutlass.html#a602227fad962270da185209ecc6012f2',1,'cutlass::__align__(2) AlignedStruct&lt; 2 &gt;'],['../namespacecutlass.html#a266d7d2ae6e79537e46ee37b4fdface7',1,'cutlass::__align__(4) AlignedStruct&lt; 4 &gt;'],['../namespacecutlass.html#a1101e01215ddb0e5a7b120a4541a3c4e',1,'cutlass::__align__(8) AlignedStruct&lt; 8 &gt;'],['../namespacecutlass.html#aa4071cf5103f352a5100d9b4bba895e2',1,'cutlass::__align__(16) AlignedStruct&lt; 16 &gt;'],['../namespacecutlass.html#ada65694bdd4b70d4c9d769a536275a47',1,'cutlass::__align__(32) AlignedStruct&lt; 32 &gt;'],['../namespacecutlass.html#aa80a7cb3febd19b96f2ecbcb610b1b9e',1,'cutlass::__align__(64) AlignedStruct&lt; 64 &gt;']]],
+  ['_5f_5flaunch_5fbounds_5f_5f',['__launch_bounds__',['../namespacecutlass_1_1gemm.html#a01dd61085e2b3f578a7fc266b94fac55',1,'cutlass::gemm']]],
   ['_5f_5fnv_5fstd_5fmax',['__NV_STD_MAX',['../platform_8h.html#abd31f291635329bc15292954f1f01d38',1,'platform.h']]],
   ['_5f_5fnv_5fstd_5fmin',['__NV_STD_MIN',['../platform_8h.html#a39e234a3e3b0018b58df720bcb143420',1,'platform.h']]],
   ['_5f_5fplatform_5fcat',['__platform_cat',['../platform_8h.html#aece7fe71be5aaf8d12dc9e2372f97de4',1,'platform.h']]],
diff --git a/docs/search/all_1.js b/docs/search/all_1.js
index b1bf99160e..706f28c325 100644
--- a/docs/search/all_1.js
+++ b/docs/search/all_1.js
@@ -1,12 +1,14 @@
 var searchData=
 [
-  ['accesstype',['AccessType',['../structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7',1,'cutlass::FragmentIterator::AccessType()'],['../structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b',1,'cutlass::FragmentConstIterator::AccessType()'],['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html#a0b656c41b9fff6402f33e95204ce8860',1,'cutlass::FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::AccessType()'],['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html#a7eccab04c8d3968e74486d0525a3fa02',1,'cutlass::FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::AccessType()'],['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html#abca5165caae7304f33fcad267c16b002',1,'cutlass::FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::AccessType()'],['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html#a87d46956aa317f06f2ba9a535fdfc5da',1,'cutlass::FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::AccessType()'],['../structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae',1,'cutlass::Load::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a5d7ed0abaeea99ec3399f8eea930f761',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a2b9faed8d92f55a46e313d79d214316d',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a8611550c045d6def964d9dafb2be80c6',1,'cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a942970f88e13c88f496a9da67ed47a6f',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::AccessType()'],['../structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942',1,'cutlass::Store::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a89f329ba11f96ee3ce4428cbc792ac3d',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#ac0af6ae18137156abe24d6479232b955',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ad073f5e8252ad24b086f14bd2a109cf9',1,'cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aeb70e4859e2795b6af63ad5e203b4da9',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::AccessType()'],['../structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53',1,'cutlass::TileIteratorBase::AccessType()'],['../structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0',1,'cutlass::TileLoadIterator::AccessType()'],['../structcutlass_1_1TileStoreIterator.html#a0e79ed59263ebc3478c43f2f9a50cb5a',1,'cutlass::TileStoreIterator::AccessType()']]],
-  ['accumulators',['Accumulators',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce',1,'cutlass::gemm::GemmEpilogue::Accumulators()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2',1,'cutlass::gemm::GemmEpilogueTraits::Accumulators()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54',1,'cutlass::gemm::GemmConfig::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a505306c2af2059f6e84ba32d701d1602',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a4712650b46b6183ea60d79ef18f55b86',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d',1,'cutlass::gemm::ThreadMultiplyAdd::Accumulators()']]],
-  ['accumulatorsperthread',['AccumulatorsPerThread',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a98d0f84730551eaabfe7404b36478b50',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerThread()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a47807c9c9fb43e7f7b5f409a49986c30',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerThread()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5',1,'cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerThread()']]],
-  ['accumulatorsperwarp',['AccumulatorsPerWarp',['../structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108',1,'cutlass::gemm::GemmConfig::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af0c856abdd9f7f26f671493cc629bf0a',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a327ce1b7b6478c27c80baf5d9e26bdbc',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77',1,'cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerWarp()']]],
+  ['a',['A',['../structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b',1,'cutlass::gemm::GemmDesc']]],
+  ['abs',['abs',['../namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5',1,'cutlass::platform']]],
+  ['accesstype',['AccessType',['../structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7',1,'cutlass::FragmentIterator::AccessType()'],['../structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b',1,'cutlass::FragmentConstIterator::AccessType()'],['../structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8',1,'cutlass::Load::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57',1,'cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::AccessType()'],['../structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7',1,'cutlass::Store::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44',1,'cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301',1,'cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a',1,'cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9',1,'cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType()'],['../structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973',1,'cutlass::TileIteratorBase::AccessType()'],['../structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125',1,'cutlass::TileLoadIterator::AccessType()'],['../structcutlass_1_1TileStoreIterator.html#a10431ed94c0dd66a8c1d01ba7c8b5aa2',1,'cutlass::TileStoreIterator::AccessType()']]],
+  ['accumulators',['Accumulators',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::Accumulators()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591',1,'cutlass::gemm::GemmConfig::Accumulators()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce',1,'cutlass::gemm::GemmEpilogue::Accumulators()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4',1,'cutlass::gemm::GemmEpilogueTraits::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6',1,'cutlass::gemm::ThreadMultiplyAdd::Accumulators()']]],
+  ['accumulatorsperthread',['AccumulatorsPerThread',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a70e8444060c36afb41e5064b2fb18b42',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::AccumulatorsPerThread()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a24dd9fdc54b001840e8b82664b3bfe3a',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerThread()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa88edf2e89062be00181f5dc4f4a0947',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerThread()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad8ea3777c307bf3f8c58a8df3966715d',1,'cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerThread()']]],
+  ['accumulatorsperwarp',['AccumulatorsPerWarp',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a9a5632bb1891a33126d6170af72a3ae2',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3',1,'cutlass::gemm::GemmConfig::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aacb9a5a1d8f3b6e21bc449b0b97949b7',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ae3152470cbbba2310d9c83b9d5d43027',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e',1,'cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerWarp()']]],
+  ['add_5fpointer_5foffset',['add_pointer_offset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6',1,'cutlass::gemm::GemmGlobalIteratorAb::add_pointer_offset()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db',1,'cutlass::gemm::GemmGlobalIteratorCd::add_pointer_offset()'],['../classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143',1,'cutlass::TensorRef::add_pointer_offset()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a93ff0a9fda3e136a1674aeb82de050db',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::add_pointer_offset()'],['../structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232',1,'cutlass::TileLoadIterator::add_pointer_offset()'],['../structcutlass_1_1TileStoreIterator.html#aa6977ded39ead005b3435f13f0e51116',1,'cutlass::TileStoreIterator::add_pointer_offset()'],['../classcutlass_1_1ZipTileIterator.html#a0752af296e110d9104a45ae24bd0a104',1,'cutlass::ZipTileIterator::add_pointer_offset()']]],
   ['additive',['Additive',['../structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375a77d7cc80ec0c3ff42ca9b2aff98a1646',1,'cutlass::Identity']]],
-  ['advance',['advance',['../classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478',1,'cutlass::TensorRef']]],
-  ['aligned_5f',['aligned_',['../unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c',1,'cutlass::Vector::aligned_()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896',1,'cutlass::Vector&lt; half, kLanes_ &gt;::aligned_()']]],
+  ['aligned_5f',['aligned_',['../unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c',1,'cutlass::Vector::aligned_()'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#acc698443a38fd0ad63f931bdf172ad99',1,'cutlass::Vector&lt; half, 1 &gt;::aligned_()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896',1,'cutlass::Vector&lt; half, kLanes_ &gt;::aligned_()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1df3324868465331db13bd7775b55e87',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::aligned_()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ad6784e347f068ad20af52379286337c0',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::aligned_()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a4eab187b6f7650bd88ccd421c8330d3c',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::aligned_()']]],
   ['aligned_5fchunk',['aligned_chunk',['../structcutlass_1_1platform_1_1aligned__chunk.html',1,'cutlass::platform']]],
   ['aligned_5fstorage',['aligned_storage',['../structcutlass_1_1platform_1_1aligned__storage.html',1,'cutlass::platform']]],
   ['alignedstruct',['AlignedStruct',['../structcutlass_1_1AlignedStruct.html',1,'cutlass']]],
@@ -26,6 +28,8 @@ var searchData=
   ['alignment_5fof_3c_20ulonglong2_20_3e',['alignment_of&lt; ulonglong2 &gt;',['../structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html',1,'cutlass::platform']]],
   ['alignment_5fof_3c_20ulonglong4_20_3e',['alignment_of&lt; ulonglong4 &gt;',['../structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html',1,'cutlass::platform']]],
   ['alignment_5fof_3c_20volatile_20value_5ft_20_3e',['alignment_of&lt; volatile value_t &gt;',['../structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html',1,'cutlass::platform']]],
-  ['alpha',['alpha',['../structcutlass_1_1gemm_1_1GemmDesc.html#a053c2b529be527f510ee317737fbf7e8',1,'cutlass::gemm::GemmDesc::alpha()'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70',1,'cutlass::gemm::LinearScaling::Params::alpha()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6',1,'cutlass::gemm::LinearScaling::alpha()']]],
-  ['at',['at',['../structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8',1,'cutlass::Coord::at()'],['../structcutlass_1_1Coord.html#ab511a16210d1b94449f5bc6476f6a266',1,'cutlass::Coord::at(int dim)'],['../structcutlass_1_1Coord.html#af9cc7ab2088544d1240ac51c4c6e685d',1,'cutlass::Coord::at() const'],['../structcutlass_1_1Coord.html#aed4f4d1c7c0749fe72736d7a1213b6e9',1,'cutlass::Coord::at(int dim) const'],['../structcutlass_1_1FragmentIterator.html#a9cf31df06ff035705a1341810fcdcbf2',1,'cutlass::FragmentIterator::at(int d, int h, int w, int c=0) const'],['../structcutlass_1_1FragmentIterator.html#a7bdc407aae8d7360e089af347b585a53',1,'cutlass::FragmentIterator::at(int d, int h, int w, int c=0)'],['../structcutlass_1_1FragmentConstIterator.html#a8b957150545becacab1b8ead1be29424',1,'cutlass::FragmentConstIterator::at()'],['../structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd',1,'cutlass::PredicateVector::at()'],['../structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f',1,'cutlass::TrivialPredicateTileAdapter::at()'],['../structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986',1,'cutlass::PredicateTileAdapter::at()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd',1,'cutlass::ConstPredicateTileAdapter::at()'],['../classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f',1,'cutlass::TensorRef::at(Coord&lt; Rank &gt; const &amp;coord) const'],['../classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215',1,'cutlass::TensorRef::at(int idx) const'],['../classcutlass_1_1TensorView.html#ad894a8b373c413d308cb1b7c7ba545ce',1,'cutlass::TensorView::at(Coord_t const &amp;coord) const'],['../classcutlass_1_1TensorView.html#acc55581896fae8c0449b44b56d750155',1,'cutlass::TensorView::at(Offset_t idx) const']]]
+  ['alpha',['alpha',['../structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785',1,'cutlass::gemm::GemmDesc::alpha()'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70',1,'cutlass::gemm::LinearScaling::Params::alpha()'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662',1,'cutlass::gemm::LinearScalingDevicePtr::Params::alpha()']]],
+  ['arg',['arg',['../namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0',1,'cutlass::platform']]],
+  ['at',['at',['../structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93',1,'cutlass::Coord::at()'],['../structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694',1,'cutlass::Coord::at(int dim)'],['../structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe',1,'cutlass::Coord::at() const'],['../structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46',1,'cutlass::Coord::at(int dim) const'],['../structcutlass_1_1FragmentIterator.html#a35b721563536ab2c5dbab0f5de1c2b43',1,'cutlass::FragmentIterator::at(int d, int h, int w, int c=0) const'],['../structcutlass_1_1FragmentIterator.html#adb863b44dfbc1fa923625e767f6dd7cd',1,'cutlass::FragmentIterator::at(int d, int h, int w, int c=0)'],['../structcutlass_1_1FragmentConstIterator.html#a14f2ad2f9b90aea092ff1836e8fb159d',1,'cutlass::FragmentConstIterator::at()'],['../structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd',1,'cutlass::PredicateVector::at()'],['../structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f',1,'cutlass::TrivialPredicateTileAdapter::at()'],['../structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986',1,'cutlass::PredicateTileAdapter::at()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd',1,'cutlass::ConstPredicateTileAdapter::at()'],['../classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f',1,'cutlass::TensorRef::at(TensorCoord const &amp;coord) const'],['../classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c',1,'cutlass::TensorRef::at(LongIndex idx) const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a597bb02594c918c50f0bdb0cb4ce74c8',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::at(TensorCoord const &amp;coord) const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a92371a586e756734522a853bef74324d',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::at(LongIndex idx) const'],['../structcutlass_1_1TensorRefBatchStrided.html#aac4b013050925c1e2db4019140e82602',1,'cutlass::TensorRefBatchStrided::at()'],['../structcutlass_1_1TensorRefArray.html#a2a95fd42d48c550a45f340b04f9dfe3d',1,'cutlass::TensorRefArray::at()']]],
+  ['atype',['AType',['../structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037',1,'cutlass::gemm::GemmDesc']]]
 ];
diff --git a/docs/search/all_10.js b/docs/search/all_10.js
index 19828a38f9..69ff2ab61c 100644
--- a/docs/search/all_10.js
+++ b/docs/search/all_10.js
@@ -1,20 +1,29 @@
 var searchData=
 [
-  ['rank',['Rank',['../classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66',1,'cutlass::TensorRef::Rank()'],['../classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90',1,'cutlass::TensorView::Rank()']]],
-  ['ref',['ref',['../classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09',1,'cutlass::TensorView::ref()'],['../classcutlass_1_1TensorView.html#a5cbff89d3d8dc71d27a4d6c1d7abb58a',1,'cutlass::TensorView::ref() const']]],
-  ['registers',['registers',['../unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a',1,'cutlass::Vector::registers()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#abd116dc7a5b82ac9b1481fb1d2bfc93f',1,'cutlass::Vector&lt; half, kLanes_ &gt;::registers()']]],
+  ['rank',['Rank',['../classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a',1,'cutlass::TensorRef::Rank()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a233fba9abdbbd0fe3a2cc7465ea76a41',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Rank()'],['../classcutlass_1_1TensorView.html#a8dbb7043546fae133547d2c3e46dddab',1,'cutlass::TensorView::Rank()']]],
+  ['real',['real',['../classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974',1,'cutlass::platform::complex::real() const'],['../classcutlass_1_1platform_1_1complex.html#acda3e2050b2fefb1aca1fa8aa2063f8b',1,'cutlass::platform::complex::real()'],['../namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39',1,'cutlass::platform::real(cuFloatComplex const &amp;z)'],['../namespacecutlass_1_1platform.html#aa9b17e4705337452761c0d3bd5edfc67',1,'cutlass::platform::real(cuFloatComplex &amp;z)'],['../namespacecutlass_1_1platform.html#a1f13c0049c5f94b0480c619612608f7b',1,'cutlass::platform::real(cuDoubleComplex const &amp;z)'],['../namespacecutlass_1_1platform.html#a3365c0200a034973b7baecede9728239',1,'cutlass::platform::real(cuDoubleComplex &amp;z)'],['../namespacecutlass_1_1platform.html#a01e98d1c13ac9384f2bdc407fce6131b',1,'cutlass::platform::real(complex&lt; T &gt; const &amp;z)'],['../namespacecutlass_1_1platform.html#aa5cfa5849e12b745236485dd2db5f854',1,'cutlass::platform::real(complex&lt; T &gt; &amp;z)']]],
+  ['ref',['ref',['../classcutlass_1_1TensorView.html#a7e2beb56a3bc2d58c9ec65467b78c4f3',1,'cutlass::TensorView']]],
+  ['reference',['reference',['../structcutlass_1_1TileAllocation.html#a3466ef2b478e4617aa1ff261217cfd05',1,'cutlass::TileAllocation::reference()'],['../structcutlass_1_1TileAllocation.html#afcdc0be82acf0b4ae66468e2170c5a0d',1,'cutlass::TileAllocation::reference() const'],['../structcutlass_1_1ZipTileAllocation.html#a0d00001220df7f2bdb1f09ae3f37c585',1,'cutlass::ZipTileAllocation::reference()'],['../structcutlass_1_1ZipTileAllocation.html#af9964904e789b3ab58334f1ec1ceee56',1,'cutlass::ZipTileAllocation::reference() const']]],
+  ['registers',['registers',['../unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a',1,'cutlass::Vector::registers()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#abd116dc7a5b82ac9b1481fb1d2bfc93f',1,'cutlass::Vector&lt; half, kLanes_ &gt;::registers()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#af27a36f604513f05aebe0624a9c539ab',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::registers()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ace5e03860b434b2d2a4590bd2bc8c147',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::registers()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a15d5103e46d53e030100dedaecb0220a',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::registers()']]],
+  ['regulartilepredicatefunctor',['RegularTilePredicateFunctor',['../structcutlass_1_1RegularTilePredicateFunctor.html',1,'cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;'],['../structcutlass_1_1RegularTilePredicateFunctor.html#a0e0b728d3685097a9280fbca6a47a2af',1,'cutlass::RegularTilePredicateFunctor::RegularTilePredicateFunctor()']]],
   ['release',['release',['../classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279',1,'cutlass::platform::unique_ptr']]],
   ['remove_5fconst',['remove_const',['../structcutlass_1_1platform_1_1remove__const.html',1,'cutlass::platform']]],
   ['remove_5fconst_3c_20const_20t_20_3e',['remove_const&lt; const T &gt;',['../structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html',1,'cutlass::platform']]],
   ['remove_5fcv',['remove_cv',['../structcutlass_1_1platform_1_1remove__cv.html',1,'cutlass::platform']]],
   ['remove_5fvolatile',['remove_volatile',['../structcutlass_1_1platform_1_1remove__volatile.html',1,'cutlass::platform']]],
   ['remove_5fvolatile_3c_20volatile_20t_20_3e',['remove_volatile&lt; volatile T &gt;',['../structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html',1,'cutlass::platform']]],
-  ['reset',['reset',['../classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674',1,'cutlass::TensorRef::reset()'],['../classcutlass_1_1TensorView.html#a8b1785a1ea5d7aa7eba8e45297d539d3',1,'cutlass::TensorView::reset()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331',1,'cutlass::platform::unique_ptr::reset()']]],
+  ['reset',['reset',['../classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0',1,'cutlass::TensorRef::reset(Storage *ptr=nullptr)'],['../classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b',1,'cutlass::TensorRef::reset(Storage *ptr, StorageCoord const &amp;stride)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a1043f0ef382179b8ecd9f4e710f6e106',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::reset(Storage *ptr=nullptr)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6339a8ac88f9172acf0337d149b98cb4',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::reset(Storage *ptr, StorageCoord const &amp;stride)'],['../classcutlass_1_1TensorView.html#ae142eb93cf91e000b635d32fcacf1db3',1,'cutlass::TensorView::reset()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331',1,'cutlass::platform::unique_ptr::reset()']]],
   ['reshape_5ftile_2eh',['reshape_tile.h',['../reshape__tile_8h.html',1,'']]],
   ['reshapethreads',['ReshapeThreads',['../structcutlass_1_1gemm_1_1ReshapeThreads.html',1,'cutlass::gemm']]],
   ['reshapethreads_3c_20tile_5f_2c_20threads_5f_2c_20true_20_3e',['ReshapeThreads&lt; Tile_, Threads_, true &gt;',['../structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html',1,'cutlass::gemm']]],
   ['reshapetile',['ReshapeTile',['../structcutlass_1_1ReshapeTile.html',1,'cutlass']]],
   ['reshapetile_3c_20tile_5f_2c_20kaccesssize_5f_2c_20true_20_3e',['ReshapeTile&lt; Tile_, kAccessSize_, true &gt;',['../structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html',1,'cutlass']]],
-  ['residue',['residue',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aae1adef6312e069e59a83d38c03116f9',1,'cutlass::gemm::GlobalLoadStreamBase::residue()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aab37ea6c47e34466371314ed3971dc7b',1,'cutlass::gemm::GemmGlobalIteratorAb::residue()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a405b93680bb6e356369863244d0b56aa',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::residue()']]],
-  ['round_5fnearest',['round_nearest',['../namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e',1,'cutlass']]]
+  ['residue',['residue',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a235adaea5d4f01232c79cb6109dc6d17',1,'cutlass::gemm::GlobalLoadStream::residue()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593',1,'cutlass::gemm::GemmGlobalIteratorAb::residue()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a1b1ec121cbd17ee61d58ea843b900e9a',1,'cutlass::gemm::GlobalLoadStreamPair::residue()']]],
+  ['rollback',['rollback',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1e2eecdba1871fc11aa43a06edf6ed34',1,'cutlass::gemm::GlobalLoadStream::rollback()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6a9287a2cd87ca8a96cbf6b6d29199da',1,'cutlass::gemm::GlobalLoadStreamPair::rollback()']]],
+  ['round_5fnearest',['round_nearest',['../namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e',1,'cutlass']]],
+  ['row',['row',['../structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546',1,'cutlass::MatrixCoord::row() const'],['../structcutlass_1_1MatrixCoord.html#a67f3102e51abad1205e8a3450e7a6c7e',1,'cutlass::MatrixCoord::row()']]],
+  ['rowmajor',['RowMajor',['../structcutlass_1_1MatrixLayout_1_1RowMajor.html',1,'cutlass::MatrixLayout']]],
+  ['rowmajorblocklinear',['RowMajorBlockLinear',['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html',1,'cutlass::MatrixLayout']]],
+  ['rowmajorblockswizzle',['RowMajorBlockSwizzle',['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html',1,'cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;'],['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a4ed7847f8ddad11a6765d914b6f32fcd',1,'cutlass::gemm::RowMajorBlockSwizzle::RowMajorBlockSwizzle()']]],
+  ['rowmajorinterleaved',['RowMajorInterleaved',['../structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html',1,'cutlass::MatrixLayout']]]
 ];
diff --git a/docs/search/all_11.js b/docs/search/all_11.js
index 4f0bed2ee5..4953381bb7 100644
--- a/docs/search/all_11.js
+++ b/docs/search/all_11.js
@@ -1,89 +1,107 @@
 var searchData=
 [
-  ['scalar',['Scalar',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295',1,'cutlass::gemm::GemmEpilogue::Scalar()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66',1,'cutlass::gemm::GemmEpilogueTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Scalar()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afbbf15a7b5e4c38e59bf1debf67f04d6',1,'cutlass::gemm::GlobalLoadStreamBase::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b',1,'cutlass::gemm::GemmGlobalTileTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a',1,'cutlass::gemm::GemmGlobalIteratorAb::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e',1,'cutlass::gemm::GemmGlobalIteratorCd::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a8b04fd003fc2db46d749360e8838438b',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aaa439a0bb6b9de5e2722ea7b011effea',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a1b6956adc65254202864520b668edd14',1,'cutlass::gemm::GemmSharedLoadTileATraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a2a6065e583155b3e389253d3bfb64d73',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317',1,'cutlass::gemm::IgemmEpilogueScalar::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650',1,'cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183',1,'cutlass::gemm::LinearScaling::Scalar()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Scalar()'],['../structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16',1,'cutlass::TileIteratorBase::Scalar()'],['../structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895',1,'cutlass::TileLoadIterator::Scalar()'],['../structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7',1,'cutlass::TileStoreIterator::Scalar()'],['../unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd',1,'cutlass::Vector::Scalar()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b',1,'cutlass::Vector&lt; half, kLanes_ &gt;::Scalar()'],['../structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599',1,'cutlass::VectorTraits::Scalar()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Scalar()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Scalar()']]],
-  ['scalara',['ScalarA',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a6fa76b3e7ac721d47df47eba4e9ef222',1,'cutlass::gemm::FragmentMultiplyAdd::ScalarA()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a366083b229b28e7f44da38273b2ab263',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b',1,'cutlass::gemm::Gemm::ScalarA()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa',1,'cutlass::gemm::GemmConfig::ScalarA()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6',1,'cutlass::gemm::GemmTraits::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a236a408791a38358cbadf19dd0e8ed9f',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aeef5fa0437b4ce1c2e8ac4bc7e062b65',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarA()']]],
-  ['scalarb',['ScalarB',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af4f5c4a79c447e5aaf313878eca022cb',1,'cutlass::gemm::FragmentMultiplyAdd::ScalarB()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af52ec4b92a3e788169764014aebb85a1',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4',1,'cutlass::gemm::Gemm::ScalarB()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b',1,'cutlass::gemm::GemmConfig::ScalarB()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698',1,'cutlass::gemm::GemmTraits::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac7557562de1108bf1abc10829c83e88f',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aaf9e4b8b16150a6ad826c228af2bf103',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarB()']]],
-  ['scalarc',['ScalarC',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a92c1ffbfb479cd9fa2c2632ef8e347d3',1,'cutlass::gemm::FragmentMultiplyAdd::ScalarC()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af553be8ef0b4dc9bb593d98dfce8628d',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55',1,'cutlass::gemm::Gemm::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0',1,'cutlass::gemm::GemmEpilogue::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc',1,'cutlass::gemm::GemmEpilogueTraits::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea',1,'cutlass::gemm::GemmConfig::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443',1,'cutlass::gemm::GemmTraits::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af1a6d91d4734683ea791bf57f3c3bbb0',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#acdd554e996a712ff62eb70d6ecf8e116',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarC()']]],
-  ['scalard',['ScalarD',['../structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694',1,'cutlass::gemm::Gemm::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f',1,'cutlass::gemm::GemmEpilogue::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe',1,'cutlass::gemm::GemmEpilogueTraits::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8',1,'cutlass::gemm::GemmConfig::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e',1,'cutlass::gemm::GemmTraits::ScalarD()']]],
+  ['scalar',['Scalar',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295',1,'cutlass::gemm::GemmEpilogue::Scalar()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a',1,'cutlass::gemm::GemmEpilogueTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Scalar()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7073b32c2cc62ffcad70a9ca46995c4c',1,'cutlass::gemm::GlobalLoadStream::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b',1,'cutlass::gemm::GemmGlobalTileTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a',1,'cutlass::gemm::GemmGlobalIteratorAb::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e',1,'cutlass::gemm::GemmGlobalIteratorCd::Scalar()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429',1,'cutlass::gemm::SharedLoadStream::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a8b04fd003fc2db46d749360e8838438b',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aaa439a0bb6b9de5e2722ea7b011effea',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a1b6956adc65254202864520b668edd14',1,'cutlass::gemm::GemmSharedLoadTileATraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a2a6065e583155b3e389253d3bfb64d73',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aa37f285c74bb63c8bb8cbfc767378c41',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a1ebf24984863d0422356031615b74c53',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317',1,'cutlass::gemm::IgemmEpilogueScalar::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650',1,'cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183',1,'cutlass::gemm::LinearScaling::Scalar()'],['../structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e',1,'cutlass::gemm::LinearScalingDevicePtr::Scalar()'],['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad',1,'cutlass::detail::ScalarOrPointer::Scalar()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Scalar()'],['../structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6',1,'cutlass::TileAllocation::Scalar()'],['../structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34',1,'cutlass::TileIteratorBase::Scalar()'],['../structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511',1,'cutlass::TileLoadIterator::Scalar()'],['../structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5',1,'cutlass::TileStoreIterator::Scalar()'],['../unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd',1,'cutlass::Vector::Scalar()'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac',1,'cutlass::Vector&lt; half, 1 &gt;::Scalar()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b',1,'cutlass::Vector&lt; half, kLanes_ &gt;::Scalar()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a05914a7339b9d399ac7d8cf7ef617c31',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::Scalar()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af60049062cedca55d8cb4a3cae82641f',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::Scalar()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a602530542f526bd151f8a32deda015a1',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::Scalar()'],['../structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599',1,'cutlass::VectorTraits::Scalar()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Scalar()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Scalar()']]],
+  ['scalar_5for_5fpointer_2eh',['scalar_or_pointer.h',['../scalar__or__pointer_8h.html',1,'']]],
+  ['scalara',['ScalarA',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b',1,'cutlass::gemm::Gemm::ScalarA()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b',1,'cutlass::gemm::GemmConfig::ScalarA()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6',1,'cutlass::gemm::GemmTraits::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarA()']]],
+  ['scalaraccum',['ScalarAccum',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a1e854c281072db280ae90c2569b5f64c',1,'cutlass::gemm::FragmentMultiplyAdd::ScalarAccum()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ab3774e6aa28266b25e3822fc9e72edc2',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::ScalarAccum()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309',1,'cutlass::gemm::LinearScaling::ScalarAccum()']]],
+  ['scalaralphabeta',['ScalarAlphaBeta',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322',1,'cutlass::gemm::FragmentMultiplyAdd::ScalarAlphaBeta()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ae7a333f7aa3f52226c76cec9d2da042d',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::ScalarAlphaBeta()']]],
+  ['scalarb',['ScalarB',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4',1,'cutlass::gemm::Gemm::ScalarB()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6',1,'cutlass::gemm::GemmConfig::ScalarB()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698',1,'cutlass::gemm::GemmTraits::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarB()']]],
+  ['scalarc',['ScalarC',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55',1,'cutlass::gemm::Gemm::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d',1,'cutlass::gemm::GemmConfig::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0',1,'cutlass::gemm::GemmEpilogue::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c',1,'cutlass::gemm::GemmEpilogueTraits::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443',1,'cutlass::gemm::GemmTraits::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a48a641d601c88d95aa542b636f94d60d',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarC()']]],
+  ['scalard',['ScalarD',['../structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694',1,'cutlass::gemm::Gemm::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa',1,'cutlass::gemm::GemmConfig::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f',1,'cutlass::gemm::GemmEpilogue::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50',1,'cutlass::gemm::GemmEpilogueTraits::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e',1,'cutlass::gemm::GemmTraits::ScalarD()']]],
   ['scalarepilogue',['ScalarEpilogue',['../structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936',1,'cutlass::gemm::Gemm']]],
-  ['scalars',['scalars',['../unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f',1,'cutlass::Vector::scalars()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3',1,'cutlass::Vector&lt; half, kLanes_ &gt;::scalars()']]],
+  ['scalario',['ScalarIO',['../structcutlass_1_1ScalarIO.html',1,'cutlass::ScalarIO&lt; T &gt;'],['../structcutlass_1_1ScalarIO.html#ad4166575521254088bf6c6300c351714',1,'cutlass::ScalarIO::ScalarIO()'],['../structcutlass_1_1ScalarIO.html#a5227e1e9ed24326ad4f8dc94d186186f',1,'cutlass::ScalarIO::ScalarIO(T value)']]],
+  ['scalarorpointer',['ScalarOrPointer',['../classcutlass_1_1detail_1_1ScalarOrPointer.html',1,'cutlass::detail::ScalarOrPointer&lt; Scalar_ &gt;'],['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a45cf72b3f0e3408a4b51990b648b71ee',1,'cutlass::detail::ScalarOrPointer::ScalarOrPointer()'],['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b85e1940149922942c7d495f9d12134',1,'cutlass::detail::ScalarOrPointer::ScalarOrPointer(Scalar const &amp;val)'],['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a03a54e9150c2cccb26d9fa688ea03f96',1,'cutlass::detail::ScalarOrPointer::ScalarOrPointer(Scalar const *ptr_)']]],
+  ['scalarorpointer_3c_20scalar_20_3e',['ScalarOrPointer&lt; Scalar &gt;',['../classcutlass_1_1detail_1_1ScalarOrPointer.html',1,'cutlass::detail']]],
+  ['scalars',['scalars',['../unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f',1,'cutlass::Vector::scalars()'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a81709dacea12d6bd3bb328a3f0a519b0',1,'cutlass::Vector&lt; half, 1 &gt;::scalars()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3',1,'cutlass::Vector&lt; half, kLanes_ &gt;::scalars()']]],
+  ['second',['second',['../structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc',1,'cutlass::ZipTileAllocation::second()'],['../structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c',1,'cutlass::ZipFragment::second()'],['../structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9',1,'cutlass::ZipConvert::second()'],['../structcutlass_1_1ZipTensorRef.html#ad981b056cc96709a23e6d51dba4cd451',1,'cutlass::ZipTensorRef::second()'],['../structcutlass_1_1ZipTileIterator_1_1Params.html#a6eb742dc39b1d776cf5d62719835fe26',1,'cutlass::ZipTileIterator::Params::second()'],['../classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0',1,'cutlass::ZipTileIterator::second()'],['../structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527',1,'cutlass::ZipTileAllocation::Second()'],['../structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a',1,'cutlass::ZipFragment::Second()'],['../structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10',1,'cutlass::ZipConvert::Second()'],['../structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e',1,'cutlass::ZipTensorRef::Second()'],['../classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c',1,'cutlass::ZipTileIterator::Second()']]],
   ['set',['set',['../classcutlass_1_1PredicateVector_1_1Iterator.html#aadfd039b5622098c9e46706a27122575',1,'cutlass::PredicateVector::Iterator::set()'],['../structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af',1,'cutlass::PredicateVector::set()'],['../structcutlass_1_1PredicateTileAdapter.html#aeda47efdda0387f9c3c7b31f836afca5',1,'cutlass::PredicateTileAdapter::set()']]],
   ['sgemm_5ftraits_2eh',['sgemm_traits.h',['../sgemm__traits_8h.html',1,'']]],
   ['sgemmconfig',['SgemmConfig',['../structcutlass_1_1gemm_1_1SgemmConfig.html',1,'cutlass::gemm']]],
+  ['sgemmlbtraits',['SgemmLBTraits',['../structcutlass_1_1gemm_1_1SgemmLBTraits.html',1,'cutlass::gemm']]],
   ['sgemmtraits',['SgemmTraits',['../structcutlass_1_1gemm_1_1SgemmTraits.html',1,'cutlass::gemm']]],
-  ['shape',['Shape',['../structcutlass_1_1Shape.html',1,'cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;'],['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e',1,'cutlass::gemm::GemmMultiplicandTraits::Shape()'],['../structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29',1,'cutlass::ShapeScale::Shape()'],['../structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71',1,'cutlass::ShapeAdd::Shape()'],['../structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9',1,'cutlass::ShapeSub::Shape()'],['../structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94',1,'cutlass::ShapeMul::Shape()'],['../structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b',1,'cutlass::ShapeDiv::Shape()'],['../structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961',1,'cutlass::ShapeMax::Shape()'],['../structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549',1,'cutlass::ShapeMin::Shape()'],['../structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a',1,'cutlass::ShapeStrides::Shape()']]],
+  ['shape',['Shape',['../structcutlass_1_1Shape.html',1,'cutlass::Shape&lt; kD_, kH_, kW_, kC_ &gt;'],['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e',1,'cutlass::gemm::GemmMultiplicandTraits::Shape()'],['../structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29',1,'cutlass::ShapeScale::Shape()'],['../structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71',1,'cutlass::ShapeAdd::Shape()'],['../structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9',1,'cutlass::ShapeSub::Shape()'],['../structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94',1,'cutlass::ShapeMul::Shape()'],['../structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b',1,'cutlass::ShapeDiv::Shape()'],['../structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799',1,'cutlass::ShapeDivCeiling::Shape()'],['../structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961',1,'cutlass::ShapeMax::Shape()'],['../structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549',1,'cutlass::ShapeMin::Shape()'],['../structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4',1,'cutlass::ShapeStrides::Shape()'],['../structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc',1,'cutlass::TileAllocation::Shape()']]],
   ['shape_2eh',['shape.h',['../shape_8h.html',1,'']]],
   ['shapeadd',['ShapeAdd',['../structcutlass_1_1ShapeAdd.html',1,'cutlass']]],
   ['shapecount',['ShapeCount',['../structcutlass_1_1ShapeCount.html',1,'cutlass']]],
   ['shapediv',['ShapeDiv',['../structcutlass_1_1ShapeDiv.html',1,'cutlass']]],
+  ['shapedivceiling',['ShapeDivCeiling',['../structcutlass_1_1ShapeDivCeiling.html',1,'cutlass']]],
   ['shapemax',['ShapeMax',['../structcutlass_1_1ShapeMax.html',1,'cutlass']]],
   ['shapemin',['ShapeMin',['../structcutlass_1_1ShapeMin.html',1,'cutlass']]],
   ['shapemul',['ShapeMul',['../structcutlass_1_1ShapeMul.html',1,'cutlass']]],
   ['shapescale',['ShapeScale',['../structcutlass_1_1ShapeScale.html',1,'cutlass']]],
   ['shapestrides',['ShapeStrides',['../structcutlass_1_1ShapeStrides.html',1,'cutlass']]],
   ['shapesub',['ShapeSub',['../structcutlass_1_1ShapeSub.html',1,'cutlass']]],
-  ['shared',['shared',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#afabd328b106d45b156200f73942d211e',1,'cutlass::gemm::GemmTraits::StreamSharedStorage']]],
-  ['shared_5fiterator_5fload',['shared_iterator_load',['../namespacecutlass.html#abcec976c59cab75ca55b338d125154a3',1,'cutlass::shared_iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)'],['../namespacecutlass.html#aa9416026c6db08d92a34c2ac08fea8c3',1,'cutlass::shared_iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment, int d)']]],
-  ['shared_5fiterator_5fstore',['shared_iterator_store',['../namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109',1,'cutlass']]],
   ['shared_5fload_5ffence',['shared_load_fence',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84',1,'cutlass::gemm::GemmEpilogue::shared_load_fence()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe',1,'cutlass::gemm::GemmTraits::shared_load_fence()']]],
-  ['shared_5fload_5fiterator_5fd',['shared_load_iterator_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a1742e43c128665f0ca39cb578291df81',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
+  ['shared_5fload_5fstream_5fd',['shared_load_stream_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a5d3d1abd85f18476a74bcf616a717f9d',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
   ['shared_5fstorage',['shared_storage',['../structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b',1,'cutlass::gemm::Gemm::shared_storage()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e',1,'cutlass::gemm::GemmEpilogue::shared_storage()']]],
   ['shared_5fstore_5ffence',['shared_store_fence',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691',1,'cutlass::gemm::GemmEpilogue::shared_store_fence()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f',1,'cutlass::gemm::GemmTraits::shared_store_fence()']]],
-  ['shared_5fstore_5fiterator_5fd',['shared_store_iterator_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#af79a0c74a4c30ccec59b393721b5dfc1',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
-  ['shared_5fstream',['shared_stream',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#ae63b5a52106dbd37ea304196335ec210',1,'cutlass::gemm::GemmEpilogueTraits::SharedStorage']]],
-  ['shared_5fstream_5fa',['shared_stream_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aa9937ec51d18aad02398d95095117978',1,'cutlass::gemm::GemmTraits::Params']]],
-  ['shared_5fstream_5fb',['shared_stream_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a78f22007632937bbd5f3dab7b097477d',1,'cutlass::gemm::GemmTraits::Params']]],
-  ['sharedloaditeratora',['SharedLoadIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorA()']]],
-  ['sharedloaditeratorb',['SharedLoadIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorB()']]],
-  ['sharedloaditeratord',['SharedLoadIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070',1,'cutlass::gemm::GemmEpilogue::SharedLoadIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5',1,'cutlass::gemm::GemmEpilogueTraits::SharedLoadIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedLoadIteratorD()']]],
-  ['sharedloadstream',['SharedLoadStream',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html',1,'cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad',1,'cutlass::gemm::SharedLoadStream::SharedLoadStream()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a93e9bcdca4ceb68754fb1f73e2b25d25',1,'cutlass::gemm::SharedLoadStream::SharedLoadStream(Params const &amp;params, SharedStorage &amp;shared_storage)'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a49315aea1c54d84ff19b0ac215128b95',1,'cutlass::gemm::GemmTraits::SharedLoadStream::SharedLoadStream()']]],
-  ['sharedloadstreama',['SharedLoadStreamA',['../structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc',1,'cutlass::gemm::GemmTraits::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a21c860cc877df13d22dd30eeb5e2b06b',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a70063eb7e19921efef55a6f32562773f',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamA()']]],
-  ['sharedloadstreamb',['SharedLoadStreamB',['../structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290',1,'cutlass::gemm::GemmTraits::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac5eeca1e91f0e0d4dd48d432d5213215',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a54e8ad5874306a3764951a9791f02c96',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamB()']]],
-  ['sharedloadtiletraits',['SharedLoadTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a458cbcc16fc296d024f2a1a95fb926c1',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af1bc7f7c26db3399201cd95f35a56790',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedLoadTileTraits()']]],
-  ['sharedloadtransformerd',['SharedLoadTransformerD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13',1,'cutlass::gemm::GemmEpilogue']]],
-  ['sharedstorage',['SharedStorage',['../structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html',1,'cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;::SharedStorage'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage'],['../unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage'],['../unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html',1,'cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage'],['../structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7',1,'cutlass::gemm::Gemm::SharedStorage()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc',1,'cutlass::gemm::GemmEpilogue::SharedStorage()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404',1,'cutlass::gemm::SharedLoadStream::SharedStorage()'],['../structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39',1,'cutlass::TileLoadIterator::SharedStorage()'],['../structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b',1,'cutlass::TileStoreIterator::SharedStorage()']]],
+  ['shared_5fstore_5fiterator_5fd',['shared_store_iterator_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adfdf3eca06ea4061fbfe016336a3f276',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
+  ['shared_5fstream',['shared_stream',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a64ecac7d5843c38e55df78dcf609d33e',1,'cutlass::gemm::GemmEpilogueTraits::SharedStorage::shared_stream()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a50e9cc382a32abd5beab299a79b30b27',1,'cutlass::gemm::GemmTraits::Params::shared_stream()']]],
+  ['sharedloaditeratora',['SharedLoadIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorA()']]],
+  ['sharedloaditeratorb',['SharedLoadIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorB()']]],
+  ['sharedloaditeratord',['SharedLoadIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedLoadIteratorD()']]],
+  ['sharedloadstream',['SharedLoadStream',['../structcutlass_1_1gemm_1_1SharedLoadStream.html',1,'cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad',1,'cutlass::gemm::SharedLoadStream::SharedLoadStream()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#ad2f619712c817f91d62a13db0476a627',1,'cutlass::gemm::SharedLoadStream::SharedLoadStream(Params const &amp;params, TensorRef const &amp;ref)']]],
+  ['sharedloadstreama',['SharedLoadStreamA',['../structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc',1,'cutlass::gemm::GemmTraits::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aaa35c4d2a90f137f50c9ccd24d5c4f5c',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7e035ceab26dc904726ddbf14371f476',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamA()']]],
+  ['sharedloadstreamb',['SharedLoadStreamB',['../structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290',1,'cutlass::gemm::GemmTraits::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1d458fe1e416ddc4565f2b802592268b',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aff287e2ca10a437a82736baab2d7c28d',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamB()']]],
+  ['sharedloadstreamd',['SharedLoadStreamD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b',1,'cutlass::gemm::GemmEpilogue::SharedLoadStreamD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f',1,'cutlass::gemm::GemmEpilogueTraits::SharedLoadStreamD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadStreamD()']]],
+  ['sharedloadtiletraits',['SharedLoadTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a53dd72126a43a1c5811ed92a2313d19d',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#ad8f1b0fda40f1fb7dc598cc841f38afe',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::SharedLoadTileTraits()']]],
+  ['sharedstorage',['SharedStorage',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html',1,'cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage'],['../unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage'],['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html',1,'cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage'],['../structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html',1,'cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;::SharedStorage'],['../structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7',1,'cutlass::gemm::Gemm::SharedStorage()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc',1,'cutlass::gemm::GemmEpilogue::SharedStorage()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404',1,'cutlass::gemm::SharedLoadStream::SharedStorage()'],['../structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948',1,'cutlass::TileLoadIterator::SharedStorage()'],['../structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca',1,'cutlass::TileStoreIterator::SharedStorage()']]],
   ['sharedstorefragmentd',['SharedStoreFragmentD',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8',1,'cutlass::gemm::IgemmEpilogueTraitsHelper']]],
-  ['sharedstoreiteratora',['SharedStoreIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4',1,'cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46',1,'cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorA()']]],
-  ['sharedstoreiteratorb',['SharedStoreIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448',1,'cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f',1,'cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorB()']]],
-  ['sharedstoreiteratord',['SharedStoreIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a',1,'cutlass::gemm::GemmEpilogue::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc',1,'cutlass::gemm::GemmEpilogueTraits::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreIteratorD()']]],
-  ['sharedstorestorage',['SharedStoreStorage',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa',1,'cutlass::gemm::GlobalLoadStreamBase']]],
-  ['sharedstorestoragea',['SharedStoreStorageA',['../structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c',1,'cutlass::gemm::GemmTraits']]],
-  ['sharedstorestorageb',['SharedStoreStorageB',['../structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed',1,'cutlass::gemm::GemmTraits']]],
-  ['sharedstoretiletraits',['SharedStoreTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a2aad3b2454d956f20dac1bb0ad75a2f8',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab1ae3d51f65f7af60147da1c51a7a0c2',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a7624585480f83a46725c92b5dee20ebc',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aca6118b5bbe6f667f05c53bd52543045',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits()']]],
-  ['sharedstoretransformerd',['SharedStoreTransformerD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c',1,'cutlass::gemm::GemmEpilogue::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c',1,'cutlass::gemm::GemmEpilogueTraits::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreTransformerD()']]],
+  ['sharedstoreiteratora',['SharedStoreIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9',1,'cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae',1,'cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorA()']]],
+  ['sharedstoreiteratorb',['SharedStoreIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce',1,'cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1',1,'cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorB()']]],
+  ['sharedstoreiteratord',['SharedStoreIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a',1,'cutlass::gemm::GemmEpilogue::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668',1,'cutlass::gemm::GemmEpilogueTraits::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreIteratorD()']]],
+  ['sharedstoretiletraits',['SharedStoreTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aa21c231aa56c9e5f2705cac62b17bbbe',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a86ed2ebc5b6e4426ab35a1f30a3e47bb',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a872dc2d0b8ed6c75c41d258a23183861',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits()']]],
+  ['sharedstoretransformerd',['SharedStoreTransformerD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c',1,'cutlass::gemm::GemmEpilogue::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69',1,'cutlass::gemm::GemmEpilogueTraits::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreTransformerD()']]],
+  ['sharedstream',['SharedStream',['../structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17',1,'cutlass::gemm::GemmTraits']]],
+  ['sharedstreampair',['SharedStreamPair',['../structcutlass_1_1gemm_1_1SharedStreamPair.html',1,'cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a0b69ca0b37dad32ba25c7f7e71a3dcc1',1,'cutlass::gemm::SharedStreamPair::SharedStreamPair()']]],
   ['simplifiedgemmepiloguetraits',['SimplifiedGemmEpilogueTraits',['../structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html',1,'cutlass::gemm']]],
   ['simplifiedgemmtraits',['SimplifiedGemmTraits',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html',1,'cutlass::gemm']]],
   ['simplifiedgemmtraits_3c_20klayouta_5f_2c_20klayoutb_5f_2c_20gemmconfig_5f_2c_20gemmepilogue_3c_20gemmepiloguetraits_5f_20_3e_2c_20index_5f_20_3e',['SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, Index_ &gt;',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html',1,'cutlass::gemm']]],
   ['simplifiedgemmtraitshelper',['SimplifiedGemmTraitsHelper',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html',1,'cutlass::gemm']]],
-  ['size',['size',['../classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027',1,'cutlass::TensorView::size() const'],['../classcutlass_1_1TensorView.html#a6218d8555679966eab784a6bb1fa4ed1',1,'cutlass::TensorView::size(int dim) const']]],
-  ['skew',['Skew',['../structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16',1,'cutlass::TileIteratorBase::Skew()'],['../structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c',1,'cutlass::TileLoadIterator::Skew()'],['../structcutlass_1_1TileStoreIterator.html#a57348779bb004ed1ea0fd9cc252e895d',1,'cutlass::TileStoreIterator::Skew()']]],
+  ['sin',['sin',['../namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a',1,'cutlass::platform']]],
+  ['size',['size',['../classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a',1,'cutlass::TensorView::size() const'],['../classcutlass_1_1TensorView.html#a3778dc1c62a27ed811f1bb82a420096e',1,'cutlass::TensorView::size(int dim) const']]],
+  ['skew',['Skew',['../structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1',1,'cutlass::TileIteratorBase::Skew()'],['../structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f',1,'cutlass::TileLoadIterator::Skew()'],['../structcutlass_1_1TileStoreIterator.html#a18248da35dc9a0ae2411121bee323085',1,'cutlass::TileStoreIterator::Skew()']]],
+  ['slice',['slice',['../structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c',1,'cutlass::Coord']]],
+  ['source_5ffragment',['source_fragment',['../structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a',1,'cutlass::TileStoreStream']]],
+  ['source_5frequired',['source_required',['../structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54',1,'cutlass::gemm::LinearScaling']]],
+  ['sqrt',['sqrt',['../namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747',1,'cutlass::platform']]],
   ['sqrt_5fest',['sqrt_est',['../structcutlass_1_1sqrt__est.html',1,'cutlass']]],
-  ['stage',['stage',['../structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92',1,'cutlass::TileLoadIterator::stage()'],['../structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e',1,'cutlass::TileStoreIterator::stage()']]],
+  ['stage',['stage',['../structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3',1,'cutlass::TileLoadIterator::stage()'],['../structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e',1,'cutlass::TileStoreIterator::stage()']]],
   ['static_5fassert',['static_assert',['../platform_8h.html#adde4c9ea91b753491851361a4198c009',1,'platform.h']]],
-  ['storage',['Storage',['../structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a',1,'cutlass::PredicateVector::Storage()'],['../classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd',1,'cutlass::TensorRef::Storage()'],['../structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a',1,'cutlass::TileIteratorBase::Storage()']]],
+  ['storage',['storage',['../structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604',1,'cutlass::TileAllocation::storage()'],['../structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a',1,'cutlass::PredicateVector::Storage()'],['../classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009',1,'cutlass::TensorRef::Storage()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Storage()'],['../structcutlass_1_1TensorRefBatchStrided.html#aa86a59779c0830e8cf82066853dc1089',1,'cutlass::TensorRefBatchStrided::Storage()'],['../structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8',1,'cutlass::TensorRefArray::Storage()'],['../classcutlass_1_1TensorView.html#a52fb77744c7c7ecf0f8a3a725556293d',1,'cutlass::TensorView::Storage()'],['../structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd',1,'cutlass::TileAllocation::Storage()'],['../structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0',1,'cutlass::TileIteratorBase::Storage()']]],
+  ['storagecoord',['StorageCoord',['../classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d',1,'cutlass::TensorRef::StorageCoord()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::StorageCoord()'],['../classcutlass_1_1TensorView.html#abaf7ec0e96bc99cf0ce243e703b8711c',1,'cutlass::TensorView::StorageCoord()']]],
   ['storagetype',['StorageType',['../structcutlass_1_1StorageType.html',1,'cutlass']]],
   ['storagetype_3c_201_20_3e',['StorageType&lt; 1 &gt;',['../structcutlass_1_1StorageType_3_011_01_4.html',1,'cutlass']]],
   ['storagetype_3c_202_20_3e',['StorageType&lt; 2 &gt;',['../structcutlass_1_1StorageType_3_012_01_4.html',1,'cutlass']]],
   ['storagetype_3c_204_20_3e',['StorageType&lt; 4 &gt;',['../structcutlass_1_1StorageType_3_014_01_4.html',1,'cutlass']]],
-  ['store',['Store',['../structcutlass_1_1Store.html',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;'],['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a1f31090613c4e6f0895f598880d6c4e5',1,'cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage::store()'],['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html#a118c78aa6b0ae0f0c78889689b6878c8',1,'cutlass::FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::store()'],['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html#a45319520b7d341c66bd54d3e8fec48f8',1,'cutlass::FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::store()'],['../structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf',1,'cutlass::Store::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a00f6bb93d318bf4cff35c9dabc630167',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a027980b8456243974b0c442866a66e3a',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::store()'],['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ab70d04589637f285f861902f649f834e',1,'cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aa130564bb2eba7b07e1f183c98f1d9e2',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::store()'],['../structcutlass_1_1TileStoreIterator.html#a53820de506cecb1f5fb07b3385d8272a',1,'cutlass::TileStoreIterator::store(Fragment &amp;fragment, PredicateIterator pred_it) const'],['../structcutlass_1_1TileStoreIterator.html#a60258b7c1a1708f97e28f8f6c292bfe4',1,'cutlass::TileStoreIterator::store(Fragment &amp;fragment) const']]],
-  ['store_3c_20double_2c_202_2c_20memory_5f_2c_20true_2c_2016_20_3e',['Store&lt; double, 2, Memory_, true, 16 &gt;',['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html',1,'cutlass']]],
-  ['store_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_2016_20_3e',['Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html',1,'cutlass']]],
-  ['store_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_204_20_3e',['Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html',1,'cutlass']]],
-  ['store_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_208_20_3e',['Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html',1,'cutlass']]],
-  ['store_5fiterator',['store_iterator',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a3e5167fa3f2dc0d8b4b903bd4e936969',1,'cutlass::gemm::GlobalLoadStreamBase::Params::store_iterator()'],['../unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a939e9ddecc5ee97882a54211a61f5586',1,'cutlass::gemm::GlobalLoadStreamBase::SharedStorage::store_iterator()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae',1,'cutlass::gemm::GlobalLoadStreamBase::store_iterator()']]],
-  ['store_5fpost_5fincrement',['store_post_increment',['../structcutlass_1_1TileStoreIterator.html#a57aa2c36eb6ad9d2500c1f5396b3a526',1,'cutlass::TileStoreIterator::store_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)'],['../structcutlass_1_1TileStoreIterator.html#ae63949f58c1b32959bbfa5b64d521f0f',1,'cutlass::TileStoreIterator::store_post_increment(Fragment &amp;fragment)']]],
-  ['storeiterator',['StoreIterator',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834',1,'cutlass::gemm::GlobalLoadStreamBase']]],
-  ['stream_5fa',['stream_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a62d3dcf5d97a0a896b2033e55dfb0811',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage::stream_a()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::stream_a()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8',1,'cutlass::gemm::GemmTraits::SharedLoadStream::stream_a()']]],
-  ['stream_5fb',['stream_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a0173fcc8856b17a52cc5eee845f101fa',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage::stream_b()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::stream_b()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d',1,'cutlass::gemm::GemmTraits::SharedLoadStream::stream_b()']]],
-  ['streamsharedstorage',['StreamSharedStorage',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::StreamSharedStorage&lt; GlobalLoadStream_, SharedLoadStream_ &gt;'],['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage']]],
-  ['streamsharedstorage_3c_20globalloadstreama_2c_20sharedloadstreama_20_3e',['StreamSharedStorage&lt; GlobalLoadStreamA, SharedLoadStreamA &gt;',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html',1,'cutlass::gemm::GemmTraits']]],
-  ['streamsharedstorage_3c_20globalloadstreamb_2c_20sharedloadstreamb_20_3e',['StreamSharedStorage&lt; GlobalLoadStreamB, SharedLoadStreamB &gt;',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html',1,'cutlass::gemm::GemmTraits']]],
-  ['stride',['stride',['../classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878',1,'cutlass::TensorRef::stride() const'],['../classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31',1,'cutlass::TensorRef::stride(int dim) const'],['../classcutlass_1_1TensorView.html#a3ac125a25199fd91f73d2cfe9fc3d09b',1,'cutlass::TensorView::stride() const'],['../classcutlass_1_1TensorView.html#a522630bb0df977282a9bff17e6fee843',1,'cutlass::TensorView::stride(int dim) const']]],
-  ['stride_5fd',['stride_d',['../structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1',1,'cutlass::TileIteratorBase::Params']]],
-  ['stride_5fh',['stride_h',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae0fdc7426b22ff2c20f077e251ebc823',1,'cutlass::gemm::GemmEpilogueTraits::Params::stride_h()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::stride_h()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::stride_h()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc',1,'cutlass::TileIteratorBase::Params::stride_h()']]],
-  ['stride_5fw',['stride_w',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2',1,'cutlass::gemm::GemmEpilogueTraits::Params::stride_w()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c',1,'cutlass::TileIteratorBase::Params::stride_w()']]],
-  ['strides',['Strides',['../structcutlass_1_1FragmentIterator.html#a2858ba9a8a9bbaef1de73415cff9b3c1',1,'cutlass::FragmentIterator']]],
-  ['subview',['subview',['../classcutlass_1_1TensorView.html#aee43c516397d7c06eb8012711d8d7c15',1,'cutlass::TensorView']]],
+  ['storagetype_3c_20kalignment_5f_20_3e',['StorageType&lt; kAlignment_ &gt;',['../structcutlass_1_1StorageType.html',1,'cutlass']]],
+  ['storagetype_3c_20sizeof_28scalar_29_3e',['StorageType&lt; sizeof(Scalar)&gt;',['../structcutlass_1_1StorageType.html',1,'cutlass']]],
+  ['store',['Store',['../structcutlass_1_1Store.html',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;'],['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a673ddeb91e89c9a39c0a4dbaaa97dd8f',1,'cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage::store()'],['../structcutlass_1_1Store.html#a187b63f682f7f00f8bf9ed3ee59d602f',1,'cutlass::Store::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#a535b4356c9bc21352fc2459b3c2246d1',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a453a2eed81a86d6637778a50bed06b59',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a1fcdc328d4b2deb1c50be5d31ef9e55f',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::store()'],['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a174ed368f1c702b4c958887f0b895eee',1,'cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#ae16a5d6d7a42ffeba0f0ebe2d252ec28',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a298a08c8c4c1ea871e92e2491b2cb549',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::store()'],['../structcutlass_1_1TileStoreIterator.html#a0218adf569557b17d8e36a3d97fb185e',1,'cutlass::TileStoreIterator::store(Fragment const &amp;fragment, PredicateIterator pred_it) const'],['../structcutlass_1_1TileStoreIterator.html#aa27a456bf12d0e44adc89a1c2ca7bc3b',1,'cutlass::TileStoreIterator::store(Fragment const &amp;fragment) const'],['../classcutlass_1_1ZipTileIterator.html#a884983cd1df81739fc971b46697b851c',1,'cutlass::ZipTileIterator::store(Fragment const &amp;fragment) const'],['../classcutlass_1_1ZipTileIterator.html#a425b4a4f2e66f3ff5960742d19d06bc2',1,'cutlass::ZipTileIterator::store(Fragment const &amp;fragment, Coord&lt; 4 &gt; const &amp;offset) const'],['../classcutlass_1_1ZipTileIterator.html#aa617653e75535fe13aafa80bc4cc9cc4',1,'cutlass::ZipTileIterator::store(Fragment const &amp;fragment, PredicateIterator pred_it) const']]],
+  ['store_3c_20double_2c_202_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20double_2c_20kstride_2c_2016_20_3e',['Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;',['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html',1,'cutlass']]],
+  ['store_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_201_2c_202_20_3e',['Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html',1,'cutlass']]],
+  ['store_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_2016_20_3e',['Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html',1,'cutlass']]],
+  ['store_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_204_20_3e',['Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html',1,'cutlass']]],
+  ['store_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_208_20_3e',['Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html',1,'cutlass']]],
+  ['store_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akwmmamatrix_2c_20fragmentelement_5f_2c_20kstride_2c_20size_20_3e',['Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html',1,'cutlass']]],
+  ['store_5felement',['store_element',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d',1,'cutlass::gemm::GemmGlobalIteratorCd::store_element()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a051eb2a8637601cf9c1f52999117151b',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::store_element()'],['../structcutlass_1_1TileStoreIterator.html#a1f7c4143443d2bee4a69d1b380576f08',1,'cutlass::TileStoreIterator::store_element()']]],
+  ['store_5fiterator',['store_iterator',['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a289ac736c0c098ae6da6a21c9abfe63f',1,'cutlass::gemm::GlobalLoadStream::Params::store_iterator()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d',1,'cutlass::gemm::GlobalLoadStream::store_iterator()']]],
+  ['store_5fpost_5fincrement',['store_post_increment',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a',1,'cutlass::gemm::GemmGlobalIteratorCd::store_post_increment()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a018d5be34cdbb263d7f133197b2921ca',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::store_post_increment()'],['../structcutlass_1_1TileStoreIterator.html#adbb7fdb5710295cdfb86e090a8c40f44',1,'cutlass::TileStoreIterator::store_post_increment(Fragment const &amp;fragment, PredicateIterator pred_it)'],['../structcutlass_1_1TileStoreIterator.html#a35ab2595b09912d31a60c2a4e5847c88',1,'cutlass::TileStoreIterator::store_post_increment(Fragment const &amp;fragment)'],['../classcutlass_1_1ZipTileIterator.html#a961a340f902542f3000dc80e852958f2',1,'cutlass::ZipTileIterator::store_post_increment(Fragment const &amp;fragment)'],['../classcutlass_1_1ZipTileIterator.html#a18ed76e6be1a02d0229cdf1d6528e34f',1,'cutlass::ZipTileIterator::store_post_increment(Fragment const &amp;fragment, Coord&lt; 4 &gt; const &amp;offset)'],['../classcutlass_1_1ZipTileIterator.html#a3a2cae47533c1122eb8ec404473a0d9e',1,'cutlass::ZipTileIterator::store_post_increment(Fragment const &amp;fragment, PredicateIterator pred_it)']]],
+  ['storeiterator',['StoreIterator',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2',1,'cutlass::gemm::GlobalLoadStream']]],
+  ['stream_5fa',['stream_a',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705',1,'cutlass::gemm::GlobalLoadStreamPair::Params::stream_a()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a87d507b703a0eb654265f4529ed18f66',1,'cutlass::gemm::GlobalLoadStreamPair::SharedStorage::stream_a()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127',1,'cutlass::gemm::GlobalLoadStreamPair::stream_a()'],['../structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#afb56016927b59b8d5447c3656f0b634e',1,'cutlass::gemm::SharedStreamPair::Params::stream_a()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a',1,'cutlass::gemm::SharedStreamPair::stream_a()']]],
+  ['stream_5fb',['stream_b',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258',1,'cutlass::gemm::GlobalLoadStreamPair::Params::stream_b()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a6d9444ed13ed544febe196e3e835ea16',1,'cutlass::gemm::GlobalLoadStreamPair::SharedStorage::stream_b()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9',1,'cutlass::gemm::GlobalLoadStreamPair::stream_b()'],['../structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#a4a8f9207ffb3bbcdb000af62808371f5',1,'cutlass::gemm::SharedStreamPair::Params::stream_b()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9',1,'cutlass::gemm::SharedStreamPair::stream_b()']]],
+  ['streama',['StreamA',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227',1,'cutlass::gemm::GlobalLoadStreamPair::StreamA()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4',1,'cutlass::gemm::SharedStreamPair::StreamA()']]],
+  ['streamb',['StreamB',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c',1,'cutlass::gemm::GlobalLoadStreamPair::StreamB()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529',1,'cutlass::gemm::SharedStreamPair::StreamB()']]],
+  ['streamsharedstorage',['StreamSharedStorage',['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html',1,'cutlass::gemm::GemmEpilogueTraits']]],
+  ['stride',['stride',['../structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a56f728be8b1a3e71f4f322e1dbfb3495',1,'cutlass::MatrixLayout::RowMajorInterleaved::stride()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dab2c5aee6958c9d99109183401f41f',1,'cutlass::MatrixLayout::ColumnMajorInterleaved::stride()'],['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#aa3c5b8d44216fdeeee9cce5e38ce418b',1,'cutlass::MatrixLayout::ContiguousLayout::stride()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#abb88bd43e5493682d1132c550b734a36',1,'cutlass::MatrixLayout::ColumnMajorBlockLinear::stride()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a1b25b4a7061d81041a8e2a548128ca71',1,'cutlass::MatrixLayout::RowMajorBlockLinear::stride()'],['../classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c',1,'cutlass::TensorRef::stride() const'],['../classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7',1,'cutlass::TensorRef::stride(int dim) const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::stride() const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af83380ffc0e5949d40d1a5039a5ddc00',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::stride(int dim) const']]],
+  ['stride_5fadvance',['stride_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7',1,'cutlass::gemm::GemmGlobalIteratorAb::stride_advance()'],['../structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11',1,'cutlass::TileLoadIterator::stride_advance()']]],
+  ['stride_5fd',['stride_d',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::stride_d()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2',1,'cutlass::TileIteratorBase::Params::stride_d()']]],
+  ['stride_5fh',['stride_h',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a497b91e93d0eb29ca54553f8de4c694f',1,'cutlass::gemm::GemmEpilogueTraits::Params::stride_h()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::stride_h()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623',1,'cutlass::TileIteratorBase::Params::stride_h()']]],
+  ['stride_5fw',['stride_w',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68',1,'cutlass::gemm::GemmEpilogueTraits::Params::stride_w()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d',1,'cutlass::TileIteratorBase::Params::stride_w()']]],
+  ['strides',['strides',['../structcutlass_1_1TensorRefArray.html#a76228819a72b8ed341e680ba84a960be',1,'cutlass::TensorRefArray::strides()'],['../structcutlass_1_1FragmentIterator.html#a2e93985d759d904ac858054eeaa9e50e',1,'cutlass::FragmentIterator::Strides()'],['../structcutlass_1_1TileAllocation.html#aba9164abe2fd7a091a858b23c0d3ac9c',1,'cutlass::TileAllocation::Strides()']]],
+  ['stridevector',['StrideVector',['../structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::StrideVector'],['../classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059',1,'cutlass::TensorRef::StrideVector()'],['../classcutlass_1_1TensorView.html#a625892aa9063eebf769bb2ed0cba7684',1,'cutlass::TensorView::StrideVector()']]],
+  ['stype',['SType',['../structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2',1,'cutlass::gemm::GemmDesc']]],
+  ['subview',['subview',['../classcutlass_1_1TensorView.html#ad4b3faa318699b786f94cf8735a11dbb',1,'cutlass::TensorView']]],
   ['swap',['swap',['../classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036',1,'cutlass::platform::unique_ptr::swap()'],['../namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678',1,'cutlass::platform::swap()']]],
-  ['swizzle',['swizzle',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8',1,'cutlass::gemm::IdentityBlockSwizzle']]]
+  ['swizzle',['swizzle',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8',1,'cutlass::gemm::IdentityBlockSwizzle::swizzle()'],['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b',1,'cutlass::gemm::ColumnMajorBlockSwizzle::swizzle()'],['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d',1,'cutlass::gemm::RowMajorBlockSwizzle::swizzle()']]],
+  ['swizzledirection',['swizzleDirection',['../structcutlass_1_1gemm_1_1swizzleDirection.html',1,'cutlass::gemm']]]
 ];
diff --git a/docs/search/all_12.js b/docs/search/all_12.js
index cd80c9c193..c17b85a6f2 100644
--- a/docs/search/all_12.js
+++ b/docs/search/all_12.js
@@ -1,37 +1,65 @@
 var searchData=
 [
   ['tensor_5fref_2eh',['tensor_ref.h',['../tensor__ref_8h.html',1,'']]],
+  ['tensor_5fref_5fcollection_2eh',['tensor_ref_collection.h',['../tensor__ref__collection_8h.html',1,'']]],
+  ['tensor_5fstride',['tensor_stride',['../structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f',1,'cutlass::TensorRefBatchStrided']]],
   ['tensor_5fview_2eh',['tensor_view.h',['../tensor__view_8h.html',1,'']]],
-  ['tensorref',['TensorRef',['../classcutlass_1_1TensorRef.html',1,'cutlass::TensorRef&lt; Storage_, Rank_ &gt;'],['../classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478',1,'cutlass::TensorRef::TensorRef()'],['../classcutlass_1_1TensorRef.html#ae48325312183ff61dbd312c64f31fcb8',1,'cutlass::TensorRef::TensorRef(Storage *ptr, Coord&lt; Rank &gt; stride)']]],
-  ['tensorref_3c_20t_2c_204_20_3e',['TensorRef&lt; T, 4 &gt;',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
-  ['tensorref_5ft',['TensorRef_t',['../classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab',1,'cutlass::TensorView']]],
-  ['tensorview',['TensorView',['../classcutlass_1_1TensorView.html',1,'cutlass::TensorView&lt; T &gt;'],['../classcutlass_1_1TensorView.html#a22401348796d603546e44d6c196018dc',1,'cutlass::TensorView::TensorView()'],['../classcutlass_1_1TensorView.html#a80480aa986a488a106a9b0aea331c317',1,'cutlass::TensorView::TensorView(TensorRef_t const &amp;_ref, Coord_t const &amp;_size)']]],
-  ['this_5f',['This_',['../structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95',1,'cutlass::Fragment::This_()'],['../structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369',1,'cutlass::FragmentIterator::This_()'],['../structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f',1,'cutlass::FragmentConstIterator::This_()'],['../structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317',1,'cutlass::gemm::Gemm::This_()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8',1,'cutlass::gemm::GemmGlobalIteratorAb::This_()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b',1,'cutlass::gemm::GemmGlobalIteratorCd::This_()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::This_()']]],
+  ['tensorarrayref',['TensorArrayRef',['../structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109',1,'cutlass::TensorRefArray::TensorArrayRef()'],['../structcutlass_1_1TensorRefArray.html#aea35239326dcb23c3c6a18e7b3f92091',1,'cutlass::TensorRefArray::TensorArrayRef(Storage **_pointers, Index _strides[kStorageRank - 1])']]],
+  ['tensorcoord',['TensorCoord',['../classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65',1,'cutlass::TensorRef::TensorCoord()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorCoord()'],['../structcutlass_1_1TensorRefBatchStrided.html#a9d07d96c2eccba10c3a9e4bef58d4e01',1,'cutlass::TensorRefBatchStrided::TensorCoord()'],['../classcutlass_1_1TensorView.html#ada8a241b6b2c5439183b0d6c456c934e',1,'cutlass::TensorView::TensorCoord()']]],
+  ['tensorref',['TensorRef',['../classcutlass_1_1TensorRef.html',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a',1,'cutlass::gemm::SharedLoadStream::TensorRef()'],['../structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd',1,'cutlass::TensorRefBatchStrided::TensorRef()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc',1,'cutlass::TensorRefBatchStrided::ConstIterator::TensorRef()'],['../structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75',1,'cutlass::TensorRefArray::TensorRef()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f',1,'cutlass::TensorRefArray::ConstIterator::TensorRef()'],['../classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507',1,'cutlass::TensorView::TensorRef()'],['../structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80',1,'cutlass::TileAllocation::TensorRef()'],['../structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf',1,'cutlass::ZipTileAllocation::TensorRef()'],['../structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548',1,'cutlass::TileLoadIterator::TensorRef()'],['../structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac',1,'cutlass::TileStoreIterator::TensorRef()'],['../structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7',1,'cutlass::TileLoadStream::TensorRef()'],['../structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe',1,'cutlass::TileStoreStream::TensorRef()'],['../classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c',1,'cutlass::ZipTileIterator::TensorRef()'],['../classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765',1,'cutlass::TensorRef::TensorRef(Storage *ptr=nullptr)'],['../classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135',1,'cutlass::TensorRef::TensorRef(Storage *ptr, Index ldm)'],['../classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c',1,'cutlass::TensorRef::TensorRef(Storage *ptr, StrideVector const &amp;stride)'],['../classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0',1,'cutlass::TensorRef::TensorRef(Storage *ptr, StorageCoord const &amp;stride)'],['../classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1',1,'cutlass::TensorRef::TensorRef(TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type, kRank, MapFunc, kStorageRank, Index, LongIndex &gt; const &amp;ref)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa091e497277d0ba8a98c4ebf73c0cdba',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef(Storage *ptr=nullptr)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a3464537a35ef7fbfc9349e5ce2233f1c',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef(Storage *ptr, StrideVector const &amp;stride)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeacb444d31783eafe27a9e8d8cab98f8',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef(Storage *ptr, StorageCoord const &amp;stride)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af815dd66739801b10d43acc097e23636',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef(TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type, kRank, MapFunc, kStorageRank, Index, LongIndex &gt; const &amp;ref)']]],
+  ['tensorref_3c_20atype_20const_2c_202_20_3e',['TensorRef&lt; AType const, 2 &gt;',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
+  ['tensorref_3c_20btype_20const_2c_202_20_3e',['TensorRef&lt; BType const, 2 &gt;',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
+  ['tensorref_3c_20ctype_20const_2c_202_20_3e',['TensorRef&lt; CType const, 2 &gt;',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
+  ['tensorref_3c_20dtype_2c_202_20_3e',['TensorRef&lt; DType, 2 &gt;',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
+  ['tensorref_3c_20storage_5f_2c_20rank_5f_2c_20mapfunc_5f_2c_201_2c_20index_5f_2c_20longindex_5f_20_3e',['TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;',['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html',1,'cutlass']]],
+  ['tensorref_5ft',['TensorRef_t',['../classcutlass_1_1TensorView.html#a25eb8c0fe380114ddaabb37453be4606',1,'cutlass::TensorView']]],
+  ['tensorrefa',['TensorRefA',['../structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe',1,'cutlass::gemm::GemmDesc']]],
+  ['tensorrefarray',['TensorRefArray',['../structcutlass_1_1TensorRefArray.html',1,'cutlass']]],
+  ['tensorrefb',['TensorRefB',['../structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab',1,'cutlass::gemm::GemmDesc']]],
+  ['tensorrefbatchstrided',['TensorRefBatchStrided',['../structcutlass_1_1TensorRefBatchStrided.html',1,'cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;'],['../structcutlass_1_1TensorRefBatchStrided.html#aa5d7e9a4589d7dacc5d69ca3c70ecc2b',1,'cutlass::TensorRefBatchStrided::TensorRefBatchStrided()'],['../structcutlass_1_1TensorRefBatchStrided.html#abc2ddccdb742f95438b214e0a3a14620',1,'cutlass::TensorRefBatchStrided::TensorRefBatchStrided(TensorRef const &amp;ref, LongIndex _tensor_stride=0)']]],
+  ['tensorrefc',['TensorRefC',['../structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b',1,'cutlass::gemm::GemmDesc']]],
+  ['tensorrefd',['TensorRefD',['../structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052',1,'cutlass::gemm::GemmDesc']]],
+  ['tensorview',['TensorView',['../classcutlass_1_1TensorView.html',1,'cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;'],['../classcutlass_1_1TensorView.html#a36d48227f65ad482a7bded99d6a3d0c1',1,'cutlass::TensorView::TensorView()'],['../classcutlass_1_1TensorView.html#aad06edac0f43c358c5644dffb5fe9ad7',1,'cutlass::TensorView::TensorView(Base const &amp;_ref, TensorCoord const &amp;_size)'],['../classcutlass_1_1TensorView.html#a73f049694ca1ea4825b5a651852827f5',1,'cutlass::TensorView::TensorView(Storage *ptr, StrideVector const &amp;stride, TensorCoord const &amp;size)'],['../classcutlass_1_1TensorView.html#af64d4195fd6ba2cba53179e1ae678737',1,'cutlass::TensorView::TensorView(Storage *ptr, StorageCoord const &amp;stride, TensorCoord const &amp;size)']]],
+  ['this_5f',['This_',['../structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95',1,'cutlass::Fragment::This_()'],['../structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369',1,'cutlass::FragmentIterator::This_()'],['../structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f',1,'cutlass::FragmentConstIterator::This_()'],['../structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317',1,'cutlass::gemm::Gemm::This_()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8',1,'cutlass::gemm::GemmGlobalIteratorAb::This_()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b',1,'cutlass::gemm::GemmGlobalIteratorCd::This_()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989',1,'cutlass::gemm::GemmTraits::This_()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::This_()'],['../structcutlass_1_1ZipFragment.html#a2f038ddb37879cbc54dbadaeb7085fb1',1,'cutlass::ZipFragment::This_()']]],
   ['thread_5fmultiply_5fadd_2eh',['thread_multiply_add.h',['../thread__multiply__add_8h.html',1,'']]],
-  ['thread_5foffset',['thread_offset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04',1,'cutlass::gemm::GemmGlobalIteratorAb::thread_offset()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0',1,'cutlass::gemm::GemmGlobalIteratorCd::thread_offset()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::thread_offset()'],['../structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457',1,'cutlass::TileLoadIterator::thread_offset()'],['../structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035',1,'cutlass::TileStoreIterator::thread_offset()']]],
+  ['thread_5foffset',['thread_offset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04',1,'cutlass::gemm::GemmGlobalIteratorAb::thread_offset()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0',1,'cutlass::gemm::GemmGlobalIteratorCd::thread_offset()'],['../structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f',1,'cutlass::TileLoadIterator::thread_offset()'],['../structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825',1,'cutlass::TileStoreIterator::thread_offset()']]],
+  ['threadblock_5foffset',['threadblock_offset',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a',1,'cutlass::gemm::GlobalLoadStream']]],
+  ['threadblock_5fswizzle_2eh',['threadblock_swizzle.h',['../threadblock__swizzle_8h.html',1,'']]],
+  ['threadblock_5ftile',['threadblock_tile',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#af8f0050e818b788402526857afc7c919',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage']]],
   ['threadblocktile',['ThreadBlockTile',['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a5e43f3c9aa8d7dc5f01dfc63b1ea97dc',1,'cutlass::gemm::GemmMultiplicandTraits']]],
-  ['threadmultiplyadd',['ThreadMultiplyAdd',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#acec155117a56c942c5e695984b0f072d',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ThreadMultiplyAdd()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a9b75e499f4c14369b5c86051dceeb81d',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadMultiplyAdd()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ab271a3f11ccde4b629ddb11b78c0d555',1,'cutlass::gemm::ThreadMultiplyAdd::ThreadMultiplyAdd()']]],
-  ['threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20threadsperwarp_5f_2c_20half_2c_20half_2c_20half_20_3e',['ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html',1,'cutlass::gemm']]],
-  ['threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20threadsperwarp_5f_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e',['ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html',1,'cutlass::gemm']]],
-  ['threadoffset',['ThreadOffset',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;::ThreadOffset'],['../structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html',1,'cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5',1,'cutlass::gemm::GemmGlobalIteratorAb::ThreadOffset()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1',1,'cutlass::gemm::GemmGlobalIteratorCd::ThreadOffset()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::ThreadOffset()'],['../structcutlass_1_1TileTraits.html#af9c0fc178dac7f9dac8d254da34e04dd',1,'cutlass::TileTraits::ThreadOffset()'],['../structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f',1,'cutlass::TileIteratorBase::ThreadOffset()'],['../structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d',1,'cutlass::TileLoadIterator::ThreadOffset()'],['../structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27',1,'cutlass::TileStoreIterator::ThreadOffset()'],['../structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c',1,'cutlass::TileTraitsStrideMajor::ThreadOffset()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a823ba83e9ca680da0af7d63be772a351',1,'cutlass::TileTraitsContiguousMajor::ThreadOffset()']]],
-  ['threads',['Threads',['../structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57',1,'cutlass::gemm::ReshapeThreads::Threads()'],['../structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c',1,'cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, true &gt;::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6',1,'cutlass::gemm::GemmGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6',1,'cutlass::gemm::GemmGlobalTileCdTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50',1,'cutlass::gemm::GemmGlobalIteratorAb::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02',1,'cutlass::gemm::GemmGlobalIteratorCd::Threads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Threads()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a5fd1a9f132c7aa0f68e129553f519d1e',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Threads()']]],
-  ['threadsdelta',['ThreadsDelta',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d',1,'cutlass::gemm::GemmGlobalTileTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077',1,'cutlass::gemm::GemmGlobalTileCdTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a6eee97f03dcea1c441116e143cf58018',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a2bb0f0820e52417ff77e7a2bdb9ed434',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::ThreadsDelta()']]],
+  ['threadblocktileref',['ThreadblockTileRef',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77',1,'cutlass::gemm::GlobalLoadStream::ThreadblockTileRef()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be',1,'cutlass::gemm::GlobalLoadStreamPair::ThreadblockTileRef()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d',1,'cutlass::gemm::SharedStreamPair::ThreadblockTileRef()']]],
+  ['threadblocktilestorage',['ThreadblockTileStorage',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a17804b01904a9a4ee7a857905833f7a8',1,'cutlass::gemm::GlobalLoadStream::ThreadblockTileStorage()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158',1,'cutlass::gemm::GlobalLoadStreamPair::ThreadblockTileStorage()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee',1,'cutlass::gemm::GemmTraits::ThreadblockTileStorage()']]],
+  ['threadgemmshape',['ThreadGemmShape',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ThreadGemmShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ThreadGemmShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadGemmShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e',1,'cutlass::gemm::ThreadMultiplyAdd::ThreadGemmShape()']]],
+  ['threadmultiplyadd',['ThreadMultiplyAdd',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a0ab850304c3c6e73bcba321426ba93f9',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ThreadMultiplyAdd()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a32b234c873ffe44090a12e12d871024c',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ThreadMultiplyAdd()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aad8a642f46c88e407a1150ee1d42b8dd',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadMultiplyAdd()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac087f0b397599221b74d220fcb1c7121',1,'cutlass::gemm::ThreadMultiplyAdd::ThreadMultiplyAdd()']]],
+  ['threadmultiplyadd_3c_20threadgemmshape_5f_2c_20threadsperwarp_5f_2c_20half_2c_20half_2c_20float_20_3e',['ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html',1,'cutlass::gemm']]],
+  ['threadmultiplyadd_3c_20threadgemmshape_5f_2c_20threadsperwarp_5f_2c_20half_2c_20half_2c_20half_20_3e',['ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html',1,'cutlass::gemm']]],
+  ['threadmultiplyadd_3c_20threadgemmshape_5f_2c_20threadsperwarp_5f_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e',['ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html',1,'cutlass::gemm']]],
+  ['threadoffset',['ThreadOffset',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html',1,'cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5',1,'cutlass::gemm::GemmGlobalIteratorAb::ThreadOffset()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1',1,'cutlass::gemm::GemmGlobalIteratorCd::ThreadOffset()'],['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a07ff2f97fdd57c4df05ef8e817265b30',1,'cutlass::gemm::IgemmGlobalIteratorAb::ThreadOffset()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::ThreadOffset()'],['../structcutlass_1_1TileTraits.html#a671ef48f4141a9de30b6ec6fb0be1feb',1,'cutlass::TileTraits::ThreadOffset()'],['../structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5',1,'cutlass::TileIteratorBase::ThreadOffset()'],['../structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a',1,'cutlass::TileLoadIterator::ThreadOffset()'],['../structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a',1,'cutlass::TileStoreIterator::ThreadOffset()'],['../structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c',1,'cutlass::TileTraitsStrideMajor::ThreadOffset()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a823ba83e9ca680da0af7d63be772a351',1,'cutlass::TileTraitsContiguousMajor::ThreadOffset()']]],
+  ['threads',['Threads',['../structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57',1,'cutlass::gemm::ReshapeThreads::Threads()'],['../structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c',1,'cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, true &gt;::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30',1,'cutlass::gemm::GemmGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6',1,'cutlass::gemm::GemmGlobalTileCdTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50',1,'cutlass::gemm::GemmGlobalIteratorAb::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02',1,'cutlass::gemm::GemmGlobalIteratorCd::Threads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Threads()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f',1,'cutlass::gemm::IgemmGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Threads()']]],
+  ['threadsdelta',['ThreadsDelta',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9',1,'cutlass::gemm::GemmGlobalTileTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077',1,'cutlass::gemm::GemmGlobalTileCdTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a61907b1afa07c12de74545d2e23a4281',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a160d1ecd86de4742f550d11bc281786b',1,'cutlass::gemm::IgemmGlobalTileTraits::ThreadsDelta()']]],
   ['threadshape',['ThreadShape',['../structcutlass_1_1TileTraitsStrideMajor.html#a03567f41ce616ebb4cdb309c85820599',1,'cutlass::TileTraitsStrideMajor::ThreadShape()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a33116b67e580292d4e354ca17ecd4167',1,'cutlass::TileTraitsContiguousMajor::ThreadShape()'],['../structcutlass_1_1TileTraitsWarpRake.html#ad6619e0b5d876fafd51c78e39f2c029e',1,'cutlass::TileTraitsWarpRake::ThreadShape()']]],
-  ['threadsperwarp',['ThreadsPerWarp',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0761c497c41a45652368fc0d54def98f',1,'cutlass::gemm::GemmSharedLoadTileATraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa784f29ff453c1656fdea8270454fa55',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a5bc98fd196c1f1e4e3f1bfc621df4f50',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e',1,'cutlass::gemm::ThreadMultiplyAdd::ThreadsPerWarp()']]],
+  ['threadsperwarp',['ThreadsPerWarp',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0761c497c41a45652368fc0d54def98f',1,'cutlass::gemm::GemmSharedLoadTileATraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b',1,'cutlass::gemm::ThreadMultiplyAdd::ThreadsPerWarp()']]],
   ['threadsstrides',['ThreadsStrides',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae540e7ea7106552682aa4c97b833b3b1',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ThreadsStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadsStrides()']]],
-  ['tile',['Tile',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758',1,'cutlass::gemm::GemmGlobalTileTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc',1,'cutlass::gemm::GemmSharedLoadTileATraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Tile()'],['../structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5',1,'cutlass::ReshapeTile::Tile()'],['../structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06',1,'cutlass::ReshapeTile&lt; Tile_, kAccessSize_, true &gt;::Tile()'],['../structcutlass_1_1TileTraits.html#ab831be0adb255eece4f2e12fd9713831',1,'cutlass::TileTraits::Tile()'],['../structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c',1,'cutlass::TileIteratorBase::Tile()'],['../structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10',1,'cutlass::TileLoadIterator::Tile()'],['../structcutlass_1_1TileStoreIterator.html#a8a87c8ef986e110a01a9226012594a61',1,'cutlass::TileStoreIterator::Tile()'],['../structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac',1,'cutlass::TileTraitsStrideMajor::Tile()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a1607d53544302c12278793bc9b283763',1,'cutlass::TileTraitsContiguousMajor::Tile()'],['../structcutlass_1_1TileTraitsWarpRake.html#adcd658d9daf286368a9d51c8c1647f89',1,'cutlass::TileTraitsWarpRake::Tile()'],['../structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b',1,'cutlass::TileTraitsStandard::Tile()']]],
+  ['tile',['Tile',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a260543a618fb187c2da40c9f630925ec',1,'cutlass::gemm::GlobalLoadStream::Tile()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19',1,'cutlass::gemm::GemmGlobalTileTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111',1,'cutlass::gemm::GemmGlobalIteratorAb::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc',1,'cutlass::gemm::GemmSharedLoadTileATraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Tile()'],['../structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5',1,'cutlass::ReshapeTile::Tile()'],['../structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06',1,'cutlass::ReshapeTile&lt; Tile_, kAccessSize_, true &gt;::Tile()'],['../structcutlass_1_1TileTraits.html#a3632c351a28f71f6c140dd33089d80b0',1,'cutlass::TileTraits::Tile()'],['../structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4',1,'cutlass::TileIteratorBase::Tile()'],['../structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539',1,'cutlass::TileLoadIterator::Tile()'],['../structcutlass_1_1TileStoreIterator.html#ad18ee6f519b03e1dbf711339b63e16d6',1,'cutlass::TileStoreIterator::Tile()'],['../structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac',1,'cutlass::TileTraitsStrideMajor::Tile()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a1607d53544302c12278793bc9b283763',1,'cutlass::TileTraitsContiguousMajor::Tile()'],['../structcutlass_1_1TileTraitsWarpRake.html#adcd658d9daf286368a9d51c8c1647f89',1,'cutlass::TileTraitsWarpRake::Tile()'],['../structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b',1,'cutlass::TileTraitsStandard::Tile()']]],
+  ['tile_5fallocation_2eh',['tile_allocation.h',['../tile__allocation_8h.html',1,'']]],
+  ['tile_5fcoord_2eh',['tile_coord.h',['../tile__coord_8h.html',1,'']]],
   ['tile_5fiterator_2eh',['tile_iterator.h',['../tile__iterator_8h.html',1,'']]],
   ['tile_20load_20iterator_20concept',['Tile Load Iterator Concept',['../group__tile__load__iterator__concept.html',1,'']]],
   ['tile_20store_20iterator_20concept',['Tile Store Iterator Concept',['../group__tile__store__iterator__concept.html',1,'']]],
+  ['tile_5fstream_2eh',['tile_stream.h',['../tile__stream_8h.html',1,'']]],
   ['tile_20traits_20concept',['Tile Traits Concept',['../group__tile__traits__concept.html',1,'']]],
   ['tile_5ftraits_5fstandard_2eh',['tile_traits_standard.h',['../tile__traits__standard_8h.html',1,'']]],
+  ['tileallocation',['TileAllocation',['../structcutlass_1_1TileAllocation.html',1,'cutlass']]],
+  ['tilecoord',['TileCoord',['../structcutlass_1_1TileCoord.html',1,'cutlass::TileCoord&lt; Index_ &gt;'],['../structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95',1,'cutlass::TileCoord::TileCoord()'],['../structcutlass_1_1TileCoord.html#ac760795433c0f0ccc5c44fb58626f51d',1,'cutlass::TileCoord::TileCoord(Coord&lt; 3, Index &gt; const &amp;coord)'],['../structcutlass_1_1TileCoord.html#a752dcc11f1a018de692e5846a80fe185',1,'cutlass::TileCoord::TileCoord(Coord&lt; 4, Index &gt; const &amp;coord)'],['../structcutlass_1_1TileCoord.html#a2ff6ac0ad18cff304ee7f79597fdc274',1,'cutlass::TileCoord::TileCoord(Index coord[4])'],['../structcutlass_1_1TileCoord.html#a28ee00699941f879cfa92327c038fca6',1,'cutlass::TileCoord::TileCoord(Index d, Index h, Index w, Index c)']]],
   ['tiledthreadoffset',['TiledThreadOffset',['../structcutlass_1_1TiledThreadOffset.html',1,'cutlass']]],
   ['tileiteratorbase',['TileIteratorBase',['../structcutlass_1_1TileIteratorBase.html',1,'cutlass']]],
-  ['tileiteratorbase_3c_20tiletraits_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20advance_5f_2c_20memoryspace_2c_20index_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20iteratorfragment_3a_3akscalar_2c_20shape_3c_200_2c_200_2c_200_2c_200_20_3e_20_3e',['TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;',['../structcutlass_1_1TileIteratorBase.html',1,'cutlass']]],
+  ['tileiteratorbase_3c_20tiletraits_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20advance_5f_2c_20memoryspace_2c_20index_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20fragmentelementtype_3a_3akscalar_2c_20shape_3c_200_2c_200_2c_200_2c_200_20_3e_20_3e',['TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;',['../structcutlass_1_1TileIteratorBase.html',1,'cutlass']]],
   ['tileiteratorbase_3c_20tiletraits_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20iteratoradvance_3a_3akh_2c_20memoryspace_3a_3akglobal_2c_20index_5f_20_3e',['TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;',['../structcutlass_1_1TileIteratorBase.html',1,'cutlass']]],
-  ['tileloaditerator',['TileLoadIterator',['../structcutlass_1_1TileLoadIterator.html',1,'cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;'],['../structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e',1,'cutlass::TileLoadIterator::TileLoadIterator()'],['../structcutlass_1_1TileLoadIterator.html#a93e166575be3b2f7489833ae5da23f23',1,'cutlass::TileLoadIterator::TileLoadIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())'],['../structcutlass_1_1TileLoadIterator.html#a53282fa4cb33cfcec79033d26e418af6',1,'cutlass::TileLoadIterator::TileLoadIterator(Params const &amp;, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())']]],
+  ['tileloaditerator',['TileLoadIterator',['../structcutlass_1_1TileLoadIterator.html',1,'cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;'],['../structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e',1,'cutlass::TileLoadIterator::TileLoadIterator()'],['../structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322',1,'cutlass::TileLoadIterator::TileLoadIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())'],['../structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30',1,'cutlass::TileLoadIterator::TileLoadIterator(Params const &amp;, Scalar const *ptr, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())']]],
   ['tileloaditerator_3c_20tiletraits_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20tiletraits_5f_3a_3amultiplicandtraits_3a_3akkstrided_20_3f_20iteratoradvance_3a_3akh_20_3aiteratoradvance_3a_3akw_2c_20memoryspace_3a_3akglobal_2c_20index_5f_20_3e',['TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;',['../structcutlass_1_1TileLoadIterator.html',1,'cutlass']]],
-  ['tilestoreiterator',['TileStoreIterator',['../structcutlass_1_1TileStoreIterator.html',1,'cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;'],['../structcutlass_1_1TileStoreIterator.html#aac4d49854d63f632627b6974f9b59dbb',1,'cutlass::TileStoreIterator::TileStoreIterator()'],['../structcutlass_1_1TileStoreIterator.html#a037ccd942359e6bc8640a240b13cd330',1,'cutlass::TileStoreIterator::TileStoreIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())'],['../structcutlass_1_1TileStoreIterator.html#a4f89c5182659de94605300e15c3651b2',1,'cutlass::TileStoreIterator::TileStoreIterator(Params const &amp;, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())']]],
+  ['tileloadstream',['TileLoadStream',['../structcutlass_1_1TileLoadStream.html',1,'cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;'],['../structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3',1,'cutlass::TileLoadStream::TileLoadStream(Params const &amp;_params, TensorRef const &amp;_ref)'],['../structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7',1,'cutlass::TileLoadStream::TileLoadStream(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))']]],
+  ['tilestoreiterator',['TileStoreIterator',['../structcutlass_1_1TileStoreIterator.html',1,'cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;'],['../structcutlass_1_1TileStoreIterator.html#a9f4501c6e8ba0f4511919c1b63c14e69',1,'cutlass::TileStoreIterator::TileStoreIterator()'],['../structcutlass_1_1TileStoreIterator.html#aa563bb10f8e58d97e81959556923e210',1,'cutlass::TileStoreIterator::TileStoreIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())'],['../structcutlass_1_1TileStoreIterator.html#a2b58a21331cf3255f5d3938a39babf20',1,'cutlass::TileStoreIterator::TileStoreIterator(Params const &amp;, Scalar *ptr, ThreadOffset thread_offset_func=ThreadOffset())']]],
+  ['tilestorestream',['TileStoreStream',['../structcutlass_1_1TileStoreStream.html',1,'cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;'],['../structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b',1,'cutlass::TileStoreStream::TileStoreStream(Params const &amp;_params, TensorRef const &amp;_ref)'],['../structcutlass_1_1TileStoreStream.html#a08e7e7bf74e1e0d670dd6a4e65d14084',1,'cutlass::TileStoreStream::TileStoreStream(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))']]],
   ['tiletraits',['TileTraits',['../structcutlass_1_1TileTraits.html',1,'cutlass']]],
   ['tiletraitscontiguousmajor',['TileTraitsContiguousMajor',['../structcutlass_1_1TileTraitsContiguousMajor.html',1,'cutlass']]],
   ['tiletraitsstandard',['TileTraitsStandard',['../structcutlass_1_1TileTraitsStandard.html',1,'cutlass']]],
@@ -40,15 +68,14 @@ var searchData=
   ['tilewithoutskew',['TileWithoutSkew',['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a050cf5964a2d3683491bc4313ead5450',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::TileWithoutSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a5a5a36fc570e1225b20ce0a48c89d213',1,'cutlass::gemm::GemmSharedLoadTileATraits::TileWithoutSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a1f35981a6d661635dfbcf7c7a76056a2',1,'cutlass::gemm::GemmSharedLoadTileBTraits::TileWithoutSkew()']]],
   ['tilewithoutskew_5f',['TileWithoutSkew_',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a93ae99460695718babaef6d1ef597e38',1,'cutlass::gemm::GemmSharedLoadTileATraits::TileWithoutSkew_()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a3d8be9ddea1cab53d1b4b3d508f9eab8',1,'cutlass::gemm::GemmSharedLoadTileBTraits::TileWithoutSkew_()']]],
   ['tilewithskew',['TileWithSkew',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a72e0214f86cf8b3711d006dcd69d7a17',1,'cutlass::gemm::GemmSharedLoadTileATraits::TileWithSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a69c7ec2a779718556e6d9119588e791c',1,'cutlass::gemm::GemmSharedLoadTileBTraits::TileWithSkew()']]],
-  ['traits',['Traits',['../structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff',1,'cutlass::gemm::Gemm::Traits()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b',1,'cutlass::gemm::GemmEpilogue::Traits()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Traits()'],['../structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696',1,'cutlass::TileIteratorBase::Traits()'],['../structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a',1,'cutlass::TileLoadIterator::Traits()'],['../structcutlass_1_1TileStoreIterator.html#a6f50a8aec2d7045e9057b93df08172a8',1,'cutlass::TileStoreIterator::Traits()']]],
-  ['transform',['transform',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a4dd95354137d3cb52752ecdd346a5685',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#aa9fe67c947bf461ba3e3ca48daa34815',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3',1,'cutlass::Copy::transform(Fragment_ const &amp;src, Fragment_ &amp;dst)'],['../structcutlass_1_1Copy.html#a171f9a44c05b6fb432b0339979de4eb2',1,'cutlass::Copy::transform(InputFragment_ const &amp;src, int offset, Fragment_ &amp;dst)'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26',1,'cutlass::gemm::HgemmSwizzle::transform()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b',1,'cutlass::gemm::IgemmFloatToInt8Converter::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a819fd33db88a68521108bab2641d73fd',1,'cutlass::gemm::IgemmFloatToInt8Converter::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d',1,'cutlass::gemm::IgemmInt8ToFloatConverter::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3',1,'cutlass::gemm::IgemmInt8ToFloatConverter::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811',1,'cutlass::gemm::IgemmSwizzle::transform()']]],
-  ['transformed_5fa',['transformed_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a883b28ca237b1ec076856232cfee0c6f',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['transformed_5fb',['transformed_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a9369a5f819d2a42997491e0df96f47ef',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['transformed_5ffragment',['transformed_fragment',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf',1,'cutlass::gemm::GlobalLoadStreamBase']]],
-  ['transformedfragment',['TransformedFragment',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108',1,'cutlass::gemm::GlobalLoadStreamBase::TransformedFragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4',1,'cutlass::gemm::SharedLoadStream::TransformedFragment()']]],
-  ['transformer',['transformer',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9',1,'cutlass::gemm::GlobalLoadStreamBase::transformer()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7',1,'cutlass::gemm::SharedLoadStream::transformer()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe',1,'cutlass::gemm::GlobalLoadStreamBase::Transformer()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904',1,'cutlass::gemm::SharedLoadStream::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296',1,'cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b',1,'cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#aaaccb3f02a857e0c80d2891c6c6dcdb7',1,'cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85',1,'cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html#a98aefa95117dbfdf2e577890318a6c13',1,'cutlass::gemm::IgemmGlobalStoreTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html#a52ecdfd8b94d8d7f4881048e11a33aba',1,'cutlass::gemm::IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html#ad3190650741cef20c1aca919eddd9d72',1,'cutlass::gemm::IgemmGlobalLoadTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html#a49c249026be24ec8a66f5eda99cb855c',1,'cutlass::gemm::IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html#a9edd08d595327a8cc3b8da50622b3bd2',1,'cutlass::gemm::IgemmSharedStoreTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197',1,'cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a8a4e3ce1174789e2b695bda7b863079f',1,'cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49',1,'cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a',1,'cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()']]],
+  ['traits',['Traits',['../structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff',1,'cutlass::gemm::Gemm::Traits()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b',1,'cutlass::gemm::GemmEpilogue::Traits()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Traits()'],['../structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7',1,'cutlass::TileIteratorBase::Traits()'],['../structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948',1,'cutlass::TileLoadIterator::Traits()'],['../structcutlass_1_1TileStoreIterator.html#a5016bd7b24938026a2879ec0054eb3b6',1,'cutlass::TileStoreIterator::Traits()']]],
+  ['transform',['transform',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a4dd95354137d3cb52752ecdd346a5685',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#aa9fe67c947bf461ba3e3ca48daa34815',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3',1,'cutlass::Copy::transform(Fragment_ const &amp;src, Fragment_ &amp;dst)'],['../structcutlass_1_1Copy.html#a171f9a44c05b6fb432b0339979de4eb2',1,'cutlass::Copy::transform(InputFragment_ const &amp;src, int offset, Fragment_ &amp;dst)'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26',1,'cutlass::gemm::HgemmSwizzle::transform()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b',1,'cutlass::gemm::IgemmFloatToInt8Converter::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a819fd33db88a68521108bab2641d73fd',1,'cutlass::gemm::IgemmFloatToInt8Converter::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d',1,'cutlass::gemm::IgemmInt8ToFloatConverter::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3',1,'cutlass::gemm::IgemmInt8ToFloatConverter::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811',1,'cutlass::gemm::IgemmSwizzle::transform()'],['../structcutlass_1_1ZipConvert.html#a7e6398ad8ecd8757744a42f3ab8ef955',1,'cutlass::ZipConvert::transform()']]],
+  ['transformed',['transformed',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88',1,'cutlass::gemm::SharedLoadStream']]],
+  ['transformed_5ffragment',['transformed_fragment',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1',1,'cutlass::gemm::GlobalLoadStream::transformed_fragment()'],['../structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01',1,'cutlass::TileLoadStream::transformed_fragment()'],['../structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48',1,'cutlass::TileStoreStream::transformed_fragment()']]],
+  ['transformedfragment',['TransformedFragment',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9',1,'cutlass::gemm::GlobalLoadStream::TransformedFragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4',1,'cutlass::gemm::SharedLoadStream::TransformedFragment()'],['../structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1',1,'cutlass::TileLoadStream::TransformedFragment()'],['../structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993',1,'cutlass::TileStoreStream::TransformedFragment()'],['../structcutlass_1_1PredicatedTileLoadStream.html#adeb35451885c1c4fb930ae8c914ceb20',1,'cutlass::PredicatedTileLoadStream::TransformedFragment()'],['../structcutlass_1_1PredicatedTileStoreStream.html#af349831b19bb91d414a83c67d14f6927',1,'cutlass::PredicatedTileStoreStream::TransformedFragment()']]],
+  ['transformer',['transformer',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4',1,'cutlass::gemm::GlobalLoadStream::transformer()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7',1,'cutlass::gemm::SharedLoadStream::transformer()'],['../structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552',1,'cutlass::TileLoadStream::transformer()'],['../structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934',1,'cutlass::TileStoreStream::transformer()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02',1,'cutlass::gemm::GlobalLoadStream::Transformer()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904',1,'cutlass::gemm::SharedLoadStream::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296',1,'cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b',1,'cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#aaaccb3f02a857e0c80d2891c6c6dcdb7',1,'cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85',1,'cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html#a98aefa95117dbfdf2e577890318a6c13',1,'cutlass::gemm::IgemmGlobalStoreTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html#a52ecdfd8b94d8d7f4881048e11a33aba',1,'cutlass::gemm::IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html#ad3190650741cef20c1aca919eddd9d72',1,'cutlass::gemm::IgemmGlobalLoadTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html#a49c249026be24ec8a66f5eda99cb855c',1,'cutlass::gemm::IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html#a9edd08d595327a8cc3b8da50622b3bd2',1,'cutlass::gemm::IgemmSharedStoreTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197',1,'cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a8a4e3ce1174789e2b695bda7b863079f',1,'cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49',1,'cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a',1,'cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7',1,'cutlass::TileLoadStream::Transformer()'],['../structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e',1,'cutlass::TileStoreStream::Transformer()'],['../structcutlass_1_1PredicatedTileLoadStream.html#a9f79fd30231825b38694bf7c1d12ec2a',1,'cutlass::PredicatedTileLoadStream::Transformer()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a0f91f328ed2b6bd65ef4eeafe18f9afd',1,'cutlass::PredicatedTileStoreStream::Transformer()']]],
   ['trivialiterator',['TrivialIterator',['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html',1,'cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::TrivialIterator'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a6cb3664b5cba4280b7055a65ddad7850',1,'cutlass::PredicateVector::TrivialIterator::TrivialIterator()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ada8cd3ac6db568bb9bf268ba2c3a3e14',1,'cutlass::PredicateVector::TrivialIterator::TrivialIterator(Iterator const &amp;it)'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721',1,'cutlass::PredicateVector::TrivialIterator::TrivialIterator(PredicateVector const &amp;_vec)']]],
   ['trivialpredicatetileadapter',['TrivialPredicateTileAdapter',['../structcutlass_1_1TrivialPredicateTileAdapter.html',1,'cutlass::TrivialPredicateTileAdapter'],['../structcutlass_1_1TrivialPredicateTileAdapter.html#a7259853a129a7e319b972d3b41dd59d7',1,'cutlass::TrivialPredicateTileAdapter::TrivialPredicateTileAdapter()']]],
   ['true_5ftype',['true_type',['../namespacecutlass_1_1platform.html#a0eddc4a3921e137f31fd8014be96e807',1,'cutlass::platform']]],
-  ['type',['Type',['../structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06',1,'cutlass::StorageType::Type()'],['../structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807',1,'cutlass::StorageType&lt; 4 &gt;::Type()'],['../structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4',1,'cutlass::StorageType&lt; 2 &gt;::Type()'],['../structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4',1,'cutlass::StorageType&lt; 1 &gt;::Type()'],['../structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e',1,'cutlass::Vectorize::Type()'],['../structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html#a79f147933e3f520145aee94ae18da3c5',1,'cutlass::Vectorize&lt; Element_, 1 &gt;::Type()'],['../structcutlass_1_1platform_1_1integral__constant.html#af58810ccead8f16ed88cd6a4afdc6e52',1,'cutlass::platform::integral_constant::type()'],['../structcutlass_1_1platform_1_1enable__if.html#aff9c0f270020cf097addf77e53a5af99',1,'cutlass::platform::enable_if::type()'],['../structcutlass_1_1platform_1_1conditional.html#ab6484d0dd6449b5195c4e868026fed11',1,'cutlass::platform::conditional::type()'],['../structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html#a8d55f500f667de560650554e9c220644',1,'cutlass::platform::conditional&lt; false, T, F &gt;::type()'],['../structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085',1,'cutlass::platform::remove_const::type()'],['../structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html#af68706cfaa6af14edc26ad5b974b47e3',1,'cutlass::platform::remove_const&lt; const T &gt;::type()'],['../structcutlass_1_1platform_1_1remove__volatile.html#a4f5b043d46206248d1bbbcf650707dd1',1,'cutlass::platform::remove_volatile::type()'],['../structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3',1,'cutlass::platform::remove_volatile&lt; volatile T &gt;::type()'],['../structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08',1,'cutlass::platform::remove_cv::type()'],['../structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1',1,'cutlass::platform::aligned_storage::type()']]]
+  ['type',['Type',['../structcutlass_1_1StorageType.html#abb0d270cdf38d46347261cac36dc619b',1,'cutlass::StorageType::Type()'],['../structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807',1,'cutlass::StorageType&lt; 4 &gt;::Type()'],['../structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4',1,'cutlass::StorageType&lt; 2 &gt;::Type()'],['../structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4',1,'cutlass::StorageType&lt; 1 &gt;::Type()'],['../structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e',1,'cutlass::Vectorize::Type()'],['../structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html#a5c32d50c6c97d7489034efb7188c8186',1,'cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;::Type()'],['../structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html#a40dac8fb50ddccb5c1e2a98200ac3a06',1,'cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;::Type()'],['../structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html#a9db5873c0d4df1452129022a280247ca',1,'cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;::Type()'],['../structcutlass_1_1platform_1_1integral__constant.html#af58810ccead8f16ed88cd6a4afdc6e52',1,'cutlass::platform::integral_constant::type()'],['../structcutlass_1_1platform_1_1enable__if.html#aff9c0f270020cf097addf77e53a5af99',1,'cutlass::platform::enable_if::type()'],['../structcutlass_1_1platform_1_1conditional.html#ab6484d0dd6449b5195c4e868026fed11',1,'cutlass::platform::conditional::type()'],['../structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html#a8d55f500f667de560650554e9c220644',1,'cutlass::platform::conditional&lt; false, T, F &gt;::type()'],['../structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085',1,'cutlass::platform::remove_const::type()'],['../structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html#af68706cfaa6af14edc26ad5b974b47e3',1,'cutlass::platform::remove_const&lt; const T &gt;::type()'],['../structcutlass_1_1platform_1_1remove__volatile.html#a4f5b043d46206248d1bbbcf650707dd1',1,'cutlass::platform::remove_volatile::type()'],['../structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3',1,'cutlass::platform::remove_volatile&lt; volatile T &gt;::type()'],['../structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08',1,'cutlass::platform::remove_cv::type()'],['../structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1',1,'cutlass::platform::aligned_storage::type()']]]
 ];
diff --git a/docs/search/all_13.js b/docs/search/all_13.js
index e175495c82..084d5b67f1 100644
--- a/docs/search/all_13.js
+++ b/docs/search/all_13.js
@@ -1,4 +1,5 @@
 var searchData=
 [
+  ['uint4_5ft',['uint4_t',['../structcutlass_1_1uint4__t.html',1,'cutlass']]],
   ['unique_5fptr',['unique_ptr',['../classcutlass_1_1platform_1_1unique__ptr.html',1,'cutlass::platform::unique_ptr&lt; T, Deleter &gt;'],['../classcutlass_1_1platform_1_1unique__ptr.html#aa8a370bc7e4c2d99eb85e7fea27b3179',1,'cutlass::platform::unique_ptr::unique_ptr()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a14c8bf5a5deefe4a6602ccd5c5af364c',1,'cutlass::platform::unique_ptr::unique_ptr(pointer p)']]]
 ];
diff --git a/docs/search/all_14.js b/docs/search/all_14.js
index 267126dcc1..0b95a13dfd 100644
--- a/docs/search/all_14.js
+++ b/docs/search/all_14.js
@@ -1,14 +1,21 @@
 var searchData=
 [
   ['val',['val',['../structcutlass_1_1platform_1_1alignment__of_1_1pad.html#abc729cc51d5c90b1d7b0df3092d47cd4',1,'cutlass::platform::alignment_of::pad']]],
-  ['valid',['valid',['../structcutlass_1_1FragmentIterator.html#ab18f8ea676b45831f939715212167a99',1,'cutlass::FragmentIterator::valid()'],['../structcutlass_1_1FragmentConstIterator.html#a01571b2fc566793fd50a10fa82441951',1,'cutlass::FragmentConstIterator::valid()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ac4d2c293f9312b673ea29bf79b2882fd',1,'cutlass::gemm::GemmGlobalIteratorAb::valid()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6594acc213fc8d4289c6c73631f60120',1,'cutlass::gemm::GemmGlobalIteratorCd::valid()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a468f8f503777e4a2b0089ee2bd6c471a',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::valid()'],['../structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770',1,'cutlass::TileIteratorBase::valid()']]],
-  ['value',['value',['../structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d',1,'cutlass::log2_down::value()'],['../structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html#ad7d3c2329ab708bd4af36ffaee8509cba282c4c5d8f66dc49544f34071f148b1f',1,'cutlass::log2_down&lt; N, 1, Count &gt;::value()'],['../structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6',1,'cutlass::log2_up::value()'],['../structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html#ab001737f02df0a2c514334a1bfa6f1f9a6b6af5b6bf14ee5d3e3f1442e7f75117',1,'cutlass::log2_up&lt; N, 1, Count &gt;::value()'],['../structcutlass_1_1sqrt__est.html#abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964',1,'cutlass::sqrt_est::value()'],['../structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc',1,'cutlass::divide_assert::value()'],['../structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9',1,'cutlass::platform::integral_constant::value()'],['../structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff',1,'cutlass::platform::is_base_of_helper::value()'],['../structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83',1,'cutlass::platform::alignment_of::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html#a6005c446eb41749276e0114b82abd990a5b0129d0f9bb45f1c56506efbbb22b6f',1,'cutlass::platform::alignment_of&lt; int4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html#ac55e0c5a0bc4c95981744e55ee7580cea807729922944eede573430b20ad4b322',1,'cutlass::platform::alignment_of&lt; uint4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html#ac9e709c32271b14b35c9607c64835a95a6a6ee3f24f4d123fc7c138fe5b776f2e',1,'cutlass::platform::alignment_of&lt; float4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html#ad58512f76f0b9b000d48f1ff869a0547a3d020dd8ba5c735a60d7c2c897e158f5',1,'cutlass::platform::alignment_of&lt; long4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html#adc0eec628649de183fe984bb46898830a8152a79c27d055dc3d0b8d662c0bc96a',1,'cutlass::platform::alignment_of&lt; ulong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html#aadf6522691db02f1aab22c22716f0793a940fa73dc4f0a49b78e4e0cefaf4775d',1,'cutlass::platform::alignment_of&lt; longlong2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html#a511f088278b3de04feb55ab60bdc5a09a58b5cc7be52956c43c2966af5887db80',1,'cutlass::platform::alignment_of&lt; ulonglong2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html#a5fb114d264023728cca5364401bd6929a7b89d57c8009e094f69ff57e196d8318',1,'cutlass::platform::alignment_of&lt; double2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html#a666c4fd30155873e3499f5cdc11782daafc1a7c2bb5e6483d42d380a2b4fd9561',1,'cutlass::platform::alignment_of&lt; longlong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html#a2568c1ab218cab6505bd20e3c2c420ffa54f6e1afec0ed30b18ab79fd6faf81b5',1,'cutlass::platform::alignment_of&lt; ulonglong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html#a024eaf40a8f3e8bd38b416868e0c68bca5a60b16666306472e92ad1320473ba85',1,'cutlass::platform::alignment_of&lt; double4 &gt;::value()']]],
-  ['value_5ftype',['value_type',['../structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd',1,'cutlass::platform::integral_constant']]],
-  ['vector',['Vector',['../unioncutlass_1_1Vector.html',1,'cutlass::Vector&lt; Scalar_, kLanes_ &gt;'],['../structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2',1,'cutlass::VectorTraits::Vector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Vector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Vector()']]],
+  ['valid',['valid',['../structcutlass_1_1FragmentIterator.html#a8608dd815ed4906d8c82c41a10df23e2',1,'cutlass::FragmentIterator::valid()'],['../structcutlass_1_1FragmentConstIterator.html#ac4d601998a84a3eac23e3b7a7c8a935b',1,'cutlass::FragmentConstIterator::valid()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0',1,'cutlass::gemm::GemmGlobalIteratorAb::valid()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0',1,'cutlass::gemm::GemmGlobalIteratorCd::valid()'],['../structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973',1,'cutlass::TileIteratorBase::valid()']]],
+  ['value',['value',['../structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd',1,'cutlass::ScalarIO::value()'],['../structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d',1,'cutlass::log2_down::value()'],['../structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html#ad7d3c2329ab708bd4af36ffaee8509cba282c4c5d8f66dc49544f34071f148b1f',1,'cutlass::log2_down&lt; N, 1, Count &gt;::value()'],['../structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6',1,'cutlass::log2_up::value()'],['../structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html#ab001737f02df0a2c514334a1bfa6f1f9a6b6af5b6bf14ee5d3e3f1442e7f75117',1,'cutlass::log2_up&lt; N, 1, Count &gt;::value()'],['../structcutlass_1_1sqrt__est.html#abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964',1,'cutlass::sqrt_est::value()'],['../structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc',1,'cutlass::divide_assert::value()'],['../structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9',1,'cutlass::platform::integral_constant::value()'],['../structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff',1,'cutlass::platform::is_base_of_helper::value()'],['../structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83',1,'cutlass::platform::alignment_of::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html#a6005c446eb41749276e0114b82abd990a5b0129d0f9bb45f1c56506efbbb22b6f',1,'cutlass::platform::alignment_of&lt; int4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html#ac55e0c5a0bc4c95981744e55ee7580cea807729922944eede573430b20ad4b322',1,'cutlass::platform::alignment_of&lt; uint4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html#ac9e709c32271b14b35c9607c64835a95a6a6ee3f24f4d123fc7c138fe5b776f2e',1,'cutlass::platform::alignment_of&lt; float4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html#ad58512f76f0b9b000d48f1ff869a0547a3d020dd8ba5c735a60d7c2c897e158f5',1,'cutlass::platform::alignment_of&lt; long4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html#adc0eec628649de183fe984bb46898830a8152a79c27d055dc3d0b8d662c0bc96a',1,'cutlass::platform::alignment_of&lt; ulong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html#aadf6522691db02f1aab22c22716f0793a940fa73dc4f0a49b78e4e0cefaf4775d',1,'cutlass::platform::alignment_of&lt; longlong2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html#a511f088278b3de04feb55ab60bdc5a09a58b5cc7be52956c43c2966af5887db80',1,'cutlass::platform::alignment_of&lt; ulonglong2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html#a5fb114d264023728cca5364401bd6929a7b89d57c8009e094f69ff57e196d8318',1,'cutlass::platform::alignment_of&lt; double2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html#a666c4fd30155873e3499f5cdc11782daafc1a7c2bb5e6483d42d380a2b4fd9561',1,'cutlass::platform::alignment_of&lt; longlong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html#a2568c1ab218cab6505bd20e3c2c420ffa54f6e1afec0ed30b18ab79fd6faf81b5',1,'cutlass::platform::alignment_of&lt; ulonglong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html#a024eaf40a8f3e8bd38b416868e0c68bca5a60b16666306472e92ad1320473ba85',1,'cutlass::platform::alignment_of&lt; double4 &gt;::value()']]],
+  ['value_5ftype',['value_type',['../classcutlass_1_1platform_1_1complex.html#aa7c319b0c67f8ffeee3d1bb4b83ea0d6',1,'cutlass::platform::complex::value_type()'],['../structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd',1,'cutlass::platform::integral_constant::value_type()']]],
+  ['vector',['Vector',['../unioncutlass_1_1Vector.html',1,'cutlass::Vector&lt; Scalar_, kLanes_ &gt;'],['../structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2',1,'cutlass::VectorTraits::Vector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Vector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Vector()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1310cf2e92e260cf55cfda1cb2cb7280',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::Vector()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a50ae62579267952a648d4b6a6be3c663',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::Vector(uint32_t value)'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af166f710ebbfdff8a62453eee454c1d5',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::Vector()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a5feb070268f85bd73c3095eaf2d0e2bb',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::Vector(uint32_t value)'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a48e193a0b636934ea553c6e60ffef563',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::Vector()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a023d6ae1bf06d678f8cb5652eca1bf79',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::Vector(uint32_t value)']]],
   ['vector_2eh',['vector.h',['../vector_8h.html',1,'']]],
+  ['vector_3c_20bin1_5ft_2c_20klanes_5f_20_3e',['Vector&lt; bin1_t, kLanes_ &gt;',['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vector_3c_20half_2c_201_20_3e',['Vector&lt; half, 1 &gt;',['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html',1,'cutlass']]],
   ['vector_3c_20half_2c_20klanes_5f_20_3e',['Vector&lt; half, kLanes_ &gt;',['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vector_3c_20int4_5ft_2c_20klanes_5f_20_3e',['Vector&lt; int4_t, kLanes_ &gt;',['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vector_3c_20uint4_5ft_2c_20klanes_5f_20_3e',['Vector&lt; uint4_t, kLanes_ &gt;',['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html',1,'cutlass']]],
   ['vectorize',['Vectorize',['../structcutlass_1_1Vectorize.html',1,'cutlass']]],
-  ['vectorize_3c_20element_5f_2c_201_20_3e',['Vectorize&lt; Element_, 1 &gt;',['../structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html',1,'cutlass']]],
+  ['vectorize_3c_20vector_3c_20bin1_5ft_2c_2032_20_3e_2c_20klanes_5f_20_3e',['Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;',['../structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vectorize_3c_20vector_3c_20int4_5ft_2c_208_20_3e_2c_20klanes_5f_20_3e',['Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;',['../structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vectorize_3c_20vector_3c_20uint4_5ft_2c_208_20_3e_2c_20klanes_5f_20_3e',['Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;',['../structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vectorizedtile',['VectorizedTile',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac',1,'cutlass::gemm::GemmGlobalTileTraits']]],
   ['vectortraits',['VectorTraits',['../structcutlass_1_1VectorTraits.html',1,'cutlass']]],
   ['vectortraits_3c_20vector_3c_20t_2c_20lanes_20_3e_20_3e',['VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;',['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html',1,'cutlass']]],
   ['vectortraits_3c_20vector_3c_20t_2c_20lanes_20_3e_20const_20_3e',['VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;',['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html',1,'cutlass']]]
diff --git a/docs/search/all_15.js b/docs/search/all_15.js
index ddd79cabe1..21319e6be6 100644
--- a/docs/search/all_15.js
+++ b/docs/search/all_15.js
@@ -1,12 +1,13 @@
 var searchData=
 [
-  ['warps',['Warps',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4',1,'cutlass::gemm::GemmSharedLoadTileATraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd',1,'cutlass::gemm::GemmConfig::Warps()']]],
+  ['w',['w',['../structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613',1,'cutlass::TileCoord::w() const'],['../structcutlass_1_1TileCoord.html#a8f83026751c83f57c1854c8544e75bd0',1,'cutlass::TileCoord::w()']]],
+  ['warps',['Warps',['../structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3',1,'cutlass::gemm::GemmConfig::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4',1,'cutlass::gemm::GemmSharedLoadTileATraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Warps()']]],
   ['wmma_5fgemm_5fepilogue_5ftraits_2eh',['wmma_gemm_epilogue_traits.h',['../wmma__gemm__epilogue__traits_8h.html',1,'']]],
   ['wmma_5fgemm_5fglobal_5ftile_2eh',['wmma_gemm_global_tile.h',['../wmma__gemm__global__tile_8h.html',1,'']]],
   ['wmma_5fgemm_5fmultiply_5fadd_2eh',['wmma_gemm_multiply_add.h',['../wmma__gemm__multiply__add_8h.html',1,'']]],
   ['wmma_5fgemm_5fshared_5ftile_2eh',['wmma_gemm_shared_tile.h',['../wmma__gemm__shared__tile_8h.html',1,'']]],
   ['wmma_5fgemm_5ftraits_2eh',['wmma_gemm_traits.h',['../wmma__gemm__traits_8h.html',1,'']]],
   ['wmma_5fmatrix_2eh',['wmma_matrix.h',['../wmma__matrix_8h.html',1,'']]],
-  ['wmmagemmglobaliteratorcd',['WmmaGemmGlobalIteratorCd',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a505f124fa3f47c6d57b7275e81be6dd3',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::WmmaGemmGlobalIteratorCd()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::WmmaGemmGlobalIteratorCd(Params const &amp;params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int const pointer_offset=0, int const pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())']]],
+  ['wmmagemmglobaliteratorcd',['WmmaGemmGlobalIteratorCd',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::WmmaGemmGlobalIteratorCd()']]],
   ['wmmagemmglobaliteratorcdtraits',['WmmaGemmGlobalIteratorCdTraits',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html',1,'cutlass::gemm']]]
 ];
diff --git a/docs/search/all_17.js b/docs/search/all_17.js
index 10f55890b8..ac707a2d98 100644
--- a/docs/search/all_17.js
+++ b/docs/search/all_17.js
@@ -1,4 +1,11 @@
 var searchData=
 [
-  ['_7eunique_5fptr',['~unique_ptr',['../classcutlass_1_1platform_1_1unique__ptr.html#a8902399dac4ab64f08f909f2ad9d4bcf',1,'cutlass::platform::unique_ptr']]]
+  ['zip_5ffragment_2eh',['zip_fragment.h',['../zip__fragment_8h.html',1,'']]],
+  ['zip_5ftensor_5fref_2eh',['zip_tensor_ref.h',['../zip__tensor__ref_8h.html',1,'']]],
+  ['zip_5ftile_5fiterator_2eh',['zip_tile_iterator.h',['../zip__tile__iterator_8h.html',1,'']]],
+  ['zipconvert',['ZipConvert',['../structcutlass_1_1ZipConvert.html',1,'cutlass::ZipConvert&lt; First_, Second_ &gt;'],['../structcutlass_1_1ZipConvert.html#a7aa56d3ea300ebc58493c4d66339fff5',1,'cutlass::ZipConvert::ZipConvert()'],['../structcutlass_1_1ZipConvert.html#a3322c88b418c365423480a481e29df29',1,'cutlass::ZipConvert::ZipConvert(First const &amp;_first, Second const &amp;_second)']]],
+  ['zipfragment',['ZipFragment',['../structcutlass_1_1ZipFragment.html',1,'cutlass::ZipFragment&lt; First_, Second_ &gt;'],['../structcutlass_1_1ZipFragment.html#aeb654423884324b14130a8fa8bc1ab83',1,'cutlass::ZipFragment::ZipFragment()'],['../structcutlass_1_1ZipFragment.html#a520318d060123c5870c4153b99cf0427',1,'cutlass::ZipFragment::ZipFragment(First const &amp;_first, Second const &amp;_second)']]],
+  ['ziptensorref',['ZipTensorRef',['../structcutlass_1_1ZipTensorRef.html',1,'cutlass::ZipTensorRef&lt; First_, Second_ &gt;'],['../structcutlass_1_1ZipTensorRef.html#a9b4e616da5b0a71ac2d9bd03b4e07b86',1,'cutlass::ZipTensorRef::ZipTensorRef()'],['../structcutlass_1_1ZipTensorRef.html#a6905b853de0521e2f2fedac407a920e1',1,'cutlass::ZipTensorRef::ZipTensorRef(First const &amp;_first, Second const &amp;_second)']]],
+  ['ziptileallocation',['ZipTileAllocation',['../structcutlass_1_1ZipTileAllocation.html',1,'cutlass']]],
+  ['ziptileiterator',['ZipTileIterator',['../classcutlass_1_1ZipTileIterator.html',1,'cutlass::ZipTileIterator&lt; First_, Second_ &gt;'],['../classcutlass_1_1ZipTileIterator.html#a09eab0c5218fc122848b623462c18149',1,'cutlass::ZipTileIterator::ZipTileIterator()'],['../classcutlass_1_1ZipTileIterator.html#a45a8ba275f8d4f71deb102ad46712b3e',1,'cutlass::ZipTileIterator::ZipTileIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))'],['../classcutlass_1_1ZipTileIterator.html#a31553842afd1cfd5a18a2fd6c39e17b5',1,'cutlass::ZipTileIterator::ZipTileIterator(First const &amp;_first, Second const &amp;_second)'],['../classcutlass_1_1ZipTileIterator.html#a808e06560609aa5b7bb693ec79a3aa57',1,'cutlass::ZipTileIterator::ZipTileIterator(TensorRef const &amp;ref)'],['../classcutlass_1_1ZipTileIterator.html#a9d70b24bf38122c0fea49558c6f6b344',1,'cutlass::ZipTileIterator::ZipTileIterator(Params const &amp;_params, TensorRef const &amp;ref)']]]
 ];
diff --git a/docs/search/all_18.html b/docs/search/all_18.html
new file mode 100644
index 0000000000..2a00902546
--- /dev/null
+++ b/docs/search/all_18.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="all_18.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/all_18.js b/docs/search/all_18.js
new file mode 100644
index 0000000000..10f55890b8
--- /dev/null
+++ b/docs/search/all_18.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['_7eunique_5fptr',['~unique_ptr',['../classcutlass_1_1platform_1_1unique__ptr.html#a8902399dac4ab64f08f909f2ad9d4bcf',1,'cutlass::platform::unique_ptr']]]
+];
diff --git a/docs/search/all_2.js b/docs/search/all_2.js
index b440de047e..776b8f8163 100644
--- a/docs/search/all_2.js
+++ b/docs/search/all_2.js
@@ -1,10 +1,21 @@
 var searchData=
 [
-  ['base',['Base',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a507f825824e624d80a34ea9395934160',1,'cutlass::gemm::GlobalLoadStream::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a',1,'cutlass::gemm::GemmGlobalTileCdTraits::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed',1,'cutlass::gemm::GemmGlobalIteratorAb::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5',1,'cutlass::gemm::GemmGlobalIteratorCd::Base()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Base()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04',1,'cutlass::gemm::IgemmEpilogue::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf',1,'cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#ab19f72d239f639f261fbb63f72f10acf',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::Base()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#affd04d88a0bbef13c54f10000a5dc15d',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aef7047c6a0d0c3db0bfb6bec08520aad',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::Base()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a48a8eda430139e6a131654a54bbf0f3b',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Base()'],['../classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4',1,'cutlass::TensorView::Base()'],['../structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3',1,'cutlass::TileLoadIterator::Base()'],['../structcutlass_1_1TileStoreIterator.html#af4576dca736bab8ac73b308522cb4a67',1,'cutlass::TileStoreIterator::Base()']]],
-  ['baseparams',['BaseParams',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517',1,'cutlass::gemm::GemmGlobalIteratorAb::BaseParams()'],['../structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76',1,'cutlass::TileLoadIterator::BaseParams()'],['../structcutlass_1_1TileStoreIterator.html#a5484b46ac2646edb7a185b51137f70c0',1,'cutlass::TileStoreIterator::BaseParams()']]],
-  ['begin',['begin',['../structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5',1,'cutlass::PredicateVector']]],
-  ['beta',['beta',['../structcutlass_1_1gemm_1_1GemmDesc.html#ab91b702a9932144b388fad3159130332',1,'cutlass::gemm::GemmDesc::beta()'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b',1,'cutlass::gemm::LinearScaling::Params::beta()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e',1,'cutlass::gemm::LinearScaling::beta()']]],
+  ['b',['B',['../structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774',1,'cutlass::gemm::GemmDesc']]],
+  ['base',['Base',['../structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b',1,'cutlass::gemm::GemmCoord::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a',1,'cutlass::gemm::GemmGlobalTileCdTraits::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed',1,'cutlass::gemm::GemmGlobalIteratorAb::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5',1,'cutlass::gemm::GemmGlobalIteratorCd::Base()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Base()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04',1,'cutlass::gemm::IgemmEpilogue::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf',1,'cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ac14f4ef560bd8068d16c0471af6df82c',1,'cutlass::gemm::IgemmGlobalTileTraits::Base()'],['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a82a9cfc61ecc117592bdb30f57bd35c9',1,'cutlass::gemm::IgemmGlobalIteratorAb::Base()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#adbbf19c2f86c198bbe4cc596c63e65ae',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4f7dfa33f6b6e52aac05ad5072710aa9',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#ad10463da3f5a421f9b87638775ef0a85',1,'cutlass::gemm::LinearScalingDevicePtr::Base()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::Base()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aea87c73ae2d4e027014ebd4d8141c89e',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Base()'],['../structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d',1,'cutlass::MatrixCoord::Base()'],['../structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000',1,'cutlass::TensorRefBatchStrided::Base()'],['../classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6',1,'cutlass::TensorView::Base()'],['../structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca',1,'cutlass::TileCoord::Base()'],['../structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264',1,'cutlass::TileLoadIterator::Base()'],['../structcutlass_1_1TileStoreIterator.html#a24fa369165de783a72311d8ec3115c48',1,'cutlass::TileStoreIterator::Base()'],['../structcutlass_1_1PredicatedTileLoadStream.html#ac7f57248d3e10c9309f042e5d41440c1',1,'cutlass::PredicatedTileLoadStream::Base()'],['../structcutlass_1_1PredicatedTileStoreStream.html#afc320f4d29f05102e9de0064ca31e49b',1,'cutlass::PredicatedTileStoreStream::Base()']]],
+  ['baseparams',['BaseParams',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517',1,'cutlass::gemm::GemmGlobalIteratorAb::BaseParams()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afd2bed46f4cf04aaf331fb2ecae953f8',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::BaseParams()'],['../structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e',1,'cutlass::TileLoadIterator::BaseParams()'],['../structcutlass_1_1TileStoreIterator.html#a5dd2a31d41d9098e928c559af12cbe66',1,'cutlass::TileStoreIterator::BaseParams()']]],
+  ['batch',['batch',['../structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26',1,'cutlass::gemm::GemmCoord::batch() const'],['../structcutlass_1_1gemm_1_1GemmCoord.html#adaf31768b8239f497c0ec9b40bad1cb5',1,'cutlass::gemm::GemmCoord::batch()']]],
+  ['batch_5fstride_5fa',['batch_stride_A',['../structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599',1,'cutlass::gemm::GemmDesc']]],
+  ['batch_5fstride_5fb',['batch_stride_B',['../structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a',1,'cutlass::gemm::GemmDesc']]],
+  ['batch_5fstride_5fc',['batch_stride_C',['../structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2',1,'cutlass::gemm::GemmDesc']]],
+  ['batch_5fstride_5fd',['batch_stride_D',['../structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de',1,'cutlass::gemm::GemmDesc']]],
+  ['begin',['begin',['../structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5',1,'cutlass::PredicateVector::begin()'],['../structcutlass_1_1TensorRefBatchStrided.html#a4f4a2f860cc10688ee27cc9ce1df1015',1,'cutlass::TensorRefBatchStrided::begin()'],['../structcutlass_1_1TensorRefArray.html#a6b0f0d9cef4a2f3f4a8bf6c192a282db',1,'cutlass::TensorRefArray::begin()']]],
+  ['beta',['beta',['../structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b',1,'cutlass::gemm::GemmDesc::beta()'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b',1,'cutlass::gemm::LinearScaling::Params::beta()'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816',1,'cutlass::gemm::LinearScalingDevicePtr::Params::beta()']]],
+  ['bin1_5ft',['bin1_t',['../structcutlass_1_1bin1__t.html',1,'cutlass']]],
+  ['block',['block',['../structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd',1,'cutlass::KernelLaunchConfiguration']]],
   ['blockswizzle',['BlockSwizzle',['../structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941',1,'cutlass::gemm::GemmTraits']]],
   ['bool_5fconstant',['bool_constant',['../structcutlass_1_1platform_1_1bool__constant.html',1,'cutlass::platform']]],
+  ['bounds',['bounds',['../structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a',1,'cutlass::RegularTilePredicateFunctor']]],
+  ['boustrophedon',['Boustrophedon',['../structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa',1,'cutlass::gemm::swizzleDirection']]],
+  ['btype',['BType',['../structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49',1,'cutlass::gemm::GemmDesc']]],
   ['byte',['byte',['../structcutlass_1_1platform_1_1alignment__of_1_1pad.html#a86f075f91b80918e968951713430f0b4',1,'cutlass::platform::alignment_of::pad']]]
 ];
diff --git a/docs/search/all_3.js b/docs/search/all_3.js
index fa720a8db8..7695e19caa 100644
--- a/docs/search/all_3.js
+++ b/docs/search/all_3.js
@@ -1,42 +1,59 @@
 var searchData=
 [
+  ['c',['c',['../structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c',1,'cutlass::TileCoord::c() const'],['../structcutlass_1_1TileCoord.html#ad8281750f2978c6c1c91982f347a14cd',1,'cutlass::TileCoord::c()'],['../structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30',1,'cutlass::gemm::GemmDesc::C()']]],
+  ['capacity',['capacity',['../classcutlass_1_1TensorView.html#ad870c366ffe904d3363df1dfb0d5f04c',1,'cutlass::TensorView']]],
   ['check',['check',['../structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b',1,'cutlass::platform::is_base_of_helper::check(DerivedT *, T)'],['../structcutlass_1_1platform_1_1is__base__of__helper.html#ae8896817cabf297437b3a073e693ffd2',1,'cutlass::platform::is_base_of_helper::check(BaseT *, int)']]],
-  ['clamp',['clamp',['../structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e',1,'cutlass::Coord']]],
-  ['clear',['clear',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage::clear()'],['../structcutlass_1_1Fragment.html#a29e7408fcde8cdf9de5e3a10eaa46391',1,'cutlass::Fragment::clear()'],['../structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab',1,'cutlass::gemm::ClearAccumulators::clear()']]],
+  ['clamp',['clamp',['../structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba',1,'cutlass::Coord']]],
+  ['clear',['clear',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage::clear()'],['../structcutlass_1_1Fragment.html#acf28266500b87484530b2395925fca51',1,'cutlass::Fragment::clear()'],['../structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab',1,'cutlass::gemm::ClearAccumulators::clear()'],['../structcutlass_1_1ZipFragment.html#aa978dd7fca15ca20e9f52d15e6f8f9c1',1,'cutlass::ZipFragment::clear()']]],
   ['clear_5faccumulators_2eh',['clear_accumulators.h',['../clear__accumulators_8h.html',1,'']]],
-  ['clearaccumulators',['ClearAccumulators',['../structcutlass_1_1gemm_1_1ClearAccumulators.html',1,'cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;'],['../structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165',1,'cutlass::gemm::GemmTraits::ClearAccumulators()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041',1,'cutlass::gemm::HgemmTraitsHelper::ClearAccumulators()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5',1,'cutlass::gemm::IgemmTraitsHelper::ClearAccumulators()'],['../structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef',1,'cutlass::gemm::ClearAccumulators::ClearAccumulators()']]],
-  ['commit',['commit',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6ce2c6e81d159d8e9ab736cb263f44ae',1,'cutlass::gemm::GlobalLoadStreamBase::commit()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a9cc435369c7fc76d0bb6233a8258e257',1,'cutlass::gemm::SharedLoadStream::commit()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a6dc512be014b9d849057e2fd4c0b0485',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::commit()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#ade2d85507dec77591e66276339a1eef5',1,'cutlass::gemm::GemmTraits::SharedLoadStream::commit()']]],
+  ['clearaccumulators',['ClearAccumulators',['../structcutlass_1_1gemm_1_1ClearAccumulators.html',1,'cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;'],['../structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165',1,'cutlass::gemm::GemmTraits::ClearAccumulators()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6',1,'cutlass::gemm::HgemmTraitsHelper::ClearAccumulators()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760',1,'cutlass::gemm::IgemmTraitsHelper::ClearAccumulators()'],['../structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef',1,'cutlass::gemm::ClearAccumulators::ClearAccumulators(SharedStorage &amp;shared_storage)'],['../structcutlass_1_1gemm_1_1ClearAccumulators.html#aef1832b62ae8caef5e6d34cb1d1564e3',1,'cutlass::gemm::ClearAccumulators::ClearAccumulators()']]],
+  ['clz',['clz',['../namespacecutlass.html#a6bc666acc9f0d7278a788975e226e005',1,'cutlass']]],
+  ['column',['column',['../structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9',1,'cutlass::MatrixCoord::column() const'],['../structcutlass_1_1MatrixCoord.html#a093f5e568a81c6464dbf4aef996c32ba',1,'cutlass::MatrixCoord::column()']]],
+  ['columnmajor',['ColumnMajor',['../structcutlass_1_1MatrixLayout_1_1ColumnMajor.html',1,'cutlass::MatrixLayout']]],
+  ['columnmajorblocklinear',['ColumnMajorBlockLinear',['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html',1,'cutlass::MatrixLayout']]],
+  ['columnmajorblockswizzle',['ColumnMajorBlockSwizzle',['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html',1,'cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;'],['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a6d0ee4e76371af26030ab4922e6c915a',1,'cutlass::gemm::ColumnMajorBlockSwizzle::ColumnMajorBlockSwizzle()']]],
+  ['columnmajorinterleaved',['ColumnMajorInterleaved',['../structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html',1,'cutlass::MatrixLayout']]],
+  ['commit',['commit',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab39c82ac1a8138c4b6d69dab9d48bdbc',1,'cutlass::gemm::GlobalLoadStream::commit()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#aa3aa987bf0fd6303e06f46e2f54e47e4',1,'cutlass::gemm::SharedLoadStream::commit()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a6be479189765a1803ceced424561466b',1,'cutlass::gemm::SharedLoadStream::commit(int step)'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6699714c357f2714df011f58c1c48861',1,'cutlass::gemm::GlobalLoadStreamPair::commit()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a93cc2a7eb3215ce5bae343fb117f55c5',1,'cutlass::gemm::SharedStreamPair::commit()'],['../structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627',1,'cutlass::TileLoadStream::commit()'],['../structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579',1,'cutlass::TileStoreStream::commit()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a165a0d486f53fb2315d4e555c9f59891',1,'cutlass::PredicatedTileStoreStream::commit()']]],
+  ['complex',['complex',['../classcutlass_1_1platform_1_1complex.html',1,'cutlass::platform::complex&lt; T &gt;'],['../classcutlass_1_1platform_1_1complex.html#a2e852c886e61a39e884026d6f4c32c1e',1,'cutlass::platform::complex::complex(T r=T(0), T i=T(0))'],['../classcutlass_1_1platform_1_1complex.html#a71ee9d620f72fbcd54f6e3049707eb99',1,'cutlass::platform::complex::complex(cuFloatComplex const &amp;z)'],['../classcutlass_1_1platform_1_1complex.html#af40324ec4d1d35a0ceda676c8de968f8',1,'cutlass::platform::complex::complex(cuDoubleComplex const &amp;z)']]],
+  ['complex_2eh',['complex.h',['../complex_8h.html',1,'']]],
   ['computeoffsetfromshape',['ComputeOffsetFromShape',['../structcutlass_1_1ComputeOffsetFromShape.html',1,'cutlass']]],
-  ['computeoffsetfromshape_3c_20shape_3c_201_2c_20ksh_5f_2c_20ksw_5f_2c_201_20_3e_20_3e',['ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;',['../structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html',1,'cutlass']]],
-  ['computeoffsetfromshape_3c_20shape_3c_201_2c_20ksh_5f_2c_20ksw_5f_2c_20ksc_5f_20_3e_20_3e',['ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;',['../structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html',1,'cutlass']]],
   ['computeoffsetfromstrides',['ComputeOffsetFromStrides',['../structcutlass_1_1ComputeOffsetFromStrides.html',1,'cutlass']]],
-  ['computeoffsetfromstrides_3c_20shape_3c_201_2c_20s_5fh_5f_2c_20s_5fw_5f_2c_201_20_3e_20_3e',['ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;',['../structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html',1,'cutlass']]],
-  ['computeoffsetfromstrides_3c_20shape_3c_201_2c_20s_5fh_5f_2c_20s_5fw_5f_2c_20s_5fc_5f_20_3e_20_3e',['ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;',['../structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html',1,'cutlass']]],
   ['computethreadoffsetfromstrides',['ComputeThreadOffsetFromStrides',['../structcutlass_1_1ComputeThreadOffsetFromStrides.html',1,'cutlass']]],
   ['computethreadoffsetfromstrides_3c_20shape_3c_201_2c_20t_5fh_5f_2c_20t_5fw_5f_2c_201_20_3e_2c_20shape_3c_201_2c_20s_5fh_5f_2c_20s_5fw_5f_2c_201_20_3e_20_3e',['ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;',['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html',1,'cutlass']]],
   ['computethreadoffsetfromstrides_3c_20shape_3c_201_2c_20t_5fh_5f_2c_20t_5fw_5f_2c_20t_5fc_5f_20_3e_2c_20shape_3c_201_2c_20s_5fh_5f_2c_20s_5fw_5f_2c_20s_5fc_5f_20_3e_20_3e',['ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;',['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html',1,'cutlass']]],
   ['conditional',['conditional',['../structcutlass_1_1platform_1_1conditional.html',1,'cutlass::platform']]],
   ['conditional_3c_20false_2c_20t_2c_20f_20_3e',['conditional&lt; false, T, F &gt;',['../structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html',1,'cutlass::platform']]],
   ['congruous',['Congruous',['../structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html#abe4eb7f9a0ed7d48a81029e88849dcf2',1,'cutlass::gemm::GemmOperandTraitsAb']]],
+  ['conj',['conj',['../namespacecutlass_1_1platform.html#a7167baf0f7fcf52471c0413f084d98d4',1,'cutlass::platform']]],
   ['const_5fbegin',['const_begin',['../structcutlass_1_1PredicateVector.html#aeb7f9226a4fa49d06500c3c83958dc41',1,'cutlass::PredicateVector']]],
   ['const_5fend',['const_end',['../structcutlass_1_1PredicateVector.html#ab931610bc07ee0e87bb4d9a4d53a2321',1,'cutlass::PredicateVector']]],
-  ['const_5fref',['const_ref',['../classcutlass_1_1TensorView.html#a23564f1d333bb16343ed3a885f894285',1,'cutlass::TensorView']]],
+  ['const_5fref',['const_ref',['../classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47',1,'cutlass::TensorRef::const_ref()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0a48de201c35cbc9d5e3b94fa597a617',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::const_ref()'],['../classcutlass_1_1TensorView.html#a559f7210b445c77a167ab1f41c8d0827',1,'cutlass::TensorView::const_ref()']]],
   ['constexpr',['constexpr',['../platform_8h.html#a72f0657181cca64b44eb186b707eb380',1,'platform.h']]],
-  ['constiterator',['ConstIterator',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html',1,'cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7',1,'cutlass::PredicateVector::ConstIterator::ConstIterator(ConstIterator const &amp;it)'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda',1,'cutlass::PredicateVector::ConstIterator::ConstIterator(PredicateVector const &amp;_vec, int _start=0)']]],
+  ['constiterator',['ConstIterator',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html',1,'cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html',1,'cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html',1,'cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7',1,'cutlass::PredicateVector::ConstIterator::ConstIterator(ConstIterator const &amp;it)'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda',1,'cutlass::PredicateVector::ConstIterator::ConstIterator(PredicateVector const &amp;_vec, int _start=0)'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed',1,'cutlass::TensorRefBatchStrided::ConstIterator::ConstIterator()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541',1,'cutlass::TensorRefArray::ConstIterator::ConstIterator()']]],
   ['constpredicatetileadapter',['ConstPredicateTileAdapter',['../structcutlass_1_1ConstPredicateTileAdapter.html',1,'cutlass::ConstPredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;'],['../structcutlass_1_1ConstPredicateTileAdapter.html#a9abd78d5c3e444bfb23d2b1a08be2be1',1,'cutlass::ConstPredicateTileAdapter::ConstPredicateTileAdapter()']]],
-  ['consttensorref_5ft',['ConstTensorRef_t',['../classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830',1,'cutlass::TensorView']]],
-  ['contains',['contains',['../classcutlass_1_1TensorView.html#aa94063d9a9c6e599d3f53e22433274be',1,'cutlass::TensorView']]],
-  ['convert',['Convert',['../structcutlass_1_1Convert.html',1,'cutlass::Convert&lt; InputFragment_, OutputFragment_ &gt;'],['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a593a5a2c48708965e829d242ccb3b99f',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::Convert()'],['../classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c',1,'cutlass::TensorRef::convert()']]],
+  ['consttensorref',['ConstTensorRef',['../classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17',1,'cutlass::TensorRef::ConstTensorRef()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::ConstTensorRef()'],['../classcutlass_1_1TensorView.html#a3861f7f09da0b8153d0e3686f2c7cf57',1,'cutlass::TensorView::ConstTensorRef()'],['../structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033',1,'cutlass::TileAllocation::ConstTensorRef()'],['../structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4',1,'cutlass::ZipTileAllocation::ConstTensorRef()']]],
+  ['consttensorref_5ft',['ConstTensorRef_t',['../classcutlass_1_1TensorView.html#a162c4cb4f4e866892d63cd37f7f72165',1,'cutlass::TensorView']]],
+  ['consttensorview',['ConstTensorView',['../classcutlass_1_1TensorView.html#ab879a7b6552c879a81c49cbc0946d719',1,'cutlass::TensorView']]],
+  ['consume_5ftile',['consume_tile',['../structcutlass_1_1gemm_1_1Gemm.html#af8bb78ae198af4dccb0241da44428053',1,'cutlass::gemm::Gemm']]],
+  ['contains',['contains',['../classcutlass_1_1TensorView.html#a3f448bcf6e664c244f472e2659215628',1,'cutlass::TensorView']]],
+  ['contiguouslayout',['ContiguousLayout',['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html',1,'cutlass::MatrixLayout']]],
+  ['convert',['Convert',['../structcutlass_1_1Convert.html',1,'cutlass::Convert&lt; InputFragment_, OutputFragment_ &gt;'],['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a593a5a2c48708965e829d242ccb3b99f',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::Convert()']]],
   ['convert_2eh',['convert.h',['../convert_8h.html',1,'']]],
   ['convert_3c_20fragment_3c_20inputscalar_5f_2c_20kscalars_5f_20_3e_2c_20fragment_3c_20outputscalar_5f_2c_20kscalars_5f_20_3e_20_3e',['Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html',1,'cutlass']]],
-  ['coord',['Coord',['../structcutlass_1_1Coord.html',1,'cutlass::Coord&lt; N_ &gt;'],['../structcutlass_1_1Coord.html#a9cbfff91f0b0d0a149534c97e3d6e69b',1,'cutlass::Coord::Coord(int value=0)'],['../structcutlass_1_1Coord.html#a53a3d88a884f6cb7fda8aedfe2cec2c5',1,'cutlass::Coord::Coord(int _idx[])']]],
+  ['coord',['Coord',['../structcutlass_1_1Coord.html',1,'cutlass::Coord&lt; Rank_, Index_ &gt;'],['../structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0',1,'cutlass::Coord::Coord(Index value=0)'],['../structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4',1,'cutlass::Coord::Coord(Index _idx[])'],['../structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573',1,'cutlass::Coord::Coord(Coord&lt; kRank &gt; const &amp;coord)']]],
   ['coord_2eh',['coord.h',['../coord_8h.html',1,'']]],
+  ['coord_3c_202_2c_20int_20_3e',['Coord&lt; 2, int &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
+  ['coord_3c_203_20_3e',['Coord&lt; 3 &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
   ['coord_3c_204_20_3e',['Coord&lt; 4 &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
-  ['coord_3c_20rank_20_3e',['Coord&lt; Rank &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
-  ['coord_5ft',['Coord_t',['../classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017',1,'cutlass::TensorView']]],
-  ['copy',['Copy',['../structcutlass_1_1Copy.html',1,'cutlass::Copy&lt; Fragment_ &gt;'],['../structcutlass_1_1Copy.html#ab2c20f886208396a1779c6d29b56c3f1',1,'cutlass::Copy::Copy()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#af7a15b4456cda01c1ffbb2fdc532e87e',1,'cutlass::gemm::GlobalLoadStreamBase::copy()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a7f6bf3b8d70bcd74d84519decd9f0d8e',1,'cutlass::gemm::SharedLoadStream::copy(FetchedFragment &amp;fetched)'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a279144e9722055d4b862e3fa25948762',1,'cutlass::gemm::SharedLoadStream::copy(int d, FetchedFragment &amp;fetched)'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ae033f55779b45b4228f40a4d699062bb',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::copy()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#af25495bb0bb35bd64246d3a80fe4806f',1,'cutlass::gemm::GemmTraits::SharedLoadStream::copy()']]],
+  ['coord_3c_204_2c_20index_5f_20_3e',['Coord&lt; 4, Index_ &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
+  ['coord_3c_204_2c_20int_20_3e',['Coord&lt; 4, int &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
+  ['coord_3c_20kstoragerank_20_2d_201_20_3e',['Coord&lt; kStorageRank - 1 &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
+  ['coord_5ft',['Coord_t',['../classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6',1,'cutlass::TensorRef::Coord_t()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a705c22cb328c4dc9365c2f370ece2031',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Coord_t()'],['../classcutlass_1_1TensorView.html#ab16a0244199ca2800ea5460ed8ed6ae2',1,'cutlass::TensorView::Coord_t()']]],
+  ['copy',['Copy',['../structcutlass_1_1Copy.html',1,'cutlass::Copy&lt; Fragment_ &gt;'],['../structcutlass_1_1Copy.html#ab2c20f886208396a1779c6d29b56c3f1',1,'cutlass::Copy::Copy()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a3784dbb3efe0865ffa946419111c824a',1,'cutlass::gemm::GlobalLoadStream::copy()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a4b919d229e259909efbf994ff2c09339',1,'cutlass::gemm::SharedLoadStream::copy()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a99039d115a539fc99e2235c12ac57eed',1,'cutlass::gemm::SharedLoadStream::copy(int step)'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5c0efc259bb3bd1675f5d395dab71e95',1,'cutlass::gemm::GlobalLoadStreamPair::copy()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#ad46887abb2e3136b635c3ef5be29cf69',1,'cutlass::gemm::SharedStreamPair::copy()'],['../structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23',1,'cutlass::TileLoadStream::copy()'],['../structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009',1,'cutlass::TileStoreStream::copy()'],['../structcutlass_1_1TileStoreStream.html#aa0f3c75e59054d6229de159474c9c978',1,'cutlass::TileStoreStream::copy(Fragment const &amp;frag)'],['../structcutlass_1_1PredicatedTileLoadStream.html#a60a03c95452fe627477933d60815f7cb',1,'cutlass::PredicatedTileLoadStream::copy()'],['../structcutlass_1_1PredicatedTileStoreStream.html#ae84437a66097189406c2090d88a79350',1,'cutlass::PredicatedTileStoreStream::copy()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a1d33da4593ae68e6301df54b310a70a0',1,'cutlass::PredicatedTileStoreStream::copy(Fragment const &amp;frag)']]],
   ['core_5fio_2eh',['core_io.h',['../core__io_8h.html',1,'']]],
-  ['count',['count',['../structcutlass_1_1Coord.html#a40429a9154f7a142ad7e9eb35282d196',1,'cutlass::Coord']]],
+  ['cos',['cos',['../namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92',1,'cutlass::platform']]],
+  ['count',['count',['../structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017',1,'cutlass::Coord']]],
+  ['ctype',['CType',['../structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704',1,'cutlass::gemm::GemmDesc']]],
   ['cuda_5flog',['CUDA_LOG',['../debug_8h.html#a27e3466bcf1ec7fda4f6f95aa0a51177',1,'debug.h']]],
   ['cuda_5flog_5fdebug',['CUDA_LOG_DEBUG',['../debug_8h.html#a8d6986db819719ada8b29d53dfc104a6',1,'debug.h']]],
   ['cuda_5fperror',['CUDA_PERROR',['../debug_8h.html#aed8337b88d71895f95f8980ef0b3a50b',1,'debug.h']]],
@@ -46,6 +63,7 @@ var searchData=
   ['cutlass',['cutlass',['../namespacecutlass.html',1,'']]],
   ['cutlass_2eh',['cutlass.h',['../cutlass_8h.html',1,'']]],
   ['cutlass_5fassert',['CUTLASS_ASSERT',['../cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7',1,'cutlass.h']]],
+  ['cutlass_5fgemm_5floop',['CUTLASS_GEMM_LOOP',['../cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71',1,'cutlass.h']]],
   ['cutlass_5fhost_5fdevice',['CUTLASS_HOST_DEVICE',['../cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1',1,'cutlass.h']]],
   ['cutlass_5fmajor',['CUTLASS_MAJOR',['../cutlass_8h.html#a8ff3cda9323810c1c504793a0206d4b8',1,'cutlass.h']]],
   ['cutlass_5fmath_2eh',['cutlass_math.h',['../cutlass__math_8h.html',1,'']]],
@@ -54,6 +72,7 @@ var searchData=
   ['cutlass_5fpragma_5fno_5funroll',['CUTLASS_PRAGMA_NO_UNROLL',['../cutlass_8h.html#adb3bc73d74b4a4bf13099d5696db3352',1,'cutlass.h']]],
   ['cutlass_5fpragma_5funroll',['CUTLASS_PRAGMA_UNROLL',['../cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4',1,'cutlass.h']]],
   ['cutlass_5fversion',['CUTLASS_VERSION',['../cutlass_8h.html#aa3040eddf073214969f9445bfa925039',1,'cutlass.h']]],
+  ['detail',['detail',['../namespacecutlass_1_1detail.html',1,'cutlass']]],
   ['gemm',['gemm',['../namespacecutlass_1_1gemm.html',1,'cutlass']]],
   ['platform',['platform',['../namespacecutlass_1_1platform.html',1,'cutlass']]]
 ];
diff --git a/docs/search/all_4.js b/docs/search/all_4.js
index c58b1aa483..7ecb56d6cf 100644
--- a/docs/search/all_4.js
+++ b/docs/search/all_4.js
@@ -1,19 +1,24 @@
 var searchData=
 [
-  ['d_5fa',['d_a',['../structcutlass_1_1gemm_1_1GemmDesc.html#aae63781de41962f496da469684919447',1,'cutlass::gemm::GemmDesc']]],
-  ['d_5fb',['d_b',['../structcutlass_1_1gemm_1_1GemmDesc.html#a05915032eba39bc9b085bec5ff17257b',1,'cutlass::gemm::GemmDesc']]],
-  ['d_5fc',['d_c',['../structcutlass_1_1gemm_1_1GemmDesc.html#aa2b3126c082d04fd31521cb0e84cf4d5',1,'cutlass::gemm::GemmDesc']]],
-  ['d_5fd',['d_d',['../structcutlass_1_1gemm_1_1GemmDesc.html#a30326e2d81c8e154d749f35837903216',1,'cutlass::gemm::GemmDesc']]],
-  ['data',['data',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3af66b82b1a0cc5bf6141f940553e048',1,'cutlass::gemm::GemmGlobalIteratorAb::data()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a0d3c1a58f23957f9850d1b22992a981a',1,'cutlass::gemm::GemmGlobalIteratorCd::data()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6fd4e62eb280a5b8c17eb79141414581',1,'cutlass::gemm::GemmGlobalIteratorCd::data() const'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afe77778a126449e210c0bd6ec2dc6709',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::data()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a90e9886534ecbbce69f57b4030d0903f',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::data() const'],['../classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7',1,'cutlass::TensorRef::data()'],['../classcutlass_1_1TensorView.html#a248e4240ccf96c976254464710a73fc8',1,'cutlass::TensorView::data()'],['../structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4',1,'cutlass::TileLoadIterator::data()'],['../structcutlass_1_1TileStoreIterator.html#a5ebab59862d5f50ad980871515d999b0',1,'cutlass::TileStoreIterator::data()']]],
+  ['d',['d',['../structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b',1,'cutlass::TileCoord::d() const'],['../structcutlass_1_1TileCoord.html#aec4ffcdc8fbf57a8b649fff38af55007',1,'cutlass::TileCoord::d()'],['../structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f',1,'cutlass::gemm::GemmDesc::D()']]],
+  ['data',['data',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a0e05007f939b27e6a17dce5c2a49e3e0',1,'cutlass::gemm::GemmEpilogueTraits::SharedStorage::data()'],['../classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7',1,'cutlass::TensorRef::data()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a67b25cc51ce867b073feead7b94e6aa3',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::data()'],['../structcutlass_1_1TileAllocation.html#a69c43b27939e9ecebd23edb18ed3a9dc',1,'cutlass::TileAllocation::data()'],['../structcutlass_1_1TileAllocation.html#acc3f2c29fe21316091a1405613083000',1,'cutlass::TileAllocation::data() const']]],
   ['debug_2eh',['debug.h',['../debug_8h.html',1,'']]],
+  ['debugtype',['DebugType',['../structDebugType.html',1,'']]],
+  ['debugtypefunc',['DebugTypeFunc',['../cutlass_8h.html#ab7e23b523490567225b20e2c72649f20',1,'cutlass.h']]],
+  ['debugvalue',['DebugValue',['../structDebugValue.html',1,'']]],
+  ['decrement',['decrement',['../classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6',1,'cutlass::ZipTileIterator']]],
   ['default_5fdelete',['default_delete',['../structcutlass_1_1platform_1_1default__delete.html',1,'cutlass::platform']]],
   ['default_5fdelete_3c_20t_5b_5d_3e',['default_delete&lt; T[]&gt;',['../structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html',1,'cutlass::platform']]],
   ['deleter_5ftype',['deleter_type',['../classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252',1,'cutlass::platform::unique_ptr']]],
-  ['delta',['Delta',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae',1,'cutlass::gemm::GemmEpilogueTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aede069e51e0732a9648c437261bd4d66',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Delta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f',1,'cutlass::gemm::GemmGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4',1,'cutlass::gemm::GemmGlobalTileCdTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a2ee87510d2deccf8b9633aaa4f6340ea',1,'cutlass::gemm::GemmSharedLoadTileATraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ad029d098ba13543bf99c728e6b93006d',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#ac5578da2577cddd5a38cb628f894f644',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Delta()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Delta()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a08dada072eefded4c859df4e5fc25ca6',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::Delta()'],['../structcutlass_1_1TileTraits.html#af88f5cea9f452d83004ea0fa0f9d56eb',1,'cutlass::TileTraits::Delta()'],['../structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088',1,'cutlass::TileIteratorBase::Delta()'],['../structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf',1,'cutlass::TileLoadIterator::Delta()'],['../structcutlass_1_1TileStoreIterator.html#a1c433ba0eea5e6a46f36101d8de98ed0',1,'cutlass::TileStoreIterator::Delta()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5',1,'cutlass::TileTraitsStrideMajor::Delta()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#ab1a4945bf562debeee1af813288e5896',1,'cutlass::TileTraitsContiguousMajor::Delta()'],['../structcutlass_1_1TileTraitsWarpRake.html#a3ce218b223c5716af40c316899324bbe',1,'cutlass::TileTraitsWarpRake::Delta()']]],
+  ['delta',['Delta',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da',1,'cutlass::gemm::GemmEpilogueTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aede069e51e0732a9648c437261bd4d66',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Delta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f',1,'cutlass::gemm::GemmGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4',1,'cutlass::gemm::GemmGlobalTileCdTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a134a02091bf4360d2cbca56624e52024',1,'cutlass::gemm::GemmSharedLoadTileATraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#adcede218eec980903221feb664cad3a1',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Delta()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Delta()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#adab639892c3586464e2ea5f947b9e0f0',1,'cutlass::gemm::IgemmGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::Delta()'],['../structcutlass_1_1TileTraits.html#ad6d99ccf2fcd2bd47e45d068f4d99c82',1,'cutlass::TileTraits::Delta()'],['../structcutlass_1_1RegularTilePredicateFunctor.html#acd32282ce7852c4669098c06bcd9a360',1,'cutlass::RegularTilePredicateFunctor::Delta()'],['../structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815',1,'cutlass::TileIteratorBase::Delta()'],['../structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604',1,'cutlass::TileLoadIterator::Delta()'],['../structcutlass_1_1TileStoreIterator.html#afdb38f790d9c7cf1ac238643103b45ce',1,'cutlass::TileStoreIterator::Delta()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5',1,'cutlass::TileTraitsStrideMajor::Delta()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#ab1a4945bf562debeee1af813288e5896',1,'cutlass::TileTraitsContiguousMajor::Delta()'],['../structcutlass_1_1TileTraitsWarpRake.html#a3ce218b223c5716af40c316899324bbe',1,'cutlass::TileTraitsWarpRake::Delta()']]],
   ['dgemm_5ftraits_2eh',['dgemm_traits.h',['../dgemm__traits_8h.html',1,'']]],
   ['dgemmconfig',['DgemmConfig',['../structcutlass_1_1gemm_1_1DgemmConfig.html',1,'cutlass::gemm']]],
   ['dgemmtraits',['DgemmTraits',['../structcutlass_1_1gemm_1_1DgemmTraits.html',1,'cutlass::gemm']]],
+  ['dhw',['dhw',['../structcutlass_1_1TileCoord.html#abe65d1a0ff3798b662376032d51e9713',1,'cutlass::TileCoord']]],
   ['divide_5fassert',['divide_assert',['../structcutlass_1_1divide__assert.html',1,'cutlass']]],
-  ['dot',['dot',['../structcutlass_1_1Coord.html#ad4b3704d14057c043f972827671115cf',1,'cutlass::Coord::dot(Coord const &amp;b, T sum) const'],['../structcutlass_1_1Coord.html#ae023c0c664c22a978e9b9ce5e063aae4',1,'cutlass::Coord::dot(Coord const &amp;b) const']]],
-  ['dummy',['dummy',['../structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html',1,'cutlass::platform::is_base_of_helper']]]
+  ['dot',['dot',['../structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184',1,'cutlass::Coord::dot(Coord const &amp;b, T sum) const'],['../structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d',1,'cutlass::Coord::dot(Coord const &amp;b) const']]],
+  ['dtype',['DType',['../structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd',1,'cutlass::gemm::GemmDesc']]],
+  ['dummy',['dummy',['../structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html',1,'cutlass::platform::is_base_of_helper']]],
+  ['dumptype',['DumpType',['../structcutlass_1_1DumpType.html',1,'cutlass']]],
+  ['dynamic_5fsmem',['dynamic_smem',['../structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc',1,'cutlass::KernelLaunchConfiguration']]]
 ];
diff --git a/docs/search/all_5.js b/docs/search/all_5.js
index 066d4cd38c..29dcf77e93 100644
--- a/docs/search/all_5.js
+++ b/docs/search/all_5.js
@@ -5,9 +5,10 @@ var searchData=
   ['enable_5fif',['enable_if',['../structcutlass_1_1platform_1_1enable__if.html',1,'cutlass::platform']]],
   ['enable_5fif_3c_20false_2c_20t_20_3e',['enable_if&lt; false, T &gt;',['../structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html',1,'cutlass::platform']]],
   ['end',['end',['../structcutlass_1_1PredicateVector.html#ad9493fc80fdc33330cc15641779cc275',1,'cutlass::PredicateVector']]],
-  ['epilogue',['Epilogue',['../structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe',1,'cutlass::gemm::GemmTraits::Epilogue()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a234ae6065d5ab56135e10119d3ad2d98',1,'cutlass::gemm::HgemmTraitsHelper::Epilogue()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5e2ed697a9091a1ca8b19855b5a2c651',1,'cutlass::gemm::IgemmTraitsHelper::Epilogue()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8',1,'cutlass::gemm::GemmTraits::Params::epilogue()'],['../unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#afdca9ac1d28e17efaa394f5831a60c04',1,'cutlass::gemm::GemmTraits::SharedStorage::epilogue()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c',1,'cutlass::gemm::GemmEpilogue::epilogue()']]],
-  ['epilogue_5fwith_5for_5fwithout_5fbeta',['epilogue_with_or_without_beta',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4',1,'cutlass::gemm::GemmEpilogue']]],
-  ['evaluate',['evaluate',['../structcutlass_1_1gemm_1_1LinearScaling.html#a2e0d140aed388d2457dfb24d28fcd08a',1,'cutlass::gemm::LinearScaling::evaluate(Fragment_ const &amp;accum, Fragment_ &amp;output)'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a47a53e5b67b2207fb3ba38a8b9cef448',1,'cutlass::gemm::LinearScaling::evaluate(Fragment_ const &amp;accum, Fragment_ const &amp;old, Fragment_ &amp;output)']]],
+  ['epilogue',['Epilogue',['../structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe',1,'cutlass::gemm::GemmTraits::Epilogue()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada2812153440cf1e678ca4c795a6e8ae',1,'cutlass::gemm::HgemmTraitsHelper::Epilogue()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a36c8b17c98723934d9d75228dd9c2915',1,'cutlass::gemm::IgemmTraitsHelper::Epilogue()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8',1,'cutlass::gemm::GemmTraits::Params::epilogue()'],['../unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#afdca9ac1d28e17efaa394f5831a60c04',1,'cutlass::gemm::GemmTraits::SharedStorage::epilogue()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3',1,'cutlass::gemm::GemmEpilogue::epilogue()']]],
+  ['epilogue_5fwith_5for_5fwithout_5fbeta',['epilogue_with_or_without_beta',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32',1,'cutlass::gemm::GemmEpilogue']]],
+  ['evaluate',['evaluate',['../structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb',1,'cutlass::gemm::LinearScaling::evaluate(FragmentA_ const &amp;accum, FragmentB_ &amp;output)'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02',1,'cutlass::gemm::LinearScaling::evaluate(ScalarAccum const *accum, ScalarOutput *output)'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a429d78c47d55929903ee02733ad881c1',1,'cutlass::gemm::LinearScaling::evaluate(FragmentA_ const &amp;accum, FragmentB_ const &amp;old, FragmentB_ &amp;output)'],['../structcutlass_1_1gemm_1_1LinearScaling.html#aad0708f7681b16e6d6b4ca8d1f59a947',1,'cutlass::gemm::LinearScaling::evaluate(ScalarAccum const *accum, ScalarOutput const *old, ScalarOutput *output)']]],
+  ['exp',['exp',['../namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b',1,'cutlass::platform']]],
   ['extent',['Extent',['../structcutlass_1_1Extent.html',1,'cutlass']]],
   ['extent_3c_20vector_3c_20t_2c_20lanes_20_3e_20_3e',['Extent&lt; Vector&lt; T, Lanes &gt; &gt;',['../structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html',1,'cutlass']]],
   ['extent_3c_20vector_3c_20t_2c_20lanes_20_3e_20const_20_3e',['Extent&lt; Vector&lt; T, Lanes &gt; const &gt;',['../structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html',1,'cutlass']]]
diff --git a/docs/search/all_6.js b/docs/search/all_6.js
index 0734def498..6320fd676e 100644
--- a/docs/search/all_6.js
+++ b/docs/search/all_6.js
@@ -1,32 +1,31 @@
 var searchData=
 [
   ['false_5ftype',['false_type',['../namespacecutlass_1_1platform.html#ad8c95b2109070847b13d355120344380',1,'cutlass::platform']]],
-  ['fetched_5fa',['fetched_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a3147da380e4c1e465aba0b965ac87ab5',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['fetched_5fb',['fetched_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a837fbec1d47ae45480941de6290889c0',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['fetched_5ffragment',['fetched_fragment',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d',1,'cutlass::gemm::GlobalLoadStreamBase']]],
-  ['fetchedfragment',['FetchedFragment',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36',1,'cutlass::gemm::GlobalLoadStreamBase::FetchedFragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7',1,'cutlass::gemm::SharedLoadStream::FetchedFragment()']]],
+  ['fetched',['fetched',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4',1,'cutlass::gemm::SharedLoadStream']]],
+  ['fetched_5ffragment',['fetched_fragment',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03',1,'cutlass::gemm::GlobalLoadStream::fetched_fragment()'],['../structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869',1,'cutlass::TileLoadStream::fetched_fragment()']]],
+  ['fetchedfragment',['FetchedFragment',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf',1,'cutlass::gemm::GlobalLoadStream::FetchedFragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7',1,'cutlass::gemm::SharedLoadStream::FetchedFragment()']]],
   ['fill',['fill',['../structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917',1,'cutlass::PredicateVector']]],
-  ['fragment',['Fragment',['../structcutlass_1_1Fragment.html',1,'cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;'],['../structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808',1,'cutlass::FragmentIterator::Fragment()'],['../structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05',1,'cutlass::FragmentConstIterator::Fragment()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a32687e2aa49dfa251eab14d5cd2036be',1,'cutlass::gemm::GlobalLoadStreamBase::Fragment()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4',1,'cutlass::gemm::GemmGlobalIteratorAb::Fragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7',1,'cutlass::gemm::SharedLoadStream::Fragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7',1,'cutlass::gemm::HgemmSwizzle::Fragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d',1,'cutlass::gemm::IgemmSwizzle::Fragment()'],['../structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e',1,'cutlass::TileIteratorBase::Fragment()'],['../structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc',1,'cutlass::TileLoadIterator::Fragment()'],['../structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1',1,'cutlass::TileStoreIterator::Fragment()']]],
+  ['find_5flog2',['find_log2',['../namespacecutlass.html#a58a119c3f7b33d97c43ae8c114004d9e',1,'cutlass']]],
+  ['first',['First',['../structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2',1,'cutlass::ZipTileAllocation::First()'],['../structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4',1,'cutlass::ZipFragment::First()'],['../structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4',1,'cutlass::ZipConvert::First()'],['../structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9',1,'cutlass::ZipTensorRef::First()'],['../classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7',1,'cutlass::ZipTileIterator::First()'],['../structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014',1,'cutlass::ZipTileAllocation::first()'],['../structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c',1,'cutlass::ZipFragment::first()'],['../structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f',1,'cutlass::ZipConvert::first()'],['../structcutlass_1_1ZipTensorRef.html#a535f0e6fc79d0e305f651efed099275c',1,'cutlass::ZipTensorRef::first()'],['../structcutlass_1_1ZipTileIterator_1_1Params.html#a5dd69883d6b3f16fe28ebfe79235743e',1,'cutlass::ZipTileIterator::Params::first()'],['../classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9',1,'cutlass::ZipTileIterator::first()']]],
+  ['fp16_5fsgemm_5fmultiply_5fadd_2eh',['fp16_sgemm_multiply_add.h',['../fp16__sgemm__multiply__add_8h.html',1,'']]],
+  ['fp16_5fsgemm_5ftraits_2eh',['fp16_sgemm_traits.h',['../fp16__sgemm__traits_8h.html',1,'']]],
+  ['fp16sgemmconfig',['Fp16SgemmConfig',['../structcutlass_1_1gemm_1_1Fp16SgemmConfig.html',1,'cutlass::gemm']]],
+  ['fp16sgemmsgemmtraits',['Fp16SgemmSgemmTraits',['../structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html',1,'cutlass::gemm']]],
+  ['fragment',['Fragment',['../structcutlass_1_1Fragment.html',1,'cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;'],['../structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808',1,'cutlass::FragmentIterator::Fragment()'],['../structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05',1,'cutlass::FragmentConstIterator::Fragment()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab7e315253b3301c191581bce05644106',1,'cutlass::gemm::GlobalLoadStream::Fragment()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4',1,'cutlass::gemm::GemmGlobalIteratorAb::Fragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7',1,'cutlass::gemm::SharedLoadStream::Fragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7',1,'cutlass::gemm::HgemmSwizzle::Fragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d',1,'cutlass::gemm::IgemmSwizzle::Fragment()'],['../structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219',1,'cutlass::TileIteratorBase::Fragment()'],['../structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139',1,'cutlass::TileLoadIterator::Fragment()'],['../structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb',1,'cutlass::TileStoreIterator::Fragment()'],['../structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81',1,'cutlass::TileLoadStream::Fragment()'],['../structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878',1,'cutlass::TileStoreStream::Fragment()'],['../structcutlass_1_1PredicatedTileLoadStream.html#a7f802c4c733375d0a63f91c58196e6a0',1,'cutlass::PredicatedTileLoadStream::Fragment()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a6c9737f5b09e7eb1aa7daabb00ae2e69',1,'cutlass::PredicatedTileStoreStream::Fragment()'],['../classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06',1,'cutlass::ZipTileIterator::Fragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#ad5cb076de46e841a165bd43924dab463',1,'cutlass::gemm::SharedLoadStream::fragment(int step=0)'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a30e815fcee63b5a99b2797464b6a3192',1,'cutlass::gemm::SharedLoadStream::fragment(int step=0) const'],['../structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be',1,'cutlass::TileLoadStream::fragment()'],['../structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5',1,'cutlass::TileStoreStream::fragment()']]],
   ['fragment_2eh',['fragment.h',['../fragment_8h.html',1,'']]],
-  ['fragment_5fa',['fragment_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a4a8c64d85aa012e3689dd024c486924b',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['fragment_5fb',['fragment_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#aa28f34fb0c4bf739246d92c2fef80e0b',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
+  ['fragment_5fa',['fragment_a',['../structcutlass_1_1gemm_1_1SharedStreamPair.html#af29f052dc0145abe3144dea1472d241a',1,'cutlass::gemm::SharedStreamPair']]],
+  ['fragment_5fb',['fragment_b',['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a375e96bc2e35447682bd1dea3c4d87ad',1,'cutlass::gemm::SharedStreamPair']]],
   ['fragment_20concept',['Fragment Concept',['../group__fragment__concept.html',1,'']]],
   ['fragment_20iterator_20concept',['Fragment Iterator Concept',['../group__fragment__iterator__concept.html',1,'']]],
-  ['fragment_5fload_5fstore_2eh',['fragment_load_store.h',['../fragment__load__store_8h.html',1,'']]],
   ['fragment_5fmultiply_5fadd_2eh',['fragment_multiply_add.h',['../fragment__multiply__add_8h.html',1,'']]],
-  ['fragmenta',['FragmentA',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1daf96b6d152c5cf32f248bbfd605b74',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::FragmentA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a71aadbb130d4b1a6532c45282b37354f',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914',1,'cutlass::gemm::ThreadMultiplyAdd::FragmentA()']]],
-  ['fragmentb',['FragmentB',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae79e7fc5be2f4c8d30ca83edc151f63a',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::FragmentB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a43e278686b493d0aef943f32a9f47b9e',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620',1,'cutlass::gemm::ThreadMultiplyAdd::FragmentB()']]],
-  ['fragmentconstiterator',['FragmentConstIterator',['../structcutlass_1_1FragmentConstIterator.html',1,'cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;'],['../structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60',1,'cutlass::TileIteratorBase::FragmentConstIterator()'],['../structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76',1,'cutlass::TileLoadIterator::FragmentConstIterator()'],['../structcutlass_1_1TileStoreIterator.html#a48de0db7ee2ee9699b946a9d5a0364c7',1,'cutlass::TileStoreIterator::FragmentConstIterator()'],['../structcutlass_1_1FragmentConstIterator.html#ac4b6f351e6e72bed37e425f02a10c81e',1,'cutlass::FragmentConstIterator::FragmentConstIterator(OtherFragment_ &amp;fragment, int offset=0)'],['../structcutlass_1_1FragmentConstIterator.html#a3a8fd8f13c157ed13dc93fd78036c59e',1,'cutlass::FragmentConstIterator::FragmentConstIterator(FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;rhs_)']]],
-  ['fragmentelement',['FragmentElement',['../structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7',1,'cutlass::TileIteratorBase::FragmentElement()'],['../structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464',1,'cutlass::TileLoadIterator::FragmentElement()'],['../structcutlass_1_1TileStoreIterator.html#a2b13136a970fae187fcb377c9be28fac',1,'cutlass::TileStoreIterator::FragmentElement()']]],
-  ['fragmentiterator',['FragmentIterator',['../structcutlass_1_1FragmentIterator.html',1,'cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;'],['../structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5',1,'cutlass::TileIteratorBase::FragmentIterator()'],['../structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591',1,'cutlass::TileLoadIterator::FragmentIterator()'],['../structcutlass_1_1TileStoreIterator.html#a0843b2d82422e7178f324a8d3be9d705',1,'cutlass::TileStoreIterator::FragmentIterator()'],['../structcutlass_1_1FragmentIterator.html#ae1825fe3e138e2aa62d27dab2b5227b4',1,'cutlass::FragmentIterator::FragmentIterator()']]],
-  ['fragmentload',['FragmentLoad',['../structcutlass_1_1FragmentLoad.html',1,'cutlass']]],
-  ['fragmentload_3c_20iteratorfragment_3a_3akscalar_2c_20kaccesssize_2c_20scalar_5f_2c_20memory_5f_2c_20fragmentelement_5f_2c_20kstride_20_3e',['FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;',['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html',1,'cutlass']]],
-  ['fragmentload_3c_20iteratorfragment_3a_3akwmmamatrix_2c_20kaccesssize_2c_20scalar_5f_2c_20memory_5f_2c_20fragmentelement_5f_2c_20kstride_20_3e',['FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;',['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html',1,'cutlass']]],
-  ['fragmentmultiplyadd',['FragmentMultiplyAdd',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html',1,'cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;'],['../structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8',1,'cutlass::gemm::LinearScaling::FragmentMultiplyAdd()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af19e14a22aefd1124f7d31beec6f8c42',1,'cutlass::gemm::FragmentMultiplyAdd::FragmentMultiplyAdd()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a21f0965f6178917c7f5c6d79ed048059',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::FragmentMultiplyAdd()']]],
-  ['fragmentmultiplyadd_3c_20half_20_3e',['FragmentMultiplyAdd&lt; half &gt;',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html',1,'cutlass::gemm']]],
-  ['fragmentshape',['FragmentShape',['../structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76',1,'cutlass::FragmentIterator::FragmentShape()'],['../structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577',1,'cutlass::FragmentConstIterator::FragmentShape()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4',1,'cutlass::gemm::HgemmSwizzle::FragmentShape()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004',1,'cutlass::gemm::IgemmSwizzle::FragmentShape()'],['../structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24',1,'cutlass::TileIteratorBase::FragmentShape()'],['../structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869',1,'cutlass::TileLoadIterator::FragmentShape()'],['../structcutlass_1_1TileStoreIterator.html#a3b872e85844c9e009fa480a71a829136',1,'cutlass::TileStoreIterator::FragmentShape()']]],
-  ['fragmentstore',['FragmentStore',['../structcutlass_1_1FragmentStore.html',1,'cutlass']]],
-  ['fragmentstore_3c_20iteratorfragment_3a_3akscalar_2c_20kaccesssize_2c_20scalar_5f_2c_20memory_5f_2c_20fragmentelement_5f_2c_20kstride_20_3e',['FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;',['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html',1,'cutlass']]],
-  ['fragmentstore_3c_20iteratorfragment_3a_3akwmmamatrix_2c_20kaccesssize_2c_20scalar_5f_2c_20memory_5f_2c_20fragmentelement_5f_2c_20kstride_20_3e',['FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;',['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html',1,'cutlass']]],
-  ['functor',['functor',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#afa888d993b86ed88950a9e5ab7edeb06',1,'cutlass::gemm::GemmEpilogueTraits::Params::functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1',1,'cutlass::gemm::GemmEpilogue::Functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee',1,'cutlass::gemm::GemmEpilogueTraits::Functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Functor()']]]
+  ['fragmenta',['FragmentA',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::FragmentA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::FragmentA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649',1,'cutlass::gemm::ThreadMultiplyAdd::FragmentA()']]],
+  ['fragmentb',['FragmentB',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::FragmentB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::FragmentB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad',1,'cutlass::gemm::ThreadMultiplyAdd::FragmentB()']]],
+  ['fragmentconstiterator',['FragmentConstIterator',['../structcutlass_1_1FragmentConstIterator.html',1,'cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;'],['../structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5',1,'cutlass::TileIteratorBase::FragmentConstIterator()'],['../structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca',1,'cutlass::TileLoadIterator::FragmentConstIterator()'],['../structcutlass_1_1TileStoreIterator.html#adfcd8a2e63bd0c515ef03760cc1c4283',1,'cutlass::TileStoreIterator::FragmentConstIterator()'],['../structcutlass_1_1FragmentConstIterator.html#ad3e99cd7f56d4aec0a28cfcbde66f5af',1,'cutlass::FragmentConstIterator::FragmentConstIterator(OtherFragment_ &amp;fragment, int offset=0)'],['../structcutlass_1_1FragmentConstIterator.html#a18f926c9c877e15a279f16637bd24e83',1,'cutlass::FragmentConstIterator::FragmentConstIterator(FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;rhs_)']]],
+  ['fragmentelement',['FragmentElement',['../structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45',1,'cutlass::TileIteratorBase::FragmentElement()'],['../structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6',1,'cutlass::TileLoadIterator::FragmentElement()'],['../structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8',1,'cutlass::TileStoreIterator::FragmentElement()']]],
+  ['fragmentelementtype',['FragmentElementType',['../structcutlass_1_1FragmentElementType.html',1,'cutlass']]],
+  ['fragmentiterator',['FragmentIterator',['../structcutlass_1_1FragmentIterator.html',1,'cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;'],['../structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51',1,'cutlass::TileIteratorBase::FragmentIterator()'],['../structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016',1,'cutlass::TileLoadIterator::FragmentIterator()'],['../structcutlass_1_1TileStoreIterator.html#ace8a65d90db264a0ee93a810be38918f',1,'cutlass::TileStoreIterator::FragmentIterator()'],['../structcutlass_1_1FragmentIterator.html#a638e4e1d84b4ae84e758288c7f37548b',1,'cutlass::FragmentIterator::FragmentIterator()']]],
+  ['fragmentmultiplyadd',['FragmentMultiplyAdd',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html',1,'cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;'],['../structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8',1,'cutlass::gemm::LinearScaling::FragmentMultiplyAdd()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ae1fbd0fd103deda51208102f15f896ed',1,'cutlass::gemm::FragmentMultiplyAdd::FragmentMultiplyAdd()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ad35b57b3f0cf5a467a1b0e48cffc3061',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::FragmentMultiplyAdd()']]],
+  ['fragmentmultiplyadd_3c_20half_2c_20half_2c_20true_20_3e',['FragmentMultiplyAdd&lt; half, half, true &gt;',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html',1,'cutlass::gemm']]],
+  ['fragmentshape',['FragmentShape',['../structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76',1,'cutlass::FragmentIterator::FragmentShape()'],['../structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577',1,'cutlass::FragmentConstIterator::FragmentShape()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4',1,'cutlass::gemm::HgemmSwizzle::FragmentShape()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004',1,'cutlass::gemm::IgemmSwizzle::FragmentShape()'],['../structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be',1,'cutlass::TileIteratorBase::FragmentShape()'],['../structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1',1,'cutlass::TileLoadIterator::FragmentShape()'],['../structcutlass_1_1TileStoreIterator.html#a82ceeea55603dbb0c6e5bf9c22ac692e',1,'cutlass::TileStoreIterator::FragmentShape()']]],
+  ['functor',['Functor',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1',1,'cutlass::gemm::GemmEpilogue::Functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99',1,'cutlass::gemm::GemmEpilogueTraits::Functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57',1,'cutlass::gemm::GemmEpilogue::functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adb04e5990ab7faae9e8c0b110d2e3bee',1,'cutlass::gemm::GemmEpilogueTraits::Params::functor()']]]
 ];
diff --git a/docs/search/all_7.js b/docs/search/all_7.js
index 4c4dee8255..d0d7ba2377 100644
--- a/docs/search/all_7.js
+++ b/docs/search/all_7.js
@@ -3,30 +3,36 @@ var searchData=
   ['gcd',['gcd',['../namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8',1,'cutlass']]],
   ['gemm',['Gemm',['../structcutlass_1_1gemm_1_1Gemm.html',1,'cutlass::gemm::Gemm&lt; GemmTraits_ &gt;'],['../structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd',1,'cutlass::gemm::Gemm::Gemm()']]],
   ['gemm_2eh',['gemm.h',['../gemm_8h.html',1,'']]],
+  ['gemm_5fconfig_2eh',['gemm_config.h',['../gemm__config_8h.html',1,'']]],
+  ['gemm_5fcoord_2eh',['gemm_coord.h',['../gemm__coord_8h.html',1,'']]],
+  ['gemm_5fdesc_2eh',['gemm_desc.h',['../gemm__desc_8h.html',1,'']]],
   ['gemm_5fepilogue_2eh',['gemm_epilogue.h',['../gemm__epilogue_8h.html',1,'']]],
   ['gemm_5fepilogue_5ftraits_2eh',['gemm_epilogue_traits.h',['../gemm__epilogue__traits_8h.html',1,'']]],
   ['gemm_5fglobal_5fstream_2eh',['gemm_global_stream.h',['../gemm__global__stream_8h.html',1,'']]],
   ['gemm_5fglobal_5ftile_2eh',['gemm_global_tile.h',['../gemm__global__tile_8h.html',1,'']]],
-  ['gemm_5fkernel',['gemm_kernel',['../namespacecutlass_1_1gemm.html#ad9577c9086b0f7fd1202d7f8109e4439',1,'cutlass::gemm']]],
+  ['gemm_5fkernel_5fnolb',['gemm_kernel_nolb',['../namespacecutlass_1_1gemm.html#ae23b870e60261e2322f3c6edb3d2bcb9',1,'cutlass::gemm']]],
   ['gemm_5foperand_2eh',['gemm_operand.h',['../gemm__operand_8h.html',1,'']]],
   ['gemm_5fshared_5fstream_2eh',['gemm_shared_stream.h',['../gemm__shared__stream_8h.html',1,'']]],
   ['gemm_5fshared_5ftile_2eh',['gemm_shared_tile.h',['../gemm__shared__tile_8h.html',1,'']]],
+  ['gemm_5fstream_5fpair_2eh',['gemm_stream_pair.h',['../gemm__stream__pair_8h.html',1,'']]],
   ['gemm_5ftraits_2eh',['gemm_traits.h',['../gemm__traits_8h.html',1,'']]],
-  ['gemmconfig',['GemmConfig',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5',1,'cutlass::gemm::GemmTraits::GemmConfig()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118',1,'cutlass::gemm::HgemmTraitsHelper::GemmConfig()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac',1,'cutlass::gemm::IgemmTraitsHelper::GemmConfig()']]],
-  ['gemmconfig_3c_20double_2c_20double_2c_20double_2c_20double_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20double_2c_20double_2c_20double_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_202_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_202_2c_201_2c_202_2c_201_2c_202_20_3e',['GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
-  ['gemmconfig_3c_20float_2c_20float_2c_20float_2c_20float_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20float_2c_20float_2c_20float_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_204_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_204_2c_201_2c_204_2c_201_2c_202_20_3e',['GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
-  ['gemmconfig_3c_20half_2c_20half_2c_20half_2c_20half_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20half_2c_20half_2c_20half_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_208_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_208_2c_202_2c_208_2c_202_2c_202_20_3e',['GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
-  ['gemmconfig_3c_20int8_5ft_2c_20int8_5ft_2c_20int8_5ft_2c_20int8_5ft_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_204_2c_202_20_3e',['GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
-  ['gemmconfig_3c_20int8_5ft_2c_20int8_5ft_2c_20scalard_5f_2c_20scalard_5f_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_2016_2c_201_2c_204_2c_201_2c_202_20_3e',['GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
-  ['gemmdesc',['GemmDesc',['../structcutlass_1_1gemm_1_1GemmDesc.html',1,'cutlass::gemm']]],
-  ['gemmepilogue',['GemmEpilogue',['../structcutlass_1_1gemm_1_1GemmEpilogue.html',1,'cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925',1,'cutlass::gemm::GemmEpilogue::GemmEpilogue()']]],
-  ['gemmepiloguetraits',['GemmEpilogueTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6',1,'cutlass::gemm::HgemmTraitsHelper::GemmEpilogueTraits()']]],
-  ['gemmepiloguetraits_3c_20gemmconfig_5f_3a_3aoutputtile_2c_20gemmconfig_5f_3a_3aaccumulators_2c_20helper_5f_3a_3agloballoaditeratorc_2c_20helper_5f_3a_3aglobaltransformerc_2c_20helper_5f_3a_3aglobaltransformerd_2c_20helper_5f_3a_3aglobalstoreiteratord_2c_20helper_5f_3a_3asharedstoreiteratord_2c_20helper_5f_3a_3asharedstoretransformerd_2c_20helper_5f_3a_3asharedloaditeratord_2c_20helper_5f_3a_3aiterations_2c_20helper_5f_3a_3adelta_2c_20epiloguefunctor_5f_2c_20index_5f_20_3e',['GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm']]],
-  ['gemmepiloguetraits_3c_20igemmconfig_5f_3a_3aoutputtile_2c_20igemmconfig_5f_3a_3aaccumulators_2c_20helper_5f_3a_3agloballoaditeratorc_2c_20helper_5f_3a_3aglobaltransformerc_2c_20helper_5f_3a_3aglobaltransformerd_2c_20helper_5f_3a_3aglobalstoreiteratord_2c_20helper_5f_3a_3asharedstoreiteratord_2c_20helper_5f_3a_3asharedstoretransformerd_2c_20helper_5f_3a_3asharedloaditeratord_2c_20helper_5f_3a_3aiterations_2c_20helper_5f_3a_3adelta_2c_20epiloguefunctor_5f_2c_20index_5f_20_3e',['GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm']]],
+  ['gemmconfig',['GemmConfig',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5',1,'cutlass::gemm::GemmTraits::GemmConfig()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4',1,'cutlass::gemm::HgemmTraitsHelper::GemmConfig()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71',1,'cutlass::gemm::IgemmTraitsHelper::GemmConfig()']]],
+  ['gemmconfig_3c_20double_2c_20double_2c_20double_2c_20double_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20double_2c_20double_2c_20double_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_202_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_202_2c_201_2c_202_2c_201_2c_202_2c_20false_2c_20false_2c_20false_20_3e',['GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20float_2c_20float_2c_20float_2c_20float_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20float_2c_20float_2c_20float_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_204_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_204_2c_201_2c_204_2c_201_2c_202_2c_20false_2c_20true_2c_20klaunchbounds_20_3e',['GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20half_2c_20half_2c_20half_2c_20half_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20half_2c_20half_2c_20half_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_208_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_208_2c_202_2c_208_2c_202_2c_202_2c_20false_2c_20true_2c_20false_20_3e',['GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20int8_5ft_2c_20int8_5ft_2c_20int8_5ft_2c_20int8_5ft_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_204_2c_202_2c_20false_2c_20true_2c_20false_20_3e',['GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20int8_5ft_2c_20int8_5ft_2c_20scalard_5f_2c_20scalard_5f_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_2016_2c_201_2c_204_2c_201_2c_202_2c_20false_2c_20false_2c_20false_20_3e',['GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20scalara_5f_2c_20scalarb_5f_2c_20scalarc_5f_2c_20scalard_5f_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20scalara_5f_2c_20scalarb_5f_2c_20float_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_204_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_204_2c_201_2c_204_2c_201_2c_202_20_3e',['GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmcoord',['GemmCoord',['../structcutlass_1_1gemm_1_1GemmCoord.html',1,'cutlass::gemm::GemmCoord'],['../structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01',1,'cutlass::gemm::GemmCoord::GemmCoord()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a03e6bfa95156962be51e190d381c8b5e',1,'cutlass::gemm::GemmCoord::GemmCoord(Coord&lt; 3, Index &gt; const &amp;coord, Index _batch=0)'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a65d1ca12c0f27984920cf1700322a746',1,'cutlass::gemm::GemmCoord::GemmCoord(Coord&lt; 4, Index &gt; const &amp;coord)'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a17da9936dbad99f2402c42b1bd6ea5ea',1,'cutlass::gemm::GemmCoord::GemmCoord(Index coord[4])'],['../structcutlass_1_1gemm_1_1GemmCoord.html#ac3b1cbdf86bd36d6b4b5e295ef846dfe',1,'cutlass::gemm::GemmCoord::GemmCoord(Index k, Index n, Index m, Index batch=0)']]],
+  ['gemmdesc',['GemmDesc',['../structcutlass_1_1gemm_1_1GemmDesc.html',1,'cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;'],['../structcutlass_1_1gemm_1_1GemmDesc.html#ae2708b731cbb99d3e638382ecf599425',1,'cutlass::gemm::GemmDesc::GemmDesc()'],['../structcutlass_1_1gemm_1_1GemmDesc.html#a948af4a974f1aa74d3b6da9cd3e185de',1,'cutlass::gemm::GemmDesc::GemmDesc(Coord&lt; 3 &gt; _problem_size, SType _alpha, TensorRefA const &amp;_A, TensorRefB const &amp;_B, SType _beta, TensorRefC const &amp;_C, TensorRefD const &amp;_D)'],['../structcutlass_1_1gemm_1_1GemmDesc.html#a7292ac0196f22525b13f223a02271bc3',1,'cutlass::gemm::GemmDesc::GemmDesc(GemmCoord _problem_size, SType _alpha, TensorRefA const &amp;_A, TensorRefB const &amp;_B, SType _beta, TensorRefC const &amp;_C, TensorRefD const &amp;_D)'],['../structcutlass_1_1gemm_1_1GemmDesc.html#af96cd9c8f2454ea118dfa7358dd24824',1,'cutlass::gemm::GemmDesc::GemmDesc(GemmCoord _problem_size, SType _alpha, TensorRefA const &amp;_A, long long _batch_stride_A, TensorRefB const &amp;_B, long long _batch_stride_B, SType _beta, TensorRefC const &amp;_C, long long _batch_stride_C, TensorRefD const &amp;_D, long long _batch_stride_D)']]],
+  ['gemmepilogue',['GemmEpilogue',['../structcutlass_1_1gemm_1_1GemmEpilogue.html',1,'cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8',1,'cutlass::gemm::GemmEpilogue::GemmEpilogue()']]],
+  ['gemmepiloguetraits',['GemmEpilogueTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047',1,'cutlass::gemm::HgemmTraitsHelper::GemmEpilogueTraits()']]],
+  ['gemmepiloguetraits_3c_20gemmconfig_5f_3a_3aoutputtile_2c_20gemmconfig_5f_3a_3aaccumulators_2c_20helper_5f_3a_3agloballoaditeratorc_2c_20helper_5f_3a_3aglobaltransformerc_2c_20helper_5f_3a_3aglobaltransformerd_2c_20helper_5f_3a_3aglobalstoreiteratord_2c_20helper_5f_3a_3asharedstoreiteratord_2c_20helper_5f_3a_3asharedstoretransformerd_2c_20helper_5f_3a_3asharedloadstreamd_2c_20helper_5f_3a_3aiterations_2c_20helper_5f_3a_3adelta_2c_20epiloguefunctor_5f_2c_20index_5f_20_3e',['GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm']]],
+  ['gemmepiloguetraits_3c_20igemmconfig_5f_3a_3aoutputtile_2c_20igemmconfig_5f_3a_3aaccumulators_2c_20helper_5f_3a_3agloballoaditeratorc_2c_20helper_5f_3a_3aglobaltransformerc_2c_20helper_5f_3a_3aglobaltransformerd_2c_20helper_5f_3a_3aglobalstoreiteratord_2c_20helper_5f_3a_3asharedstoreiteratord_2c_20helper_5f_3a_3asharedstoretransformerd_2c_20helper_5f_3a_3asharedloadstreamd_2c_20helper_5f_3a_3aiterations_2c_20helper_5f_3a_3adelta_2c_20epiloguefunctor_5f_2c_20index_5f_20_3e',['GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm']]],
   ['gemmepiloguetraitshelper',['GemmEpilogueTraitsHelper',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html',1,'cutlass::gemm']]],
   ['gemmepiloguetraitshelper_3c_20igemmconfig_5f_2c_20epiloguefunctor_5f_2c_20index_5f_20_3e',['GemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html',1,'cutlass::gemm']]],
-  ['gemmglobaliteratorab',['GemmGlobalIteratorAb',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html',1,'cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a34cb153d311377388e7819296a84d07e',1,'cutlass::gemm::GemmGlobalIteratorAb::GemmGlobalIteratorAb()']]],
-  ['gemmglobaliteratorcd',['GemmGlobalIteratorCd',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html',1,'cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6dae81995ab94c0b7f28eeeeb84a6c8d',1,'cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a64f1df43acb37a1901f0b55becaa9557',1,'cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd(Params const &amp;params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())']]],
+  ['gemmglobaliteratorab',['GemmGlobalIteratorAb',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html',1,'cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5',1,'cutlass::gemm::GemmGlobalIteratorAb::GemmGlobalIteratorAb()']]],
+  ['gemmglobaliteratorcd',['GemmGlobalIteratorCd',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html',1,'cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff',1,'cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block_offset, ThreadOffset thread_offset_func=ThreadOffset())'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a15d3244546d1c8f4727e84b27a8b7fc6',1,'cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())']]],
   ['gemmglobaltilecdtraits',['GemmGlobalTileCdTraits',['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html',1,'cutlass::gemm']]],
   ['gemmglobaltiletraits',['GemmGlobalTileTraits',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html',1,'cutlass::gemm']]],
   ['gemmglobaltiletraits_3c_20gemmoperand_3a_3akc_2c_20matrixlayout_3a_3akcolumnmajor_2c_20scalar_5f_2c_20tile_5f_2c_20threads_5f_2c_20kaccesssize_5f_20_3e',['GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html',1,'cutlass::gemm']]],
@@ -39,11 +45,11 @@ var searchData=
   ['gemmsharedstoretileabtraits',['GemmSharedStoreTileAbTraits',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html',1,'cutlass::gemm']]],
   ['gemmsharedstoretiledtraits',['GemmSharedStoreTileDTraits',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html',1,'cutlass::gemm']]],
   ['gemmsharedstorewithskewtileabtraits',['GemmSharedStoreWithSkewTileAbTraits',['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html',1,'cutlass::gemm']]],
-  ['gemmtiletraitshelpera',['GemmTileTraitsHelperA',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; Kind, GemmConfig_ &gt;'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a5557c86a530f5d20a35d3fa620adf417',1,'cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ab9e10d54c81a359db0eba58a11b9a0cf',1,'cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperA()']]],
+  ['gemmtiletraitshelpera',['GemmTileTraitsHelperA',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; Kind, GemmConfig_ &gt;'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4f3afb4b1f37a2c43a1935a3000b2a02',1,'cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aee1dfb15e1b63f838a712af93777e5d3',1,'cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperA()']]],
   ['gemmtiletraitshelpera_3c_20klayout_5f_2c_20gemmconfig_5f_20_3e',['GemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt;',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html',1,'cutlass::gemm']]],
   ['gemmtiletraitshelpera_3c_20matrixlayout_3a_3akcolumnmajor_2c_20gemmconfig_5f_20_3e',['GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html',1,'cutlass::gemm']]],
   ['gemmtiletraitshelpera_3c_20matrixlayout_3a_3akrowmajor_2c_20gemmconfig_5f_20_3e',['GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html',1,'cutlass::gemm']]],
-  ['gemmtiletraitshelperb',['GemmTileTraitsHelperB',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; Kind, GemmConfig_ &gt;'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8768c2b03bea0c3601c47dde2bc7ca89',1,'cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a095505bfcea6791accd06bf4d37b9df8',1,'cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperB()']]],
+  ['gemmtiletraitshelperb',['GemmTileTraitsHelperB',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; Kind, GemmConfig_ &gt;'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada910ee63493bc3c70f7395127268a1d',1,'cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7f175193ac6bcdccba012f5d80324685',1,'cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperB()']]],
   ['gemmtiletraitshelperb_3c_20klayout_5f_2c_20gemmconfig_5f_20_3e',['GemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt;',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html',1,'cutlass::gemm']]],
   ['gemmtiletraitshelperb_3c_20matrixlayout_3a_3akcolumnmajor_2c_20gemmconfig_5f_20_3e',['GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html',1,'cutlass::gemm']]],
   ['gemmtiletraitshelperb_3c_20matrixlayout_3a_3akrowmajor_2c_20gemmconfig_5f_20_3e',['GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html',1,'cutlass::gemm']]],
@@ -51,35 +57,40 @@ var searchData=
   ['gemmtraits_3c_20gemmconfig_5f_2c_20helper_5f_3a_3agloballoadstreama_2c_20helper_5f_3a_3agloballoadstreamb_2c_20helper_5f_3a_3asharedloadstreama_2c_20helper_5f_3a_3asharedloadstreamb_2c_20epilogue_5f_2c_20identityblockswizzle_2c_20index_5f_2c_20clearaccumulators_3c_20gemmconfig_5f_3a_3aaccumulators_3a_3aelement_20_3e_20_3e',['GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;',['../structcutlass_1_1gemm_1_1GemmTraits.html',1,'cutlass::gemm']]],
   ['gemmtraits_3c_20gemmconfig_5f_2c_20simplifiedgemmtraitshelper_3c_20gemmtiletraitshelpera_3c_20klayouta_5f_2c_20gemmconfig_5f_20_3e_2c_20gemmtiletraitshelperb_3c_20klayoutb_5f_2c_20gemmconfig_5f_20_3e_2c_20index_5f_20_3e_20_3a_3agloballoadstreama_2c_20simplifiedgemmtraitshelper_3c_20gemmtiletraitshelpera_3c_20klayouta_5f_2c_20gemmconfig_5f_20_3e_2c_20gemmtiletraitshelperb_3c_20klayoutb_5f_2c_20gemmconfig_5f_20_3e_2c_20index_5f_20_3e_20_3a_3agloballoadstreamb_2c_20simplifiedgemmtraitshelper_3c_20gemmtiletraitshelpera_3c_20klayouta_5f_2c_20gemmconfig_5f_20_3e_2c_20gemmtiletraitshelperb_3c_20klayoutb_5f_2c_20gemmconfig_5f_20_3e_2c_20index_5f_20_3e_20_3a_3asharedloadstreama_2c_20simplifiedgemmtraitshelper_3c_20gemmtiletraitshelpera_3c_20klayouta_5f_2c_20gemmconfig_5f_20_3e_2c_20gemmtiletraitshelperb_3c_20klayoutb_5f_2c_20gemmconfig_5f_20_3e_2c_20index_5f_20_3e_20_3a_3asharedloadstreamb_2c_20gemmepilogue_3c_20gemmepiloguetraits_5f_20_3e_2c_20identityblockswizzle_2c_20index_5f_2c_20clearaccumulators_3c_20gemmconfig_5f_3a_3aaccumulators_3a_3aelement_20_3e_20_3e',['GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;',['../structcutlass_1_1gemm_1_1GemmTraits.html',1,'cutlass::gemm']]],
   ['gemmtraits_3c_20helper_5f_3a_3agemmconfig_2c_20helper_5f_3a_3agloballoadstreama_2c_20helper_5f_3a_3agloballoadstreamb_2c_20helper_5f_3a_3asharedloadstreama_2c_20helper_5f_3a_3asharedloadstreamb_2c_20helper_5f_3a_3aepilogue_2c_20identityblockswizzle_2c_20index_5f_2c_20helper_5f_3a_3aclearaccumulators_20_3e',['GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;',['../structcutlass_1_1gemm_1_1GemmTraits.html',1,'cutlass::gemm']]],
-  ['get',['get',['../classcutlass_1_1PredicateVector_1_1Iterator.html#af035589126434bd2dbef4000cd864b8b',1,'cutlass::PredicateVector::Iterator::get()'],['../structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38',1,'cutlass::ComputeOffsetFromShape::get()'],['../structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html#a5198e838e3892245fe7b10884555ec93',1,'cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;::get()'],['../structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html#a11bf40abc57580db5ce4b0fd4c3e55ff',1,'cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;::get()'],['../structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409',1,'cutlass::ComputeOffsetFromStrides::get()'],['../structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html#acdbb9c7cdf9fc054656614f72396434e',1,'cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;::get()'],['../structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html#a512a9d46f6bea9d85641d7263bcfee36',1,'cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad',1,'cutlass::ComputeThreadOffsetFromStrides::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html#a5d446b2663c01362361e09435a726996',1,'cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html#a6e621f5fae2ba29277fde46be1cede24',1,'cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;::get()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a2e7c14b8a118f81c1df46ea5045e297b',1,'cutlass::platform::unique_ptr::get()']]],
-  ['get_5fcoord_5fdhw',['get_Coord_dhw',['../namespacecutlass.html#a4680709eeeb679ef0219938f85f7394e',1,'cutlass']]],
-  ['get_5fcoord_5fhw',['get_Coord_hw',['../namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e',1,'cutlass::get_Coord_hw(Coord&lt; 3 &gt; const &amp;coord)'],['../namespacecutlass.html#a082e7a2e4acc2879468243f5732ccf0b',1,'cutlass::get_Coord_hw(Coord&lt; 4 &gt; const &amp;coord)']]],
-  ['get_5fcoord_5fhwc',['get_Coord_hwc',['../namespacecutlass.html#a71f3e2a12b9e98be1fba082610fa9d4f',1,'cutlass']]],
+  ['get',['get',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a1661baed19b4aa4eea725a6f6e6b26a3',1,'cutlass::detail::ScalarOrPointer::get()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#af035589126434bd2dbef4000cd864b8b',1,'cutlass::PredicateVector::Iterator::get()'],['../structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b',1,'cutlass::ComputeOffsetFromShape::get()'],['../structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e',1,'cutlass::ComputeOffsetFromStrides::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad',1,'cutlass::ComputeThreadOffsetFromStrides::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html#a5d446b2663c01362361e09435a726996',1,'cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html#a6e621f5fae2ba29277fde46be1cede24',1,'cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;::get()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a2e7c14b8a118f81c1df46ea5045e297b',1,'cutlass::platform::unique_ptr::get()']]],
+  ['get_5fbatch_5fid',['get_batch_id',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a8f84a2b830caecff3edd052dc24635e6',1,'cutlass::gemm::IdentityBlockSwizzle::get_batch_id()'],['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#abb21a72e2cef3217f446f70758c59c1e',1,'cutlass::gemm::ColumnMajorBlockSwizzle::get_batch_id()'],['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a9be74716c0e3dc6a7f4cdd64cbb16211',1,'cutlass::gemm::RowMajorBlockSwizzle::get_batch_id()']]],
   ['get_5fdeleter',['get_deleter',['../classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0',1,'cutlass::platform::unique_ptr::get_deleter() noexcept'],['../classcutlass_1_1platform_1_1unique__ptr.html#aa427ab4ea4f2336ac6db28d53a4c11ac',1,'cutlass::platform::unique_ptr::get_deleter() const noexcept']]],
+  ['get_5fgrid_5flayout',['get_grid_layout',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#afc20f302a5cc5b736cfc1c91dfcaa57c',1,'cutlass::gemm::IdentityBlockSwizzle::get_grid_layout()'],['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a927ce3eed4cd22554f9e6fe20a1ccc6e',1,'cutlass::gemm::ColumnMajorBlockSwizzle::get_grid_layout()'],['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#aa9fc825e19404ff527cb3d2dcc55ae1c',1,'cutlass::gemm::RowMajorBlockSwizzle::get_grid_layout()']]],
+  ['get_5fpointer_5foffset',['get_pointer_offset',['../structcutlass_1_1TensorRefBatchStrided.html#a3d1922402bba34d0bc865fcc3e1a9a5c',1,'cutlass::TensorRefBatchStrided']]],
+  ['get_5fptr',['get_ptr',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a6b066568947df37094e4125b0347faf1',1,'cutlass::detail::ScalarOrPointer']]],
+  ['get_5fscalar',['get_scalar',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a81bd7b4f50b8d7c5effe5291ad920380',1,'cutlass::detail::ScalarOrPointer']]],
+  ['get_5fthreadblock_5foffset',['get_threadblock_offset',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a386e5cf702b0dcc3d57f9fdb4ab5d236',1,'cutlass::gemm::IdentityBlockSwizzle::get_threadblock_offset()'],['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a380fb7f905548c52933ea411166424b4',1,'cutlass::gemm::ColumnMajorBlockSwizzle::get_threadblock_offset()'],['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#af7c1b4e0afb08e893cd14a169a0b47cd',1,'cutlass::gemm::RowMajorBlockSwizzle::get_threadblock_offset()']]],
   ['getextent',['GetExtent',['../structcutlass_1_1gemm_1_1GetExtent.html',1,'cutlass::gemm']]],
   ['getextent_3c_20gemmoperand_3a_3aka_2c_20tile_5f_20_3e',['GetExtent&lt; GemmOperand::kA, Tile_ &gt;',['../structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html',1,'cutlass::gemm']]],
   ['getextent_3c_20gemmoperand_3a_3akb_2c_20tile_5f_20_3e',['GetExtent&lt; GemmOperand::kB, Tile_ &gt;',['../structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html',1,'cutlass::gemm']]],
-  ['global',['global',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#a3c2980547310ec4307f3a5f9817dfc51',1,'cutlass::gemm::GemmTraits::StreamSharedStorage']]],
-  ['global_5fstream_5fa',['global_stream_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a575bcff901d69ae3f46987222f23ab64',1,'cutlass::gemm::GemmTraits::Params']]],
-  ['global_5fstream_5fb',['global_stream_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a46affe35cb16874de5a2b9777aedf596',1,'cutlass::gemm::GemmTraits::Params']]],
+  ['getlinearidx',['getLinearIdx',['../namespacecutlass_1_1gemm.html#a2336880c866ef4e73bbe0c3dbcb6c40e',1,'cutlass::gemm']]],
+  ['getlinearidx_3c_20swizzledirection_3a_3aboustrophedon_20_3e',['getLinearIdx&lt; swizzleDirection::Boustrophedon &gt;',['../namespacecutlass_1_1gemm.html#a37c566ad59d61647374f215c3d33f088',1,'cutlass::gemm']]],
+  ['global_5fto_5fshared_5fstream',['global_to_shared_stream',['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3',1,'cutlass::gemm::GemmTraits::Params::global_to_shared_stream()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a61fcc63cb0df6754eef16f5cf138f3a2',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage::global_to_shared_stream()']]],
   ['globalfragmentc',['GlobalFragmentC',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e',1,'cutlass::gemm::IgemmEpilogueTraitsHelper']]],
   ['globalfragmentd',['GlobalFragmentD',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88',1,'cutlass::gemm::IgemmEpilogueTraitsHelper']]],
   ['globaliterator',['GlobalIterator',['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#a56d3f2606f9464ec57aa61aae378c642',1,'cutlass::gemm::HgemmSwizzle::GlobalIterator()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a880878914c25db44a1781725c24af514',1,'cutlass::gemm::IgemmSwizzle::GlobalIterator()']]],
-  ['globalloaditeratora',['GlobalLoadIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorA()']]],
-  ['globalloaditeratorb',['GlobalLoadIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorB()']]],
-  ['globalloaditeratorc',['GlobalLoadIteratorC',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a',1,'cutlass::gemm::GemmEpilogue::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2',1,'cutlass::gemm::GemmEpilogueTraits::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalLoadIteratorC()']]],
-  ['globalloadstream',['GlobalLoadStream',['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html',1,'cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a4dd11a75375b6b9d7b8dcbd4d402d8d6',1,'cutlass::gemm::GlobalLoadStream::GlobalLoadStream()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ab2961b4db0694cf128d55d38a98db575',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::GlobalLoadStream()']]],
-  ['globalloadstreama',['GlobalLoadStreamA',['../structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47',1,'cutlass::gemm::GemmTraits::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a448c242880183e006b70d839d210a2ec',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2aaece6093100c71c4d587994200e3bb',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7fb1354154f303642da72e6fd157d846',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamA()']]],
-  ['globalloadstreamb',['GlobalLoadStreamB',['../structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b',1,'cutlass::gemm::GemmTraits::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aad467ed9a680b4d77acecb096799cd89',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abaf5f16ab0b215b406766ecadab29394',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a88e66ee760aea03687e7b3ccc6ea535b',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamB()']]],
-  ['globalloadstreambase',['GlobalLoadStreamBase',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html',1,'cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0fdc0f56d1352b5ad41fd4985edd3278',1,'cutlass::gemm::GlobalLoadStreamBase::GlobalLoadStreamBase()']]],
+  ['globalloaditerator',['GlobalLoadIterator',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a4237c6c9e33397bc1633182e9c3b6504',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aed9492775f012986a7c158156bf4e01e',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#acd7e5d5b940f410275ebbcd6c27e4327',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a57670718427808a241005f5e27acce5d',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator()']]],
+  ['globalloaditeratora',['GlobalLoadIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorA()']]],
+  ['globalloaditeratorb',['GlobalLoadIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorB()']]],
+  ['globalloaditeratorc',['GlobalLoadIteratorC',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a',1,'cutlass::gemm::GemmEpilogue::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24',1,'cutlass::gemm::GemmEpilogueTraits::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalLoadIteratorC()']]],
+  ['globalloadstream',['GlobalLoadStream',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html',1,'cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8',1,'cutlass::gemm::GemmTraits::GlobalLoadStream()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#aec86bdf5d7d4ad1f7b6ebebcf2da8395',1,'cutlass::gemm::GlobalLoadStream::GlobalLoadStream()']]],
+  ['globalloadstreama',['GlobalLoadStreamA',['../structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47',1,'cutlass::gemm::GemmTraits::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a50121da13661e9fa50e5ea3a87c06266',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a80e36b583ccd9aa9b37d52faa090cbca',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2aceaceb30287e909c254f01f1716845',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamA()']]],
+  ['globalloadstreamb',['GlobalLoadStreamB',['../structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b',1,'cutlass::gemm::GemmTraits::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a2fcf34dcf8d89424aa15da709aed4a83',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2c46c11f5fddb865645f555547c823ba',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae59454c1b3862522c8ea293bacb194a8',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamB()']]],
+  ['globalloadstreampair',['GlobalLoadStreamPair',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html',1,'cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab97442e24a1d6d64727b6320ab901ad1',1,'cutlass::gemm::GlobalLoadStreamPair::GlobalLoadStreamPair()']]],
   ['globalloadtiletraits',['GlobalLoadTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalLoadTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aaa009025dcd6360ead1dc18005688821',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalLoadTileTraits()']]],
-  ['globalstoreiteratord',['GlobalStoreIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4',1,'cutlass::gemm::GemmEpilogue::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1',1,'cutlass::gemm::GemmEpilogueTraits::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalStoreIteratorD()']]],
+  ['globalstoreiteratord',['GlobalStoreIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4',1,'cutlass::gemm::GemmEpilogue::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02',1,'cutlass::gemm::GemmEpilogueTraits::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalStoreIteratorD()']]],
   ['globalstoretiletraits',['GlobalStoreTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a16b06a1611dbd22adaa0c9ee5e1b15bd',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalStoreTileTraits()']]],
-  ['globaltiletraits',['GlobalTileTraits',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a738774d1eb79de7e29c372ddfd48258d',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a24f38105e3c331c733cb672c3a9be588',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()']]],
-  ['globaltransformera',['GlobalTransformerA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647',1,'cutlass::gemm::HgemmTraitsHelper::GlobalTransformerA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d',1,'cutlass::gemm::IgemmTraitsHelper::GlobalTransformerA()']]],
-  ['globaltransformerb',['GlobalTransformerB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de',1,'cutlass::gemm::HgemmTraitsHelper::GlobalTransformerB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9',1,'cutlass::gemm::IgemmTraitsHelper::GlobalTransformerB()']]],
-  ['globaltransformerc',['GlobalTransformerC',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9',1,'cutlass::gemm::GemmEpilogue::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa',1,'cutlass::gemm::GemmEpilogueTraits::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalTransformerC()']]],
-  ['globaltransformerd',['GlobalTransformerD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7',1,'cutlass::gemm::GemmEpilogue::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7',1,'cutlass::gemm::GemmEpilogueTraits::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalTransformerD()']]],
-  ['good',['good',['../classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780',1,'cutlass::TensorRef::good()'],['../classcutlass_1_1TensorView.html#a837881bc82704491accf54aad2b9def9',1,'cutlass::TensorView::good()']]],
-  ['greater',['greater',['../structcutlass_1_1platform_1_1greater.html',1,'cutlass::platform']]]
+  ['globaltiletraits',['GlobalTileTraits',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a66f11407e9f5bf0d6123c81dfee6b330',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a125c9a43da3bcdc00d5194a1376f613c',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits()']]],
+  ['globaltransformera',['GlobalTransformerA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60',1,'cutlass::gemm::HgemmTraitsHelper::GlobalTransformerA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb',1,'cutlass::gemm::IgemmTraitsHelper::GlobalTransformerA()']]],
+  ['globaltransformerb',['GlobalTransformerB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184',1,'cutlass::gemm::HgemmTraitsHelper::GlobalTransformerB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2',1,'cutlass::gemm::IgemmTraitsHelper::GlobalTransformerB()']]],
+  ['globaltransformerc',['GlobalTransformerC',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9',1,'cutlass::gemm::GemmEpilogue::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d',1,'cutlass::gemm::GemmEpilogueTraits::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalTransformerC()']]],
+  ['globaltransformerd',['GlobalTransformerD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7',1,'cutlass::gemm::GemmEpilogue::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6',1,'cutlass::gemm::GemmEpilogueTraits::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalTransformerD()']]],
+  ['good',['good',['../classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8',1,'cutlass::TensorRef::good()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a8e1cfab3a220175dad58239c764a5d98',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::good()']]],
+  ['greater',['greater',['../structcutlass_1_1platform_1_1greater.html',1,'cutlass::platform']]],
+  ['grid',['grid',['../structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b',1,'cutlass::KernelLaunchConfiguration']]]
 ];
diff --git a/docs/search/all_8.js b/docs/search/all_8.js
index 684d3e47c0..247ec40c58 100644
--- a/docs/search/all_8.js
+++ b/docs/search/all_8.js
@@ -1,5 +1,6 @@
 var searchData=
 [
+  ['h',['h',['../structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3',1,'cutlass::TileCoord::h() const'],['../structcutlass_1_1TileCoord.html#a1d91ffa0a63ad03431ff79185526f92f',1,'cutlass::TileCoord::h()']]],
   ['hgemm_5fglobal_5ftile_2eh',['hgemm_global_tile.h',['../hgemm__global__tile_8h.html',1,'']]],
   ['hgemm_5fmultiply_5fadd_2eh',['hgemm_multiply_add.h',['../hgemm__multiply__add_8h.html',1,'']]],
   ['hgemm_5fswizzle_2eh',['hgemm_swizzle.h',['../hgemm__swizzle_8h.html',1,'']]],
@@ -18,5 +19,7 @@ var searchData=
   ['hgemmtransformera_3c_20matrixlayout_3a_3akrowmajor_2c_20iterator_5f_20_3e',['HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;',['../structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html',1,'cutlass::gemm']]],
   ['hgemmtransformerb',['HgemmTransformerB',['../structcutlass_1_1gemm_1_1HgemmTransformerB.html',1,'cutlass::gemm']]],
   ['hgemmtransformerb_3c_20matrixlayout_3a_3akcolumnmajor_2c_20iterator_5f_20_3e',['HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;',['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html',1,'cutlass::gemm']]],
-  ['hgemmtransformerb_3c_20matrixlayout_3a_3akrowmajor_2c_20iterator_5f_20_3e',['HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;',['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html',1,'cutlass::gemm']]]
+  ['hgemmtransformerb_3c_20matrixlayout_3a_3akrowmajor_2c_20iterator_5f_20_3e',['HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;',['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html',1,'cutlass::gemm']]],
+  ['hw',['hw',['../structcutlass_1_1TileCoord.html#a0927c4ba212d00f3687034afe6bb8daf',1,'cutlass::TileCoord']]],
+  ['hwc',['hwc',['../structcutlass_1_1TileCoord.html#a11bb7593ce7bba2dcedd199322a8b42b',1,'cutlass::TileCoord']]]
 ];
diff --git a/docs/search/all_9.js b/docs/search/all_9.js
index fe5b5cd3d9..d575d372b6 100644
--- a/docs/search/all_9.js
+++ b/docs/search/all_9.js
@@ -1,35 +1,39 @@
 var searchData=
 [
   ['identity',['Identity',['../structcutlass_1_1Identity.html',1,'cutlass']]],
-  ['identity_5fblock_5fswizzle_2eh',['identity_block_swizzle.h',['../identity__block__swizzle_8h.html',1,'']]],
-  ['identityblockswizzle',['IdentityBlockSwizzle',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html',1,'cutlass::gemm::IdentityBlockSwizzle'],['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#abfde9b316173b1c0b8622cf22ffb6d68',1,'cutlass::gemm::IdentityBlockSwizzle::IdentityBlockSwizzle()']]],
-  ['idx',['idx',['../structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc',1,'cutlass::Coord']]],
+  ['identityblockswizzle',['IdentityBlockSwizzle',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html',1,'cutlass::gemm::IdentityBlockSwizzle'],['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a046a5dfd01164df2abd514e9a52987c3',1,'cutlass::gemm::IdentityBlockSwizzle::IdentityBlockSwizzle()'],['../group__IdentityBlockSwizzle.html',1,'(Global Namespace)']]],
+  ['identitytensormapfunc',['IdentityTensorMapFunc',['../structcutlass_1_1IdentityTensorMapFunc.html',1,'cutlass']]],
+  ['identitytensormapfunc_3c_20rank_5f_20_3e',['IdentityTensorMapFunc&lt; Rank_ &gt;',['../structcutlass_1_1IdentityTensorMapFunc.html',1,'cutlass']]],
+  ['idx',['idx',['../structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68',1,'cutlass::Coord']]],
   ['igemm_5fepilogue_2eh',['igemm_epilogue.h',['../igemm__epilogue_8h.html',1,'']]],
   ['igemm_5fglobal_5ftile_2eh',['igemm_global_tile.h',['../igemm__global__tile_8h.html',1,'']]],
   ['igemm_5fmultiply_5fadd_2eh',['igemm_multiply_add.h',['../igemm__multiply__add_8h.html',1,'']]],
   ['igemm_5fswizzle_2eh',['igemm_swizzle.h',['../igemm__swizzle_8h.html',1,'']]],
   ['igemm_5ftraits_2eh',['igemm_traits.h',['../igemm__traits_8h.html',1,'']]],
-  ['igemmconfig',['IgemmConfig',['../structcutlass_1_1gemm_1_1IgemmConfig.html',1,'cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, AccumulatorsPerThread_ &gt;'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5a52727bb9b5d5f8afa7d0384f564036',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::IgemmConfig()']]],
-  ['igemmconfig_3c_20outputtile_5f_2c_20int8_5ft_2c_20accumulatorsperthread_5f_20_3e',['IgemmConfig&lt; OutputTile_, int8_t, AccumulatorsPerThread_ &gt;',['../structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01AccumulatorsPerThread___01_4.html',1,'cutlass::gemm']]],
-  ['igemmcontiguousglobaltiletraits',['IgemmContiguousGlobalTileTraits',['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html',1,'cutlass::gemm']]],
-  ['igemmepilogue',['IgemmEpilogue',['../structcutlass_1_1gemm_1_1IgemmEpilogue.html',1,'cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;'],['../structcutlass_1_1gemm_1_1IgemmEpilogue.html#ab7a51121d24250d6441ee538e6521dc2',1,'cutlass::gemm::IgemmEpilogue::IgemmEpilogue()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a49ac00bed1532707aacd3ff108c84623',1,'cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::IgemmEpilogue()']]],
+  ['igemmconfig',['IgemmConfig',['../structcutlass_1_1gemm_1_1IgemmConfig.html',1,'cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, ThreadGemmShape_ &gt;'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5a52727bb9b5d5f8afa7d0384f564036',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::IgemmConfig()']]],
+  ['igemmconfig_3c_20outputtile_5f_2c_20int8_5ft_2c_20threadgemmshape_5f_20_3e',['IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;',['../structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html',1,'cutlass::gemm']]],
+  ['igemmepilogue',['IgemmEpilogue',['../structcutlass_1_1gemm_1_1IgemmEpilogue.html',1,'cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;'],['../structcutlass_1_1gemm_1_1IgemmEpilogue.html#a599a50becefed561d063c1b834188aca',1,'cutlass::gemm::IgemmEpilogue::IgemmEpilogue()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a0a1be1aab827127161406871ca75cbe0',1,'cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::IgemmEpilogue()']]],
   ['igemmepilogue_3c_20gemmepiloguetraits_5f_2c_20true_20_3e',['IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;',['../structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html',1,'cutlass::gemm']]],
   ['igemmepiloguescalar',['IgemmEpilogueScalar',['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html',1,'cutlass::gemm']]],
   ['igemmepiloguescalar_3c_20int_20_3e',['IgemmEpilogueScalar&lt; int &gt;',['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html',1,'cutlass::gemm']]],
   ['igemmepiloguetraits',['IgemmEpilogueTraits',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html',1,'cutlass::gemm']]],
   ['igemmepiloguetraitshelper',['IgemmEpilogueTraitsHelper',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html',1,'cutlass::gemm']]],
   ['igemmfloattoint8converter',['IgemmFloatToInt8Converter',['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html',1,'cutlass::gemm::IgemmFloatToInt8Converter&lt; kElements_ &gt;'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#ac65f020e93584b1bd3cdb849ff625026',1,'cutlass::gemm::IgemmFloatToInt8Converter::IgemmFloatToInt8Converter()']]],
+  ['igemmglobaliteratorab',['IgemmGlobalIteratorAb',['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html',1,'cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;'],['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a489fe448cd7f7e1f3805d33504f9d336',1,'cutlass::gemm::IgemmGlobalIteratorAb::IgemmGlobalIteratorAb()']]],
   ['igemmgloballoadtransformer',['IgemmGlobalLoadTransformer',['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html',1,'cutlass::gemm']]],
   ['igemmgloballoadtransformer_3c_20fragment_3c_20int8_5ft_2c_20kelements_5f_20_3e_2c_20float_20_3e',['IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;',['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html',1,'cutlass::gemm']]],
   ['igemmglobalstoretransformer',['IgemmGlobalStoreTransformer',['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html',1,'cutlass::gemm']]],
   ['igemmglobalstoretransformer_3c_20float_2c_20fragment_3c_20int8_5ft_2c_20kelements_5f_20_3e_20_3e',['IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;',['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html',1,'cutlass::gemm']]],
+  ['igemmglobaltiletraits',['IgemmGlobalTileTraits',['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html',1,'cutlass::gemm']]],
   ['igemmint8tofloatconverter',['IgemmInt8ToFloatConverter',['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html',1,'cutlass::gemm::IgemmInt8ToFloatConverter&lt; kElements_ &gt;'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a88a55a494d3a30d50477d50bf6a8804d',1,'cutlass::gemm::IgemmInt8ToFloatConverter::IgemmInt8ToFloatConverter()']]],
   ['igemmsharedstoretransformer',['IgemmSharedStoreTransformer',['../structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html',1,'cutlass::gemm']]],
   ['igemmswizzle',['IgemmSwizzle',['../structcutlass_1_1gemm_1_1IgemmSwizzle.html',1,'cutlass::gemm::IgemmSwizzle&lt; GlobalIterator_ &gt;'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac041d287c966cf568599d7e462e81d5a',1,'cutlass::gemm::IgemmSwizzle::IgemmSwizzle()']]],
   ['igemmtiletraitshelpera',['IgemmTileTraitsHelperA',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html',1,'cutlass::gemm']]],
-  ['igemmtiletraitshelpera_3c_20matrixlayout_3a_3akcolumnmajor_2c_20gemmconfig_5f_20_3e',['IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html',1,'cutlass::gemm']]],
+  ['igemmtiletraitshelpera_3c_20matrixlayout_3a_3akcolumnmajor_2c_20gemmconfig_5f_2c_20index_5f_20_3e',['IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html',1,'cutlass::gemm']]],
+  ['igemmtiletraitshelpera_3c_20matrixlayout_3a_3akrowmajor_2c_20gemmconfig_5f_2c_20index_5f_20_3e',['IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html',1,'cutlass::gemm']]],
   ['igemmtiletraitshelperb',['IgemmTileTraitsHelperB',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html',1,'cutlass::gemm']]],
-  ['igemmtiletraitshelperb_3c_20matrixlayout_3a_3akrowmajor_2c_20gemmconfig_5f_20_3e',['IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html',1,'cutlass::gemm']]],
+  ['igemmtiletraitshelperb_3c_20matrixlayout_3a_3akcolumnmajor_2c_20gemmconfig_5f_2c_20index_5f_20_3e',['IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html',1,'cutlass::gemm']]],
+  ['igemmtiletraitshelperb_3c_20matrixlayout_3a_3akrowmajor_2c_20gemmconfig_5f_2c_20index_5f_20_3e',['IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html',1,'cutlass::gemm']]],
   ['igemmtraits',['IgemmTraits',['../structcutlass_1_1gemm_1_1IgemmTraits.html',1,'cutlass::gemm']]],
   ['igemmtraitshelper',['IgemmTraitsHelper',['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html',1,'cutlass::gemm']]],
   ['igemmtransformera',['IgemmTransformerA',['../structcutlass_1_1gemm_1_1IgemmTransformerA.html',1,'cutlass::gemm']]],
@@ -38,18 +42,21 @@ var searchData=
   ['igemmtransformerb',['IgemmTransformerB',['../structcutlass_1_1gemm_1_1IgemmTransformerB.html',1,'cutlass::gemm']]],
   ['igemmtransformerb_3c_20matrixlayout_3a_3akcolumnmajor_2c_20iterator_5f_20_3e',['IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html',1,'cutlass::gemm']]],
   ['igemmtransformerb_3c_20matrixlayout_3a_3akrowmajor_2c_20iterator_5f_20_3e',['IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html',1,'cutlass::gemm']]],
-  ['immediateoffsetstrides',['ImmediateOffsetStrides',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf',1,'cutlass::gemm::GemmGlobalTileTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c',1,'cutlass::gemm::GemmGlobalTileCdTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a8e767b5e2fb95b0b02a0ea3e8ea58368',1,'cutlass::gemm::GemmSharedLoadTileATraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a5e4204b52ee081a37e824ca71c291c03',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9cfb32f902593e7dc018ee802c3520b8',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::ImmediateOffsetStrides()'],['../structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8',1,'cutlass::TileIteratorBase::ImmediateOffsetStrides()']]],
-  ['inc_5fadvance',['inc_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::inc_advance()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a857db0c999250248b104f17f13fe9bd8',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::inc_advance()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2',1,'cutlass::TileIteratorBase::Params::inc_advance()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a9dea455aa86bb59517b4a4d0309e424b',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_advance()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab4b8150f19c9f8649d75c69ec0a76e1a',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_advance()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a174ae7d8aa0664eaf1d6f63c5606baa0',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_advance()'],['../structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37',1,'cutlass::TileLoadIterator::inc_advance()'],['../structcutlass_1_1TileStoreIterator.html#a1614b27755cf82c0e1f3e7852c5a4c75',1,'cutlass::TileStoreIterator::inc_advance()']]],
-  ['inc_5fc',['inc_c',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a12ead84ea9634e963d10c6df7b7792c9',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_c()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a44287250bf5631a490b514859fd101d1',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_c()']]],
-  ['inc_5fd',['inc_d',['../structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150',1,'cutlass::TileIteratorBase::Params::inc_d()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1e42503e5a54cdc01308e9030aebdd35',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_d()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad26ab8d8010c9a1d7f3b91f60940b460',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_d()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab1ebbe54e4315ac07daf260a88f41d04',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_d()'],['../structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5',1,'cutlass::TileLoadIterator::inc_d()'],['../structcutlass_1_1TileStoreIterator.html#a74dffe1ddcc84935ab170117e939b7e3',1,'cutlass::TileStoreIterator::inc_d()']]],
-  ['inc_5fh',['inc_h',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::inc_h()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::inc_h()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366',1,'cutlass::TileIteratorBase::Params::inc_h()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aa24336597f4a3316d94df6ab0c20f714',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_h()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ae07fa10a53d44471a04275145201299e',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_h()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa9a733f35e9be67663c9c8f80b0034d4',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_h()'],['../structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface',1,'cutlass::TileLoadIterator::inc_h()'],['../structcutlass_1_1TileStoreIterator.html#a3793f5d5846862f22f1de736e36ae7c1',1,'cutlass::TileStoreIterator::inc_h()']]],
-  ['inc_5fstage',['inc_stage',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f',1,'cutlass::gemm::SharedLoadStream::inc_stage()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8851150a49e4a9c135279c8c9dfdc592',1,'cutlass::gemm::GemmTraits::SharedLoadStream::inc_stage()'],['../structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64',1,'cutlass::TileLoadIterator::inc_stage()'],['../structcutlass_1_1TileStoreIterator.html#a187e0852ec4862f6d3cb6249bedc3bb3',1,'cutlass::TileStoreIterator::inc_stage()']]],
-  ['inc_5fw',['inc_w',['../structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178',1,'cutlass::TileIteratorBase::Params::inc_w()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a622a4dd27162854ec96efea93cdd4380',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_w()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aec2d692967d9be5d42673dfde21f5427',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_w()'],['../structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073',1,'cutlass::TileLoadIterator::inc_w()'],['../structcutlass_1_1TileStoreIterator.html#aa573a47a9ffc3e07239a09e2bc470cf1',1,'cutlass::TileStoreIterator::inc_w()']]],
-  ['index',['Index',['../structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34',1,'cutlass::gemm::Gemm::Index()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e',1,'cutlass::gemm::GemmEpilogue::Index()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331',1,'cutlass::gemm::GemmEpilogueTraits::Index()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2',1,'cutlass::gemm::GlobalLoadStreamBase::Index()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f',1,'cutlass::gemm::GemmGlobalIteratorAb::Index()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f',1,'cutlass::gemm::GemmGlobalIteratorCd::Index()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367',1,'cutlass::gemm::GemmTraits::Index()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Index()'],['../structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3',1,'cutlass::TileIteratorBase::Index()'],['../structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36',1,'cutlass::TileLoadIterator::Index()'],['../structcutlass_1_1TileStoreIterator.html#a5ac2280dfcac08cec17b8c0db1c4593e',1,'cutlass::TileStoreIterator::Index()']]],
-  ['initialize',['initialize',['../structcutlass_1_1gemm_1_1Gemm_1_1Params.html#ac00c9d78a187d9c7d53399f971c0e129',1,'cutlass::gemm::Gemm::Params::initialize()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a3e9d0fd2989fea776b0cab0e0f2813ce',1,'cutlass::gemm::GemmEpilogueTraits::Params::initialize()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a7c7e448384156c801ed362359a1a6a40',1,'cutlass::gemm::GlobalLoadStreamBase::Params::initialize()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#a73091e07b6d4c99f6e0319fbf6bd1709',1,'cutlass::gemm::GemmGlobalIteratorAb::Params::initialize()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#af5a496f1b6a46ea6a9894512029add6a',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::initialize()'],['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a',1,'cutlass::gemm::SharedLoadStream::Params::initialize()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a8e4d277325bb5e56c718a2298b60d3cf',1,'cutlass::gemm::SharedLoadStream::initialize()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983',1,'cutlass::gemm::GemmTraits::Params::initialize()'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d',1,'cutlass::gemm::LinearScaling::Params::initialize()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#ad6b65c5f3ed7cd9e7ffeb684cbf30d04',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::initialize()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55',1,'cutlass::TileIteratorBase::Params::initialize(Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be',1,'cutlass::TileIteratorBase::Params::initialize(Index _stride_d, Index _stride_h, Index _stride_w)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224',1,'cutlass::TileIteratorBase::Params::initialize()'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76',1,'cutlass::TileLoadIterator::Params::initialize(SharedStorage const &amp;storage)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#afd9e82df76ad35fe883b7834457242b2',1,'cutlass::TileLoadIterator::Params::initialize(Scalar const *ptr, Index stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#aa3922946bb0da0c0040dec44aa389ec1',1,'cutlass::TileLoadIterator::Params::initialize(Scalar const *ptr, Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8',1,'cutlass::TileLoadIterator::Params::initialize()'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a71f5238a712f7b2f377fb58938ac829b',1,'cutlass::TileStoreIterator::Params::initialize(SharedStorage &amp;storage)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#af0d26a2df2a1a5ba3c3169b736bd5d43',1,'cutlass::TileStoreIterator::Params::initialize(Scalar *ptr, Index stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#ac1cfe92f1543ba445fa10f1859a0db98',1,'cutlass::TileStoreIterator::Params::initialize(Scalar *ptr, Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#af884f720d36aa82e7f972932686ae986',1,'cutlass::TileStoreIterator::Params::initialize()']]],
-  ['initialize_5fpredicates',['initialize_predicates',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab9375d9e779dcda79a5cd561bb3762ff',1,'cutlass::gemm::GemmGlobalIteratorAb::initialize_predicates()'],['../structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7',1,'cutlass::TileIteratorBase::initialize_predicates()'],['../structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5',1,'cutlass::TileLoadIterator::initialize_predicates()'],['../structcutlass_1_1TileStoreIterator.html#af92ba20db048a9ec96976a1673f0f7c2',1,'cutlass::TileStoreIterator::initialize_predicates()']]],
-  ['inputfragment',['InputFragment',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#ac7906301019c3e6d60985c3851f1e95e',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::InputFragment()'],['../structcutlass_1_1Copy.html#aed254bbc1ad94ed9d335ab02f199ceb1',1,'cutlass::Copy::InputFragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#ab5fab63d83eb0444c08bda16491d2627',1,'cutlass::gemm::HgemmSwizzle::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c',1,'cutlass::gemm::IgemmFloatToInt8Converter::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb',1,'cutlass::gemm::IgemmInt8ToFloatConverter::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727',1,'cutlass::gemm::IgemmSwizzle::InputFragment()']]],
-  ['instructionshape',['InstructionShape',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ac93ba536992debeae86087e638167a13',1,'cutlass::gemm::FragmentMultiplyAdd::InstructionShape()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ab16a3d8adda89cc4f9765116ea75a4b7',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b',1,'cutlass::gemm::GemmConfig::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa56cdefa659af5ce4efd493b94bafdfd',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad73372a37315b0c17a8db21e40a78574',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b',1,'cutlass::gemm::ThreadMultiplyAdd::InstructionShape()']]],
+  ['imag',['imag',['../classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801',1,'cutlass::platform::complex::imag() const'],['../classcutlass_1_1platform_1_1complex.html#a835363f62c6a079496c22074ab428651',1,'cutlass::platform::complex::imag()'],['../namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6',1,'cutlass::platform::imag(cuFloatComplex const &amp;z)'],['../namespacecutlass_1_1platform.html#af127cab494309510051d6b45914faf33',1,'cutlass::platform::imag(cuFloatComplex &amp;z)'],['../namespacecutlass_1_1platform.html#a1739f880ca8398f808ee57a3f0c3c30b',1,'cutlass::platform::imag(cuDoubleComplex const &amp;z)'],['../namespacecutlass_1_1platform.html#a8f356af3c5828b7d31279a5d075c5bc9',1,'cutlass::platform::imag(cuDoubleComplex &amp;z)'],['../namespacecutlass_1_1platform.html#a714db927a811c86cda26fc12ca830356',1,'cutlass::platform::imag(complex&lt; T &gt; const &amp;z)'],['../namespacecutlass_1_1platform.html#aa35ea4f804f9ed39578b595ba2620c1d',1,'cutlass::platform::imag(complex&lt; T &gt; &amp;z)']]],
+  ['immediateoffsetstrides',['ImmediateOffsetStrides',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf',1,'cutlass::gemm::GemmGlobalTileTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c',1,'cutlass::gemm::GemmGlobalTileCdTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ad012add21d9393d136720f609467e121',1,'cutlass::gemm::GemmSharedLoadTileATraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a99017ecc737060f53fd9804ea6f9583f',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a57b065abb737bee1c17398c90b5bc39b',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::ImmediateOffsetStrides()'],['../structcutlass_1_1TileTraits.html#a3db8202befa891bbc7c0a53c535cd21f',1,'cutlass::TileTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4',1,'cutlass::TileIteratorBase::ImmediateOffsetStrides()']]],
+  ['inc_5fadvance',['inc_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::inc_advance()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3',1,'cutlass::TileIteratorBase::Params::inc_advance()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_advance()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_advance()'],['../structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b',1,'cutlass::TileLoadIterator::inc_advance()'],['../structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d',1,'cutlass::TileStoreIterator::inc_advance()']]],
+  ['inc_5fc',['inc_c',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316',1,'cutlass::gemm::GemmGlobalIteratorCd']]],
+  ['inc_5fd',['inc_d',['../structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd',1,'cutlass::TileIteratorBase::Params::inc_d()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_d()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_d()'],['../structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674',1,'cutlass::TileLoadIterator::inc_d()'],['../structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975',1,'cutlass::TileStoreIterator::inc_d()']]],
+  ['inc_5fh',['inc_h',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::inc_h()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06',1,'cutlass::TileIteratorBase::Params::inc_h()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_h()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_h()'],['../structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51',1,'cutlass::TileLoadIterator::inc_h()'],['../structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d',1,'cutlass::TileStoreIterator::inc_h()']]],
+  ['inc_5fstage',['inc_stage',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f',1,'cutlass::gemm::SharedLoadStream::inc_stage()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#ad4b9b1c1fe4b0c6961842d0eff6d7db7',1,'cutlass::gemm::SharedStreamPair::inc_stage()'],['../structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d',1,'cutlass::TileLoadIterator::inc_stage()'],['../structcutlass_1_1TileStoreIterator.html#ad61206a742c8c5ab5bcd64b76ece9f74',1,'cutlass::TileStoreIterator::inc_stage()']]],
+  ['inc_5fw',['inc_w',['../structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c',1,'cutlass::TileIteratorBase::Params::inc_w()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_w()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_w()'],['../structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c',1,'cutlass::TileLoadIterator::inc_w()'],['../structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1',1,'cutlass::TileStoreIterator::inc_w()']]],
+  ['increment',['increment',['../classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808',1,'cutlass::ZipTileIterator']]],
+  ['index',['Index',['../structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c',1,'cutlass::Coord::Index()'],['../structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34',1,'cutlass::gemm::Gemm::Index()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892',1,'cutlass::gemm::GemmCoord::Index()'],['../structcutlass_1_1gemm_1_1GemmDesc.html#abd12fea9779ada02c0f2266909602171',1,'cutlass::gemm::GemmDesc::Index()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e',1,'cutlass::gemm::GemmEpilogue::Index()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0',1,'cutlass::gemm::GemmEpilogueTraits::Index()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02',1,'cutlass::gemm::GlobalLoadStream::Index()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f',1,'cutlass::gemm::GemmGlobalIteratorAb::Index()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f',1,'cutlass::gemm::GemmGlobalIteratorCd::Index()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a',1,'cutlass::gemm::GlobalLoadStreamPair::Index()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367',1,'cutlass::gemm::GemmTraits::Index()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Index()'],['../structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f',1,'cutlass::MatrixCoord::Index()'],['../classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890',1,'cutlass::TensorRef::Index()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Index()'],['../structcutlass_1_1TensorRefBatchStrided.html#ab12d9d196122dc3075185ab239a27fb4',1,'cutlass::TensorRefBatchStrided::Index()'],['../structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9',1,'cutlass::TensorRefArray::Index()'],['../classcutlass_1_1TensorView.html#a5a3f096a01e6a2dfe984d7e605380599',1,'cutlass::TensorView::Index()'],['../structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259',1,'cutlass::TileCoord::Index()'],['../structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c',1,'cutlass::TileIteratorBase::Index()'],['../structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827',1,'cutlass::TileLoadIterator::Index()'],['../structcutlass_1_1TileStoreIterator.html#aae07fdedeef68abd4e6c099924c70910',1,'cutlass::TileStoreIterator::Index()'],['../structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652',1,'cutlass::TileLoadStream::Index()'],['../structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4',1,'cutlass::TileStoreStream::Index()'],['../classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0',1,'cutlass::ZipTileIterator::Index()']]],
+  ['initialize',['initialize',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a13395bf81eabdc539c935e179c31d7ca',1,'cutlass::gemm::GemmEpilogueTraits::Params::initialize()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a054aee5b4bf288cc1f5945f2521ef835',1,'cutlass::gemm::GlobalLoadStream::Params::initialize()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#ad0602cf5d322e98e3e5990c84ae1e3f3',1,'cutlass::gemm::GemmGlobalIteratorAb::Params::initialize()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::initialize()'],['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a',1,'cutlass::gemm::SharedLoadStream::Params::initialize()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a9b62788c187fff49b0250c0070a41fa0',1,'cutlass::gemm::SharedLoadStream::initialize()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983',1,'cutlass::gemm::GemmTraits::Params::initialize(GemmDesc_ const &amp;desc)'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#ac4cd0b74130ffc09e4ccb7b0acba87f8',1,'cutlass::gemm::GemmTraits::Params::initialize(Index m, Index n, Index k, typename Epilogue::Scalar alpha, ScalarA const *d_a, Index lda, ScalarB const *d_b, Index ldb, typename Epilogue::Scalar beta, ScalarC const *d_c, Index ldc, ScalarD *d_d, Index ldd)'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a95314e9a9279c4870f37f68a2357e064',1,'cutlass::gemm::GemmTraits::Params::initialize(Index m, Index n, Index k, typename Epilogue::Scalar alpha, ScalarA const *d_a, Index lda, long long int batch_stride_A, ScalarB const *d_b, Index ldb, long long int batch_stride_B, typename Epilogue::Scalar beta, ScalarC const *d_c, Index ldc, long long int batch_stride_C, ScalarD *d_d, Index ldd, long long int batch_stride_D, Index batch_count)'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ad4089906220d4656ba075fb9afd1012c',1,'cutlass::gemm::LinearScaling::Params::initialize(Scalar _alpha, Scalar _beta)'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d',1,'cutlass::gemm::LinearScaling::Params::initialize(GemmDesc_ const &amp;desc)'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ad1b2291b898091ee1966b73bd1ad56fa',1,'cutlass::gemm::LinearScalingDevicePtr::Params::initialize(Scalar alpha, Scalar beta)'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ab4dbffb32daffb64d2033e3091963507',1,'cutlass::gemm::LinearScalingDevicePtr::Params::initialize(Scalar const *alpha, Scalar const *beta)'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a491496037bf6613e128e667f87fda696',1,'cutlass::gemm::LinearScalingDevicePtr::Params::initialize(GemmDesc_ const &amp;desc)'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a98867f4fc4daf790e309f8365e71cc8f',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::initialize()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60',1,'cutlass::TileIteratorBase::Params::initialize(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd',1,'cutlass::TileIteratorBase::Params::initialize(Coord&lt; 4 &gt; const &amp;stride)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9',1,'cutlass::TileIteratorBase::Params::initialize(long long _stride_d, Index _stride_h, Index _stride_w)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9',1,'cutlass::TileIteratorBase::Params::initialize()'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803',1,'cutlass::TileLoadIterator::Params::initialize(TensorRef const &amp;ref)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a61b898051d0397b013407a4c90409aa0',1,'cutlass::TileLoadIterator::Params::initialize(SharedStorage const &amp;storage)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a8869188d1c3b867fe6389aadf04837bf',1,'cutlass::TileLoadIterator::Params::initialize(Scalar const *ptr)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662',1,'cutlass::TileLoadIterator::Params::initialize(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a53917e002fd29a5650752c65f96b353d',1,'cutlass::TileLoadIterator::Params::initialize(Scalar const *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d',1,'cutlass::TileLoadIterator::Params::initialize()'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#aca14058b112b7d5105658457341726cb',1,'cutlass::TileStoreIterator::Params::initialize(SharedStorage &amp;storage)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a0d36c05a4a757db5ebfe5f180b174b8c',1,'cutlass::TileStoreIterator::Params::initialize(Scalar *ptr)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a23c9e9d1d2bed7e5d8579df9cc42dda3',1,'cutlass::TileStoreIterator::Params::initialize(Scalar *ptr, long long stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a6a7702de0e88449b3d1864b208adf87a',1,'cutlass::TileStoreIterator::Params::initialize(Scalar *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#ad90642d96a3b5354813fbf4d9b04b83f',1,'cutlass::TileStoreIterator::Params::initialize()']]],
+  ['initialize_5fpredicates',['initialize_predicates',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018',1,'cutlass::gemm::GemmGlobalIteratorAb::initialize_predicates()'],['../structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208',1,'cutlass::TileIteratorBase::initialize_predicates()'],['../structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82',1,'cutlass::TileLoadIterator::initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))'],['../structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49',1,'cutlass::TileLoadIterator::initialize_predicates(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)'],['../structcutlass_1_1TileStoreIterator.html#acb6bc889b93d25c9e483a0b7297d7c89',1,'cutlass::TileStoreIterator::initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))'],['../structcutlass_1_1TileStoreIterator.html#a890a7239a89679662aeaea797ba32d32',1,'cutlass::TileStoreIterator::initialize_predicates(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)'],['../classcutlass_1_1ZipTileIterator.html#a8f334010614b50d962e4769904d7b76f',1,'cutlass::ZipTileIterator::initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))'],['../classcutlass_1_1ZipTileIterator.html#ab0f93878bbe5aac072450f9bf1dd8b64',1,'cutlass::ZipTileIterator::initialize_predicates(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)']]],
+  ['inputfragment',['InputFragment',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#ac7906301019c3e6d60985c3851f1e95e',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::InputFragment()'],['../structcutlass_1_1Copy.html#aed254bbc1ad94ed9d335ab02f199ceb1',1,'cutlass::Copy::InputFragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#ab5fab63d83eb0444c08bda16491d2627',1,'cutlass::gemm::HgemmSwizzle::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c',1,'cutlass::gemm::IgemmFloatToInt8Converter::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb',1,'cutlass::gemm::IgemmInt8ToFloatConverter::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727',1,'cutlass::gemm::IgemmSwizzle::InputFragment()'],['../structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3',1,'cutlass::ZipConvert::InputFragment()']]],
+  ['instructionshape',['InstructionShape',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aa101be5d45e2be54bb4056517b6d5e76',1,'cutlass::gemm::FragmentMultiplyAdd::InstructionShape()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a7d83cf5bde360251a252c6e728ea80ff',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#afc7858e849a2967631761986512dbfb7',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b',1,'cutlass::gemm::GemmConfig::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a245bdf059794144d04d2823d2b39588e',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa84c3d4efc7947d6efb75536c88043bd',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af',1,'cutlass::gemm::ThreadMultiplyAdd::InstructionShape()']]],
+  ['int4_5ft',['int4_t',['../structcutlass_1_1int4__t.html',1,'cutlass']]],
   ['integral_5fconstant',['integral_constant',['../structcutlass_1_1platform_1_1integral__constant.html',1,'cutlass::platform']]],
   ['integral_5fconstant_3c_20bool_2c_20v_20_3e',['integral_constant&lt; bool, V &gt;',['../structcutlass_1_1platform_1_1integral__constant.html',1,'cutlass::platform']]],
   ['integral_5fconstant_3c_20bool_2c_28is_5farithmetic_3c_20t_20_3e_3a_3avalue_7c_7cis_5fvoid_3c_20t_20_3e_3a_3avalue_7c_7cis_5fsame_3c_20nullptr_5ft_2c_20remove_5fcv_3c_20t_20_3e_3a_3atype_20_3e_3a_3avalue_29_3e',['integral_constant&lt; bool,(is_arithmetic&lt; T &gt;::value||is_void&lt; T &gt;::value||is_same&lt; nullptr_t, remove_cv&lt; T &gt;::type &gt;::value)&gt;',['../structcutlass_1_1platform_1_1integral__constant.html',1,'cutlass::platform']]],
@@ -58,6 +65,7 @@ var searchData=
   ['integral_5fconstant_3c_20bool_2c_28is_5fintegral_3c_20t_20_3e_3a_3avalue_7c_7cis_5ffloating_5fpoint_3c_20t_20_3e_3a_3avalue_29_3e',['integral_constant&lt; bool,(is_integral&lt; T &gt;::value||is_floating_point&lt; T &gt;::value)&gt;',['../structcutlass_1_1platform_1_1integral__constant.html',1,'cutlass::platform']]],
   ['integral_5fconstant_3c_20bool_2c_28is_5fsame_3c_20float_2c_20remove_5fcv_3c_20t_20_3e_3a_3atype_20_3e_3a_3avalue_7c_7cis_5fsame_3c_20double_2c_20remove_5fcv_3c_20t_20_3e_3a_3atype_20_3e_3a_3avalue_29_3e',['integral_constant&lt; bool,(is_same&lt; float, remove_cv&lt; T &gt;::type &gt;::value||is_same&lt; double, remove_cv&lt; T &gt;::type &gt;::value)&gt;',['../structcutlass_1_1platform_1_1integral__constant.html',1,'cutlass::platform']]],
   ['integral_5fconstant_3c_20bool_2c_28n_20_26_28n_20_2d_201_29_29_3d_3d0_20_3e',['integral_constant&lt; bool,(N &amp;(N - 1))==0 &gt;',['../structcutlass_1_1platform_1_1integral__constant.html',1,'cutlass::platform']]],
+  ['intermediate_5ffragment',['intermediate_fragment',['../structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093',1,'cutlass::TileLoadStream::intermediate_fragment()'],['../structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71',1,'cutlass::TileStoreStream::intermediate_fragment()']]],
   ['is_5farithmetic',['is_arithmetic',['../structcutlass_1_1platform_1_1is__arithmetic.html',1,'cutlass::platform']]],
   ['is_5fbase_5fof',['is_base_of',['../structcutlass_1_1platform_1_1is__base__of.html',1,'cutlass::platform']]],
   ['is_5fbase_5fof_5fhelper',['is_base_of_helper',['../structcutlass_1_1platform_1_1is__base__of__helper.html',1,'cutlass::platform']]],
@@ -78,7 +86,7 @@ var searchData=
   ['is_5fintegral_3c_20unsigned_20long_20long_20_3e',['is_integral&lt; unsigned long long &gt;',['../structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html',1,'cutlass::platform']]],
   ['is_5fintegral_3c_20unsigned_20short_20_3e',['is_integral&lt; unsigned short &gt;',['../structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html',1,'cutlass::platform']]],
   ['is_5fintegral_3c_20volatile_20t_20_3e',['is_integral&lt; volatile T &gt;',['../structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html',1,'cutlass::platform']]],
-  ['is_5fpointer',['is_pointer',['../structcutlass_1_1platform_1_1is__pointer.html',1,'cutlass::platform']]],
+  ['is_5fpointer',['is_pointer',['../structcutlass_1_1platform_1_1is__pointer.html',1,'cutlass::platform::is_pointer&lt; T &gt;'],['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a95373f3d1b286c61cb204ba6a1282ce0',1,'cutlass::detail::ScalarOrPointer::is_pointer()']]],
   ['is_5fpointer_5fhelper',['is_pointer_helper',['../structcutlass_1_1platform_1_1is__pointer__helper.html',1,'cutlass::platform']]],
   ['is_5fpointer_5fhelper_3c_20remove_5fcv_3c_20t_20_3e_3a_3atype_20_3e',['is_pointer_helper&lt; remove_cv&lt; T &gt;::type &gt;',['../structcutlass_1_1platform_1_1is__pointer__helper.html',1,'cutlass::platform']]],
   ['is_5fpointer_5fhelper_3c_20t_20_2a_20_3e',['is_pointer_helper&lt; T * &gt;',['../structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html',1,'cutlass::platform']]],
@@ -92,16 +100,13 @@ var searchData=
   ['is_5fvolatile_3c_20volatile_20t_20_3e',['is_volatile&lt; volatile T &gt;',['../structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html',1,'cutlass::platform']]],
   ['is_5fzero',['is_zero',['../structcutlass_1_1PredicateVector.html#a1c4fe2bec906cd7937428ed6561ac79a',1,'cutlass::PredicateVector::is_zero()'],['../namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb',1,'cutlass::gemm::is_zero(T x)'],['../namespacecutlass_1_1gemm.html#a4a12fcfae60f26efa47bf0a79483d8ac',1,'cutlass::gemm::is_zero(half x)']]],
   ['isvector',['IsVector',['../structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2',1,'cutlass::VectorTraits::IsVector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aead181209c756f25ab5870682670bb99',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::IsVector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a893488718d8437970c1b4ed4f4056620',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::IsVector()']]],
-  ['iterations',['Iterations',['../structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0',1,'cutlass::FragmentIterator::Iterations()'],['../structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2',1,'cutlass::FragmentConstIterator::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae',1,'cutlass::gemm::GemmEpilogue::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d',1,'cutlass::gemm::GemmEpilogueTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Iterations()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f',1,'cutlass::gemm::GemmGlobalTileTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a',1,'cutlass::gemm::GemmGlobalTileCdTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b',1,'cutlass::gemm::GemmSharedLoadTileATraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a81ca35e0c5d9553d1dccc981cbd89d47',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Iterations()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#aa9b46937bea47d071d277aa212dd610b',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Iterations()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Iterations()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a9fb4b56091d4458ebd82130bc3951e5b',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::Iterations()'],['../structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450',1,'cutlass::PredicateTileAdapter::Iterations()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058',1,'cutlass::ConstPredicateTileAdapter::Iterations()'],['../structcutlass_1_1TileTraits.html#af7ae2fdb4c8f1702169cc7d437d2b469',1,'cutlass::TileTraits::Iterations()'],['../structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474',1,'cutlass::TileIteratorBase::Iterations()'],['../structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf',1,'cutlass::TileLoadIterator::Iterations()'],['../structcutlass_1_1TileStoreIterator.html#a552a67fb03c28e985d143f6193f88308',1,'cutlass::TileStoreIterator::Iterations()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2',1,'cutlass::TileTraitsStrideMajor::Iterations()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a425a20b642ae8736c12626b2de9b8b82',1,'cutlass::TileTraitsContiguousMajor::Iterations()'],['../structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323',1,'cutlass::TileTraitsWarpRake::Iterations()']]],
-  ['iterationsstrides',['IterationsStrides',['../structcutlass_1_1FragmentConstIterator.html#ab683796885f3bae3765efd96883f311b',1,'cutlass::FragmentConstIterator']]],
-  ['iterator',['Iterator',['../classcutlass_1_1PredicateVector_1_1Iterator.html',1,'cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6',1,'cutlass::gemm::SharedLoadStream::Iterator()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a91b7d25cbd64e696ef23c87671f0b077',1,'cutlass::PredicateVector::Iterator::Iterator(Iterator const &amp;it)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038',1,'cutlass::PredicateVector::Iterator::Iterator(PredicateVector &amp;_vec, int _start=0)'],['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7',1,'cutlass::gemm::SharedLoadStream::Params::iterator()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10',1,'cutlass::gemm::SharedLoadStream::iterator()']]],
+  ['iterations',['Iterations',['../structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0',1,'cutlass::FragmentIterator::Iterations()'],['../structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2',1,'cutlass::FragmentConstIterator::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae',1,'cutlass::gemm::GemmEpilogue::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10',1,'cutlass::gemm::GemmEpilogueTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Iterations()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c',1,'cutlass::gemm::GemmGlobalTileTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a',1,'cutlass::gemm::GemmGlobalTileCdTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b',1,'cutlass::gemm::GemmSharedLoadTileATraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b33700f904dd15e3533fec15d9d71bd',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Iterations()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a2dc8573498bcda33273b86db76dbd511',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Iterations()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Iterations()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ae1d930fa295d8ddfaa10bda5978258de',1,'cutlass::gemm::IgemmGlobalTileTraits::Iterations()'],['../structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450',1,'cutlass::PredicateTileAdapter::Iterations()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058',1,'cutlass::ConstPredicateTileAdapter::Iterations()'],['../structcutlass_1_1TileTraits.html#a46b9e04bb8d33fcf8fc116cc48a555fc',1,'cutlass::TileTraits::Iterations()'],['../structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da',1,'cutlass::TileIteratorBase::Iterations()'],['../structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce',1,'cutlass::TileLoadIterator::Iterations()'],['../structcutlass_1_1TileStoreIterator.html#a8628ea7116f736b59c644fc0d85d395f',1,'cutlass::TileStoreIterator::Iterations()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2',1,'cutlass::TileTraitsStrideMajor::Iterations()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a425a20b642ae8736c12626b2de9b8b82',1,'cutlass::TileTraitsContiguousMajor::Iterations()'],['../structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323',1,'cutlass::TileTraitsWarpRake::Iterations()']]],
+  ['iterationsstrides',['IterationsStrides',['../structcutlass_1_1FragmentConstIterator.html#a14ef0a0095e391503a19067e146c584a',1,'cutlass::FragmentConstIterator']]],
+  ['iterator',['Iterator',['../classcutlass_1_1PredicateVector_1_1Iterator.html',1,'cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::Iterator'],['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7',1,'cutlass::gemm::SharedLoadStream::Params::iterator()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10',1,'cutlass::gemm::SharedLoadStream::iterator()'],['../structcutlass_1_1TileLoadStream_1_1Params.html#a0430f377595718291f84ef62eb6f4e57',1,'cutlass::TileLoadStream::Params::iterator()'],['../structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8',1,'cutlass::TileLoadStream::iterator()'],['../structcutlass_1_1TileStoreStream_1_1Params.html#acd106661221997d7c5943daac8eb5088',1,'cutlass::TileStoreStream::Params::iterator()'],['../structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c',1,'cutlass::TileStoreStream::iterator()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6',1,'cutlass::gemm::SharedLoadStream::Iterator()'],['../structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b',1,'cutlass::TileLoadStream::Iterator()'],['../structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97',1,'cutlass::TileStoreStream::Iterator()'],['../structcutlass_1_1PredicatedTileLoadStream.html#a1f2314aa062360b249b7c57c39af5430',1,'cutlass::PredicatedTileLoadStream::Iterator()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a0ba9097d54f3ba7b7dab12012631fa76',1,'cutlass::PredicatedTileStoreStream::Iterator()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a91b7d25cbd64e696ef23c87671f0b077',1,'cutlass::PredicateVector::Iterator::Iterator(Iterator const &amp;it)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038',1,'cutlass::PredicateVector::Iterator::Iterator(PredicateVector &amp;_vec, int _start=0)']]],
   ['iterator_5faccess_2eh',['iterator_access.h',['../iterator__access_8h.html',1,'']]],
-  ['iterator_5fc',['iterator_c',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a7350ceefcd09a9e3662ca30b780cc2ce',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
-  ['iterator_5fd',['iterator_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a987c179a7e73c2572fe8aef3255668f7',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
-  ['iterator_5fload',['iterator_load',['../namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be',1,'cutlass::iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)'],['../namespacecutlass.html#a50f08aa93d7fe6825599d17e3c977031',1,'cutlass::iterator_load(InputIterator const &amp;_iterator, Fragment &amp;fragment, typename InputIterator::Index offset, ConstPredicateAdapter predicate_adapter)'],['../namespacecutlass.html#aca491136bdb966638a7ae57c47f86d1e',1,'cutlass::iterator_load(InputIterator const &amp;iterator, Fragment &amp;fragment, typename InputIterator::Index offset=0)'],['../namespacecutlass.html#af25d56f7391322d9a3b9aa3c507f90dc',1,'cutlass::iterator_load(InputIterator const &amp;iterator, Fragment &amp;fragment, ConstPredicateAdapter pred_it)']]],
-  ['iterator_5fload_5fpost_5fincrement',['iterator_load_post_increment',['../namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b',1,'cutlass::iterator_load_post_increment(InputIterator &amp;iterator, Fragment &amp;fragment, typename InputIterator::Index offset, ConstPredicateAdapter predicate_adapter)'],['../namespacecutlass.html#af5abe551df7461eab66aa43907063d6b',1,'cutlass::iterator_load_post_increment(InputIterator &amp;iterator, Fragment &amp;fragment, typename InputIterator::Index offset=0)'],['../namespacecutlass.html#afb8e7a4e611e8b5ae7ca19d02f791d37',1,'cutlass::iterator_load_post_increment(InputIterator &amp;iterator, Fragment &amp;fragment, ConstPredicateAdapter pred_it)']]],
-  ['iterator_5fstore',['iterator_store',['../namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9',1,'cutlass::iterator_store(OutputIterator &amp;iterator, Fragment &amp;fragment)'],['../namespacecutlass.html#a88dce4b124a294cc123f7cf5fd2d6472',1,'cutlass::iterator_store(OutputIterator const &amp;_iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset, ConstPredicateAdapter predicate_adapter)'],['../namespacecutlass.html#a410ed4d45ccafc2db842967740b6211f',1,'cutlass::iterator_store(OutputIterator const &amp;iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset=0)'],['../namespacecutlass.html#ad804b804ac19360b293046f9cbfd8dd5',1,'cutlass::iterator_store(OutputIterator const &amp;iterator, Fragment const &amp;fragment, ConstPredicateAdapter pred_it)']]],
-  ['iterator_5fstore_5fpost_5fincrement',['iterator_store_post_increment',['../namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de',1,'cutlass::iterator_store_post_increment(OutputIterator &amp;iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset, ConstPredicateAdapter predicate_adapter)'],['../namespacecutlass.html#ab8efb0edefca7a59acc5a14b7311130c',1,'cutlass::iterator_store_post_increment(OutputIterator &amp;iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset=0)'],['../namespacecutlass.html#a96fdb65e922f6a3d46aa5de9ea78d460',1,'cutlass::iterator_store_post_increment(OutputIterator &amp;iterator, Fragment const &amp;fragment, ConstPredicateAdapter pred_it)']]],
-  ['iteratoradvance',['IteratorAdvance',['../structcutlass_1_1IteratorAdvance.html',1,'cutlass']]],
-  ['iteratorfragment',['IteratorFragment',['../structcutlass_1_1IteratorFragment.html',1,'cutlass']]]
+  ['iterator_5fc',['iterator_c',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a0745d33dd881f6ca78b168e05b133ff8',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
+  ['iterator_5fd',['iterator_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#abbcccb203f9823e621caa4475aa3d346',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
+  ['iterator_5fload',['iterator_load',['../namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be',1,'cutlass']]],
+  ['iterator_5fstore',['iterator_store',['../namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9',1,'cutlass']]],
+  ['iteratoradvance',['IteratorAdvance',['../structcutlass_1_1IteratorAdvance.html',1,'cutlass']]]
 ];
diff --git a/docs/search/all_a.js b/docs/search/all_a.js
index fec5dfcc8b..a3bd6e5dd4 100644
--- a/docs/search/all_a.js
+++ b/docs/search/all_a.js
@@ -1,76 +1,101 @@
 var searchData=
 [
-  ['k',['k',['../structcutlass_1_1gemm_1_1GemmDesc.html#ac789a7e5d2db65d006f1e8e3df542a6f',1,'cutlass::gemm::GemmDesc::k()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aae3a008b39f9678a03192f6ff54152d8',1,'cutlass::gemm::GemmTraits::Params::k()']]],
+  ['k',['k',['../structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7',1,'cutlass::gemm::GemmCoord::k() const'],['../structcutlass_1_1gemm_1_1GemmCoord.html#ae12eb84ec47ddf01b4d459c7aabc22ad',1,'cutlass::gemm::GemmCoord::k()']]],
   ['ka',['kA',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a',1,'cutlass::GemmOperand']]],
-  ['kaccesssize',['kAccessSize',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f',1,'cutlass::gemm::GemmGlobalTileTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e',1,'cutlass::gemm::GemmSharedLoadTileATraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kAccessSize()'],['../structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3',1,'cutlass::TileIteratorBase::kAccessSize()']]],
-  ['kaccumulatorsperldsa',['kAccumulatorsPerLdsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf',1,'cutlass::gemm::GemmConfig']]],
-  ['kaccumulatorsperldsb',['kAccumulatorsPerLdsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1',1,'cutlass::gemm::GemmConfig']]],
-  ['kadvance',['kAdvance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125',1,'cutlass::gemm::GemmGlobalIteratorAb::kAdvance()'],['../structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421',1,'cutlass::TileIteratorBase::kAdvance()'],['../structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6',1,'cutlass::TileLoadIterator::kAdvance()'],['../structcutlass_1_1TileStoreIterator.html#a8059c57030df99b73309e9210ec5f624',1,'cutlass::TileStoreIterator::kAdvance()']]],
+  ['kaccesssize',['kAccessSize',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f',1,'cutlass::gemm::GemmGlobalTileTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e',1,'cutlass::gemm::GemmSharedLoadTileATraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kAccessSize()'],['../structcutlass_1_1TileTraits.html#a0a494c2eacb51b65487f8405908a0214',1,'cutlass::TileTraits::kAccessSize()'],['../structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499',1,'cutlass::TileIteratorBase::kAccessSize()'],['../structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8',1,'cutlass::TileLoadIterator::kAccessSize()'],['../structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671',1,'cutlass::TileStoreIterator::kAccessSize()'],['../structcutlass_1_1TileTraitsStandard.html#a5e04777205c7a292602880c59d6b43c8',1,'cutlass::TileTraitsStandard::kAccessSize()']]],
+  ['kaccumulatorsperldsa',['kAccumulatorsPerLdsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5',1,'cutlass::gemm::GemmConfig']]],
+  ['kaccumulatorsperldsb',['kAccumulatorsPerLdsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb',1,'cutlass::gemm::GemmConfig']]],
+  ['kadvance',['kAdvance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125',1,'cutlass::gemm::GemmGlobalIteratorAb::kAdvance()'],['../structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f',1,'cutlass::TileIteratorBase::kAdvance()'],['../structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352',1,'cutlass::TileLoadIterator::kAdvance()'],['../structcutlass_1_1TileStoreIterator.html#a44200854ad5b35c1863f73c435b8750b',1,'cutlass::TileStoreIterator::kAdvance()']]],
+  ['kalignment',['kAlignment',['../structcutlass_1_1Fragment.html#a84b6d68a5a24dbd04d842e0755b42bda',1,'cutlass::Fragment']]],
   ['kb',['kB',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9',1,'cutlass::GemmOperand']]],
+  ['kbatch',['kBatch',['../structcutlass_1_1gemm_1_1GemmCoord.html#ad7b490ce2150e54fccad6b0f11932382',1,'cutlass::gemm::GemmCoord']]],
+  ['kblockcolumns',['kBlockColumns',['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21',1,'cutlass::MatrixLayout::ColumnMajorBlockLinear::kBlockColumns()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e',1,'cutlass::MatrixLayout::RowMajorBlockLinear::kBlockColumns()']]],
+  ['kblockrows',['kBlockRows',['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b',1,'cutlass::MatrixLayout::ColumnMajorBlockLinear::kBlockRows()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922',1,'cutlass::MatrixLayout::RowMajorBlockLinear::kBlockRows()']]],
   ['kbytes',['kBytes',['../structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a',1,'cutlass::PredicateVector']]],
-  ['kc',['kC',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc',1,'cutlass::GemmOperand::kC()'],['../structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c',1,'cutlass::Shape::kC()']]],
+  ['kc',['kC',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc',1,'cutlass::GemmOperand::kC()'],['../structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c',1,'cutlass::Shape::kC()'],['../structcutlass_1_1TileCoord.html#a8236879e1670072033983b7ec4b7ae32',1,'cutlass::TileCoord::kC()']]],
+  ['kcolumn',['kColumn',['../structcutlass_1_1MatrixCoord.html#a1e096b25138e027c31ea8624729ec433',1,'cutlass::MatrixCoord::kColumn()'],['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#adb3b8cccf1ac91265fff998a3d48f5e7',1,'cutlass::MatrixLayout::ContiguousLayout::kColumn()']]],
   ['kcolumnmajor',['kColumnMajor',['../structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b',1,'cutlass::MatrixLayout']]],
+  ['kconjugate',['kConjugate',['../structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683',1,'cutlass::MatrixTransform']]],
   ['kcount',['kCount',['../structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5',1,'cutlass::ShapeCount']]],
-  ['kd',['kD',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe',1,'cutlass::GemmOperand::kD()'],['../structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25',1,'cutlass::Shape::kD()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5',1,'cutlass::IteratorAdvance::kD()']]],
+  ['kd',['kD',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe',1,'cutlass::GemmOperand::kD()'],['../structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25',1,'cutlass::Shape::kD()'],['../structcutlass_1_1TileCoord.html#ab5ebf352327baadcc740175d6b39adcb',1,'cutlass::TileCoord::kD()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5',1,'cutlass::IteratorAdvance::kD()']]],
   ['kdhw',['kDhw',['../structcutlass_1_1ShapeCount.html#af7d7ccd42de2c49fe57f03cf0e657fe8',1,'cutlass::ShapeCount']]],
   ['kdhwc',['kDhwc',['../structcutlass_1_1ShapeCount.html#a5a274564d6b8607a0be621b2664fba18',1,'cutlass::ShapeCount']]],
   ['kelements',['kElements',['../structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60',1,'cutlass::Fragment']]],
   ['kelementsperaccess',['kElementsPerAccess',['../structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a',1,'cutlass::FragmentIterator::kElementsPerAccess()'],['../structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f',1,'cutlass::FragmentConstIterator::kElementsPerAccess()']]],
+  ['kernel_5flaunch_2eh',['kernel_launch.h',['../kernel__launch_8h.html',1,'']]],
+  ['kernelclass',['KernelClass',['../structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae',1,'cutlass::gemm::GemmTraits']]],
+  ['kernellaunchconfiguration',['KernelLaunchConfiguration',['../structcutlass_1_1KernelLaunchConfiguration.html',1,'cutlass::KernelLaunchConfiguration'],['../structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa',1,'cutlass::KernelLaunchConfiguration::KernelLaunchConfiguration()']]],
   ['kextent',['kExtent',['../structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html#a881f84951bc9e47ab2be9ef3f2c1e423',1,'cutlass::gemm::GetExtent&lt; GemmOperand::kA, Tile_ &gt;::kExtent()'],['../structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html#a82ff9b447e4a58164b5f7d53d2602930',1,'cutlass::gemm::GetExtent&lt; GemmOperand::kB, Tile_ &gt;::kExtent()']]],
-  ['kfragmentsize',['kFragmentSize',['../structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2',1,'cutlass::TileIteratorBase']]],
+  ['kfragmentelementtype',['kFragmentElementType',['../structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826',1,'cutlass::TileIteratorBase::kFragmentElementType()'],['../structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177',1,'cutlass::TileLoadIterator::kFragmentElementType()'],['../structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f',1,'cutlass::TileStoreIterator::kFragmentElementType()']]],
+  ['kfragmentsize',['kFragmentSize',['../structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761',1,'cutlass::TileIteratorBase']]],
   ['kgeneric',['kGeneric',['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38',1,'cutlass::MemorySpace']]],
   ['kglobal',['kGlobal',['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37',1,'cutlass::MemorySpace']]],
-  ['kh',['kH',['../structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e',1,'cutlass::Shape::kH()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81',1,'cutlass::IteratorAdvance::kH()']]],
+  ['kh',['kH',['../structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e',1,'cutlass::Shape::kH()'],['../structcutlass_1_1TileCoord.html#a24d32587359493bb965745f5551e1624',1,'cutlass::TileCoord::kH()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81',1,'cutlass::IteratorAdvance::kH()']]],
   ['khw',['kHw',['../structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f',1,'cutlass::ShapeCount']]],
   ['khwc',['kHwc',['../structcutlass_1_1ShapeCount.html#a75324e2c9d31a0787343fc994586b742',1,'cutlass::ShapeCount']]],
-  ['kind',['Kind',['../structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375',1,'cutlass::Identity::Kind()'],['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c',1,'cutlass::MemorySpace::Kind()'],['../structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b',1,'cutlass::MatrixLayout::Kind()'],['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c',1,'cutlass::GemmOperand::Kind()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda',1,'cutlass::IteratorAdvance::Kind()'],['../structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80',1,'cutlass::IteratorFragment::Kind()']]],
+  ['kind',['Kind',['../structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375',1,'cutlass::Identity::Kind()'],['../structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8',1,'cutlass::gemm::swizzleDirection::Kind()'],['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c',1,'cutlass::MemorySpace::Kind()'],['../structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b',1,'cutlass::FragmentElementType::Kind()'],['../structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b',1,'cutlass::MatrixLayout::Kind()'],['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c',1,'cutlass::GemmOperand::Kind()'],['../structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48',1,'cutlass::MatrixTransform::Kind()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda',1,'cutlass::IteratorAdvance::Kind()']]],
   ['kint8output',['kInt8Output',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html#a8609af98d1e43cd25688bae6f33feed4',1,'cutlass::gemm::IgemmEpilogueTraits']]],
+  ['kinterleave',['kInterleave',['../structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143',1,'cutlass::MatrixLayout::RowMajorInterleaved::kInterleave()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7',1,'cutlass::MatrixLayout::ColumnMajorInterleaved::kInterleave()']]],
   ['kiterationsd',['kIterationsD',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0',1,'cutlass::gemm::GemmSharedLoadTileDTraits']]],
   ['kiterationsh',['kIterationsH',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1',1,'cutlass::gemm::GemmSharedLoadTileDTraits']]],
   ['kiterationsinhperwarp',['kIterationsInHPerWarp',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237',1,'cutlass::gemm::GemmSharedLoadTileDTraits']]],
-  ['kiteratorfragment',['kIteratorFragment',['../structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be',1,'cutlass::TileIteratorBase::kIteratorFragment()'],['../structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98',1,'cutlass::TileLoadIterator::kIteratorFragment()'],['../structcutlass_1_1TileStoreIterator.html#a94c0567316118abfb84fc28560a5a46a',1,'cutlass::TileStoreIterator::kIteratorFragment()']]],
+  ['kk',['kK',['../structcutlass_1_1gemm_1_1GemmCoord.html#a521d4b8e720d2261c825e05397c92a5e',1,'cutlass::gemm::GemmCoord']]],
   ['kkstrided',['kKstrided',['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85',1,'cutlass::gemm::GemmMultiplicandTraits']]],
-  ['klanes',['kLanes',['../unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27',1,'cutlass::Vector::kLanes()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#aa70d2fd36f00b63d321c1f7b6d6c3024ad242b575673ca1bf9cf311e58a966392',1,'cutlass::Vector&lt; half, kLanes_ &gt;::kLanes()'],['../structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8',1,'cutlass::VectorTraits::kLanes()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aca745b59c6c21292f119943e5a480f39',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::kLanes()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a43ac200035052a2c352c8c4b84aac73c',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::kLanes()']]],
-  ['klayout',['kLayout',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a807cffc6f69f8d30a2fc94cf49fb904c',1,'cutlass::gemm::GlobalLoadStreamBase::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90',1,'cutlass::gemm::GemmGlobalTileTraits::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece',1,'cutlass::gemm::GemmGlobalIteratorAb::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a',1,'cutlass::gemm::GemmGlobalIteratorCd::kLayout()'],['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd',1,'cutlass::gemm::GemmMultiplicandTraits::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ad2010686bceb21aec9a1924ae379edc1',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::kLayout()']]],
+  ['klanes',['kLanes',['../unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27',1,'cutlass::Vector::kLanes()'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a27410a8095bb82f682612954df4d6182a3a12b2fbef9007373a03125ec3c1c393',1,'cutlass::Vector&lt; half, 1 &gt;::kLanes()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#acfa6821aefbd38a1b7c44e5d83eda05fad242b575673ca1bf9cf311e58a966392',1,'cutlass::Vector&lt; half, kLanes_ &gt;::kLanes()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a4020f25408022dbf20c26ed4fa8c7dffa14befaa9d739f1b754bc372f717b105b',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::kLanes()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a322ddd3ec1f47b76e21c24d3a3c44c5badeba151dbcb3c15e581bad7d767a93fa',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::kLanes()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a9aacb7538f1b83762d68c768629c98eba17b71e816051646b567cf47334649a9b',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::kLanes()'],['../structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8',1,'cutlass::VectorTraits::kLanes()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aca745b59c6c21292f119943e5a480f39',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::kLanes()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a43ac200035052a2c352c8c4b84aac73c',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::kLanes()']]],
+  ['klaunchbounds',['kLaunchBounds',['../structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b',1,'cutlass::gemm::GemmConfig']]],
+  ['klayout',['kLayout',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db',1,'cutlass::gemm::GlobalLoadStream::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90',1,'cutlass::gemm::GemmGlobalTileTraits::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece',1,'cutlass::gemm::GemmGlobalIteratorAb::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a',1,'cutlass::gemm::GemmGlobalIteratorCd::kLayout()'],['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd',1,'cutlass::gemm::GemmMultiplicandTraits::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ad2010686bceb21aec9a1924ae379edc1',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a32729d0fad10fcbbcf2643a2fa5671d6',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a11026d05b2b32f1373020c049f2cfa66',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::kLayout()']]],
   ['klayouta',['kLayoutA',['../structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b',1,'cutlass::gemm::GemmTraits']]],
   ['klayoutb',['kLayoutB',['../structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684',1,'cutlass::gemm::GemmTraits']]],
-  ['kmemoryspace',['kMemorySpace',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d',1,'cutlass::gemm::GemmGlobalTileTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5',1,'cutlass::gemm::GemmSharedLoadTileATraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#afb4687520eff9c6a21c35a5e04f69de8',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kMemorySpace()'],['../structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97',1,'cutlass::TileIteratorBase::kMemorySpace()'],['../structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1',1,'cutlass::TileLoadIterator::kMemorySpace()'],['../structcutlass_1_1TileStoreIterator.html#adaebec9eacf767f63f048033de73ea5b',1,'cutlass::TileStoreIterator::kMemorySpace()']]],
-  ['koperand',['kOperand',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1',1,'cutlass::gemm::GemmGlobalTileTraits::kOperand()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851',1,'cutlass::gemm::GemmSharedLoadTileATraits::kOperand()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kOperand()']]],
+  ['km',['km',['../structcutlass_1_1gemm_1_1GemmCoord.html#ad6c884a5bb6e5edaf371e8af10df367d',1,'cutlass::gemm::GemmCoord::km() const'],['../structcutlass_1_1gemm_1_1GemmCoord.html#af1f5c03c35eaa406c6a63082da26bec3',1,'cutlass::gemm::GemmCoord::kM()']]],
+  ['kmemoryspace',['kMemorySpace',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d',1,'cutlass::gemm::GemmGlobalTileTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5',1,'cutlass::gemm::GemmSharedLoadTileATraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#afb4687520eff9c6a21c35a5e04f69de8',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kMemorySpace()'],['../structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56',1,'cutlass::TileIteratorBase::kMemorySpace()'],['../structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043',1,'cutlass::TileLoadIterator::kMemorySpace()'],['../structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f',1,'cutlass::TileStoreIterator::kMemorySpace()']]],
+  ['kn',['kn',['../structcutlass_1_1gemm_1_1GemmCoord.html#a16501265d58ddaca0e2d9bb4e21d66ea',1,'cutlass::gemm::GemmCoord::kn() const'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a67f08a03dabee497fa5547cff0f1faea',1,'cutlass::gemm::GemmCoord::kN()']]],
+  ['knm',['knm',['../structcutlass_1_1gemm_1_1GemmCoord.html#a4062c040208868c75dbc6ba18910bffb',1,'cutlass::gemm::GemmCoord']]],
+  ['knone',['kNone',['../structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5',1,'cutlass::MatrixTransform']]],
+  ['koperand',['kOperand',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a30113b850dfd3de60f8778bc7a66f700',1,'cutlass::gemm::GlobalLoadStream::kOperand()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1',1,'cutlass::gemm::GemmGlobalTileTraits::kOperand()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851',1,'cutlass::gemm::GemmSharedLoadTileATraits::kOperand()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kOperand()']]],
   ['kpredicates',['kPredicates',['../structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492',1,'cutlass::PredicateVector']]],
   ['kpredicatesperbyte',['kPredicatesPerByte',['../structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5',1,'cutlass::PredicateVector']]],
   ['kpredicatestart',['kPredicateStart',['../structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e',1,'cutlass::PredicateVector']]],
-  ['krequiresloadfence',['kRequiresLoadFence',['../structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc',1,'cutlass::TileLoadIterator']]],
+  ['krank',['kRank',['../structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3',1,'cutlass::Coord::kRank()'],['../classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31',1,'cutlass::TensorRef::kRank()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::kRank()']]],
+  ['krequiresloadfence',['kRequiresLoadFence',['../structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126',1,'cutlass::TileLoadIterator']]],
+  ['kresidueinprolog',['kResidueInProlog',['../structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46',1,'cutlass::gemm::GemmConfig']]],
+  ['kresidueseparate',['kResidueSeparate',['../structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c',1,'cutlass::gemm::GemmConfig']]],
+  ['krow',['kRow',['../structcutlass_1_1MatrixCoord.html#a5149f4a37407746407251efc0779bb53',1,'cutlass::MatrixCoord::kRow()'],['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#ae97a9ba9d5045bef258d8994eb732256',1,'cutlass::MatrixLayout::ContiguousLayout::kRow()']]],
   ['krowmajor',['kRowMajor',['../structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb',1,'cutlass::MatrixLayout']]],
-  ['kscalar',['kScalar',['../structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80aeca44a186befa21ccae44eb4dc7b6954',1,'cutlass::IteratorFragment']]],
+  ['kscalar',['kScalar',['../structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b',1,'cutlass::FragmentElementType']]],
   ['kscalarsin4b',['kScalarsIn4B',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kScalarsIn4B()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kScalarsIn4B()']]],
-  ['kscalarsperldga',['kScalarsPerLdgA',['../structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperldgb',['kScalarsPerLdgB',['../structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperldgc',['kScalarsPerLdgC',['../structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperldsa',['kScalarsPerLdsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperldsb',['kScalarsPerLdsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperldsd',['kScalarsPerLdsD',['../structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldga',['kScalarsPerLdgA',['../structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldgb',['kScalarsPerLdgB',['../structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldgc',['kScalarsPerLdgC',['../structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldsa',['kScalarsPerLdsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldsb',['kScalarsPerLdsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldsd',['kScalarsPerLdsD',['../structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951',1,'cutlass::gemm::GemmConfig']]],
   ['kscalarsperrow',['kScalarsPerRow',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kScalarsPerRow()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kScalarsPerRow()']]],
-  ['kscalarsperstgd',['kScalarsPerStgD',['../structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperstsa',['kScalarsPerStsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186',1,'cutlass::gemm::GemmConfig::kScalarsPerStsA()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ae396f7301f934c179e054f68f0420edf',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kScalarsPerStsA()']]],
-  ['kscalarsperstsb',['kScalarsPerStsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21',1,'cutlass::gemm::GemmConfig::kScalarsPerStsB()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a47d99d98c783cf1d317698bd465ffa9a',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kScalarsPerStsB()']]],
-  ['kscalarsperstsd',['kScalarsPerStsD',['../structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperstgd',['kScalarsPerStgD',['../structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperstsa',['kScalarsPerStsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f',1,'cutlass::gemm::GemmConfig::kScalarsPerStsA()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a69775031f651795f697b628677b8e4eb',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::kScalarsPerStsA()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aedb61c43d8fb9c4ba18ae72601b9f6e1',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::kScalarsPerStsA()']]],
+  ['kscalarsperstsb',['kScalarsPerStsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce',1,'cutlass::gemm::GemmConfig::kScalarsPerStsB()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aaa3228d45ff4428bba0f88a7a6e8b31b',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::kScalarsPerStsB()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a8a6cef5e733eab9c0ead20b1e345ad6f',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::kScalarsPerStsB()']]],
+  ['kscalarsperstsd',['kScalarsPerStsD',['../structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f',1,'cutlass::gemm::GemmConfig']]],
   ['kscalarsperthread',['kScalarsPerThread',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kScalarsPerThread()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kScalarsPerThread()']]],
   ['kshared',['kShared',['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc',1,'cutlass::MemorySpace']]],
   ['kskew',['kSkew',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ace14ca9ad11e2cdafcd4a4b63c0df591',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::kSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aba6decf87d770becaadd610d9fc27491',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaffe67e519e919bf561142e05da6e6c8',1,'cutlass::gemm::GemmSharedLoadTileATraits::kSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac9cd90ecd02809060a2fe6e2da4210f9',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kSkew()']]],
-  ['kstages',['kStages',['../structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52',1,'cutlass::gemm::GemmConfig']]],
+  ['kskewa',['kSkewA',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9c296924f9a6c6908f09830bbbf6a775',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kSkewA()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac8da30393042cf6e785bdd54b11d9408',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kSkewA()']]],
+  ['kskewb',['kSkewB',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab35a6b3ff04e4128e4ca4a8cc0459b16',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kSkewB()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a6d0f50e83067373b249b38444eb7fe65',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kSkewB()']]],
+  ['ksplitk',['kSplitK',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2',1,'cutlass::gemm::GemmSharedLoadTileDTraits']]],
+  ['kstages',['kStages',['../structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508',1,'cutlass::gemm::GemmConfig']]],
+  ['kstoragerank',['kStorageRank',['../structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30',1,'cutlass::MatrixLayout::RowMajor::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70',1,'cutlass::MatrixLayout::ColumnMajor::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800',1,'cutlass::MatrixLayout::RowMajorInterleaved::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f',1,'cutlass::MatrixLayout::ColumnMajorInterleaved::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7',1,'cutlass::MatrixLayout::ContiguousLayout::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3',1,'cutlass::MatrixLayout::ColumnMajorBlockLinear::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d',1,'cutlass::MatrixLayout::RowMajorBlockLinear::kStorageRank()'],['../structcutlass_1_1IdentityTensorMapFunc.html#ac609498e7fe858b4fb3791d1039438f4',1,'cutlass::IdentityTensorMapFunc::kStorageRank()'],['../classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2',1,'cutlass::TensorRef::kStorageRank()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::kStorageRank()'],['../structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243',1,'cutlass::TensorRefArray::kStorageRank()']]],
   ['kstrideh',['kStrideH',['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97',1,'cutlass::gemm::GemmGlobalTileCdTraits']]],
-  ['kthreads',['kThreads',['../structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b',1,'cutlass::gemm::Gemm::kThreads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kThreads()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kThreads()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf',1,'cutlass::gemm::GemmConfig::kThreads()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85',1,'cutlass::TileTraitsStrideMajor::kThreads()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9',1,'cutlass::TileTraitsContiguousMajor::kThreads()'],['../structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642',1,'cutlass::TileTraitsWarpRake::kThreads()'],['../structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1',1,'cutlass::TileTraitsStandard::kThreads()']]],
+  ['kthreads',['kThreads',['../structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b',1,'cutlass::gemm::Gemm::kThreads()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f',1,'cutlass::gemm::GemmConfig::kThreads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kThreads()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kThreads()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85',1,'cutlass::TileTraitsStrideMajor::kThreads()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9',1,'cutlass::TileTraitsContiguousMajor::kThreads()'],['../structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642',1,'cutlass::TileTraitsWarpRake::kThreads()'],['../structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1',1,'cutlass::TileTraitsStandard::kThreads()']]],
   ['kthreadsperwarp',['kThreadsPerWarp',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f',1,'cutlass::gemm::GemmSharedLoadTileATraits::kThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kThreadsPerWarp()']]],
   ['kusage',['kUsage',['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a962ffde3b3db78792b67dd1f57ab0a05',1,'cutlass::gemm::GemmMultiplicandTraits']]],
-  ['kvalue',['kValue',['../structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad',1,'cutlass::Extent::kValue()'],['../structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a10f7184a9a50de0268efa45dab5dc304',1,'cutlass::Extent&lt; Vector&lt; T, Lanes &gt; &gt;::kValue()'],['../structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a87917a6dfbb1662416c4ea4831669aaf',1,'cutlass::Extent&lt; Vector&lt; T, Lanes &gt; const &gt;::kValue()']]],
-  ['kvectorsize',['kVectorSize',['../unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e',1,'cutlass::Vector::kVectorSize()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#adc4140a7e40be1e4f81c78a657c7ba73abfbb3cf98db2f8af7150efb91cac4e79',1,'cutlass::Vector&lt; half, kLanes_ &gt;::kVectorSize()']]],
-  ['kw',['kW',['../structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421',1,'cutlass::Shape::kW()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0',1,'cutlass::IteratorAdvance::kW()']]],
+  ['kvalue',['kValue',['../structcutlass_1_1Min.html#a97e6dd3ff6fb5404e8a6e6109f73f429',1,'cutlass::Min::kValue()'],['../structcutlass_1_1Max.html#a6ed8be7ed855eea8f8d08921f7b5d763',1,'cutlass::Max::kValue()'],['../structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad',1,'cutlass::Extent::kValue()'],['../structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a10f7184a9a50de0268efa45dab5dc304',1,'cutlass::Extent&lt; Vector&lt; T, Lanes &gt; &gt;::kValue()'],['../structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a87917a6dfbb1662416c4ea4831669aaf',1,'cutlass::Extent&lt; Vector&lt; T, Lanes &gt; const &gt;::kValue()']]],
+  ['kvectorsize',['kVectorSize',['../unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e',1,'cutlass::Vector::kVectorSize()'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a0c3d44e7c726aabf23d57094475fcc22aa12662bfb46ed10de12f168219ce0a8d',1,'cutlass::Vector&lt; half, 1 &gt;::kVectorSize()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a42288bc8b85cd3f40aafbe7549a5285babfbb3cf98db2f8af7150efb91cac4e79',1,'cutlass::Vector&lt; half, kLanes_ &gt;::kVectorSize()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#ad75d72ca210d77ae82b8aa4bed04fed0ab98f21cd2645378ad0a840727b7edaff',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::kVectorSize()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a01e23040ab8cea016e3709f55c2089fdaf9fe4d6ac4ee913780e3361dde6c80d6',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::kVectorSize()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a722f7852892c56613ea5027610523d8bab0655ce225f020ac27580efa249f6acb',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::kVectorSize()']]],
+  ['kw',['kW',['../structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421',1,'cutlass::Shape::kW()'],['../structcutlass_1_1TileCoord.html#ac2c14af3ceffd5ef8f17c9e0efb4e5ec',1,'cutlass::TileCoord::kW()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0',1,'cutlass::IteratorAdvance::kW()']]],
   ['kwarpcount',['kWarpCount',['../structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d',1,'cutlass::TileTraitsWarpRake::kWarpCount()'],['../structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25',1,'cutlass::TileTraitsStandard::kWarpCount()']]],
+  ['kwarpgemmsteps',['kWarpGemmSteps',['../structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356',1,'cutlass::gemm::Gemm']]],
   ['kwarps',['kWarps',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be',1,'cutlass::gemm::GemmSharedLoadTileATraits::kWarps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kWarps()']]],
   ['kwarpscontiguous',['kWarpsContiguous',['../structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce',1,'cutlass::TileTraitsWarpRake']]],
-  ['kwarpsize',['kWarpSize',['../structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e',1,'cutlass::gemm::GemmConfig::kWarpSize()'],['../structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b',1,'cutlass::TileTraitsWarpRake::kWarpSize()'],['../structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10',1,'cutlass::TileTraitsStandard::kWarpSize()']]],
+  ['kwarpsize',['kWarpSize',['../structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396',1,'cutlass::gemm::GemmConfig::kWarpSize()'],['../structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b',1,'cutlass::TileTraitsWarpRake::kWarpSize()'],['../structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10',1,'cutlass::TileTraitsStandard::kWarpSize()']]],
   ['kwarpsstrided',['kWarpsStrided',['../structcutlass_1_1TileTraitsWarpRake.html#a8b1d3fe590f426ce11d597bb98c51bd4',1,'cutlass::TileTraitsWarpRake']]],
   ['kwc',['kWc',['../structcutlass_1_1ShapeCount.html#aac5c49469aa80d119c2006291b431276',1,'cutlass::ShapeCount']]],
-  ['kwmmamatrix',['kWmmaMatrix',['../structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419',1,'cutlass::IteratorFragment']]],
+  ['kwmmamatrix',['kWmmaMatrix',['../structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd',1,'cutlass::FragmentElementType']]],
   ['kwordcount',['kWordCount',['../structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42',1,'cutlass::PredicateVector']]]
 ];
diff --git a/docs/search/all_b.js b/docs/search/all_b.js
index d156678a63..76fe0654cc 100644
--- a/docs/search/all_b.js
+++ b/docs/search/all_b.js
@@ -1,27 +1,35 @@
 var searchData=
 [
-  ['launch',['launch',['../structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c',1,'cutlass::gemm::Gemm::launch(Params const &amp;params, cudaStream_t stream=cudaStreamDefault)'],['../structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906',1,'cutlass::gemm::Gemm::launch(CUfunction kernel, Params const &amp;params, CUstream stream=CU_STREAM_LEGACY)']]],
+  ['launch',['Launch',['../structcutlass_1_1gemm_1_1Launch.html',1,'cutlass::gemm::Launch&lt; Gemm, WithLaunchBounds &gt;'],['../structcutlass_1_1gemm_1_1Launch.html#a8552a524b9419f60bf8ef3c6b8528d27',1,'cutlass::gemm::Launch::Launch()'],['../structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#ab7a89806834a5fa8022daae4180e6180',1,'cutlass::gemm::Launch&lt; Gemm, false &gt;::Launch()'],['../structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c',1,'cutlass::gemm::Gemm::launch(Params const &amp;params, cudaStream_t stream=cudaStreamDefault)'],['../structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906',1,'cutlass::gemm::Gemm::launch(CUfunction kernel, Params const &amp;params, CUstream stream=CU_STREAM_LEGACY)']]],
+  ['launch_3c_20gemm_2c_20false_20_3e',['Launch&lt; Gemm, false &gt;',['../structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html',1,'cutlass::gemm']]],
   ['layout_20concept',['Layout Concept',['../group__layout__concept.html',1,'']]],
   ['lcm',['lcm',['../namespacecutlass.html#af07506fee11de882d926f4e8237eef09',1,'cutlass']]],
-  ['lda',['lda',['../structcutlass_1_1gemm_1_1GemmDesc.html#a62ad30ba419ccb661e6700da98221789',1,'cutlass::gemm::GemmDesc']]],
-  ['ldb',['ldb',['../structcutlass_1_1gemm_1_1GemmDesc.html#a7591ce0223b0d05c4d6fca6c67b98bfe',1,'cutlass::gemm::GemmDesc']]],
-  ['ldc',['ldc',['../structcutlass_1_1gemm_1_1GemmDesc.html#a0f492560cabc45cd492da65b819d09db',1,'cutlass::gemm::GemmDesc']]],
-  ['ldd',['ldd',['../structcutlass_1_1gemm_1_1GemmDesc.html#a3280e5c5484f5c10d1412bcb70eb77e9',1,'cutlass::gemm::GemmDesc']]],
-  ['leading_5fdim',['leading_dim',['../classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77',1,'cutlass::TensorRef']]],
+  ['leading_5fdim',['leading_dim',['../classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca',1,'cutlass::TensorRef::leading_dim()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6c580a451a36143d1eb0e409e7b13e33',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::leading_dim()']]],
   ['less',['less',['../structcutlass_1_1platform_1_1less.html',1,'cutlass::platform']]],
   ['linear_5fscaling_2eh',['linear_scaling.h',['../linear__scaling_8h.html',1,'']]],
-  ['linearscaling',['LinearScaling',['../structcutlass_1_1gemm_1_1LinearScaling.html',1,'cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a34df6970f033b3090ad8f4d40063b1b2',1,'cutlass::gemm::LinearScaling::LinearScaling()']]],
-  ['load',['Load',['../structcutlass_1_1Load.html',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;'],['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#aea5ed35a44624684ffa9ada9d09a8893',1,'cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage::load()'],['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html#a01a847858cb330d7d109ddee228e96ce',1,'cutlass::FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::load()'],['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html#a014682b143bce65667075ea15fad184d',1,'cutlass::FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::load()'],['../structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140',1,'cutlass::Load::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#aa9d5e227ea20ad3c6952f296016ec167',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a0e58d26dd68aabb6cb9678f5656c7e6f',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::load()'],['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a7ba77016bee8e941f7831cc9fbfa994d',1,'cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a4ee00178c441bdf4d4a1f8cf984bc03f',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::load()'],['../structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140',1,'cutlass::TileLoadIterator::load(Fragment &amp;fragment, PredicateIterator pred_it) const'],['../structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db',1,'cutlass::TileLoadIterator::load(Fragment &amp;fragment) const']]],
-  ['load_3c_20double_2c_202_2c_20memory_5f_2c_20true_2c_2016_20_3e',['Load&lt; double, 2, Memory_, true, 16 &gt;',['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html',1,'cutlass']]],
-  ['load_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_2016_20_3e',['Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html',1,'cutlass']]],
-  ['load_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_204_20_3e',['Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html',1,'cutlass']]],
-  ['load_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_208_20_3e',['Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html',1,'cutlass']]],
-  ['load_5fiterator',['load_iterator',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a42ffcba6af2b5ddfb1f4825a34d43532',1,'cutlass::gemm::GlobalLoadStreamBase::Params::load_iterator()'],['../unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a3be938f8661f9cd10966866b7b80b471',1,'cutlass::gemm::GlobalLoadStreamBase::SharedStorage::load_iterator()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e',1,'cutlass::gemm::GlobalLoadStreamBase::load_iterator()']]],
-  ['load_5fpost_5fincrement',['load_post_increment',['../structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915',1,'cutlass::TileLoadIterator::load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)'],['../structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d',1,'cutlass::TileLoadIterator::load_post_increment(Fragment &amp;fragment)']]],
+  ['linear_5fscaling_5fdevice_5fptr_2eh',['linear_scaling_device_ptr.h',['../linear__scaling__device__ptr_8h.html',1,'']]],
+  ['linearscaling',['LinearScaling',['../structcutlass_1_1gemm_1_1LinearScaling.html',1,'cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;'],['../structcutlass_1_1gemm_1_1LinearScaling.html#ae5ed200fe8c45b6478d3893e67da0ebe',1,'cutlass::gemm::LinearScaling::LinearScaling()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889',1,'cutlass::gemm::LinearScaling::LinearScaling(Params const &amp;_params)']]],
+  ['linearscalingdeviceptr',['LinearScalingDevicePtr',['../structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html',1,'cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;'],['../structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a9dcb15bbcf3785280fd5cea0e0da5602',1,'cutlass::gemm::LinearScalingDevicePtr::LinearScalingDevicePtr()']]],
+  ['load',['Load',['../structcutlass_1_1Load.html',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;'],['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#ae7bc498e4976814111114091de4e43af',1,'cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage::load()'],['../structcutlass_1_1Load.html#a0d13c39fdb813c3f043cdfaf0f1221a7',1,'cutlass::Load::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a4bab8959d29ee868fb6b3e1f9abc04fc',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#a2e906364a0631c2c9f97acd0ae4a1873',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#afee69b86f070e3badc75ab00bcc5996b',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::load()'],['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a7d9027453aa78d4448d70dc44307791e',1,'cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a7d3d3e156dc527f9c00acc7a66d21326',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a854c684b3f6c1a10b6e8fcf7967f6642',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load()'],['../structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#a619f643794f51b35f3c0a1011ba00bbd',1,'cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load()'],['../structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#abc4f879290c847a6e73dc9e68a340f74',1,'cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load()'],['../structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#af587adae1103b4242e0d56eb902f9302',1,'cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load()'],['../structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf',1,'cutlass::TileLoadIterator::load(Fragment &amp;fragment, PredicateIterator pred_it) const'],['../structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480',1,'cutlass::TileLoadIterator::load(Fragment &amp;fragment) const'],['../structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6',1,'cutlass::TileLoadIterator::load(Fragment &amp;fragment, int d)'],['../structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6',1,'cutlass::TileStoreIterator::load(Fragment &amp;fragment, PredicateIterator pred_it) const'],['../structcutlass_1_1TileStoreIterator.html#a8c42ab8699c3fd74dc7b59d559364b9a',1,'cutlass::TileStoreIterator::load(Fragment &amp;fragment) const'],['../structcutlass_1_1TileStoreIterator.html#ad33c46a584deb1c7968e08e349382af3',1,'cutlass::TileStoreIterator::load(Fragment &amp;fragment, int d)'],['../classcutlass_1_1ZipTileIterator.html#a23b72b086f350dfe07cff22ac010c45c',1,'cutlass::ZipTileIterator::load(Fragment &amp;fragment) const'],['../classcutlass_1_1ZipTileIterator.html#a9a3f2f913ee73f0c04e74ec89c6c5cbb',1,'cutlass::ZipTileIterator::load(Fragment &amp;fragment, Coord&lt; 4 &gt; const &amp;offset) const'],['../classcutlass_1_1ZipTileIterator.html#a4c9997488be2f09b9653d8ef8ac06c2b',1,'cutlass::ZipTileIterator::load(Fragment &amp;fragment, PredicateIterator pred_it) const']]],
+  ['load_3c_20double_2c_202_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20double_2c_20kstride_2c_2016_20_3e',['Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;',['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html',1,'cutlass']]],
+  ['load_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_201_2c_202_20_3e',['Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html',1,'cutlass']]],
+  ['load_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_2016_20_3e',['Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html',1,'cutlass']]],
+  ['load_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_204_20_3e',['Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html',1,'cutlass']]],
+  ['load_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_208_20_3e',['Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html',1,'cutlass']]],
+  ['load_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akwmmamatrix_2c_20fragmentelement_5f_2c_20kstride_2c_20size_20_3e',['Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html',1,'cutlass']]],
+  ['load_3c_20vector_3c_20bin1_5ft_2c_2032_20_3e_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akwmmamatrix_2c_20fragmentelement_5f_2c_20kstride_2c_20size_20_3e',['Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;',['../structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html',1,'cutlass']]],
+  ['load_3c_20vector_3c_20int4_5ft_2c_208_20_3e_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akwmmamatrix_2c_20fragmentelement_5f_2c_20kstride_2c_20size_20_3e',['Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;',['../structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html',1,'cutlass']]],
+  ['load_3c_20vector_3c_20uint4_5ft_2c_208_20_3e_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akwmmamatrix_2c_20fragmentelement_5f_2c_20kstride_2c_20size_20_3e',['Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;',['../structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html',1,'cutlass']]],
+  ['load_5felement',['load_element',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06',1,'cutlass::gemm::GemmGlobalIteratorAb::load_element()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433',1,'cutlass::gemm::GemmGlobalIteratorCd::load_element()'],['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a5cbda0dea8c87ca55499c97cc80b1ccf',1,'cutlass::gemm::IgemmGlobalIteratorAb::load_element()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a109209936a9453e8f1f3f5eecfd6afca',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::load_element()'],['../structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910',1,'cutlass::TileLoadIterator::load_element()'],['../structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c',1,'cutlass::TileStoreIterator::load_element()']]],
+  ['load_5fiterator',['load_iterator',['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a46f2546f9b88f4fc87f1396d0f08b065',1,'cutlass::gemm::GlobalLoadStream::Params::load_iterator()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c',1,'cutlass::gemm::GlobalLoadStream::load_iterator()']]],
+  ['load_5fpost_5fincrement',['load_post_increment',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7',1,'cutlass::gemm::GemmGlobalIteratorAb::load_post_increment()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1',1,'cutlass::gemm::GemmGlobalIteratorCd::load_post_increment()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae2febd768cbbfb8aab3c2cb669c0505d',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::load_post_increment()'],['../structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f',1,'cutlass::TileLoadIterator::load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)'],['../structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a',1,'cutlass::TileLoadIterator::load_post_increment(Fragment &amp;fragment)'],['../structcutlass_1_1TileStoreIterator.html#a57c56e2fe02fc5c771283e35d59b9214',1,'cutlass::TileStoreIterator::load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)'],['../structcutlass_1_1TileStoreIterator.html#adfbd262dfb19fffd91e0712190d9712d',1,'cutlass::TileStoreIterator::load_post_increment(Fragment &amp;fragment)'],['../classcutlass_1_1ZipTileIterator.html#a95b8db4af9228beed273669b3b0b12fe',1,'cutlass::ZipTileIterator::load_post_increment(Fragment &amp;fragment)'],['../classcutlass_1_1ZipTileIterator.html#a3020bcd0a49efad674ca5539ea1c96c0',1,'cutlass::ZipTileIterator::load_post_increment(Fragment &amp;fragment, Coord&lt; 4 &gt; const &amp;offset)'],['../classcutlass_1_1ZipTileIterator.html#a53045f40d203a805af9c92fa0b5bc684',1,'cutlass::ZipTileIterator::load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)']]],
   ['load_5fstore_2eh',['load_store.h',['../load__store_8h.html',1,'']]],
-  ['loaditerator',['LoadIterator',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe',1,'cutlass::gemm::GlobalLoadStreamBase']]],
+  ['loaditerator',['LoadIterator',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64',1,'cutlass::gemm::GlobalLoadStream']]],
+  ['log',['log',['../namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c',1,'cutlass::platform']]],
+  ['log10',['log10',['../namespacecutlass_1_1platform.html#a62dd6ae0e1b4476fd62ac70c26f12a06',1,'cutlass::platform']]],
   ['log2_5fdown',['log2_down',['../structcutlass_1_1log2__down.html',1,'cutlass']]],
   ['log2_5fdown_3c_20n_2c_201_2c_20count_20_3e',['log2_down&lt; N, 1, Count &gt;',['../structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html',1,'cutlass']]],
   ['log2_5fup',['log2_up',['../structcutlass_1_1log2__up.html',1,'cutlass']]],
-  ['log2_5fup_3c_20n_2c_201_2c_20count_20_3e',['log2_up&lt; N, 1, Count &gt;',['../structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html',1,'cutlass']]]
+  ['log2_5fup_3c_20n_2c_201_2c_20count_20_3e',['log2_up&lt; N, 1, Count &gt;',['../structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html',1,'cutlass']]],
+  ['longindex',['LongIndex',['../classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1',1,'cutlass::TensorRef::LongIndex()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::LongIndex()'],['../structcutlass_1_1TensorRefBatchStrided.html#aa3df5b7337d41d8f96717ea73bf3e24e',1,'cutlass::TensorRefBatchStrided::LongIndex()'],['../structcutlass_1_1TensorRefArray.html#a6220549b72ed8451dbf76466b50a96c0',1,'cutlass::TensorRefArray::LongIndex()']]]
 ];
diff --git a/docs/search/all_c.js b/docs/search/all_c.js
index 7420bb3e66..9710eb39a3 100644
--- a/docs/search/all_c.js
+++ b/docs/search/all_c.js
@@ -1,20 +1,31 @@
 var searchData=
 [
-  ['m',['m',['../structcutlass_1_1gemm_1_1GemmDesc.html#a5c2b3e75cb6873762ba3f85487b78579',1,'cutlass::gemm::GemmDesc::m()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22',1,'cutlass::gemm::GemmEpilogue::m()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aaf27c0f2f4ab730ed5c865e9f7d2373b',1,'cutlass::gemm::GemmTraits::Params::m()']]],
+  ['m',['m',['../structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793',1,'cutlass::gemm::GemmCoord::m() const'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a8199f5e336a20c31e54d68b11e9fa3d3',1,'cutlass::gemm::GemmCoord::m()']]],
   ['main_5floop',['main_loop',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4',1,'cutlass::gemm::GemmTraits::SharedStorage']]],
   ['mainloopsharedstorage',['MainLoopSharedStorage',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html',1,'cutlass::gemm::GemmTraits']]],
   ['make_5fcoord',['make_Coord',['../namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9',1,'cutlass::make_Coord(int _0)'],['../namespacecutlass.html#a61d81e5363bcb8a7f6dd70f053242564',1,'cutlass::make_Coord(int _0, int _1)'],['../namespacecutlass.html#a25acf680a7d2592c957a7ac603f4c361',1,'cutlass::make_Coord(int _0, int _1, int _2)'],['../namespacecutlass.html#a9410b1f5956d3aaf4584e65d047428fc',1,'cutlass::make_Coord(int _0, int _1, int _2, int _3)']]],
+  ['make_5fcoord_5ffrom_5fshape',['make_Coord_from_shape',['../namespacecutlass.html#a90028a415a05ce09073860e5c761aa6f',1,'cutlass']]],
   ['make_5fpair',['make_pair',['../namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5',1,'cutlass::platform']]],
-  ['make_5fzero',['make_zero',['../namespacecutlass.html#acdb62db582cf90cfd437fc56f4ca7bbf',1,'cutlass::make_zero(Scalar_ &amp;x)'],['../namespacecutlass.html#abc5c00b4986db5a114e774cee9999717',1,'cutlass::make_zero(Vector&lt; Scalar_, kLanes_ &gt; &amp;vec)']]],
+  ['make_5fzero',['make_zero',['../namespacecutlass.html#aa03883e612d292e1b53eedd46e08ccd1',1,'cutlass::make_zero(Scalar_ &amp;x)'],['../namespacecutlass.html#a55b5b15eadf125d5ddddee1ea22191ee',1,'cutlass::make_zero(Vector&lt; Scalar_, kLanes_ &gt; &amp;vec)']]],
+  ['make_5fzipconvert',['make_ZipConvert',['../namespacecutlass.html#adad916101ca58fc9714362c611a0cad8',1,'cutlass']]],
+  ['make_5fzipfragment',['make_ZipFragment',['../namespacecutlass.html#a07b0da6c47bbd827779aa871249ff4b6',1,'cutlass']]],
+  ['make_5fziptensorref',['make_ZipTensorRef',['../namespacecutlass.html#a64869d4ab18d70dc8604098ec03e1a5a',1,'cutlass']]],
+  ['map',['map',['../classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360',1,'cutlass::TensorRef::map()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a215f63b5a1b3799654c5670ef108fcfb',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::map()']]],
+  ['mapfunc',['MapFunc',['../classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29',1,'cutlass::TensorRef::MapFunc()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::MapFunc()']]],
+  ['mask_5f',['mask_',['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762',1,'cutlass::gemm::IgemmGlobalIteratorAb']]],
   ['matrix_5ftraits_2eh',['matrix_traits.h',['../matrix__traits_8h.html',1,'']]],
+  ['matrixcoord',['MatrixCoord',['../structcutlass_1_1MatrixCoord.html',1,'cutlass::MatrixCoord'],['../structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6',1,'cutlass::MatrixCoord::MatrixCoord()'],['../structcutlass_1_1MatrixCoord.html#a64bddbf8238dc937a01a140722f7f39c',1,'cutlass::MatrixCoord::MatrixCoord(Coord&lt; 2, Index &gt; const &amp;coord)'],['../structcutlass_1_1MatrixCoord.html#ac77b18e67be18cfdfe1935939e7f2017',1,'cutlass::MatrixCoord::MatrixCoord(Index row, Index column)']]],
   ['matrixlayout',['MatrixLayout',['../structcutlass_1_1MatrixLayout.html',1,'cutlass']]],
-  ['max',['max',['../namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0',1,'cutlass::platform']]],
+  ['matrixtransform',['MatrixTransform',['../structcutlass_1_1MatrixTransform.html',1,'cutlass']]],
+  ['max',['Max',['../structcutlass_1_1Max.html',1,'cutlass::Max&lt; A, B &gt;'],['../namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0',1,'cutlass::platform::max()']]],
   ['memoryspace',['MemorySpace',['../structcutlass_1_1MemorySpace.html',1,'cutlass']]],
-  ['min',['min',['../namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c',1,'cutlass::platform']]],
+  ['min',['Min',['../structcutlass_1_1Min.html',1,'cutlass::Min&lt; A, B &gt;'],['../namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c',1,'cutlass::platform::min()']]],
+  ['move_5fto_5fresidue',['move_to_residue',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac269a9280a55d3988ca60f571bdf7f29',1,'cutlass::gemm::GlobalLoadStream::move_to_residue()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab94c0c95d6d4e019563ba8a142f9d410',1,'cutlass::gemm::GlobalLoadStreamPair::move_to_residue()']]],
+  ['multiplicand_5fbounds',['multiplicand_bounds',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1',1,'cutlass::gemm::GlobalLoadStream']]],
   ['multiplicandtraits',['MultiplicandTraits',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7',1,'cutlass::gemm::GemmGlobalTileTraits']]],
   ['multiplicative',['Multiplicative',['../structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597',1,'cutlass::Identity']]],
-  ['multiply',['multiply',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a522301fbe3e276cb5ef9fbe75bb2ab50',1,'cutlass::gemm::FragmentMultiplyAdd::multiply()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ae62d61ec068ac958753d0a2f5a99d8e2',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::multiply()']]],
-  ['multiply_5fadd',['multiply_add',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a34bbf209967fef6181d3d46dd27fa0c0',1,'cutlass::gemm::FragmentMultiplyAdd::multiply_add()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a89c8b663af69f13c2a02cb464b5172a5',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f',1,'cutlass::gemm::Gemm::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a66486d38349fa20eb065ae9542eb43aa',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad22dd143c304c22c2630aedbfd3459af',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5dcf66c8126ec8adf8e66d4bf5b2f347',1,'cutlass::gemm::ThreadMultiplyAdd::multiply_add()']]],
-  ['multiplyadd',['MultiplyAdd',['../structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7',1,'cutlass::gemm::GemmConfig::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c',1,'cutlass::gemm::GemmTraits::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae9facf63912d98e597883bf7efb56cc8',1,'cutlass::gemm::HgemmTraitsHelper::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a87e34d56fa955670331749724bee9fd8',1,'cutlass::gemm::IgemmTraitsHelper::MultiplyAdd()']]],
-  ['multiplyaddscalar',['MultiplyAddScalar',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar()']]]
+  ['multiply',['multiply',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a934c0d74c70fc87796ecb5cde50fd516',1,'cutlass::gemm::FragmentMultiplyAdd::multiply()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a6bed70e7074931419e9441688aee00ea',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::multiply()']]],
+  ['multiply_5fadd',['multiply_add',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aafa37c2e1ffd2f7d7031c24c732157d8',1,'cutlass::gemm::FragmentMultiplyAdd::multiply_add()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a92edee5611d25b60cdab6a1c8e32141f',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#ae0ea662652907b60140598dad777c5ab',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f',1,'cutlass::gemm::Gemm::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aaf8ea4aaf393488f03ba7fb7af264940',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ad9d8e47e8896d8d4eab538aa78b56e47',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7989d48e4c2e16b7804b813630f347cb',1,'cutlass::gemm::ThreadMultiplyAdd::multiply_add()']]],
+  ['multiplyadd',['MultiplyAdd',['../structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835',1,'cutlass::gemm::Gemm::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd',1,'cutlass::gemm::GemmConfig::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c',1,'cutlass::gemm::GemmTraits::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae82826fde376748cf67ff2e1bcaa8cef',1,'cutlass::gemm::HgemmTraitsHelper::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae84c7fd1567580dc3da15a520c47ff6e',1,'cutlass::gemm::IgemmTraitsHelper::MultiplyAdd()']]],
+  ['multiplyaddscalar',['MultiplyAddScalar',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a29c3a5e4ea1fb6d0ea8b234849684daf',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aac06796d174a2d54103903e7dbe7b194',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::MultiplyAddScalar()']]]
 ];
diff --git a/docs/search/all_d.js b/docs/search/all_d.js
index 7c84844e4c..28befa5b0b 100644
--- a/docs/search/all_d.js
+++ b/docs/search/all_d.js
@@ -1,8 +1,11 @@
 var searchData=
 [
-  ['n',['N',['../structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca',1,'cutlass::Coord::N()'],['../structcutlass_1_1gemm_1_1GemmDesc.html#acee9727aa6cb612a25cd6ced4829061a',1,'cutlass::gemm::GemmDesc::n()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea',1,'cutlass::gemm::GemmEpilogue::n()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a437d4b6f1f149849c5ae635a5993e7ac',1,'cutlass::gemm::GemmTraits::Params::n()']]],
+  ['n',['N',['../structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030',1,'cutlass::Coord::N()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd',1,'cutlass::gemm::GemmCoord::n() const'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a1327b9b4b9379df24df3d4b716952d11',1,'cutlass::gemm::GemmCoord::n()']]],
+  ['nm',['nm',['../structcutlass_1_1gemm_1_1GemmCoord.html#ac4550a7e80e1f0265eacecebe54794d9',1,'cutlass::gemm::GemmCoord']]],
   ['no',['no',['../structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af',1,'cutlass::platform::is_base_of_helper']]],
   ['noexcept',['noexcept',['../platform_8h.html#a189faadd7f99f6c354db09acbb2aafcd',1,'platform.h']]],
+  ['norm',['norm',['../namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1',1,'cutlass::platform']]],
   ['nullptr',['nullptr',['../platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936',1,'platform.h']]],
-  ['nullptr_5ft',['nullptr_t',['../structcutlass_1_1platform_1_1nullptr__t.html',1,'cutlass::platform']]]
+  ['nullptr_5ft',['nullptr_t',['../structcutlass_1_1platform_1_1nullptr__t.html',1,'cutlass::platform']]],
+  ['numeric_5ftypes_2eh',['numeric_types.h',['../numeric__types_8h.html',1,'']]]
 ];
diff --git a/docs/search/all_e.js b/docs/search/all_e.js
index 49c17a921c..572fa6181c 100644
--- a/docs/search/all_e.js
+++ b/docs/search/all_e.js
@@ -1,34 +1,41 @@
 var searchData=
 [
-  ['offset',['offset',['../classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8',1,'cutlass::TensorRef::offset()'],['../classcutlass_1_1TensorView.html#a064f3630e69798e7915f910c4ee99ab7',1,'cutlass::TensorView::offset()']]],
-  ['offset_5ft',['Offset_t',['../classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f',1,'cutlass::TensorView']]],
+  ['offset',['offset',['../classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1',1,'cutlass::TensorRef::offset()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a07c7f56e724cfbc844777e8ee9f616b5',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::offset()']]],
+  ['offset_5ft',['Offset_t',['../classcutlass_1_1TensorView.html#a408d9a8026115bdaf70a37c86dc720b1',1,'cutlass::TensorView']]],
+  ['offset_5fto_5fresidue',['offset_to_residue',['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1',1,'cutlass::gemm::GlobalLoadStream::Params']]],
+  ['onedirection',['OneDirection',['../structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5',1,'cutlass::gemm::swizzleDirection']]],
+  ['operator',['operator',['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679',1,'cutlass::TensorRefArray::ConstIterator::operator()']]],
   ['operator_20_26_3d',['operator &amp;=',['../structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9',1,'cutlass::PredicateVector']]],
   ['operator_20b_2a',['operator B*',['../structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html#a8d100273203db9018dffbbe84e0b6c76',1,'cutlass::platform::is_base_of_helper::dummy']]],
-  ['operator_20bool',['operator bool',['../classcutlass_1_1platform_1_1unique__ptr.html#a5791650488ae864f10ad04bec4a31005',1,'cutlass::platform::unique_ptr']]],
+  ['operator_20bool',['operator bool',['../structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f',1,'cutlass::Coord::operator bool()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a5791650488ae864f10ad04bec4a31005',1,'cutlass::platform::unique_ptr::operator bool()']]],
+  ['operator_20cudoublecomplex',['operator cuDoubleComplex',['../classcutlass_1_1platform_1_1complex.html#a3b92e54de1c4262c7e481218162be7ec',1,'cutlass::platform::complex']]],
+  ['operator_20cufloatcomplex',['operator cuFloatComplex',['../classcutlass_1_1platform_1_1complex.html#ac5a3a0dc9815dadbe539312eb6fe36c4',1,'cutlass::platform::complex']]],
   ['operator_20d_2a',['operator D*',['../structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html#a8aadc500baf1492b1a4d05cc8b35fc13',1,'cutlass::platform::is_base_of_helper::dummy']]],
+  ['operator_20scalar',['operator Scalar',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a896f35e776c1291ceda0f432cc3da654',1,'cutlass::detail::ScalarOrPointer']]],
   ['operator_20value_5ftype',['operator value_type',['../structcutlass_1_1platform_1_1integral__constant.html#a55d25116387f1c6d978462b1d245d675',1,'cutlass::platform::integral_constant']]],
-  ['operator_21_3d',['operator!=',['../structcutlass_1_1Coord.html#a7fb46873e8f3cf38212703d35bd36995',1,'cutlass::Coord::operator!=()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685',1,'cutlass::PredicateVector::ConstIterator::operator!=()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887',1,'cutlass::PredicateVector::Iterator::operator!=()'],['../namespacecutlass_1_1platform.html#a248f49adf09654d2cd04bd2760ab2566',1,'cutlass::platform::operator!=()']]],
-  ['operator_28_29',['operator()',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html#ab8adb983c0573a0015469f40a75287be',1,'cutlass::gemm::GemmGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html#abaf0d4459a64b3e9533758b59600bd52',1,'cutlass::gemm::GemmGlobalTileCdTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html#a1e357fe5bc1daef333e6be776a21a2ca',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html#a51a325b435b9a53effaa003b3670e410',1,'cutlass::gemm::GemmSharedLoadTileATraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html#a5b4a635a521364357386259b0f84c0ba',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html#ace1b936cab289c6884e673312283d422',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html#a1228edf6cc0f81af520dc77c8792b94c',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::ThreadOffset::operator()()'],['../structcutlass_1_1TiledThreadOffset.html#a7290b6ca9ef0bede634f69bd05450fa2',1,'cutlass::TiledThreadOffset::operator()()'],['../structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html#a0e4edffb19218ccbf77995f6d20df000',1,'cutlass::TileTraitsWarpRake::ThreadOffset::operator()()'],['../structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c',1,'cutlass::platform::plus::operator()()'],['../structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5',1,'cutlass::platform::less::operator()()'],['../structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978',1,'cutlass::platform::greater::operator()()'],['../structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18',1,'cutlass::platform::integral_constant::operator()()'],['../structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15',1,'cutlass::platform::default_delete::operator()()'],['../structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87',1,'cutlass::platform::default_delete&lt; T[]&gt;::operator()()']]],
-  ['operator_2a',['operator*',['../structcutlass_1_1Coord.html#a8e4f7df55a75d040cf50cf9984c04c8a',1,'cutlass::Coord::operator*()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946',1,'cutlass::PredicateVector::ConstIterator::operator*()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4',1,'cutlass::PredicateVector::Iterator::operator*()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78',1,'cutlass::PredicateVector::TrivialIterator::operator*()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b',1,'cutlass::platform::unique_ptr::operator*()']]],
-  ['operator_2a_3d',['operator*=',['../structcutlass_1_1Coord.html#a282b6cc9ac8b2f72720c252791155aad',1,'cutlass::Coord']]],
-  ['operator_2b',['operator+',['../structcutlass_1_1Coord.html#a3dfc4ce4191097b6c3268696f2a45ef5',1,'cutlass::Coord::operator+()'],['../classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842',1,'cutlass::TensorRef::operator+()']]],
-  ['operator_2b_2b',['operator++',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70',1,'cutlass::PredicateVector::ConstIterator::operator++()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a977a99af3166a58d5bc5a613a1abe7d5',1,'cutlass::PredicateVector::ConstIterator::operator++(int)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3',1,'cutlass::PredicateVector::Iterator::operator++()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a6c7333ad14d545cafc707e78752bf1e3',1,'cutlass::PredicateVector::Iterator::operator++(int)'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a',1,'cutlass::PredicateVector::TrivialIterator::operator++()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051',1,'cutlass::PredicateVector::TrivialIterator::operator++(int)']]],
-  ['operator_2b_3d',['operator+=',['../structcutlass_1_1Coord.html#aeb209486943fa9d42911325b16e49e09',1,'cutlass::Coord']]],
-  ['operator_2d',['operator-',['../structcutlass_1_1Coord.html#acc510511ffb52bed7f6a52f14b99750d',1,'cutlass::Coord::operator-()'],['../classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938',1,'cutlass::TensorRef::operator-()']]],
-  ['operator_2d_2d',['operator--',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286',1,'cutlass::PredicateVector::ConstIterator::operator--()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b',1,'cutlass::PredicateVector::ConstIterator::operator--(int)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61',1,'cutlass::PredicateVector::Iterator::operator--()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a',1,'cutlass::PredicateVector::Iterator::operator--(int)']]],
-  ['operator_2d_3d',['operator-=',['../structcutlass_1_1Coord.html#ac1795ec2a5890d8a39840567a4bea88e',1,'cutlass::Coord']]],
+  ['operator_21',['operator!',['../structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02',1,'cutlass::Coord']]],
+  ['operator_21_3d',['operator!=',['../structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3',1,'cutlass::Coord::operator!=()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685',1,'cutlass::PredicateVector::ConstIterator::operator!=()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887',1,'cutlass::PredicateVector::Iterator::operator!=()'],['../namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c',1,'cutlass::platform::operator!=(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)'],['../namespacecutlass_1_1platform.html#a248f49adf09654d2cd04bd2760ab2566',1,'cutlass::platform::operator!=(const pair&lt; T1, T2 &gt; &amp;lhs, const pair&lt; T1, T2 &gt; &amp;rhs)']]],
+  ['operator_28_29',['operator()',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html#ab8adb983c0573a0015469f40a75287be',1,'cutlass::gemm::GemmGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html#abaf0d4459a64b3e9533758b59600bd52',1,'cutlass::gemm::GemmGlobalTileCdTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html#a1e357fe5bc1daef333e6be776a21a2ca',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html#a51a325b435b9a53effaa003b3670e410',1,'cutlass::gemm::GemmSharedLoadTileATraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html#a5b4a635a521364357386259b0f84c0ba',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html#ace1b936cab289c6884e673312283d422',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#a80562f5ceab2049c3b7834c2891a07ee',1,'cutlass::gemm::IgemmGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::ThreadOffset::operator()()'],['../structcutlass_1_1MatrixLayout_1_1RowMajor.html#a736620aef395e4224d7aae098573aa34',1,'cutlass::MatrixLayout::RowMajor::operator()()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#af51e07c6605524581e5d27d290c8b8d2',1,'cutlass::MatrixLayout::ColumnMajor::operator()()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a5199cb7f7c10f6123c63703453b7937c',1,'cutlass::MatrixLayout::RowMajorInterleaved::operator()()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dbf79e5df5bcf52d54a699d2587319d',1,'cutlass::MatrixLayout::ColumnMajorInterleaved::operator()()'],['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a512248a443c5914fab6aeabc4a73978e',1,'cutlass::MatrixLayout::ContiguousLayout::operator()()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a24c06bb7e64a8015ac528b3ae954a689',1,'cutlass::MatrixLayout::ColumnMajorBlockLinear::operator()()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#abde0a4a7c487da0c78ea2519323c04af',1,'cutlass::MatrixLayout::RowMajorBlockLinear::operator()()'],['../structcutlass_1_1IdentityTensorMapFunc.html#a3922130841c34d3ce8c112ee6fae4ca1',1,'cutlass::IdentityTensorMapFunc::operator()()'],['../structcutlass_1_1RegularTilePredicateFunctor.html#a084c0a2732827a74f7a30873c5883827',1,'cutlass::RegularTilePredicateFunctor::operator()()'],['../structcutlass_1_1TiledThreadOffset.html#a7290b6ca9ef0bede634f69bd05450fa2',1,'cutlass::TiledThreadOffset::operator()()'],['../structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html#a0e4edffb19218ccbf77995f6d20df000',1,'cutlass::TileTraitsWarpRake::ThreadOffset::operator()()'],['../structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c',1,'cutlass::platform::plus::operator()()'],['../structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5',1,'cutlass::platform::less::operator()()'],['../structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978',1,'cutlass::platform::greater::operator()()'],['../structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18',1,'cutlass::platform::integral_constant::operator()()'],['../structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15',1,'cutlass::platform::default_delete::operator()()'],['../structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87',1,'cutlass::platform::default_delete&lt; T[]&gt;::operator()()']]],
+  ['operator_2a',['operator*',['../structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033',1,'cutlass::Coord::operator*()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a5a158b5f3c0b1779972b25aa52be1164',1,'cutlass::gemm::GemmCoord::operator*()'],['../structcutlass_1_1MatrixCoord.html#ac68a57c17811b0a04dc6fb21423ab226',1,'cutlass::MatrixCoord::operator*()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946',1,'cutlass::PredicateVector::ConstIterator::operator*()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4',1,'cutlass::PredicateVector::Iterator::operator*()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78',1,'cutlass::PredicateVector::TrivialIterator::operator*()'],['../structcutlass_1_1TileCoord.html#ab8fbb13cc5ea4f580a7fc32963de9553',1,'cutlass::TileCoord::operator*()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b',1,'cutlass::platform::unique_ptr::operator*()'],['../namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba',1,'cutlass::platform::operator*(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)'],['../namespacecutlass_1_1platform.html#aef5da2c88431ab40b58fdd6afea13dba',1,'cutlass::platform::operator*(complex&lt; T &gt; const &amp;lhs, T const &amp;s)'],['../namespacecutlass_1_1platform.html#a289b6e31bdc0be1302b8dbab55eb568c',1,'cutlass::platform::operator*(T const &amp;s, complex&lt; T &gt; const &amp;rhs)']]],
+  ['operator_2a_3d',['operator*=',['../structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168',1,'cutlass::Coord::operator*=()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a69fb0bb5e73f35d3c8df71a0174d6520',1,'cutlass::gemm::GemmCoord::operator*=()'],['../structcutlass_1_1MatrixCoord.html#a5fd3c3b58af1147a5c73657c05a16f5b',1,'cutlass::MatrixCoord::operator*=()'],['../structcutlass_1_1TileCoord.html#ae946b3af6b795d26632da7ca66b3751c',1,'cutlass::TileCoord::operator*=()'],['../namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac',1,'cutlass::platform::operator*=(complex&lt; T &gt; &amp;lhs, complex&lt; T &gt; const &amp;rhs)'],['../namespacecutlass_1_1platform.html#a21adde191e48e604908ce886690c6d6b',1,'cutlass::platform::operator*=(complex&lt; T &gt; &amp;lhs, T s)']]],
+  ['operator_2b',['operator+',['../structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc',1,'cutlass::Coord::operator+()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a675efbb9ed360888faf3c333708ae4d5',1,'cutlass::gemm::GemmCoord::operator+()'],['../structcutlass_1_1MatrixCoord.html#a25236953237f965965b1c9b7a04ba26e',1,'cutlass::MatrixCoord::operator+()'],['../classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f',1,'cutlass::TensorRef::operator+()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ad054f14b5580c9480d671b8fc8ef016a',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator+()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a1d48f4fea3fa85a7bf1b26b421387afd',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator+()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a9fcd43018e60f12cb328859c76ec7891',1,'cutlass::TensorRefArray::ConstIterator::operator+()'],['../classcutlass_1_1TensorView.html#aa2390d8e127a51df239affd2ca36e97a',1,'cutlass::TensorView::operator+()'],['../structcutlass_1_1TileCoord.html#a3bfa2daa0e63144c1e8510ba336f185b',1,'cutlass::TileCoord::operator+()'],['../namespacecutlass_1_1platform.html#a93b0f0d73fa3cf11c5018460b257837c',1,'cutlass::platform::operator+()']]],
+  ['operator_2b_2b',['operator++',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70',1,'cutlass::PredicateVector::ConstIterator::operator++()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a977a99af3166a58d5bc5a613a1abe7d5',1,'cutlass::PredicateVector::ConstIterator::operator++(int)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3',1,'cutlass::PredicateVector::Iterator::operator++()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a6c7333ad14d545cafc707e78752bf1e3',1,'cutlass::PredicateVector::Iterator::operator++(int)'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a',1,'cutlass::PredicateVector::TrivialIterator::operator++()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051',1,'cutlass::PredicateVector::TrivialIterator::operator++(int)'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a3481d6f41defd25ab574bb19ee5fe424',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator++()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#aca860ff7f125e02f35c7dc174e84708d',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator++(int)'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a8ce80124ab0f4ab9981f1a4d64d976a5',1,'cutlass::TensorRefArray::ConstIterator::operator++()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a051f34d90c0680dc5f4e4e1c4d79e929',1,'cutlass::TensorRefArray::ConstIterator::operator++(int)'],['../classcutlass_1_1ZipTileIterator.html#a47d270fc4a119d7b95b2d5dd3ee5b87b',1,'cutlass::ZipTileIterator::operator++()']]],
+  ['operator_2b_3d',['operator+=',['../structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20',1,'cutlass::Coord::operator+=()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a5465f7308778eac5d14d8020179a65e0',1,'cutlass::gemm::GemmCoord::operator+=()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a8e79a153de72eef10d90bfd02b5dd27e',1,'cutlass::gemm::GlobalLoadStream::operator+=()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af',1,'cutlass::gemm::GemmGlobalIteratorAb::operator+=()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec',1,'cutlass::gemm::GemmGlobalIteratorCd::operator+=()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a769813dcffe1767aab49ac30b838a5f4',1,'cutlass::gemm::GlobalLoadStreamPair::operator+=()'],['../structcutlass_1_1MatrixCoord.html#ad105615dbf7ede75caa0e778c873bd06',1,'cutlass::MatrixCoord::operator+=()'],['../classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306',1,'cutlass::TensorRef::operator+=()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0753aeb57365a976bc0a88481af504cb',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator+=()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab07a5d1a4ec6d96ec53e868b3a6d7cae',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator+=()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a22b87d281057c8e03b80db7046c54dd8',1,'cutlass::TensorRefArray::ConstIterator::operator+=()'],['../classcutlass_1_1TensorView.html#a4fa8fa35d00eb4d0097da492c738cddc',1,'cutlass::TensorView::operator+=()'],['../structcutlass_1_1TileCoord.html#a812760c633ea813db8a2bc24826c68df',1,'cutlass::TileCoord::operator+=()'],['../structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120',1,'cutlass::TileLoadIterator::operator+=()'],['../structcutlass_1_1TileStoreIterator.html#a57b284e6cbff892d45e5cfeb0ae1e3ed',1,'cutlass::TileStoreIterator::operator+=()'],['../classcutlass_1_1ZipTileIterator.html#a60ba516d7382cb7788d5430023f7fc44',1,'cutlass::ZipTileIterator::operator+=(int count)'],['../classcutlass_1_1ZipTileIterator.html#a200a4e88ee6d23dcc80e974c77f8fa1f',1,'cutlass::ZipTileIterator::operator+=(Coord&lt; 3 &gt; const &amp;offset)'],['../namespacecutlass_1_1platform.html#a34c5ca341da805d5d1bc703c53c96d9d',1,'cutlass::platform::operator+=()']]],
+  ['operator_2d',['operator-',['../structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b',1,'cutlass::Coord::operator-()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a762fd45e61477d700c82bfd67443c6f9',1,'cutlass::gemm::GemmCoord::operator-()'],['../structcutlass_1_1MatrixCoord.html#aa462303d75a5d98b680b6e20080ce877',1,'cutlass::MatrixCoord::operator-()'],['../classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa',1,'cutlass::TensorRef::operator-()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#afde28cda18918d3e177d3e5024ed3dd4',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator-()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad1d8099e8d63b6d88c53738ec68a7589',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator-(Index idx)'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab92bc090d6753ff5e17676ba85a1e478',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator-(ConstIterator const &amp;it)'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a143ec893406d930aa4c5aa860052197e',1,'cutlass::TensorRefArray::ConstIterator::operator-()'],['../classcutlass_1_1TensorView.html#a1e4b2bb02c5843898f72f62787403add',1,'cutlass::TensorView::operator-()'],['../structcutlass_1_1TileCoord.html#a9f274d8e93f9cd3e0a9699e11b85fa7c',1,'cutlass::TileCoord::operator-()'],['../namespacecutlass_1_1platform.html#aa486433971cdd6b7648c1e5459c42763',1,'cutlass::platform::operator-()']]],
+  ['operator_2d_2d',['operator--',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286',1,'cutlass::PredicateVector::ConstIterator::operator--()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b',1,'cutlass::PredicateVector::ConstIterator::operator--(int)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61',1,'cutlass::PredicateVector::Iterator::operator--()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a',1,'cutlass::PredicateVector::Iterator::operator--(int)'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad5290f0e7814892cb4fff55e9518562b',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator--()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a09909fbe2e4365b5f34ddb61658f27b3',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator--(int)'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a0f395558e2c589ac48179447a23b59d8',1,'cutlass::TensorRefArray::ConstIterator::operator--()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ac9019febbc8b6bfea06ac4d23d253d57',1,'cutlass::TensorRefArray::ConstIterator::operator--(int)'],['../classcutlass_1_1ZipTileIterator.html#a3d22dab34b2abd0d05c00668f8591151',1,'cutlass::ZipTileIterator::operator--()']]],
+  ['operator_2d_3d',['operator-=',['../structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b',1,'cutlass::Coord::operator-=()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a12ba250be3d5474b7c6fc4eddd4f58d5',1,'cutlass::gemm::GemmCoord::operator-=()'],['../structcutlass_1_1MatrixCoord.html#a6feef48cf24733d22ca53a27cbc33ac0',1,'cutlass::MatrixCoord::operator-=()'],['../classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890',1,'cutlass::TensorRef::operator-=()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a11964d045ac8e41c80026515adb03008',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator-=()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ac4018b51e78842fb252d6917738fa571',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator-=()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ae3561f863072cd7be7dcdee2cb5cc1f0',1,'cutlass::TensorRefArray::ConstIterator::operator-=()'],['../classcutlass_1_1TensorView.html#abc088fad6debb6a0ceb04c5d2767e81b',1,'cutlass::TensorView::operator-=()'],['../structcutlass_1_1TileCoord.html#a02da20e580962fe0754a772842045389',1,'cutlass::TileCoord::operator-=()'],['../classcutlass_1_1ZipTileIterator.html#a7bae0f9b789e75bb154c5f37db50e14c',1,'cutlass::ZipTileIterator::operator-=()'],['../namespacecutlass_1_1platform.html#abff9e10130849ea46f6245f4e8cc2cc9',1,'cutlass::platform::operator-=()']]],
   ['operator_2d_3e',['operator-&gt;',['../classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b',1,'cutlass::platform::unique_ptr']]],
-  ['operator_2f',['operator/',['../structcutlass_1_1Coord.html#a87f485be079fa68bcf576da4d56f0ece',1,'cutlass::Coord']]],
-  ['operator_2f_3d',['operator/=',['../structcutlass_1_1Coord.html#abe91e59962ef0d73aec9c14824f64ecc',1,'cutlass::Coord']]],
-  ['operator_3c',['operator&lt;',['../namespacecutlass_1_1platform.html#a412dbdbc678ecd12b55fcad4ef4155bd',1,'cutlass::platform']]],
-  ['operator_3c_3c',['operator&lt;&lt;',['../core__io_8h.html#a4a0d84a2a19a11549b87a2328d58690d',1,'core_io.h']]],
-  ['operator_3c_3d',['operator&lt;=',['../namespacecutlass_1_1platform.html#a41d573133357bd555f78d33afc1152d3',1,'cutlass::platform']]],
-  ['operator_3d',['operator=',['../classcutlass_1_1TensorView.html#aa9e9e19f35ce3111f64b763ca49b51ef',1,'cutlass::TensorView']]],
-  ['operator_3d_3d',['operator==',['../structcutlass_1_1Coord.html#acfa94aabd0c9a71ee994ca479d5f515f',1,'cutlass::Coord::operator==()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357',1,'cutlass::PredicateVector::ConstIterator::operator==()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e',1,'cutlass::PredicateVector::Iterator::operator==()'],['../namespacecutlass_1_1platform.html#ab9b8306ae9dc21fa646c49b68fa8e197',1,'cutlass::platform::operator==()']]],
+  ['operator_2f',['operator/',['../structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568',1,'cutlass::Coord::operator/()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a41770bb99f02f4debbafe95e019ce02b',1,'cutlass::gemm::GemmCoord::operator/()'],['../structcutlass_1_1MatrixCoord.html#aa89b196410d25d8c9ed3746fb6833374',1,'cutlass::MatrixCoord::operator/()'],['../structcutlass_1_1TileCoord.html#a5d2cc915343a3b90fb530348ddd329d2',1,'cutlass::TileCoord::operator/()'],['../namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f',1,'cutlass::platform::operator/(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)'],['../namespacecutlass_1_1platform.html#a33f75d77ff629335c9666128837c4581',1,'cutlass::platform::operator/(complex&lt; T &gt; const &amp;lhs, T const &amp;s)'],['../namespacecutlass_1_1platform.html#ae302b414576ecb5afb0cdfdda6b30ad3',1,'cutlass::platform::operator/(T const &amp;s, complex&lt; T &gt; const &amp;rhs)']]],
+  ['operator_2f_3d',['operator/=',['../structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28',1,'cutlass::Coord::operator/=()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#aac1e1bad751237fd76d32a1ea10f6c40',1,'cutlass::gemm::GemmCoord::operator/=()'],['../structcutlass_1_1MatrixCoord.html#aab345c8ddb8048bfe3d667bc7ce6522f',1,'cutlass::MatrixCoord::operator/=()'],['../structcutlass_1_1TileCoord.html#ac3207d8aa879c86a907cdcc93ccb2eb5',1,'cutlass::TileCoord::operator/=()'],['../namespacecutlass_1_1platform.html#ac594526ef64ecf364ae957753ce64b40',1,'cutlass::platform::operator/=()']]],
+  ['operator_3c',['operator&lt;',['../structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308',1,'cutlass::Coord::operator&lt;()'],['../namespacecutlass_1_1platform.html#a412dbdbc678ecd12b55fcad4ef4155bd',1,'cutlass::platform::operator&lt;()']]],
+  ['operator_3c_3c',['operator&lt;&lt;',['../namespacecutlass.html#afe231b125bbb1e9aa51307a8abdf9a60',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, Coord&lt; Rank &gt; const &amp;coord)'],['../namespacecutlass.html#a30ddfc5e90b9103840cb30c9f9b96b49',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; T &gt; const &amp;scalar)'],['../namespacecutlass.html#a36690681ed19dc7e398fcdafdbfe9975',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; int8_t &gt; const &amp;scalar)'],['../namespacecutlass.html#a1a35d6b9b984a9c143957db733a93f51',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; uint8_t &gt; const &amp;scalar)'],['../namespacecutlass.html#a2fd306c63f71877f9231a7e1265752cf',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; cutlass::Vector&lt; cutlass::bin1_t, 32 &gt; &gt; const &amp;scalar)'],['../namespacecutlass.html#aecf2cd62eee939946b7173a110ecf76e',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; cutlass::Vector&lt; cutlass::int4_t, 8 &gt; &gt; const &amp;scalar)'],['../namespacecutlass.html#a3ceda5ed2d923222662a37e8f355c9b8',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; cutlass::Vector&lt; cutlass::uint4_t, 8 &gt; &gt; const &amp;scalar)'],['../namespacecutlass_1_1platform.html#ab4c3e4eabba020d7a9faf86ee6cf437a',1,'cutlass::platform::operator&lt;&lt;()']]],
+  ['operator_3c_3d',['operator&lt;=',['../structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c',1,'cutlass::Coord::operator&lt;=()'],['../namespacecutlass_1_1platform.html#a41d573133357bd555f78d33afc1152d3',1,'cutlass::platform::operator&lt;=()']]],
+  ['operator_3d',['operator=',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b29491782c3a129355fa4ef159cb970',1,'cutlass::detail::ScalarOrPointer::operator=(Scalar const &amp;scalar_)'],['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a54357e2f1d52aa8355b2ae7796740ea3',1,'cutlass::detail::ScalarOrPointer::operator=(Scalar const *ptr_)'],['../classcutlass_1_1TensorView.html#acf0c156efb9197bc7538f7e9057d8a68',1,'cutlass::TensorView::operator=()']]],
+  ['operator_3d_3d',['operator==',['../structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d',1,'cutlass::Coord::operator==()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357',1,'cutlass::PredicateVector::ConstIterator::operator==()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e',1,'cutlass::PredicateVector::Iterator::operator==()'],['../namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb',1,'cutlass::platform::operator==(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)'],['../namespacecutlass_1_1platform.html#ab9b8306ae9dc21fa646c49b68fa8e197',1,'cutlass::platform::operator==(const pair&lt; T1, T2 &gt; &amp;lhs, const pair&lt; T1, T2 &gt; &amp;rhs)']]],
   ['operator_3e',['operator&gt;',['../namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12',1,'cutlass::platform']]],
   ['operator_3e_3d',['operator&gt;=',['../namespacecutlass_1_1platform.html#ab0f21e67c0a4b5c6952042b502c6816f',1,'cutlass::platform']]],
-  ['operator_5b_5d',['operator[]',['../structcutlass_1_1Coord.html#ab7fc89de3ccd7096ab275fb5dd40104c',1,'cutlass::Coord::operator[](int dim)'],['../structcutlass_1_1Coord.html#a6eeab0a1686ee25389e1bd017c5f03ae',1,'cutlass::Coord::operator[](int dim) const'],['../structcutlass_1_1Fragment.html#a99fef5f3093b2df50905ab13819b67a0',1,'cutlass::Fragment::operator[](int i)'],['../structcutlass_1_1Fragment.html#a75f51bb6ca84615076aab42ac9d42592',1,'cutlass::Fragment::operator[](int i) const'],['../structcutlass_1_1FragmentIterator.html#a83bb6a3ed588e2d890bf986665d2b7bb',1,'cutlass::FragmentIterator::operator[](int i) const'],['../structcutlass_1_1FragmentIterator.html#a3bd2a9d8467f8db02ca3a01ae0c11ad7',1,'cutlass::FragmentIterator::operator[](int i)'],['../structcutlass_1_1FragmentConstIterator.html#af16f2aa14ff424b038a393b683c4783e',1,'cutlass::FragmentConstIterator::operator[]()'],['../structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5',1,'cutlass::PredicateVector::operator[]()'],['../classcutlass_1_1TensorRef.html#a6a2aa88ed77557c089a165da0df1e974',1,'cutlass::TensorRef::operator[](Coord&lt; Rank &gt; const &amp;coord) const'],['../classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c',1,'cutlass::TensorRef::operator[](int idx) const'],['../classcutlass_1_1TensorView.html#a7fe7e44e15fd1ac58fb55edf72e8fb23',1,'cutlass::TensorView::operator[]()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d',1,'cutlass::platform::unique_ptr::operator[]()'],['../unioncutlass_1_1Vector.html#a250860c921c94a6077344f9e11bf5b02',1,'cutlass::Vector::operator[](uint32_t i) const'],['../unioncutlass_1_1Vector.html#a44cc27bf8a7b789b4ae8538155a50156',1,'cutlass::Vector::operator[](uint32_t i)'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab0516cef8949f5998b5251cc6b6db683',1,'cutlass::Vector&lt; half, kLanes_ &gt;::operator[](uint32_t i) const'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a8ade80e040264fbd669d3f15c249884e',1,'cutlass::Vector&lt; half, kLanes_ &gt;::operator[](uint32_t i)']]],
+  ['operator_5b_5d',['operator[]',['../structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24',1,'cutlass::Coord::operator[](int dim)'],['../structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454',1,'cutlass::Coord::operator[](int dim) const'],['../structcutlass_1_1Fragment.html#a77ba7cddf7822d64534b019c4ad9732e',1,'cutlass::Fragment::operator[](int i)'],['../structcutlass_1_1Fragment.html#a7795c5cf4d5626ff125abd5e8f156e9b',1,'cutlass::Fragment::operator[](int i) const'],['../structcutlass_1_1FragmentIterator.html#a21877944988f34eb69cb6eefb00c6575',1,'cutlass::FragmentIterator::operator[](int i) const'],['../structcutlass_1_1FragmentIterator.html#ad665745f3d6a3a88d7894fe0fc1bbd3e',1,'cutlass::FragmentIterator::operator[](int i)'],['../structcutlass_1_1FragmentConstIterator.html#a6216b58ffe6322f037f1e0a3ffa714c8',1,'cutlass::FragmentConstIterator::operator[]()'],['../structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5',1,'cutlass::PredicateVector::operator[]()'],['../classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6',1,'cutlass::TensorRef::operator[](TensorCoord const &amp;coord) const'],['../classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3',1,'cutlass::TensorRef::operator[](LongIndex idx) const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a64a5e91e01555b8bfd22875543573d22',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator[](TensorCoord const &amp;coord) const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a57f132816e51bbdb4c807d57c067b619',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator[](LongIndex idx) const'],['../classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d',1,'cutlass::platform::unique_ptr::operator[]()'],['../unioncutlass_1_1Vector.html#a69be4f85c1dac371fa6f1c6747724adc',1,'cutlass::Vector::operator[](uint32_t i) const'],['../unioncutlass_1_1Vector.html#abf531676caf85cde1c8df435c1ebe8bb',1,'cutlass::Vector::operator[](uint32_t i)'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a12fa9366dd57fadb2d3f624ab7836dc8',1,'cutlass::Vector&lt; half, 1 &gt;::operator[](uint32_t i) const'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a1e6568c0f3f958db739074ab6978ff10',1,'cutlass::Vector&lt; half, 1 &gt;::operator[](uint32_t i)'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ad50b5d4acbd7ead82c128091c9db9113',1,'cutlass::Vector&lt; half, kLanes_ &gt;::operator[](uint32_t i) const'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a3891ce1c321a3e57e938c8864de9baf0',1,'cutlass::Vector&lt; half, kLanes_ &gt;::operator[](uint32_t i)'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a8eda6e6181a5333ca8350977374708cb',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::operator[]()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a2d5ec0b76daa136dae0b4aec1edf9e0b',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::operator[]()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#ae2215fe7c2c223175b4172d73a6c7a82',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::operator[]()']]],
   ['operator_7c_3d',['operator|=',['../structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc',1,'cutlass::PredicateVector']]],
-  ['outputfragment',['OutputFragment',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a8ef69ab595489e142911e8e240fb405a',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::OutputFragment()'],['../structcutlass_1_1Copy.html#a545be6c284d625b0841a10cc9126e14a',1,'cutlass::Copy::OutputFragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#a9c04f0b0eb0293325f661b72168d4fa8',1,'cutlass::gemm::HgemmSwizzle::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553',1,'cutlass::gemm::IgemmFloatToInt8Converter::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7',1,'cutlass::gemm::IgemmInt8ToFloatConverter::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8',1,'cutlass::gemm::IgemmSwizzle::OutputFragment()']]],
-  ['outputtile',['OutputTile',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b',1,'cutlass::gemm::GemmEpilogue::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075',1,'cutlass::gemm::GemmEpilogueTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101',1,'cutlass::gemm::GemmEpilogueTraitsHelper::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d',1,'cutlass::gemm::GemmSharedStoreTileDTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899',1,'cutlass::gemm::GemmSharedLoadTileDTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd',1,'cutlass::gemm::GemmConfig::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367',1,'cutlass::gemm::GemmTraits::OutputTile()']]]
+  ['outputfragment',['OutputFragment',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a8ef69ab595489e142911e8e240fb405a',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::OutputFragment()'],['../structcutlass_1_1Copy.html#a545be6c284d625b0841a10cc9126e14a',1,'cutlass::Copy::OutputFragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#a9c04f0b0eb0293325f661b72168d4fa8',1,'cutlass::gemm::HgemmSwizzle::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553',1,'cutlass::gemm::IgemmFloatToInt8Converter::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7',1,'cutlass::gemm::IgemmInt8ToFloatConverter::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8',1,'cutlass::gemm::IgemmSwizzle::OutputFragment()'],['../structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584',1,'cutlass::ZipConvert::OutputFragment()']]],
+  ['outputtile',['OutputTile',['../structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399',1,'cutlass::gemm::GemmConfig::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b',1,'cutlass::gemm::GemmEpilogue::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c',1,'cutlass::gemm::GemmEpilogueTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101',1,'cutlass::gemm::GemmEpilogueTraitsHelper::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d',1,'cutlass::gemm::GemmSharedStoreTileDTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899',1,'cutlass::gemm::GemmSharedLoadTileDTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367',1,'cutlass::gemm::GemmTraits::OutputTile()']]]
 ];
diff --git a/docs/search/all_f.js b/docs/search/all_f.js
index 05e5e92217..26daa9427c 100644
--- a/docs/search/all_f.js
+++ b/docs/search/all_f.js
@@ -1,23 +1,31 @@
 var searchData=
 [
   ['pad',['pad',['../structcutlass_1_1platform_1_1alignment__of_1_1pad.html',1,'cutlass::platform::alignment_of']]],
-  ['params',['Params',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html',1,'cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1TileIteratorBase_1_1Params.html',1,'cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html',1,'cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1TileLoadIterator_1_1Params.html',1,'cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params'],['../structcutlass_1_1TileStoreIterator_1_1Params.html',1,'cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params'],['../structcutlass_1_1gemm_1_1Gemm_1_1Params.html',1,'cutlass::gemm::Gemm&lt; GemmTraits_ &gt;::Params'],['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html',1,'cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html',1,'cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html',1,'cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e',1,'cutlass::gemm::GemmEpilogue::Params()'],['../structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2',1,'cutlass::gemm::Gemm::params()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362',1,'cutlass::gemm::GemmEpilogue::params()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322',1,'cutlass::gemm::GemmGlobalIteratorAb::params()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f',1,'cutlass::gemm::GemmGlobalIteratorCd::params()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::params()'],['../structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b',1,'cutlass::TileLoadIterator::params()'],['../structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f',1,'cutlass::TileStoreIterator::params()']]],
+  ['params',['Params',['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html',1,'cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html',1,'cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html',1,'cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1ZipTileIterator_1_1Params.html',1,'cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html',1,'cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html',1,'cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html',1,'cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html',1,'cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params'],['../structcutlass_1_1TileIteratorBase_1_1Params.html',1,'cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params'],['../structcutlass_1_1TileLoadIterator_1_1Params.html',1,'cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params'],['../structcutlass_1_1TileStoreIterator_1_1Params.html',1,'cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params'],['../structcutlass_1_1TileLoadStream_1_1Params.html',1,'cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1TileStoreStream_1_1Params.html',1,'cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html',1,'cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916',1,'cutlass::gemm::Gemm::Params()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e',1,'cutlass::gemm::GemmEpilogue::Params()'],['../structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6',1,'cutlass::PredicatedTileLoadStream::Params()'],['../structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba',1,'cutlass::PredicatedTileStoreStream::Params()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#afb39229d0ad334834cd2ba0c1fcc9412',1,'cutlass::gemm::GlobalLoadStreamPair::Params::Params()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#ab26c1aaa2b7709c32bab39801d6c7772',1,'cutlass::gemm::GlobalLoadStreamPair::Params::Params(typename StreamA::Params const &amp;_params_A, typename StreamB::Params const &amp;_params_B)'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ae515cd98a75ff3eafffcc69692d6301a',1,'cutlass::gemm::LinearScaling::Params::Params()'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae28323819fc8950bc0fee3a34b2184ff',1,'cutlass::gemm::LinearScalingDevicePtr::Params::Params()'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a26b04702140a550f3ab598132a74cd93',1,'cutlass::gemm::LinearScalingDevicePtr::Params::Params(Scalar alpha, Scalar beta)'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a38aa3e6beb09c7c4bea952094a2ea682',1,'cutlass::gemm::LinearScalingDevicePtr::Params::Params(Scalar const *alpha_ptr, Scalar const *beta_ptr)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71',1,'cutlass::TileIteratorBase::Params::Params()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c',1,'cutlass::TileIteratorBase::Params::Params(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a',1,'cutlass::TileIteratorBase::Params::Params(Coord&lt; 4 &gt; const &amp;stride)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5',1,'cutlass::TileLoadIterator::Params::Params()'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a88a90437f11d029ef109ebb4f828f282',1,'cutlass::TileLoadIterator::Params::Params(Scalar const *ptr)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192',1,'cutlass::TileLoadIterator::Params::Params(TensorRef const &amp;ref)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a78380e92553010656516400d51e14c7e',1,'cutlass::TileLoadIterator::Params::Params(Scalar const *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a8c9856709d3392d8b70dce9a13fa529a',1,'cutlass::TileLoadIterator::Params::Params(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a79304c022d2466c97cd671a98128815a',1,'cutlass::TileStoreIterator::Params::Params()'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#ae1cb260e7b05034ec9b7fa61c92bbc80',1,'cutlass::TileStoreIterator::Params::Params(Scalar *ptr)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#afae37ebc78884290300f38fce7c021b1',1,'cutlass::TileStoreIterator::Params::Params(TensorRef const &amp;ref)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#aa131e0ef02ce37038c1a17bea7088ef6',1,'cutlass::TileStoreIterator::Params::Params(Scalar *ptr, long long stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a9cf4cd4ecb0a81cf3c03a70c7bfc4e09',1,'cutlass::TileStoreIterator::Params::Params(Scalar *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileLoadStream_1_1Params.html#a90772ac34f8c49f049eb62fada0a2165',1,'cutlass::TileLoadStream::Params::Params()'],['../structcutlass_1_1TileLoadStream_1_1Params.html#a50f136516b139f011939015c8c417ddd',1,'cutlass::TileLoadStream::Params::Params(typename Iterator::Params const &amp;_iterator)'],['../structcutlass_1_1TileStoreStream_1_1Params.html#adfa2399bf13cdff16b7bfe1cb0dd2bd9',1,'cutlass::TileStoreStream::Params::Params()'],['../structcutlass_1_1TileStoreStream_1_1Params.html#acc400568f7694f818b5afbb109bd2e63',1,'cutlass::TileStoreStream::Params::Params(typename Iterator::Params const &amp;_iterator)'],['../structcutlass_1_1ZipTileIterator_1_1Params.html#a4ed93b5319fe96457caf53e9384722d4',1,'cutlass::ZipTileIterator::Params::Params()'],['../structcutlass_1_1ZipTileIterator_1_1Params.html#ad38f6a2cc5800c0ec82b12d183040390',1,'cutlass::ZipTileIterator::Params::Params(typename First::Params const &amp;_first, typename Second::Params const &amp;_second)'],['../structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2',1,'cutlass::gemm::Gemm::params()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362',1,'cutlass::gemm::GemmEpilogue::params()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e',1,'cutlass::gemm::GlobalLoadStream::params()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322',1,'cutlass::gemm::GemmGlobalIteratorAb::params()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f',1,'cutlass::gemm::GemmGlobalIteratorCd::params()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d',1,'cutlass::gemm::LinearScaling::params()'],['../structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596',1,'cutlass::TileLoadIterator::params()'],['../structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d',1,'cutlass::TileStoreIterator::params()']]],
   ['platform_2eh',['platform.h',['../platform_8h.html',1,'']]],
   ['plus',['plus',['../structcutlass_1_1platform_1_1plus.html',1,'cutlass::platform']]],
-  ['pointer',['pointer',['../classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9',1,'cutlass::platform::unique_ptr::pointer()'],['../structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6',1,'cutlass::FragmentIterator::pointer()'],['../structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b',1,'cutlass::FragmentConstIterator::pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::pointer()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::pointer()'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9',1,'cutlass::TileLoadIterator::Params::pointer()'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b',1,'cutlass::TileStoreIterator::Params::pointer()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1',1,'cutlass::gemm::GlobalLoadStreamBase::Pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd',1,'cutlass::gemm::GemmGlobalTileTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6',1,'cutlass::gemm::GemmGlobalIteratorCd::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#adc4946dfbe914140c6852d0c05b30864',1,'cutlass::gemm::GemmSharedLoadTileATraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afafb3d9ae470c8ef56ec4ca5e66e2182',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Pointer()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Pointer()'],['../structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8',1,'cutlass::TileLoadIterator::Pointer()']]],
-  ['predicate_5finc_5fadvance',['predicate_inc_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_inc_advance()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa0367d016549cce6bd896bae364fc248',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::predicate_inc_advance()']]],
-  ['predicate_5finc_5fh',['predicate_inc_h',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_inc_h()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::predicate_inc_h()']]],
+  ['pointer',['pointer',['../classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9',1,'cutlass::platform::unique_ptr::pointer()'],['../structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6',1,'cutlass::FragmentIterator::pointer()'],['../structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b',1,'cutlass::FragmentConstIterator::pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::pointer()'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6',1,'cutlass::TileLoadIterator::Params::pointer()'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827',1,'cutlass::TileStoreIterator::Params::pointer()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2',1,'cutlass::gemm::GlobalLoadStream::Pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd',1,'cutlass::gemm::GemmGlobalTileTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6',1,'cutlass::gemm::GemmGlobalIteratorCd::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#adc4946dfbe914140c6852d0c05b30864',1,'cutlass::gemm::GemmSharedLoadTileATraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afafb3d9ae470c8ef56ec4ca5e66e2182',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Pointer()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Pointer()'],['../structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f',1,'cutlass::TileLoadIterator::Pointer()'],['../structcutlass_1_1TileStoreIterator.html#adc4182adb78e34b7741f297eca86fe35',1,'cutlass::TileStoreIterator::Pointer()']]],
+  ['pointers',['pointers',['../structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e',1,'cutlass::TensorRefArray']]],
+  ['polar',['polar',['../namespacecutlass_1_1platform.html#a6c9200b03868a5090027e5cfc8e27c62',1,'cutlass::platform']]],
+  ['predicate_5finc_5fadvance',['predicate_inc_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129',1,'cutlass::gemm::GemmGlobalIteratorCd::Params']]],
+  ['predicate_5finc_5fh',['predicate_inc_h',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c',1,'cutlass::gemm::GemmGlobalIteratorCd::Params']]],
   ['predicate_20iterator_20concept',['Predicate Iterator Concept',['../group__predicate__iterator__concept.html',1,'']]],
-  ['predicate_5foffset',['predicate_offset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_offset()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::predicate_offset()']]],
+  ['predicate_5foffset',['predicate_offset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a',1,'cutlass::gemm::GemmGlobalIteratorCd::Params']]],
   ['predicate_20tile_20adapter_20concept',['Predicate Tile Adapter Concept',['../group__predicate__tile__adapter.html',1,'']]],
   ['predicate_5fvector_2eh',['predicate_vector.h',['../predicate__vector_8h.html',1,'']]],
   ['predicate_20vector_20concept',['Predicate Vector Concept',['../group__predicate__vector__concept.html',1,'']]],
-  ['predicates',['predicates',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c',1,'cutlass::gemm::GemmGlobalIteratorAb::predicates()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977',1,'cutlass::gemm::GemmGlobalIteratorCd::predicates()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::predicates()']]],
+  ['predicatedtileloadstream',['PredicatedTileLoadStream',['../structcutlass_1_1PredicatedTileLoadStream.html',1,'cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;'],['../structcutlass_1_1PredicatedTileLoadStream.html#a672a8883d16eff4ecc90dc79162084d3',1,'cutlass::PredicatedTileLoadStream::PredicatedTileLoadStream()']]],
+  ['predicatedtilestorestream',['PredicatedTileStoreStream',['../structcutlass_1_1PredicatedTileStoreStream.html',1,'cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;'],['../structcutlass_1_1PredicatedTileStoreStream.html#ac4aafc6bcc6cf3bff5b31b9cd60fd667',1,'cutlass::PredicatedTileStoreStream::PredicatedTileStoreStream()']]],
+  ['predicatefunctor',['PredicateFunctor',['../structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5',1,'cutlass::PredicatedTileLoadStream::PredicateFunctor()'],['../structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f',1,'cutlass::PredicatedTileStoreStream::PredicateFunctor()']]],
+  ['predicates',['predicates',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c',1,'cutlass::gemm::GemmGlobalIteratorAb::predicates()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977',1,'cutlass::gemm::GemmGlobalIteratorCd::predicates()'],['../structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f',1,'cutlass::PredicatedTileLoadStream::predicates()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe',1,'cutlass::PredicatedTileStoreStream::predicates()']]],
   ['predicatetileadapter',['PredicateTileAdapter',['../structcutlass_1_1PredicateTileAdapter.html',1,'cutlass::PredicateTileAdapter&lt; PredicateVector_, Iterations_ &gt;'],['../structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea',1,'cutlass::PredicateTileAdapter::PredicateTileAdapter()']]],
-  ['predicatevector',['PredicateVector',['../structcutlass_1_1PredicateVector.html',1,'cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c',1,'cutlass::gemm::GemmGlobalIteratorAb::PredicateVector()'],['../structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4',1,'cutlass::PredicateTileAdapter::PredicateVector()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f',1,'cutlass::ConstPredicateTileAdapter::PredicateVector()'],['../structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5',1,'cutlass::TileIteratorBase::PredicateVector()'],['../structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328',1,'cutlass::TileLoadIterator::PredicateVector()'],['../structcutlass_1_1TileStoreIterator.html#a5aa507eaeb63951f8e69fb223ec41809',1,'cutlass::TileStoreIterator::PredicateVector()'],['../structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21',1,'cutlass::PredicateVector::PredicateVector()']]],
+  ['predicatevector',['PredicateVector',['../structcutlass_1_1TileLoadStream_1_1PredicateVector.html',1,'cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::PredicateVector'],['../structcutlass_1_1PredicateVector.html',1,'cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;'],['../structcutlass_1_1TileStoreStream_1_1PredicateVector.html',1,'cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::PredicateVector'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c',1,'cutlass::gemm::GemmGlobalIteratorAb::PredicateVector()'],['../structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4',1,'cutlass::PredicateTileAdapter::PredicateVector()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f',1,'cutlass::ConstPredicateTileAdapter::PredicateVector()'],['../structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000',1,'cutlass::TileIteratorBase::PredicateVector()'],['../structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5',1,'cutlass::TileLoadIterator::PredicateVector()'],['../structcutlass_1_1TileStoreIterator.html#a6157fe8a2ffefd45eba6f3953f0e2994',1,'cutlass::TileStoreIterator::PredicateVector()'],['../classcutlass_1_1ZipTileIterator.html#aa853fa2a2e73397d8950567f3f5b7a15',1,'cutlass::ZipTileIterator::PredicateVector()'],['../structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21',1,'cutlass::PredicateVector::PredicateVector()']]],
   ['predicatevector_3c_20base_3a_3aiterations_3a_3akw_20_3e',['PredicateVector&lt; Base::Iterations::kW &gt;',['../structcutlass_1_1PredicateVector.html',1,'cutlass']]],
   ['predicatevector_3c_20shapecount_3c_20typename_20base_3a_3aiterations_20_3e_3a_3akcount_20_3e',['PredicateVector&lt; ShapeCount&lt; typename Base::Iterations &gt;::kCount &gt;',['../structcutlass_1_1PredicateVector.html',1,'cutlass']]],
+  ['problem_5fsize',['problem_size',['../structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f',1,'cutlass::gemm::GemmDesc::problem_size()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e',1,'cutlass::gemm::GemmEpilogue::problem_size()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90',1,'cutlass::gemm::GemmTraits::Params::problem_size()']]],
+  ['proj',['proj',['../namespacecutlass_1_1platform.html#a4e57cfad9bf0b78e338d536ff1bdda39',1,'cutlass::platform']]],
   ['project',['project',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html#ae91b2350374f1734a30cbed45e14b8e3',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;::project()'],['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html#a0f1579013f56fe16ebc147271f163c3c',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;::project()'],['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html#af2a323461334a6b55b95074a1973d250',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kC, true &gt;::project()'],['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html#ace04040ccb13af5f9a283ca80ffe93d1',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kD, true &gt;::project()']]],
+  ['project_5fcoordinate',['project_coordinate',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001',1,'cutlass::gemm::GlobalLoadStream']]],
   ['projectoperand',['ProjectOperand',['../structcutlass_1_1gemm_1_1ProjectOperand.html',1,'cutlass::gemm']]],
   ['projectoperand_3c_20gemmoperand_3a_3aka_2c_20kstrided_20_3e',['ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html',1,'cutlass::gemm']]],
   ['projectoperand_3c_20gemmoperand_3a_3akb_2c_20kstrided_20_3e',['ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html',1,'cutlass::gemm']]],
diff --git a/docs/search/classes_1.js b/docs/search/classes_1.js
index 1f2829239b..0894d9a57a 100644
--- a/docs/search/classes_1.js
+++ b/docs/search/classes_1.js
@@ -1,4 +1,5 @@
 var searchData=
 [
+  ['bin1_5ft',['bin1_t',['../structcutlass_1_1bin1__t.html',1,'cutlass']]],
   ['bool_5fconstant',['bool_constant',['../structcutlass_1_1platform_1_1bool__constant.html',1,'cutlass::platform']]]
 ];
diff --git a/docs/search/classes_10.js b/docs/search/classes_10.js
index 348d5341b5..e7ee728ab7 100644
--- a/docs/search/classes_10.js
+++ b/docs/search/classes_10.js
@@ -1,4 +1,35 @@
 var searchData=
 [
-  ['unique_5fptr',['unique_ptr',['../classcutlass_1_1platform_1_1unique__ptr.html',1,'cutlass::platform']]]
+  ['tensorref',['TensorRef',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
+  ['tensorref_3c_20atype_20const_2c_202_20_3e',['TensorRef&lt; AType const, 2 &gt;',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
+  ['tensorref_3c_20btype_20const_2c_202_20_3e',['TensorRef&lt; BType const, 2 &gt;',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
+  ['tensorref_3c_20ctype_20const_2c_202_20_3e',['TensorRef&lt; CType const, 2 &gt;',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
+  ['tensorref_3c_20dtype_2c_202_20_3e',['TensorRef&lt; DType, 2 &gt;',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
+  ['tensorref_3c_20storage_5f_2c_20rank_5f_2c_20mapfunc_5f_2c_201_2c_20index_5f_2c_20longindex_5f_20_3e',['TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;',['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html',1,'cutlass']]],
+  ['tensorrefarray',['TensorRefArray',['../structcutlass_1_1TensorRefArray.html',1,'cutlass']]],
+  ['tensorrefbatchstrided',['TensorRefBatchStrided',['../structcutlass_1_1TensorRefBatchStrided.html',1,'cutlass']]],
+  ['tensorview',['TensorView',['../classcutlass_1_1TensorView.html',1,'cutlass']]],
+  ['threadmultiplyadd',['ThreadMultiplyAdd',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html',1,'cutlass::gemm']]],
+  ['threadmultiplyadd_3c_20threadgemmshape_5f_2c_20threadsperwarp_5f_2c_20half_2c_20half_2c_20float_20_3e',['ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html',1,'cutlass::gemm']]],
+  ['threadmultiplyadd_3c_20threadgemmshape_5f_2c_20threadsperwarp_5f_2c_20half_2c_20half_2c_20half_20_3e',['ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html',1,'cutlass::gemm']]],
+  ['threadmultiplyadd_3c_20threadgemmshape_5f_2c_20threadsperwarp_5f_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e',['ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html',1,'cutlass::gemm']]],
+  ['threadoffset',['ThreadOffset',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html',1,'cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset']]],
+  ['tileallocation',['TileAllocation',['../structcutlass_1_1TileAllocation.html',1,'cutlass']]],
+  ['tilecoord',['TileCoord',['../structcutlass_1_1TileCoord.html',1,'cutlass']]],
+  ['tiledthreadoffset',['TiledThreadOffset',['../structcutlass_1_1TiledThreadOffset.html',1,'cutlass']]],
+  ['tileiteratorbase',['TileIteratorBase',['../structcutlass_1_1TileIteratorBase.html',1,'cutlass']]],
+  ['tileiteratorbase_3c_20tiletraits_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20advance_5f_2c_20memoryspace_2c_20index_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20fragmentelementtype_3a_3akscalar_2c_20shape_3c_200_2c_200_2c_200_2c_200_20_3e_20_3e',['TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;',['../structcutlass_1_1TileIteratorBase.html',1,'cutlass']]],
+  ['tileiteratorbase_3c_20tiletraits_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20iteratoradvance_3a_3akh_2c_20memoryspace_3a_3akglobal_2c_20index_5f_20_3e',['TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;',['../structcutlass_1_1TileIteratorBase.html',1,'cutlass']]],
+  ['tileloaditerator',['TileLoadIterator',['../structcutlass_1_1TileLoadIterator.html',1,'cutlass']]],
+  ['tileloaditerator_3c_20tiletraits_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20tiletraits_5f_3a_3amultiplicandtraits_3a_3akkstrided_20_3f_20iteratoradvance_3a_3akh_20_3aiteratoradvance_3a_3akw_2c_20memoryspace_3a_3akglobal_2c_20index_5f_20_3e',['TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;',['../structcutlass_1_1TileLoadIterator.html',1,'cutlass']]],
+  ['tileloadstream',['TileLoadStream',['../structcutlass_1_1TileLoadStream.html',1,'cutlass']]],
+  ['tilestoreiterator',['TileStoreIterator',['../structcutlass_1_1TileStoreIterator.html',1,'cutlass']]],
+  ['tilestorestream',['TileStoreStream',['../structcutlass_1_1TileStoreStream.html',1,'cutlass']]],
+  ['tiletraits',['TileTraits',['../structcutlass_1_1TileTraits.html',1,'cutlass']]],
+  ['tiletraitscontiguousmajor',['TileTraitsContiguousMajor',['../structcutlass_1_1TileTraitsContiguousMajor.html',1,'cutlass']]],
+  ['tiletraitsstandard',['TileTraitsStandard',['../structcutlass_1_1TileTraitsStandard.html',1,'cutlass']]],
+  ['tiletraitsstridemajor',['TileTraitsStrideMajor',['../structcutlass_1_1TileTraitsStrideMajor.html',1,'cutlass']]],
+  ['tiletraitswarprake',['TileTraitsWarpRake',['../structcutlass_1_1TileTraitsWarpRake.html',1,'cutlass']]],
+  ['trivialiterator',['TrivialIterator',['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html',1,'cutlass::PredicateVector']]],
+  ['trivialpredicatetileadapter',['TrivialPredicateTileAdapter',['../structcutlass_1_1TrivialPredicateTileAdapter.html',1,'cutlass']]]
 ];
diff --git a/docs/search/classes_11.js b/docs/search/classes_11.js
index f0fc149310..3cc4c4962c 100644
--- a/docs/search/classes_11.js
+++ b/docs/search/classes_11.js
@@ -1,10 +1,5 @@
 var searchData=
 [
-  ['vector',['Vector',['../unioncutlass_1_1Vector.html',1,'cutlass']]],
-  ['vector_3c_20half_2c_20klanes_5f_20_3e',['Vector&lt; half, kLanes_ &gt;',['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html',1,'cutlass']]],
-  ['vectorize',['Vectorize',['../structcutlass_1_1Vectorize.html',1,'cutlass']]],
-  ['vectorize_3c_20element_5f_2c_201_20_3e',['Vectorize&lt; Element_, 1 &gt;',['../structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html',1,'cutlass']]],
-  ['vectortraits',['VectorTraits',['../structcutlass_1_1VectorTraits.html',1,'cutlass']]],
-  ['vectortraits_3c_20vector_3c_20t_2c_20lanes_20_3e_20_3e',['VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;',['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html',1,'cutlass']]],
-  ['vectortraits_3c_20vector_3c_20t_2c_20lanes_20_3e_20const_20_3e',['VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;',['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html',1,'cutlass']]]
+  ['uint4_5ft',['uint4_t',['../structcutlass_1_1uint4__t.html',1,'cutlass']]],
+  ['unique_5fptr',['unique_ptr',['../classcutlass_1_1platform_1_1unique__ptr.html',1,'cutlass::platform']]]
 ];
diff --git a/docs/search/classes_12.js b/docs/search/classes_12.js
index dadc97812a..9ce87853dc 100644
--- a/docs/search/classes_12.js
+++ b/docs/search/classes_12.js
@@ -1,5 +1,16 @@
 var searchData=
 [
-  ['wmmagemmglobaliteratorcd',['WmmaGemmGlobalIteratorCd',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html',1,'cutlass::gemm']]],
-  ['wmmagemmglobaliteratorcdtraits',['WmmaGemmGlobalIteratorCdTraits',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html',1,'cutlass::gemm']]]
+  ['vector',['Vector',['../unioncutlass_1_1Vector.html',1,'cutlass']]],
+  ['vector_3c_20bin1_5ft_2c_20klanes_5f_20_3e',['Vector&lt; bin1_t, kLanes_ &gt;',['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vector_3c_20half_2c_201_20_3e',['Vector&lt; half, 1 &gt;',['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html',1,'cutlass']]],
+  ['vector_3c_20half_2c_20klanes_5f_20_3e',['Vector&lt; half, kLanes_ &gt;',['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vector_3c_20int4_5ft_2c_20klanes_5f_20_3e',['Vector&lt; int4_t, kLanes_ &gt;',['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vector_3c_20uint4_5ft_2c_20klanes_5f_20_3e',['Vector&lt; uint4_t, kLanes_ &gt;',['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vectorize',['Vectorize',['../structcutlass_1_1Vectorize.html',1,'cutlass']]],
+  ['vectorize_3c_20vector_3c_20bin1_5ft_2c_2032_20_3e_2c_20klanes_5f_20_3e',['Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;',['../structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vectorize_3c_20vector_3c_20int4_5ft_2c_208_20_3e_2c_20klanes_5f_20_3e',['Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;',['../structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vectorize_3c_20vector_3c_20uint4_5ft_2c_208_20_3e_2c_20klanes_5f_20_3e',['Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;',['../structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html',1,'cutlass']]],
+  ['vectortraits',['VectorTraits',['../structcutlass_1_1VectorTraits.html',1,'cutlass']]],
+  ['vectortraits_3c_20vector_3c_20t_2c_20lanes_20_3e_20_3e',['VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;',['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html',1,'cutlass']]],
+  ['vectortraits_3c_20vector_3c_20t_2c_20lanes_20_3e_20const_20_3e',['VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;',['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html',1,'cutlass']]]
 ];
diff --git a/docs/search/classes_13.html b/docs/search/classes_13.html
new file mode 100644
index 0000000000..c38b027b0c
--- /dev/null
+++ b/docs/search/classes_13.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="classes_13.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/classes_13.js b/docs/search/classes_13.js
new file mode 100644
index 0000000000..dadc97812a
--- /dev/null
+++ b/docs/search/classes_13.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['wmmagemmglobaliteratorcd',['WmmaGemmGlobalIteratorCd',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html',1,'cutlass::gemm']]],
+  ['wmmagemmglobaliteratorcdtraits',['WmmaGemmGlobalIteratorCdTraits',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html',1,'cutlass::gemm']]]
+];
diff --git a/docs/search/classes_14.html b/docs/search/classes_14.html
new file mode 100644
index 0000000000..c978bce032
--- /dev/null
+++ b/docs/search/classes_14.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="classes_14.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/classes_14.js b/docs/search/classes_14.js
new file mode 100644
index 0000000000..352654f41d
--- /dev/null
+++ b/docs/search/classes_14.js
@@ -0,0 +1,8 @@
+var searchData=
+[
+  ['zipconvert',['ZipConvert',['../structcutlass_1_1ZipConvert.html',1,'cutlass']]],
+  ['zipfragment',['ZipFragment',['../structcutlass_1_1ZipFragment.html',1,'cutlass']]],
+  ['ziptensorref',['ZipTensorRef',['../structcutlass_1_1ZipTensorRef.html',1,'cutlass']]],
+  ['ziptileallocation',['ZipTileAllocation',['../structcutlass_1_1ZipTileAllocation.html',1,'cutlass']]],
+  ['ziptileiterator',['ZipTileIterator',['../classcutlass_1_1ZipTileIterator.html',1,'cutlass']]]
+];
diff --git a/docs/search/classes_2.js b/docs/search/classes_2.js
index ee2cf16546..17c358086c 100644
--- a/docs/search/classes_2.js
+++ b/docs/search/classes_2.js
@@ -1,23 +1,29 @@
 var searchData=
 [
   ['clearaccumulators',['ClearAccumulators',['../structcutlass_1_1gemm_1_1ClearAccumulators.html',1,'cutlass::gemm']]],
+  ['columnmajor',['ColumnMajor',['../structcutlass_1_1MatrixLayout_1_1ColumnMajor.html',1,'cutlass::MatrixLayout']]],
+  ['columnmajorblocklinear',['ColumnMajorBlockLinear',['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html',1,'cutlass::MatrixLayout']]],
+  ['columnmajorblockswizzle',['ColumnMajorBlockSwizzle',['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html',1,'cutlass::gemm']]],
+  ['columnmajorinterleaved',['ColumnMajorInterleaved',['../structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html',1,'cutlass::MatrixLayout']]],
+  ['complex',['complex',['../classcutlass_1_1platform_1_1complex.html',1,'cutlass::platform']]],
   ['computeoffsetfromshape',['ComputeOffsetFromShape',['../structcutlass_1_1ComputeOffsetFromShape.html',1,'cutlass']]],
-  ['computeoffsetfromshape_3c_20shape_3c_201_2c_20ksh_5f_2c_20ksw_5f_2c_201_20_3e_20_3e',['ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;',['../structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html',1,'cutlass']]],
-  ['computeoffsetfromshape_3c_20shape_3c_201_2c_20ksh_5f_2c_20ksw_5f_2c_20ksc_5f_20_3e_20_3e',['ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;',['../structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html',1,'cutlass']]],
   ['computeoffsetfromstrides',['ComputeOffsetFromStrides',['../structcutlass_1_1ComputeOffsetFromStrides.html',1,'cutlass']]],
-  ['computeoffsetfromstrides_3c_20shape_3c_201_2c_20s_5fh_5f_2c_20s_5fw_5f_2c_201_20_3e_20_3e',['ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;',['../structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html',1,'cutlass']]],
-  ['computeoffsetfromstrides_3c_20shape_3c_201_2c_20s_5fh_5f_2c_20s_5fw_5f_2c_20s_5fc_5f_20_3e_20_3e',['ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;',['../structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html',1,'cutlass']]],
   ['computethreadoffsetfromstrides',['ComputeThreadOffsetFromStrides',['../structcutlass_1_1ComputeThreadOffsetFromStrides.html',1,'cutlass']]],
   ['computethreadoffsetfromstrides_3c_20shape_3c_201_2c_20t_5fh_5f_2c_20t_5fw_5f_2c_201_20_3e_2c_20shape_3c_201_2c_20s_5fh_5f_2c_20s_5fw_5f_2c_201_20_3e_20_3e',['ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;',['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html',1,'cutlass']]],
   ['computethreadoffsetfromstrides_3c_20shape_3c_201_2c_20t_5fh_5f_2c_20t_5fw_5f_2c_20t_5fc_5f_20_3e_2c_20shape_3c_201_2c_20s_5fh_5f_2c_20s_5fw_5f_2c_20s_5fc_5f_20_3e_20_3e',['ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;',['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html',1,'cutlass']]],
   ['conditional',['conditional',['../structcutlass_1_1platform_1_1conditional.html',1,'cutlass::platform']]],
   ['conditional_3c_20false_2c_20t_2c_20f_20_3e',['conditional&lt; false, T, F &gt;',['../structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html',1,'cutlass::platform']]],
-  ['constiterator',['ConstIterator',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html',1,'cutlass::PredicateVector']]],
+  ['constiterator',['ConstIterator',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html',1,'cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;::ConstIterator'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html',1,'cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html',1,'cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator']]],
   ['constpredicatetileadapter',['ConstPredicateTileAdapter',['../structcutlass_1_1ConstPredicateTileAdapter.html',1,'cutlass']]],
+  ['contiguouslayout',['ContiguousLayout',['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html',1,'cutlass::MatrixLayout']]],
   ['convert',['Convert',['../structcutlass_1_1Convert.html',1,'cutlass']]],
   ['convert_3c_20fragment_3c_20inputscalar_5f_2c_20kscalars_5f_20_3e_2c_20fragment_3c_20outputscalar_5f_2c_20kscalars_5f_20_3e_20_3e',['Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html',1,'cutlass']]],
   ['coord',['Coord',['../structcutlass_1_1Coord.html',1,'cutlass']]],
+  ['coord_3c_202_2c_20int_20_3e',['Coord&lt; 2, int &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
+  ['coord_3c_203_20_3e',['Coord&lt; 3 &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
   ['coord_3c_204_20_3e',['Coord&lt; 4 &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
-  ['coord_3c_20rank_20_3e',['Coord&lt; Rank &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
+  ['coord_3c_204_2c_20index_5f_20_3e',['Coord&lt; 4, Index_ &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
+  ['coord_3c_204_2c_20int_20_3e',['Coord&lt; 4, int &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
+  ['coord_3c_20kstoragerank_20_2d_201_20_3e',['Coord&lt; kStorageRank - 1 &gt;',['../structcutlass_1_1Coord.html',1,'cutlass']]],
   ['copy',['Copy',['../structcutlass_1_1Copy.html',1,'cutlass']]]
 ];
diff --git a/docs/search/classes_3.js b/docs/search/classes_3.js
index ec9fedbdda..9586b5df95 100644
--- a/docs/search/classes_3.js
+++ b/docs/search/classes_3.js
@@ -1,9 +1,12 @@
 var searchData=
 [
+  ['debugtype',['DebugType',['../structDebugType.html',1,'']]],
+  ['debugvalue',['DebugValue',['../structDebugValue.html',1,'']]],
   ['default_5fdelete',['default_delete',['../structcutlass_1_1platform_1_1default__delete.html',1,'cutlass::platform']]],
   ['default_5fdelete_3c_20t_5b_5d_3e',['default_delete&lt; T[]&gt;',['../structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html',1,'cutlass::platform']]],
   ['dgemmconfig',['DgemmConfig',['../structcutlass_1_1gemm_1_1DgemmConfig.html',1,'cutlass::gemm']]],
   ['dgemmtraits',['DgemmTraits',['../structcutlass_1_1gemm_1_1DgemmTraits.html',1,'cutlass::gemm']]],
   ['divide_5fassert',['divide_assert',['../structcutlass_1_1divide__assert.html',1,'cutlass']]],
-  ['dummy',['dummy',['../structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html',1,'cutlass::platform::is_base_of_helper']]]
+  ['dummy',['dummy',['../structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html',1,'cutlass::platform::is_base_of_helper']]],
+  ['dumptype',['DumpType',['../structcutlass_1_1DumpType.html',1,'cutlass']]]
 ];
diff --git a/docs/search/classes_5.js b/docs/search/classes_5.js
index 6202ed097f..8de35f557f 100644
--- a/docs/search/classes_5.js
+++ b/docs/search/classes_5.js
@@ -1,14 +1,11 @@
 var searchData=
 [
+  ['fp16sgemmconfig',['Fp16SgemmConfig',['../structcutlass_1_1gemm_1_1Fp16SgemmConfig.html',1,'cutlass::gemm']]],
+  ['fp16sgemmsgemmtraits',['Fp16SgemmSgemmTraits',['../structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html',1,'cutlass::gemm']]],
   ['fragment',['Fragment',['../structcutlass_1_1Fragment.html',1,'cutlass']]],
   ['fragmentconstiterator',['FragmentConstIterator',['../structcutlass_1_1FragmentConstIterator.html',1,'cutlass']]],
+  ['fragmentelementtype',['FragmentElementType',['../structcutlass_1_1FragmentElementType.html',1,'cutlass']]],
   ['fragmentiterator',['FragmentIterator',['../structcutlass_1_1FragmentIterator.html',1,'cutlass']]],
-  ['fragmentload',['FragmentLoad',['../structcutlass_1_1FragmentLoad.html',1,'cutlass']]],
-  ['fragmentload_3c_20iteratorfragment_3a_3akscalar_2c_20kaccesssize_2c_20scalar_5f_2c_20memory_5f_2c_20fragmentelement_5f_2c_20kstride_20_3e',['FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;',['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html',1,'cutlass']]],
-  ['fragmentload_3c_20iteratorfragment_3a_3akwmmamatrix_2c_20kaccesssize_2c_20scalar_5f_2c_20memory_5f_2c_20fragmentelement_5f_2c_20kstride_20_3e',['FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;',['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html',1,'cutlass']]],
   ['fragmentmultiplyadd',['FragmentMultiplyAdd',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html',1,'cutlass::gemm']]],
-  ['fragmentmultiplyadd_3c_20half_20_3e',['FragmentMultiplyAdd&lt; half &gt;',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html',1,'cutlass::gemm']]],
-  ['fragmentstore',['FragmentStore',['../structcutlass_1_1FragmentStore.html',1,'cutlass']]],
-  ['fragmentstore_3c_20iteratorfragment_3a_3akscalar_2c_20kaccesssize_2c_20scalar_5f_2c_20memory_5f_2c_20fragmentelement_5f_2c_20kstride_20_3e',['FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;',['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html',1,'cutlass']]],
-  ['fragmentstore_3c_20iteratorfragment_3a_3akwmmamatrix_2c_20kaccesssize_2c_20scalar_5f_2c_20memory_5f_2c_20fragmentelement_5f_2c_20kstride_20_3e',['FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;',['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html',1,'cutlass']]]
+  ['fragmentmultiplyadd_3c_20half_2c_20half_2c_20true_20_3e',['FragmentMultiplyAdd&lt; half, half, true &gt;',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html',1,'cutlass::gemm']]]
 ];
diff --git a/docs/search/classes_6.js b/docs/search/classes_6.js
index bc65aaca47..2ec1cb6edb 100644
--- a/docs/search/classes_6.js
+++ b/docs/search/classes_6.js
@@ -2,16 +2,18 @@ var searchData=
 [
   ['gemm',['Gemm',['../structcutlass_1_1gemm_1_1Gemm.html',1,'cutlass::gemm']]],
   ['gemmconfig',['GemmConfig',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
-  ['gemmconfig_3c_20double_2c_20double_2c_20double_2c_20double_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20double_2c_20double_2c_20double_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_202_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_202_2c_201_2c_202_2c_201_2c_202_20_3e',['GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
-  ['gemmconfig_3c_20float_2c_20float_2c_20float_2c_20float_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20float_2c_20float_2c_20float_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_204_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_204_2c_201_2c_204_2c_201_2c_202_20_3e',['GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
-  ['gemmconfig_3c_20half_2c_20half_2c_20half_2c_20half_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20half_2c_20half_2c_20half_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_208_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_208_2c_202_2c_208_2c_202_2c_202_20_3e',['GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
-  ['gemmconfig_3c_20int8_5ft_2c_20int8_5ft_2c_20int8_5ft_2c_20int8_5ft_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_204_2c_202_20_3e',['GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
-  ['gemmconfig_3c_20int8_5ft_2c_20int8_5ft_2c_20scalard_5f_2c_20scalard_5f_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_2016_2c_201_2c_204_2c_201_2c_202_20_3e',['GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20double_2c_20double_2c_20double_2c_20double_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20double_2c_20double_2c_20double_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_202_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_202_2c_201_2c_202_2c_201_2c_202_2c_20false_2c_20false_2c_20false_20_3e',['GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20float_2c_20float_2c_20float_2c_20float_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20float_2c_20float_2c_20float_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_204_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_204_2c_201_2c_204_2c_201_2c_202_2c_20false_2c_20true_2c_20klaunchbounds_20_3e',['GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20half_2c_20half_2c_20half_2c_20half_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20half_2c_20half_2c_20half_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_208_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_208_2c_202_2c_208_2c_202_2c_202_2c_20false_2c_20true_2c_20false_20_3e',['GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20int8_5ft_2c_20int8_5ft_2c_20int8_5ft_2c_20int8_5ft_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_204_2c_202_2c_20false_2c_20true_2c_20false_20_3e',['GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20int8_5ft_2c_20int8_5ft_2c_20scalard_5f_2c_20scalard_5f_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e_2c_204_2c_204_2c_2016_2c_204_2c_204_2c_2016_2c_201_2c_204_2c_201_2c_202_2c_20false_2c_20false_2c_20false_20_3e',['GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmconfig_3c_20scalara_5f_2c_20scalarb_5f_2c_20scalarc_5f_2c_20scalard_5f_2c_20outputtile_5f_2c_20threadmultiplyadd_3c_20threadgemmshape_5f_2c_20shape_3c_201_2c_204_2c_208_20_3e_2c_20scalara_5f_2c_20scalarb_5f_2c_20float_20_3e_2c_20kscalarsperldga_5f_2c_20kscalarsperldga_5f_2c_204_2c_20kscalarsperldgb_5f_2c_20kscalarsperldgb_5f_2c_204_2c_201_2c_204_2c_201_2c_202_20_3e',['GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;',['../structcutlass_1_1gemm_1_1GemmConfig.html',1,'cutlass::gemm']]],
+  ['gemmcoord',['GemmCoord',['../structcutlass_1_1gemm_1_1GemmCoord.html',1,'cutlass::gemm']]],
   ['gemmdesc',['GemmDesc',['../structcutlass_1_1gemm_1_1GemmDesc.html',1,'cutlass::gemm']]],
   ['gemmepilogue',['GemmEpilogue',['../structcutlass_1_1gemm_1_1GemmEpilogue.html',1,'cutlass::gemm']]],
   ['gemmepiloguetraits',['GemmEpilogueTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm']]],
-  ['gemmepiloguetraits_3c_20gemmconfig_5f_3a_3aoutputtile_2c_20gemmconfig_5f_3a_3aaccumulators_2c_20helper_5f_3a_3agloballoaditeratorc_2c_20helper_5f_3a_3aglobaltransformerc_2c_20helper_5f_3a_3aglobaltransformerd_2c_20helper_5f_3a_3aglobalstoreiteratord_2c_20helper_5f_3a_3asharedstoreiteratord_2c_20helper_5f_3a_3asharedstoretransformerd_2c_20helper_5f_3a_3asharedloaditeratord_2c_20helper_5f_3a_3aiterations_2c_20helper_5f_3a_3adelta_2c_20epiloguefunctor_5f_2c_20index_5f_20_3e',['GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm']]],
-  ['gemmepiloguetraits_3c_20igemmconfig_5f_3a_3aoutputtile_2c_20igemmconfig_5f_3a_3aaccumulators_2c_20helper_5f_3a_3agloballoaditeratorc_2c_20helper_5f_3a_3aglobaltransformerc_2c_20helper_5f_3a_3aglobaltransformerd_2c_20helper_5f_3a_3aglobalstoreiteratord_2c_20helper_5f_3a_3asharedstoreiteratord_2c_20helper_5f_3a_3asharedstoretransformerd_2c_20helper_5f_3a_3asharedloaditeratord_2c_20helper_5f_3a_3aiterations_2c_20helper_5f_3a_3adelta_2c_20epiloguefunctor_5f_2c_20index_5f_20_3e',['GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm']]],
+  ['gemmepiloguetraits_3c_20gemmconfig_5f_3a_3aoutputtile_2c_20gemmconfig_5f_3a_3aaccumulators_2c_20helper_5f_3a_3agloballoaditeratorc_2c_20helper_5f_3a_3aglobaltransformerc_2c_20helper_5f_3a_3aglobaltransformerd_2c_20helper_5f_3a_3aglobalstoreiteratord_2c_20helper_5f_3a_3asharedstoreiteratord_2c_20helper_5f_3a_3asharedstoretransformerd_2c_20helper_5f_3a_3asharedloadstreamd_2c_20helper_5f_3a_3aiterations_2c_20helper_5f_3a_3adelta_2c_20epiloguefunctor_5f_2c_20index_5f_20_3e',['GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm']]],
+  ['gemmepiloguetraits_3c_20igemmconfig_5f_3a_3aoutputtile_2c_20igemmconfig_5f_3a_3aaccumulators_2c_20helper_5f_3a_3agloballoaditeratorc_2c_20helper_5f_3a_3aglobaltransformerc_2c_20helper_5f_3a_3aglobaltransformerd_2c_20helper_5f_3a_3aglobalstoreiteratord_2c_20helper_5f_3a_3asharedstoreiteratord_2c_20helper_5f_3a_3asharedstoretransformerd_2c_20helper_5f_3a_3asharedloadstreamd_2c_20helper_5f_3a_3aiterations_2c_20helper_5f_3a_3adelta_2c_20epiloguefunctor_5f_2c_20index_5f_20_3e',['GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html',1,'cutlass::gemm']]],
   ['gemmepiloguetraitshelper',['GemmEpilogueTraitsHelper',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html',1,'cutlass::gemm']]],
   ['gemmepiloguetraitshelper_3c_20igemmconfig_5f_2c_20epiloguefunctor_5f_2c_20index_5f_20_3e',['GemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html',1,'cutlass::gemm']]],
   ['gemmglobaliteratorab',['GemmGlobalIteratorAb',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html',1,'cutlass::gemm']]],
@@ -43,7 +45,7 @@ var searchData=
   ['getextent',['GetExtent',['../structcutlass_1_1gemm_1_1GetExtent.html',1,'cutlass::gemm']]],
   ['getextent_3c_20gemmoperand_3a_3aka_2c_20tile_5f_20_3e',['GetExtent&lt; GemmOperand::kA, Tile_ &gt;',['../structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html',1,'cutlass::gemm']]],
   ['getextent_3c_20gemmoperand_3a_3akb_2c_20tile_5f_20_3e',['GetExtent&lt; GemmOperand::kB, Tile_ &gt;',['../structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html',1,'cutlass::gemm']]],
-  ['globalloadstream',['GlobalLoadStream',['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::GlobalLoadStream'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html',1,'cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;']]],
-  ['globalloadstreambase',['GlobalLoadStreamBase',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html',1,'cutlass::gemm']]],
+  ['globalloadstream',['GlobalLoadStream',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html',1,'cutlass::gemm']]],
+  ['globalloadstreampair',['GlobalLoadStreamPair',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html',1,'cutlass::gemm']]],
   ['greater',['greater',['../structcutlass_1_1platform_1_1greater.html',1,'cutlass::platform']]]
 ];
diff --git a/docs/search/classes_8.js b/docs/search/classes_8.js
index b0bdbcd65e..6ab84b3cf8 100644
--- a/docs/search/classes_8.js
+++ b/docs/search/classes_8.js
@@ -2,9 +2,10 @@ var searchData=
 [
   ['identity',['Identity',['../structcutlass_1_1Identity.html',1,'cutlass']]],
   ['identityblockswizzle',['IdentityBlockSwizzle',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html',1,'cutlass::gemm']]],
+  ['identitytensormapfunc',['IdentityTensorMapFunc',['../structcutlass_1_1IdentityTensorMapFunc.html',1,'cutlass']]],
+  ['identitytensormapfunc_3c_20rank_5f_20_3e',['IdentityTensorMapFunc&lt; Rank_ &gt;',['../structcutlass_1_1IdentityTensorMapFunc.html',1,'cutlass']]],
   ['igemmconfig',['IgemmConfig',['../structcutlass_1_1gemm_1_1IgemmConfig.html',1,'cutlass::gemm']]],
-  ['igemmconfig_3c_20outputtile_5f_2c_20int8_5ft_2c_20accumulatorsperthread_5f_20_3e',['IgemmConfig&lt; OutputTile_, int8_t, AccumulatorsPerThread_ &gt;',['../structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01AccumulatorsPerThread___01_4.html',1,'cutlass::gemm']]],
-  ['igemmcontiguousglobaltiletraits',['IgemmContiguousGlobalTileTraits',['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html',1,'cutlass::gemm']]],
+  ['igemmconfig_3c_20outputtile_5f_2c_20int8_5ft_2c_20threadgemmshape_5f_20_3e',['IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;',['../structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html',1,'cutlass::gemm']]],
   ['igemmepilogue',['IgemmEpilogue',['../structcutlass_1_1gemm_1_1IgemmEpilogue.html',1,'cutlass::gemm']]],
   ['igemmepilogue_3c_20gemmepiloguetraits_5f_2c_20true_20_3e',['IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;',['../structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html',1,'cutlass::gemm']]],
   ['igemmepiloguescalar',['IgemmEpilogueScalar',['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html',1,'cutlass::gemm']]],
@@ -12,17 +13,21 @@ var searchData=
   ['igemmepiloguetraits',['IgemmEpilogueTraits',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html',1,'cutlass::gemm']]],
   ['igemmepiloguetraitshelper',['IgemmEpilogueTraitsHelper',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html',1,'cutlass::gemm']]],
   ['igemmfloattoint8converter',['IgemmFloatToInt8Converter',['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html',1,'cutlass::gemm']]],
+  ['igemmglobaliteratorab',['IgemmGlobalIteratorAb',['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html',1,'cutlass::gemm']]],
   ['igemmgloballoadtransformer',['IgemmGlobalLoadTransformer',['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html',1,'cutlass::gemm']]],
   ['igemmgloballoadtransformer_3c_20fragment_3c_20int8_5ft_2c_20kelements_5f_20_3e_2c_20float_20_3e',['IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;',['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html',1,'cutlass::gemm']]],
   ['igemmglobalstoretransformer',['IgemmGlobalStoreTransformer',['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html',1,'cutlass::gemm']]],
   ['igemmglobalstoretransformer_3c_20float_2c_20fragment_3c_20int8_5ft_2c_20kelements_5f_20_3e_20_3e',['IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;',['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html',1,'cutlass::gemm']]],
+  ['igemmglobaltiletraits',['IgemmGlobalTileTraits',['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html',1,'cutlass::gemm']]],
   ['igemmint8tofloatconverter',['IgemmInt8ToFloatConverter',['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html',1,'cutlass::gemm']]],
   ['igemmsharedstoretransformer',['IgemmSharedStoreTransformer',['../structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html',1,'cutlass::gemm']]],
   ['igemmswizzle',['IgemmSwizzle',['../structcutlass_1_1gemm_1_1IgemmSwizzle.html',1,'cutlass::gemm']]],
   ['igemmtiletraitshelpera',['IgemmTileTraitsHelperA',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html',1,'cutlass::gemm']]],
-  ['igemmtiletraitshelpera_3c_20matrixlayout_3a_3akcolumnmajor_2c_20gemmconfig_5f_20_3e',['IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html',1,'cutlass::gemm']]],
+  ['igemmtiletraitshelpera_3c_20matrixlayout_3a_3akcolumnmajor_2c_20gemmconfig_5f_2c_20index_5f_20_3e',['IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html',1,'cutlass::gemm']]],
+  ['igemmtiletraitshelpera_3c_20matrixlayout_3a_3akrowmajor_2c_20gemmconfig_5f_2c_20index_5f_20_3e',['IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html',1,'cutlass::gemm']]],
   ['igemmtiletraitshelperb',['IgemmTileTraitsHelperB',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html',1,'cutlass::gemm']]],
-  ['igemmtiletraitshelperb_3c_20matrixlayout_3a_3akrowmajor_2c_20gemmconfig_5f_20_3e',['IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html',1,'cutlass::gemm']]],
+  ['igemmtiletraitshelperb_3c_20matrixlayout_3a_3akcolumnmajor_2c_20gemmconfig_5f_2c_20index_5f_20_3e',['IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html',1,'cutlass::gemm']]],
+  ['igemmtiletraitshelperb_3c_20matrixlayout_3a_3akrowmajor_2c_20gemmconfig_5f_2c_20index_5f_20_3e',['IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html',1,'cutlass::gemm']]],
   ['igemmtraits',['IgemmTraits',['../structcutlass_1_1gemm_1_1IgemmTraits.html',1,'cutlass::gemm']]],
   ['igemmtraitshelper',['IgemmTraitsHelper',['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html',1,'cutlass::gemm']]],
   ['igemmtransformera',['IgemmTransformerA',['../structcutlass_1_1gemm_1_1IgemmTransformerA.html',1,'cutlass::gemm']]],
@@ -31,6 +36,7 @@ var searchData=
   ['igemmtransformerb',['IgemmTransformerB',['../structcutlass_1_1gemm_1_1IgemmTransformerB.html',1,'cutlass::gemm']]],
   ['igemmtransformerb_3c_20matrixlayout_3a_3akcolumnmajor_2c_20iterator_5f_20_3e',['IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html',1,'cutlass::gemm']]],
   ['igemmtransformerb_3c_20matrixlayout_3a_3akrowmajor_2c_20iterator_5f_20_3e',['IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;',['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html',1,'cutlass::gemm']]],
+  ['int4_5ft',['int4_t',['../structcutlass_1_1int4__t.html',1,'cutlass']]],
   ['integral_5fconstant',['integral_constant',['../structcutlass_1_1platform_1_1integral__constant.html',1,'cutlass::platform']]],
   ['integral_5fconstant_3c_20bool_2c_20v_20_3e',['integral_constant&lt; bool, V &gt;',['../structcutlass_1_1platform_1_1integral__constant.html',1,'cutlass::platform']]],
   ['integral_5fconstant_3c_20bool_2c_28is_5farithmetic_3c_20t_20_3e_3a_3avalue_7c_7cis_5fvoid_3c_20t_20_3e_3a_3avalue_7c_7cis_5fsame_3c_20nullptr_5ft_2c_20remove_5fcv_3c_20t_20_3e_3a_3atype_20_3e_3a_3avalue_29_3e',['integral_constant&lt; bool,(is_arithmetic&lt; T &gt;::value||is_void&lt; T &gt;::value||is_same&lt; nullptr_t, remove_cv&lt; T &gt;::type &gt;::value)&gt;',['../structcutlass_1_1platform_1_1integral__constant.html',1,'cutlass::platform']]],
@@ -72,6 +78,5 @@ var searchData=
   ['is_5fvolatile',['is_volatile',['../structcutlass_1_1platform_1_1is__volatile.html',1,'cutlass::platform']]],
   ['is_5fvolatile_3c_20volatile_20t_20_3e',['is_volatile&lt; volatile T &gt;',['../structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html',1,'cutlass::platform']]],
   ['iterator',['Iterator',['../classcutlass_1_1PredicateVector_1_1Iterator.html',1,'cutlass::PredicateVector']]],
-  ['iteratoradvance',['IteratorAdvance',['../structcutlass_1_1IteratorAdvance.html',1,'cutlass']]],
-  ['iteratorfragment',['IteratorFragment',['../structcutlass_1_1IteratorFragment.html',1,'cutlass']]]
+  ['iteratoradvance',['IteratorAdvance',['../structcutlass_1_1IteratorAdvance.html',1,'cutlass']]]
 ];
diff --git a/docs/search/classes_9.js b/docs/search/classes_9.js
index cf0d35f6dc..3274ef182c 100644
--- a/docs/search/classes_9.js
+++ b/docs/search/classes_9.js
@@ -1,14 +1,4 @@
 var searchData=
 [
-  ['less',['less',['../structcutlass_1_1platform_1_1less.html',1,'cutlass::platform']]],
-  ['linearscaling',['LinearScaling',['../structcutlass_1_1gemm_1_1LinearScaling.html',1,'cutlass::gemm']]],
-  ['load',['Load',['../structcutlass_1_1Load.html',1,'cutlass']]],
-  ['load_3c_20double_2c_202_2c_20memory_5f_2c_20true_2c_2016_20_3e',['Load&lt; double, 2, Memory_, true, 16 &gt;',['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html',1,'cutlass']]],
-  ['load_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_2016_20_3e',['Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html',1,'cutlass']]],
-  ['load_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_204_20_3e',['Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html',1,'cutlass']]],
-  ['load_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_208_20_3e',['Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html',1,'cutlass']]],
-  ['log2_5fdown',['log2_down',['../structcutlass_1_1log2__down.html',1,'cutlass']]],
-  ['log2_5fdown_3c_20n_2c_201_2c_20count_20_3e',['log2_down&lt; N, 1, Count &gt;',['../structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html',1,'cutlass']]],
-  ['log2_5fup',['log2_up',['../structcutlass_1_1log2__up.html',1,'cutlass']]],
-  ['log2_5fup_3c_20n_2c_201_2c_20count_20_3e',['log2_up&lt; N, 1, Count &gt;',['../structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html',1,'cutlass']]]
+  ['kernellaunchconfiguration',['KernelLaunchConfiguration',['../structcutlass_1_1KernelLaunchConfiguration.html',1,'cutlass']]]
 ];
diff --git a/docs/search/classes_a.js b/docs/search/classes_a.js
index 0556c78d05..4d8f0bda23 100644
--- a/docs/search/classes_a.js
+++ b/docs/search/classes_a.js
@@ -1,6 +1,22 @@
 var searchData=
 [
-  ['mainloopsharedstorage',['MainLoopSharedStorage',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html',1,'cutlass::gemm::GemmTraits']]],
-  ['matrixlayout',['MatrixLayout',['../structcutlass_1_1MatrixLayout.html',1,'cutlass']]],
-  ['memoryspace',['MemorySpace',['../structcutlass_1_1MemorySpace.html',1,'cutlass']]]
+  ['launch',['Launch',['../structcutlass_1_1gemm_1_1Launch.html',1,'cutlass::gemm']]],
+  ['launch_3c_20gemm_2c_20false_20_3e',['Launch&lt; Gemm, false &gt;',['../structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html',1,'cutlass::gemm']]],
+  ['less',['less',['../structcutlass_1_1platform_1_1less.html',1,'cutlass::platform']]],
+  ['linearscaling',['LinearScaling',['../structcutlass_1_1gemm_1_1LinearScaling.html',1,'cutlass::gemm']]],
+  ['linearscalingdeviceptr',['LinearScalingDevicePtr',['../structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html',1,'cutlass::gemm']]],
+  ['load',['Load',['../structcutlass_1_1Load.html',1,'cutlass']]],
+  ['load_3c_20double_2c_202_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20double_2c_20kstride_2c_2016_20_3e',['Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;',['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html',1,'cutlass']]],
+  ['load_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_201_2c_202_20_3e',['Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html',1,'cutlass']]],
+  ['load_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_2016_20_3e',['Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html',1,'cutlass']]],
+  ['load_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_204_20_3e',['Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html',1,'cutlass']]],
+  ['load_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_208_20_3e',['Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html',1,'cutlass']]],
+  ['load_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akwmmamatrix_2c_20fragmentelement_5f_2c_20kstride_2c_20size_20_3e',['Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;',['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html',1,'cutlass']]],
+  ['load_3c_20vector_3c_20bin1_5ft_2c_2032_20_3e_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akwmmamatrix_2c_20fragmentelement_5f_2c_20kstride_2c_20size_20_3e',['Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;',['../structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html',1,'cutlass']]],
+  ['load_3c_20vector_3c_20int4_5ft_2c_208_20_3e_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akwmmamatrix_2c_20fragmentelement_5f_2c_20kstride_2c_20size_20_3e',['Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;',['../structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html',1,'cutlass']]],
+  ['load_3c_20vector_3c_20uint4_5ft_2c_208_20_3e_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akwmmamatrix_2c_20fragmentelement_5f_2c_20kstride_2c_20size_20_3e',['Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;',['../structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html',1,'cutlass']]],
+  ['log2_5fdown',['log2_down',['../structcutlass_1_1log2__down.html',1,'cutlass']]],
+  ['log2_5fdown_3c_20n_2c_201_2c_20count_20_3e',['log2_down&lt; N, 1, Count &gt;',['../structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html',1,'cutlass']]],
+  ['log2_5fup',['log2_up',['../structcutlass_1_1log2__up.html',1,'cutlass']]],
+  ['log2_5fup_3c_20n_2c_201_2c_20count_20_3e',['log2_up&lt; N, 1, Count &gt;',['../structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html',1,'cutlass']]]
 ];
diff --git a/docs/search/classes_b.js b/docs/search/classes_b.js
index 02d4e0ba88..1077a1097c 100644
--- a/docs/search/classes_b.js
+++ b/docs/search/classes_b.js
@@ -1,4 +1,10 @@
 var searchData=
 [
-  ['nullptr_5ft',['nullptr_t',['../structcutlass_1_1platform_1_1nullptr__t.html',1,'cutlass::platform']]]
+  ['mainloopsharedstorage',['MainLoopSharedStorage',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html',1,'cutlass::gemm::GemmTraits']]],
+  ['matrixcoord',['MatrixCoord',['../structcutlass_1_1MatrixCoord.html',1,'cutlass']]],
+  ['matrixlayout',['MatrixLayout',['../structcutlass_1_1MatrixLayout.html',1,'cutlass']]],
+  ['matrixtransform',['MatrixTransform',['../structcutlass_1_1MatrixTransform.html',1,'cutlass']]],
+  ['max',['Max',['../structcutlass_1_1Max.html',1,'cutlass']]],
+  ['memoryspace',['MemorySpace',['../structcutlass_1_1MemorySpace.html',1,'cutlass']]],
+  ['min',['Min',['../structcutlass_1_1Min.html',1,'cutlass']]]
 ];
diff --git a/docs/search/classes_c.js b/docs/search/classes_c.js
index 5b7a2f9977..02d4e0ba88 100644
--- a/docs/search/classes_c.js
+++ b/docs/search/classes_c.js
@@ -1,15 +1,4 @@
 var searchData=
 [
-  ['pad',['pad',['../structcutlass_1_1platform_1_1alignment__of_1_1pad.html',1,'cutlass::platform::alignment_of']]],
-  ['params',['Params',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html',1,'cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1TileIteratorBase_1_1Params.html',1,'cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html',1,'cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1TileLoadIterator_1_1Params.html',1,'cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params'],['../structcutlass_1_1TileStoreIterator_1_1Params.html',1,'cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params'],['../structcutlass_1_1gemm_1_1Gemm_1_1Params.html',1,'cutlass::gemm::Gemm&lt; GemmTraits_ &gt;::Params'],['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html',1,'cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html',1,'cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html',1,'cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params']]],
-  ['plus',['plus',['../structcutlass_1_1platform_1_1plus.html',1,'cutlass::platform']]],
-  ['predicatetileadapter',['PredicateTileAdapter',['../structcutlass_1_1PredicateTileAdapter.html',1,'cutlass']]],
-  ['predicatevector',['PredicateVector',['../structcutlass_1_1PredicateVector.html',1,'cutlass']]],
-  ['predicatevector_3c_20base_3a_3aiterations_3a_3akw_20_3e',['PredicateVector&lt; Base::Iterations::kW &gt;',['../structcutlass_1_1PredicateVector.html',1,'cutlass']]],
-  ['predicatevector_3c_20shapecount_3c_20typename_20base_3a_3aiterations_20_3e_3a_3akcount_20_3e',['PredicateVector&lt; ShapeCount&lt; typename Base::Iterations &gt;::kCount &gt;',['../structcutlass_1_1PredicateVector.html',1,'cutlass']]],
-  ['projectoperand',['ProjectOperand',['../structcutlass_1_1gemm_1_1ProjectOperand.html',1,'cutlass::gemm']]],
-  ['projectoperand_3c_20gemmoperand_3a_3aka_2c_20kstrided_20_3e',['ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html',1,'cutlass::gemm']]],
-  ['projectoperand_3c_20gemmoperand_3a_3akb_2c_20kstrided_20_3e',['ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html',1,'cutlass::gemm']]],
-  ['projectoperand_3c_20gemmoperand_3a_3akc_2c_20true_20_3e',['ProjectOperand&lt; GemmOperand::kC, true &gt;',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html',1,'cutlass::gemm']]],
-  ['projectoperand_3c_20gemmoperand_3a_3akd_2c_20true_20_3e',['ProjectOperand&lt; GemmOperand::kD, true &gt;',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html',1,'cutlass::gemm']]]
+  ['nullptr_5ft',['nullptr_t',['../structcutlass_1_1platform_1_1nullptr__t.html',1,'cutlass::platform']]]
 ];
diff --git a/docs/search/classes_d.js b/docs/search/classes_d.js
index b7e543fbac..3b3d2af537 100644
--- a/docs/search/classes_d.js
+++ b/docs/search/classes_d.js
@@ -1,12 +1,17 @@
 var searchData=
 [
-  ['remove_5fconst',['remove_const',['../structcutlass_1_1platform_1_1remove__const.html',1,'cutlass::platform']]],
-  ['remove_5fconst_3c_20const_20t_20_3e',['remove_const&lt; const T &gt;',['../structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html',1,'cutlass::platform']]],
-  ['remove_5fcv',['remove_cv',['../structcutlass_1_1platform_1_1remove__cv.html',1,'cutlass::platform']]],
-  ['remove_5fvolatile',['remove_volatile',['../structcutlass_1_1platform_1_1remove__volatile.html',1,'cutlass::platform']]],
-  ['remove_5fvolatile_3c_20volatile_20t_20_3e',['remove_volatile&lt; volatile T &gt;',['../structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html',1,'cutlass::platform']]],
-  ['reshapethreads',['ReshapeThreads',['../structcutlass_1_1gemm_1_1ReshapeThreads.html',1,'cutlass::gemm']]],
-  ['reshapethreads_3c_20tile_5f_2c_20threads_5f_2c_20true_20_3e',['ReshapeThreads&lt; Tile_, Threads_, true &gt;',['../structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html',1,'cutlass::gemm']]],
-  ['reshapetile',['ReshapeTile',['../structcutlass_1_1ReshapeTile.html',1,'cutlass']]],
-  ['reshapetile_3c_20tile_5f_2c_20kaccesssize_5f_2c_20true_20_3e',['ReshapeTile&lt; Tile_, kAccessSize_, true &gt;',['../structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html',1,'cutlass']]]
+  ['pad',['pad',['../structcutlass_1_1platform_1_1alignment__of_1_1pad.html',1,'cutlass::platform::alignment_of']]],
+  ['params',['Params',['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html',1,'cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html',1,'cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html',1,'cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1ZipTileIterator_1_1Params.html',1,'cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html',1,'cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html',1,'cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html',1,'cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html',1,'cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params'],['../structcutlass_1_1TileIteratorBase_1_1Params.html',1,'cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params'],['../structcutlass_1_1TileLoadIterator_1_1Params.html',1,'cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params'],['../structcutlass_1_1TileStoreIterator_1_1Params.html',1,'cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params'],['../structcutlass_1_1TileLoadStream_1_1Params.html',1,'cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1TileStoreStream_1_1Params.html',1,'cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params'],['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html',1,'cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;::Params']]],
+  ['plus',['plus',['../structcutlass_1_1platform_1_1plus.html',1,'cutlass::platform']]],
+  ['predicatedtileloadstream',['PredicatedTileLoadStream',['../structcutlass_1_1PredicatedTileLoadStream.html',1,'cutlass']]],
+  ['predicatedtilestorestream',['PredicatedTileStoreStream',['../structcutlass_1_1PredicatedTileStoreStream.html',1,'cutlass']]],
+  ['predicatetileadapter',['PredicateTileAdapter',['../structcutlass_1_1PredicateTileAdapter.html',1,'cutlass']]],
+  ['predicatevector',['PredicateVector',['../structcutlass_1_1TileLoadStream_1_1PredicateVector.html',1,'cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::PredicateVector'],['../structcutlass_1_1PredicateVector.html',1,'cutlass::PredicateVector&lt; kPredicates_, kPredicatesPerByte_, kPredicateStart_ &gt;'],['../structcutlass_1_1TileStoreStream_1_1PredicateVector.html',1,'cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::PredicateVector']]],
+  ['predicatevector_3c_20base_3a_3aiterations_3a_3akw_20_3e',['PredicateVector&lt; Base::Iterations::kW &gt;',['../structcutlass_1_1PredicateVector.html',1,'cutlass']]],
+  ['predicatevector_3c_20shapecount_3c_20typename_20base_3a_3aiterations_20_3e_3a_3akcount_20_3e',['PredicateVector&lt; ShapeCount&lt; typename Base::Iterations &gt;::kCount &gt;',['../structcutlass_1_1PredicateVector.html',1,'cutlass']]],
+  ['projectoperand',['ProjectOperand',['../structcutlass_1_1gemm_1_1ProjectOperand.html',1,'cutlass::gemm']]],
+  ['projectoperand_3c_20gemmoperand_3a_3aka_2c_20kstrided_20_3e',['ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html',1,'cutlass::gemm']]],
+  ['projectoperand_3c_20gemmoperand_3a_3akb_2c_20kstrided_20_3e',['ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html',1,'cutlass::gemm']]],
+  ['projectoperand_3c_20gemmoperand_3a_3akc_2c_20true_20_3e',['ProjectOperand&lt; GemmOperand::kC, true &gt;',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html',1,'cutlass::gemm']]],
+  ['projectoperand_3c_20gemmoperand_3a_3akd_2c_20true_20_3e',['ProjectOperand&lt; GemmOperand::kD, true &gt;',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html',1,'cutlass::gemm']]]
 ];
diff --git a/docs/search/classes_e.js b/docs/search/classes_e.js
index 82b7413055..449489f172 100644
--- a/docs/search/classes_e.js
+++ b/docs/search/classes_e.js
@@ -1,34 +1,17 @@
 var searchData=
 [
-  ['sgemmconfig',['SgemmConfig',['../structcutlass_1_1gemm_1_1SgemmConfig.html',1,'cutlass::gemm']]],
-  ['sgemmtraits',['SgemmTraits',['../structcutlass_1_1gemm_1_1SgemmTraits.html',1,'cutlass::gemm']]],
-  ['shape',['Shape',['../structcutlass_1_1Shape.html',1,'cutlass']]],
-  ['shapeadd',['ShapeAdd',['../structcutlass_1_1ShapeAdd.html',1,'cutlass']]],
-  ['shapecount',['ShapeCount',['../structcutlass_1_1ShapeCount.html',1,'cutlass']]],
-  ['shapediv',['ShapeDiv',['../structcutlass_1_1ShapeDiv.html',1,'cutlass']]],
-  ['shapemax',['ShapeMax',['../structcutlass_1_1ShapeMax.html',1,'cutlass']]],
-  ['shapemin',['ShapeMin',['../structcutlass_1_1ShapeMin.html',1,'cutlass']]],
-  ['shapemul',['ShapeMul',['../structcutlass_1_1ShapeMul.html',1,'cutlass']]],
-  ['shapescale',['ShapeScale',['../structcutlass_1_1ShapeScale.html',1,'cutlass']]],
-  ['shapestrides',['ShapeStrides',['../structcutlass_1_1ShapeStrides.html',1,'cutlass']]],
-  ['shapesub',['ShapeSub',['../structcutlass_1_1ShapeSub.html',1,'cutlass']]],
-  ['sharedloadstream',['SharedLoadStream',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedLoadStream'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html',1,'cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;']]],
-  ['sharedstorage',['SharedStorage',['../structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html',1,'cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;::SharedStorage'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage'],['../unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage'],['../unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html',1,'cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage']]],
-  ['simplifiedgemmepiloguetraits',['SimplifiedGemmEpilogueTraits',['../structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html',1,'cutlass::gemm']]],
-  ['simplifiedgemmtraits',['SimplifiedGemmTraits',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html',1,'cutlass::gemm']]],
-  ['simplifiedgemmtraits_3c_20klayouta_5f_2c_20klayoutb_5f_2c_20gemmconfig_5f_2c_20gemmepilogue_3c_20gemmepiloguetraits_5f_20_3e_2c_20index_5f_20_3e',['SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, Index_ &gt;',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html',1,'cutlass::gemm']]],
-  ['simplifiedgemmtraitshelper',['SimplifiedGemmTraitsHelper',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html',1,'cutlass::gemm']]],
-  ['sqrt_5fest',['sqrt_est',['../structcutlass_1_1sqrt__est.html',1,'cutlass']]],
-  ['storagetype',['StorageType',['../structcutlass_1_1StorageType.html',1,'cutlass']]],
-  ['storagetype_3c_201_20_3e',['StorageType&lt; 1 &gt;',['../structcutlass_1_1StorageType_3_011_01_4.html',1,'cutlass']]],
-  ['storagetype_3c_202_20_3e',['StorageType&lt; 2 &gt;',['../structcutlass_1_1StorageType_3_012_01_4.html',1,'cutlass']]],
-  ['storagetype_3c_204_20_3e',['StorageType&lt; 4 &gt;',['../structcutlass_1_1StorageType_3_014_01_4.html',1,'cutlass']]],
-  ['store',['Store',['../structcutlass_1_1Store.html',1,'cutlass']]],
-  ['store_3c_20double_2c_202_2c_20memory_5f_2c_20true_2c_2016_20_3e',['Store&lt; double, 2, Memory_, true, 16 &gt;',['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html',1,'cutlass']]],
-  ['store_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_2016_20_3e',['Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html',1,'cutlass']]],
-  ['store_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_204_20_3e',['Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html',1,'cutlass']]],
-  ['store_3c_20scalar_5f_2c_20lanes_5f_2c_20memory_5f_2c_20true_2c_208_20_3e',['Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html',1,'cutlass']]],
-  ['streamsharedstorage',['StreamSharedStorage',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::StreamSharedStorage&lt; GlobalLoadStream_, SharedLoadStream_ &gt;'],['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage']]],
-  ['streamsharedstorage_3c_20globalloadstreama_2c_20sharedloadstreama_20_3e',['StreamSharedStorage&lt; GlobalLoadStreamA, SharedLoadStreamA &gt;',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html',1,'cutlass::gemm::GemmTraits']]],
-  ['streamsharedstorage_3c_20globalloadstreamb_2c_20sharedloadstreamb_20_3e',['StreamSharedStorage&lt; GlobalLoadStreamB, SharedLoadStreamB &gt;',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html',1,'cutlass::gemm::GemmTraits']]]
+  ['regulartilepredicatefunctor',['RegularTilePredicateFunctor',['../structcutlass_1_1RegularTilePredicateFunctor.html',1,'cutlass']]],
+  ['remove_5fconst',['remove_const',['../structcutlass_1_1platform_1_1remove__const.html',1,'cutlass::platform']]],
+  ['remove_5fconst_3c_20const_20t_20_3e',['remove_const&lt; const T &gt;',['../structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html',1,'cutlass::platform']]],
+  ['remove_5fcv',['remove_cv',['../structcutlass_1_1platform_1_1remove__cv.html',1,'cutlass::platform']]],
+  ['remove_5fvolatile',['remove_volatile',['../structcutlass_1_1platform_1_1remove__volatile.html',1,'cutlass::platform']]],
+  ['remove_5fvolatile_3c_20volatile_20t_20_3e',['remove_volatile&lt; volatile T &gt;',['../structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html',1,'cutlass::platform']]],
+  ['reshapethreads',['ReshapeThreads',['../structcutlass_1_1gemm_1_1ReshapeThreads.html',1,'cutlass::gemm']]],
+  ['reshapethreads_3c_20tile_5f_2c_20threads_5f_2c_20true_20_3e',['ReshapeThreads&lt; Tile_, Threads_, true &gt;',['../structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html',1,'cutlass::gemm']]],
+  ['reshapetile',['ReshapeTile',['../structcutlass_1_1ReshapeTile.html',1,'cutlass']]],
+  ['reshapetile_3c_20tile_5f_2c_20kaccesssize_5f_2c_20true_20_3e',['ReshapeTile&lt; Tile_, kAccessSize_, true &gt;',['../structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html',1,'cutlass']]],
+  ['rowmajor',['RowMajor',['../structcutlass_1_1MatrixLayout_1_1RowMajor.html',1,'cutlass::MatrixLayout']]],
+  ['rowmajorblocklinear',['RowMajorBlockLinear',['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html',1,'cutlass::MatrixLayout']]],
+  ['rowmajorblockswizzle',['RowMajorBlockSwizzle',['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html',1,'cutlass::gemm']]],
+  ['rowmajorinterleaved',['RowMajorInterleaved',['../structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html',1,'cutlass::MatrixLayout']]]
 ];
diff --git a/docs/search/classes_f.js b/docs/search/classes_f.js
index 72998f5343..d7c546da09 100644
--- a/docs/search/classes_f.js
+++ b/docs/search/classes_f.js
@@ -1,24 +1,44 @@
 var searchData=
 [
-  ['tensorref',['TensorRef',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
-  ['tensorref_3c_20t_2c_204_20_3e',['TensorRef&lt; T, 4 &gt;',['../classcutlass_1_1TensorRef.html',1,'cutlass']]],
-  ['tensorview',['TensorView',['../classcutlass_1_1TensorView.html',1,'cutlass']]],
-  ['threadmultiplyadd',['ThreadMultiplyAdd',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html',1,'cutlass::gemm']]],
-  ['threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20threadsperwarp_5f_2c_20half_2c_20half_2c_20half_20_3e',['ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html',1,'cutlass::gemm']]],
-  ['threadmultiplyadd_3c_20accumulatorsperthread_5f_2c_20threadsperwarp_5f_2c_20int8_5ft_2c_20int8_5ft_2c_20int_20_3e',['ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html',1,'cutlass::gemm']]],
-  ['threadoffset',['ThreadOffset',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_ &gt;::ThreadOffset'],['../structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html',1,'cutlass::TileTraitsWarpRake&lt; Tile_, Threads &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits&lt; Scalar_, Tile_, Threads_, kScalarsPerSts_, kSkew_ &gt;::ThreadOffset'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset']]],
-  ['tiledthreadoffset',['TiledThreadOffset',['../structcutlass_1_1TiledThreadOffset.html',1,'cutlass']]],
-  ['tileiteratorbase',['TileIteratorBase',['../structcutlass_1_1TileIteratorBase.html',1,'cutlass']]],
-  ['tileiteratorbase_3c_20tiletraits_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20advance_5f_2c_20memoryspace_2c_20index_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20iteratorfragment_3a_3akscalar_2c_20shape_3c_200_2c_200_2c_200_2c_200_20_3e_20_3e',['TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;',['../structcutlass_1_1TileIteratorBase.html',1,'cutlass']]],
-  ['tileiteratorbase_3c_20tiletraits_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20iteratoradvance_3a_3akh_2c_20memoryspace_3a_3akglobal_2c_20index_5f_20_3e',['TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;',['../structcutlass_1_1TileIteratorBase.html',1,'cutlass']]],
-  ['tileloaditerator',['TileLoadIterator',['../structcutlass_1_1TileLoadIterator.html',1,'cutlass']]],
-  ['tileloaditerator_3c_20tiletraits_5f_2c_20tiletraits_5f_3a_3ascalar_2c_20tiletraits_5f_3a_3amultiplicandtraits_3a_3akkstrided_20_3f_20iteratoradvance_3a_3akh_20_3aiteratoradvance_3a_3akw_2c_20memoryspace_3a_3akglobal_2c_20index_5f_20_3e',['TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;',['../structcutlass_1_1TileLoadIterator.html',1,'cutlass']]],
-  ['tilestoreiterator',['TileStoreIterator',['../structcutlass_1_1TileStoreIterator.html',1,'cutlass']]],
-  ['tiletraits',['TileTraits',['../structcutlass_1_1TileTraits.html',1,'cutlass']]],
-  ['tiletraitscontiguousmajor',['TileTraitsContiguousMajor',['../structcutlass_1_1TileTraitsContiguousMajor.html',1,'cutlass']]],
-  ['tiletraitsstandard',['TileTraitsStandard',['../structcutlass_1_1TileTraitsStandard.html',1,'cutlass']]],
-  ['tiletraitsstridemajor',['TileTraitsStrideMajor',['../structcutlass_1_1TileTraitsStrideMajor.html',1,'cutlass']]],
-  ['tiletraitswarprake',['TileTraitsWarpRake',['../structcutlass_1_1TileTraitsWarpRake.html',1,'cutlass']]],
-  ['trivialiterator',['TrivialIterator',['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html',1,'cutlass::PredicateVector']]],
-  ['trivialpredicatetileadapter',['TrivialPredicateTileAdapter',['../structcutlass_1_1TrivialPredicateTileAdapter.html',1,'cutlass']]]
+  ['scalario',['ScalarIO',['../structcutlass_1_1ScalarIO.html',1,'cutlass']]],
+  ['scalarorpointer',['ScalarOrPointer',['../classcutlass_1_1detail_1_1ScalarOrPointer.html',1,'cutlass::detail']]],
+  ['scalarorpointer_3c_20scalar_20_3e',['ScalarOrPointer&lt; Scalar &gt;',['../classcutlass_1_1detail_1_1ScalarOrPointer.html',1,'cutlass::detail']]],
+  ['sgemmconfig',['SgemmConfig',['../structcutlass_1_1gemm_1_1SgemmConfig.html',1,'cutlass::gemm']]],
+  ['sgemmlbtraits',['SgemmLBTraits',['../structcutlass_1_1gemm_1_1SgemmLBTraits.html',1,'cutlass::gemm']]],
+  ['sgemmtraits',['SgemmTraits',['../structcutlass_1_1gemm_1_1SgemmTraits.html',1,'cutlass::gemm']]],
+  ['shape',['Shape',['../structcutlass_1_1Shape.html',1,'cutlass']]],
+  ['shapeadd',['ShapeAdd',['../structcutlass_1_1ShapeAdd.html',1,'cutlass']]],
+  ['shapecount',['ShapeCount',['../structcutlass_1_1ShapeCount.html',1,'cutlass']]],
+  ['shapediv',['ShapeDiv',['../structcutlass_1_1ShapeDiv.html',1,'cutlass']]],
+  ['shapedivceiling',['ShapeDivCeiling',['../structcutlass_1_1ShapeDivCeiling.html',1,'cutlass']]],
+  ['shapemax',['ShapeMax',['../structcutlass_1_1ShapeMax.html',1,'cutlass']]],
+  ['shapemin',['ShapeMin',['../structcutlass_1_1ShapeMin.html',1,'cutlass']]],
+  ['shapemul',['ShapeMul',['../structcutlass_1_1ShapeMul.html',1,'cutlass']]],
+  ['shapescale',['ShapeScale',['../structcutlass_1_1ShapeScale.html',1,'cutlass']]],
+  ['shapestrides',['ShapeStrides',['../structcutlass_1_1ShapeStrides.html',1,'cutlass']]],
+  ['shapesub',['ShapeSub',['../structcutlass_1_1ShapeSub.html',1,'cutlass']]],
+  ['sharedloadstream',['SharedLoadStream',['../structcutlass_1_1gemm_1_1SharedLoadStream.html',1,'cutlass::gemm']]],
+  ['sharedstorage',['SharedStorage',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html',1,'cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html',1,'cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage'],['../unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html',1,'cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage'],['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html',1,'cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage'],['../structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html',1,'cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;::SharedStorage']]],
+  ['sharedstreampair',['SharedStreamPair',['../structcutlass_1_1gemm_1_1SharedStreamPair.html',1,'cutlass::gemm']]],
+  ['simplifiedgemmepiloguetraits',['SimplifiedGemmEpilogueTraits',['../structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html',1,'cutlass::gemm']]],
+  ['simplifiedgemmtraits',['SimplifiedGemmTraits',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html',1,'cutlass::gemm']]],
+  ['simplifiedgemmtraits_3c_20klayouta_5f_2c_20klayoutb_5f_2c_20gemmconfig_5f_2c_20gemmepilogue_3c_20gemmepiloguetraits_5f_20_3e_2c_20index_5f_20_3e',['SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, Index_ &gt;',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html',1,'cutlass::gemm']]],
+  ['simplifiedgemmtraitshelper',['SimplifiedGemmTraitsHelper',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html',1,'cutlass::gemm']]],
+  ['sqrt_5fest',['sqrt_est',['../structcutlass_1_1sqrt__est.html',1,'cutlass']]],
+  ['storagetype',['StorageType',['../structcutlass_1_1StorageType.html',1,'cutlass']]],
+  ['storagetype_3c_201_20_3e',['StorageType&lt; 1 &gt;',['../structcutlass_1_1StorageType_3_011_01_4.html',1,'cutlass']]],
+  ['storagetype_3c_202_20_3e',['StorageType&lt; 2 &gt;',['../structcutlass_1_1StorageType_3_012_01_4.html',1,'cutlass']]],
+  ['storagetype_3c_204_20_3e',['StorageType&lt; 4 &gt;',['../structcutlass_1_1StorageType_3_014_01_4.html',1,'cutlass']]],
+  ['storagetype_3c_20kalignment_5f_20_3e',['StorageType&lt; kAlignment_ &gt;',['../structcutlass_1_1StorageType.html',1,'cutlass']]],
+  ['storagetype_3c_20sizeof_28scalar_29_3e',['StorageType&lt; sizeof(Scalar)&gt;',['../structcutlass_1_1StorageType.html',1,'cutlass']]],
+  ['store',['Store',['../structcutlass_1_1Store.html',1,'cutlass']]],
+  ['store_3c_20double_2c_202_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20double_2c_20kstride_2c_2016_20_3e',['Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;',['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html',1,'cutlass']]],
+  ['store_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_201_2c_202_20_3e',['Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html',1,'cutlass']]],
+  ['store_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_2016_20_3e',['Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html',1,'cutlass']]],
+  ['store_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_204_20_3e',['Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html',1,'cutlass']]],
+  ['store_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akscalar_2c_20scalar_5f_2c_20kstride_2c_208_20_3e',['Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html',1,'cutlass']]],
+  ['store_3c_20scalar_5f_2c_20kaccesssize_2c_20memory_5f_2c_20fragmentelementtype_3a_3akwmmamatrix_2c_20fragmentelement_5f_2c_20kstride_2c_20size_20_3e',['Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;',['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html',1,'cutlass']]],
+  ['streamsharedstorage',['StreamSharedStorage',['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html',1,'cutlass::gemm::GemmEpilogueTraits']]],
+  ['stridevector',['StrideVector',['../structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;']]],
+  ['swizzledirection',['swizzleDirection',['../structcutlass_1_1gemm_1_1swizzleDirection.html',1,'cutlass::gemm']]]
 ];
diff --git a/docs/search/defines_1.js b/docs/search/defines_1.js
index f59274bcf9..45043b3275 100644
--- a/docs/search/defines_1.js
+++ b/docs/search/defines_1.js
@@ -7,6 +7,7 @@ var searchData=
   ['cuda_5fperror_5fdebug',['CUDA_PERROR_DEBUG',['../debug_8h.html#a36436f5408940a47ac5cdfc9b31648db',1,'debug.h']]],
   ['cuda_5fperror_5fexit',['CUDA_PERROR_EXIT',['../debug_8h.html#a002632ff687c83cff0484476be401f05',1,'debug.h']]],
   ['cutlass_5fassert',['CUTLASS_ASSERT',['../cutlass_8h.html#a0159b8e4cd578881a1ccfd0921516af7',1,'cutlass.h']]],
+  ['cutlass_5fgemm_5floop',['CUTLASS_GEMM_LOOP',['../cutlass_8h.html#a8e18ced39c05ab3304bb4fcdc0cc9f71',1,'cutlass.h']]],
   ['cutlass_5fhost_5fdevice',['CUTLASS_HOST_DEVICE',['../cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1',1,'cutlass.h']]],
   ['cutlass_5fmajor',['CUTLASS_MAJOR',['../cutlass_8h.html#a8ff3cda9323810c1c504793a0206d4b8',1,'cutlass.h']]],
   ['cutlass_5fminor',['CUTLASS_MINOR',['../cutlass_8h.html#ad114a1ab01f73833ea00020ffb7bcea7',1,'cutlass.h']]],
diff --git a/docs/search/enums_0.js b/docs/search/enums_0.js
index 73c94c1fec..a0c2b03ea4 100644
--- a/docs/search/enums_0.js
+++ b/docs/search/enums_0.js
@@ -1,4 +1,4 @@
 var searchData=
 [
-  ['kind',['Kind',['../structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375',1,'cutlass::Identity::Kind()'],['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c',1,'cutlass::MemorySpace::Kind()'],['../structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b',1,'cutlass::MatrixLayout::Kind()'],['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c',1,'cutlass::GemmOperand::Kind()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda',1,'cutlass::IteratorAdvance::Kind()'],['../structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80',1,'cutlass::IteratorFragment::Kind()']]]
+  ['kind',['Kind',['../structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375',1,'cutlass::Identity::Kind()'],['../structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8',1,'cutlass::gemm::swizzleDirection::Kind()'],['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c',1,'cutlass::MemorySpace::Kind()'],['../structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b',1,'cutlass::FragmentElementType::Kind()'],['../structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b',1,'cutlass::MatrixLayout::Kind()'],['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c',1,'cutlass::GemmOperand::Kind()'],['../structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48',1,'cutlass::MatrixTransform::Kind()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda',1,'cutlass::IteratorAdvance::Kind()']]]
 ];
diff --git a/docs/search/enumvalues_1.js b/docs/search/enumvalues_1.js
index b06592d018..8764845d73 100644
--- a/docs/search/enumvalues_1.js
+++ b/docs/search/enumvalues_1.js
@@ -1,19 +1,4 @@
 var searchData=
 [
-  ['ka',['kA',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a',1,'cutlass::GemmOperand']]],
-  ['kb',['kB',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9',1,'cutlass::GemmOperand']]],
-  ['kc',['kC',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc',1,'cutlass::GemmOperand']]],
-  ['kcolumnmajor',['kColumnMajor',['../structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b',1,'cutlass::MatrixLayout']]],
-  ['kd',['kD',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe',1,'cutlass::GemmOperand::kD()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5',1,'cutlass::IteratorAdvance::kD()']]],
-  ['kgeneric',['kGeneric',['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38',1,'cutlass::MemorySpace']]],
-  ['kglobal',['kGlobal',['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37',1,'cutlass::MemorySpace']]],
-  ['kh',['kH',['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81',1,'cutlass::IteratorAdvance']]],
-  ['klanes',['kLanes',['../unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27',1,'cutlass::Vector::kLanes()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#aa70d2fd36f00b63d321c1f7b6d6c3024ad242b575673ca1bf9cf311e58a966392',1,'cutlass::Vector&lt; half, kLanes_ &gt;::kLanes()']]],
-  ['krequiresloadfence',['kRequiresLoadFence',['../structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc',1,'cutlass::TileLoadIterator']]],
-  ['krowmajor',['kRowMajor',['../structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb',1,'cutlass::MatrixLayout']]],
-  ['kscalar',['kScalar',['../structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80aeca44a186befa21ccae44eb4dc7b6954',1,'cutlass::IteratorFragment']]],
-  ['kshared',['kShared',['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc',1,'cutlass::MemorySpace']]],
-  ['kvectorsize',['kVectorSize',['../unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e',1,'cutlass::Vector::kVectorSize()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#adc4140a7e40be1e4f81c78a657c7ba73abfbb3cf98db2f8af7150efb91cac4e79',1,'cutlass::Vector&lt; half, kLanes_ &gt;::kVectorSize()']]],
-  ['kw',['kW',['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0',1,'cutlass::IteratorAdvance']]],
-  ['kwmmamatrix',['kWmmaMatrix',['../structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419',1,'cutlass::IteratorFragment']]]
+  ['boustrophedon',['Boustrophedon',['../structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa',1,'cutlass::gemm::swizzleDirection']]]
 ];
diff --git a/docs/search/enumvalues_2.js b/docs/search/enumvalues_2.js
index d96aad12a1..0528e4bc64 100644
--- a/docs/search/enumvalues_2.js
+++ b/docs/search/enumvalues_2.js
@@ -1,4 +1,21 @@
 var searchData=
 [
-  ['multiplicative',['Multiplicative',['../structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597',1,'cutlass::Identity']]]
+  ['ka',['kA',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a',1,'cutlass::GemmOperand']]],
+  ['kb',['kB',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9',1,'cutlass::GemmOperand']]],
+  ['kc',['kC',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc',1,'cutlass::GemmOperand']]],
+  ['kcolumnmajor',['kColumnMajor',['../structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b',1,'cutlass::MatrixLayout']]],
+  ['kconjugate',['kConjugate',['../structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683',1,'cutlass::MatrixTransform']]],
+  ['kd',['kD',['../structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca49eef82461e44c96462f9c4dbaab71fe',1,'cutlass::GemmOperand::kD()'],['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5',1,'cutlass::IteratorAdvance::kD()']]],
+  ['kgeneric',['kGeneric',['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38',1,'cutlass::MemorySpace']]],
+  ['kglobal',['kGlobal',['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37',1,'cutlass::MemorySpace']]],
+  ['kh',['kH',['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81',1,'cutlass::IteratorAdvance']]],
+  ['klanes',['kLanes',['../unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27',1,'cutlass::Vector::kLanes()'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a27410a8095bb82f682612954df4d6182a3a12b2fbef9007373a03125ec3c1c393',1,'cutlass::Vector&lt; half, 1 &gt;::kLanes()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#acfa6821aefbd38a1b7c44e5d83eda05fad242b575673ca1bf9cf311e58a966392',1,'cutlass::Vector&lt; half, kLanes_ &gt;::kLanes()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a4020f25408022dbf20c26ed4fa8c7dffa14befaa9d739f1b754bc372f717b105b',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::kLanes()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a322ddd3ec1f47b76e21c24d3a3c44c5badeba151dbcb3c15e581bad7d767a93fa',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::kLanes()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a9aacb7538f1b83762d68c768629c98eba17b71e816051646b567cf47334649a9b',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::kLanes()']]],
+  ['knone',['kNone',['../structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5',1,'cutlass::MatrixTransform']]],
+  ['krequiresloadfence',['kRequiresLoadFence',['../structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126',1,'cutlass::TileLoadIterator']]],
+  ['krowmajor',['kRowMajor',['../structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb',1,'cutlass::MatrixLayout']]],
+  ['kscalar',['kScalar',['../structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b',1,'cutlass::FragmentElementType']]],
+  ['kshared',['kShared',['../structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc',1,'cutlass::MemorySpace']]],
+  ['kvectorsize',['kVectorSize',['../unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e',1,'cutlass::Vector::kVectorSize()'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a0c3d44e7c726aabf23d57094475fcc22aa12662bfb46ed10de12f168219ce0a8d',1,'cutlass::Vector&lt; half, 1 &gt;::kVectorSize()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a42288bc8b85cd3f40aafbe7549a5285babfbb3cf98db2f8af7150efb91cac4e79',1,'cutlass::Vector&lt; half, kLanes_ &gt;::kVectorSize()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#ad75d72ca210d77ae82b8aa4bed04fed0ab98f21cd2645378ad0a840727b7edaff',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::kVectorSize()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a01e23040ab8cea016e3709f55c2089fdaf9fe4d6ac4ee913780e3361dde6c80d6',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::kVectorSize()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a722f7852892c56613ea5027610523d8bab0655ce225f020ac27580efa249f6acb',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::kVectorSize()']]],
+  ['kw',['kW',['../structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0',1,'cutlass::IteratorAdvance']]],
+  ['kwmmamatrix',['kWmmaMatrix',['../structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd',1,'cutlass::FragmentElementType']]]
 ];
diff --git a/docs/search/enumvalues_3.js b/docs/search/enumvalues_3.js
index 254df8ef6e..d96aad12a1 100644
--- a/docs/search/enumvalues_3.js
+++ b/docs/search/enumvalues_3.js
@@ -1,4 +1,4 @@
 var searchData=
 [
-  ['value',['value',['../structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d',1,'cutlass::log2_down::value()'],['../structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html#ad7d3c2329ab708bd4af36ffaee8509cba282c4c5d8f66dc49544f34071f148b1f',1,'cutlass::log2_down&lt; N, 1, Count &gt;::value()'],['../structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6',1,'cutlass::log2_up::value()'],['../structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html#ab001737f02df0a2c514334a1bfa6f1f9a6b6af5b6bf14ee5d3e3f1442e7f75117',1,'cutlass::log2_up&lt; N, 1, Count &gt;::value()'],['../structcutlass_1_1sqrt__est.html#abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964',1,'cutlass::sqrt_est::value()'],['../structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc',1,'cutlass::divide_assert::value()'],['../structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83',1,'cutlass::platform::alignment_of::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html#a6005c446eb41749276e0114b82abd990a5b0129d0f9bb45f1c56506efbbb22b6f',1,'cutlass::platform::alignment_of&lt; int4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html#ac55e0c5a0bc4c95981744e55ee7580cea807729922944eede573430b20ad4b322',1,'cutlass::platform::alignment_of&lt; uint4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html#ac9e709c32271b14b35c9607c64835a95a6a6ee3f24f4d123fc7c138fe5b776f2e',1,'cutlass::platform::alignment_of&lt; float4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html#ad58512f76f0b9b000d48f1ff869a0547a3d020dd8ba5c735a60d7c2c897e158f5',1,'cutlass::platform::alignment_of&lt; long4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html#adc0eec628649de183fe984bb46898830a8152a79c27d055dc3d0b8d662c0bc96a',1,'cutlass::platform::alignment_of&lt; ulong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html#aadf6522691db02f1aab22c22716f0793a940fa73dc4f0a49b78e4e0cefaf4775d',1,'cutlass::platform::alignment_of&lt; longlong2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html#a511f088278b3de04feb55ab60bdc5a09a58b5cc7be52956c43c2966af5887db80',1,'cutlass::platform::alignment_of&lt; ulonglong2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html#a5fb114d264023728cca5364401bd6929a7b89d57c8009e094f69ff57e196d8318',1,'cutlass::platform::alignment_of&lt; double2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html#a666c4fd30155873e3499f5cdc11782daafc1a7c2bb5e6483d42d380a2b4fd9561',1,'cutlass::platform::alignment_of&lt; longlong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html#a2568c1ab218cab6505bd20e3c2c420ffa54f6e1afec0ed30b18ab79fd6faf81b5',1,'cutlass::platform::alignment_of&lt; ulonglong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html#a024eaf40a8f3e8bd38b416868e0c68bca5a60b16666306472e92ad1320473ba85',1,'cutlass::platform::alignment_of&lt; double4 &gt;::value()']]]
+  ['multiplicative',['Multiplicative',['../structcutlass_1_1Identity.html#a37966282c824c6d0e32b432275ea8375af0cc1d8a713958a86af1063595604597',1,'cutlass::Identity']]]
 ];
diff --git a/docs/search/enumvalues_4.html b/docs/search/enumvalues_4.html
new file mode 100644
index 0000000000..3f50abb8be
--- /dev/null
+++ b/docs/search/enumvalues_4.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="enumvalues_4.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/enumvalues_4.js b/docs/search/enumvalues_4.js
new file mode 100644
index 0000000000..dfa8823a14
--- /dev/null
+++ b/docs/search/enumvalues_4.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['onedirection',['OneDirection',['../structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5',1,'cutlass::gemm::swizzleDirection']]]
+];
diff --git a/docs/search/enumvalues_5.html b/docs/search/enumvalues_5.html
new file mode 100644
index 0000000000..b6f20f2922
--- /dev/null
+++ b/docs/search/enumvalues_5.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="enumvalues_5.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/enumvalues_5.js b/docs/search/enumvalues_5.js
new file mode 100644
index 0000000000..254df8ef6e
--- /dev/null
+++ b/docs/search/enumvalues_5.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['value',['value',['../structcutlass_1_1log2__down.html#a793565cd891559fab765455e847171dca23d1b50f2f02e1026d4b5dc7ebd6880d',1,'cutlass::log2_down::value()'],['../structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html#ad7d3c2329ab708bd4af36ffaee8509cba282c4c5d8f66dc49544f34071f148b1f',1,'cutlass::log2_down&lt; N, 1, Count &gt;::value()'],['../structcutlass_1_1log2__up.html#a5826002505544547d0c5cc311c2338e3a09591054a7c9b184769d579c56dd09d6',1,'cutlass::log2_up::value()'],['../structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html#ab001737f02df0a2c514334a1bfa6f1f9a6b6af5b6bf14ee5d3e3f1442e7f75117',1,'cutlass::log2_up&lt; N, 1, Count &gt;::value()'],['../structcutlass_1_1sqrt__est.html#abe44577e3d8f34fc07bb9ecf89b25b11a2e73d046302be2504f50c08d788e9964',1,'cutlass::sqrt_est::value()'],['../structcutlass_1_1divide__assert.html#a20e8b8a803c6b5cfe636724760442e33ab924a64662c2eb917b1dd4ca31fdd2dc',1,'cutlass::divide_assert::value()'],['../structcutlass_1_1platform_1_1alignment__of.html#aa1d40937d3536b68e90c580765821389aa36284864bc3d1f73d3bf73cd8da7c83',1,'cutlass::platform::alignment_of::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html#a6005c446eb41749276e0114b82abd990a5b0129d0f9bb45f1c56506efbbb22b6f',1,'cutlass::platform::alignment_of&lt; int4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html#ac55e0c5a0bc4c95981744e55ee7580cea807729922944eede573430b20ad4b322',1,'cutlass::platform::alignment_of&lt; uint4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html#ac9e709c32271b14b35c9607c64835a95a6a6ee3f24f4d123fc7c138fe5b776f2e',1,'cutlass::platform::alignment_of&lt; float4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html#ad58512f76f0b9b000d48f1ff869a0547a3d020dd8ba5c735a60d7c2c897e158f5',1,'cutlass::platform::alignment_of&lt; long4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html#adc0eec628649de183fe984bb46898830a8152a79c27d055dc3d0b8d662c0bc96a',1,'cutlass::platform::alignment_of&lt; ulong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html#aadf6522691db02f1aab22c22716f0793a940fa73dc4f0a49b78e4e0cefaf4775d',1,'cutlass::platform::alignment_of&lt; longlong2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html#a511f088278b3de04feb55ab60bdc5a09a58b5cc7be52956c43c2966af5887db80',1,'cutlass::platform::alignment_of&lt; ulonglong2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html#a5fb114d264023728cca5364401bd6929a7b89d57c8009e094f69ff57e196d8318',1,'cutlass::platform::alignment_of&lt; double2 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html#a666c4fd30155873e3499f5cdc11782daafc1a7c2bb5e6483d42d380a2b4fd9561',1,'cutlass::platform::alignment_of&lt; longlong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html#a2568c1ab218cab6505bd20e3c2c420ffa54f6e1afec0ed30b18ab79fd6faf81b5',1,'cutlass::platform::alignment_of&lt; ulonglong4 &gt;::value()'],['../structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html#a024eaf40a8f3e8bd38b416868e0c68bca5a60b16666306472e92ad1320473ba85',1,'cutlass::platform::alignment_of&lt; double4 &gt;::value()']]]
+];
diff --git a/docs/search/files_0.js b/docs/search/files_0.js
index 0ba05c30ad..455c8c4509 100644
--- a/docs/search/files_0.js
+++ b/docs/search/files_0.js
@@ -1,6 +1,7 @@
 var searchData=
 [
   ['clear_5faccumulators_2eh',['clear_accumulators.h',['../clear__accumulators_8h.html',1,'']]],
+  ['complex_2eh',['complex.h',['../complex_8h.html',1,'']]],
   ['convert_2eh',['convert.h',['../convert_8h.html',1,'']]],
   ['coord_2eh',['coord.h',['../coord_8h.html',1,'']]],
   ['core_5fio_2eh',['core_io.h',['../core__io_8h.html',1,'']]],
diff --git a/docs/search/files_10.html b/docs/search/files_10.html
new file mode 100644
index 0000000000..0ffd7bf01a
--- /dev/null
+++ b/docs/search/files_10.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="files_10.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/files_10.js b/docs/search/files_10.js
new file mode 100644
index 0000000000..1e59cee52f
--- /dev/null
+++ b/docs/search/files_10.js
@@ -0,0 +1,6 @@
+var searchData=
+[
+  ['zip_5ffragment_2eh',['zip_fragment.h',['../zip__fragment_8h.html',1,'']]],
+  ['zip_5ftensor_5fref_2eh',['zip_tensor_ref.h',['../zip__tensor__ref_8h.html',1,'']]],
+  ['zip_5ftile_5fiterator_2eh',['zip_tile_iterator.h',['../zip__tile__iterator_8h.html',1,'']]]
+];
diff --git a/docs/search/files_2.js b/docs/search/files_2.js
index a34177fed4..664fc205cf 100644
--- a/docs/search/files_2.js
+++ b/docs/search/files_2.js
@@ -1,6 +1,7 @@
 var searchData=
 [
+  ['fp16_5fsgemm_5fmultiply_5fadd_2eh',['fp16_sgemm_multiply_add.h',['../fp16__sgemm__multiply__add_8h.html',1,'']]],
+  ['fp16_5fsgemm_5ftraits_2eh',['fp16_sgemm_traits.h',['../fp16__sgemm__traits_8h.html',1,'']]],
   ['fragment_2eh',['fragment.h',['../fragment_8h.html',1,'']]],
-  ['fragment_5fload_5fstore_2eh',['fragment_load_store.h',['../fragment__load__store_8h.html',1,'']]],
   ['fragment_5fmultiply_5fadd_2eh',['fragment_multiply_add.h',['../fragment__multiply__add_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_3.js b/docs/search/files_3.js
index 0c2ade3e70..e377b0b3f8 100644
--- a/docs/search/files_3.js
+++ b/docs/search/files_3.js
@@ -1,6 +1,9 @@
 var searchData=
 [
   ['gemm_2eh',['gemm.h',['../gemm_8h.html',1,'']]],
+  ['gemm_5fconfig_2eh',['gemm_config.h',['../gemm__config_8h.html',1,'']]],
+  ['gemm_5fcoord_2eh',['gemm_coord.h',['../gemm__coord_8h.html',1,'']]],
+  ['gemm_5fdesc_2eh',['gemm_desc.h',['../gemm__desc_8h.html',1,'']]],
   ['gemm_5fepilogue_2eh',['gemm_epilogue.h',['../gemm__epilogue_8h.html',1,'']]],
   ['gemm_5fepilogue_5ftraits_2eh',['gemm_epilogue_traits.h',['../gemm__epilogue__traits_8h.html',1,'']]],
   ['gemm_5fglobal_5fstream_2eh',['gemm_global_stream.h',['../gemm__global__stream_8h.html',1,'']]],
@@ -8,5 +11,6 @@ var searchData=
   ['gemm_5foperand_2eh',['gemm_operand.h',['../gemm__operand_8h.html',1,'']]],
   ['gemm_5fshared_5fstream_2eh',['gemm_shared_stream.h',['../gemm__shared__stream_8h.html',1,'']]],
   ['gemm_5fshared_5ftile_2eh',['gemm_shared_tile.h',['../gemm__shared__tile_8h.html',1,'']]],
+  ['gemm_5fstream_5fpair_2eh',['gemm_stream_pair.h',['../gemm__stream__pair_8h.html',1,'']]],
   ['gemm_5ftraits_2eh',['gemm_traits.h',['../gemm__traits_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_5.js b/docs/search/files_5.js
index 6e82d0ebed..696f4b3b19 100644
--- a/docs/search/files_5.js
+++ b/docs/search/files_5.js
@@ -1,6 +1,5 @@
 var searchData=
 [
-  ['identity_5fblock_5fswizzle_2eh',['identity_block_swizzle.h',['../identity__block__swizzle_8h.html',1,'']]],
   ['igemm_5fepilogue_2eh',['igemm_epilogue.h',['../igemm__epilogue_8h.html',1,'']]],
   ['igemm_5fglobal_5ftile_2eh',['igemm_global_tile.h',['../igemm__global__tile_8h.html',1,'']]],
   ['igemm_5fmultiply_5fadd_2eh',['igemm_multiply_add.h',['../igemm__multiply__add_8h.html',1,'']]],
diff --git a/docs/search/files_6.js b/docs/search/files_6.js
index 20c8aded98..2c6d691e7c 100644
--- a/docs/search/files_6.js
+++ b/docs/search/files_6.js
@@ -1,5 +1,4 @@
 var searchData=
 [
-  ['linear_5fscaling_2eh',['linear_scaling.h',['../linear__scaling_8h.html',1,'']]],
-  ['load_5fstore_2eh',['load_store.h',['../load__store_8h.html',1,'']]]
+  ['kernel_5flaunch_2eh',['kernel_launch.h',['../kernel__launch_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_7.js b/docs/search/files_7.js
index c9a077bce4..79230be979 100644
--- a/docs/search/files_7.js
+++ b/docs/search/files_7.js
@@ -1,4 +1,6 @@
 var searchData=
 [
-  ['matrix_5ftraits_2eh',['matrix_traits.h',['../matrix__traits_8h.html',1,'']]]
+  ['linear_5fscaling_2eh',['linear_scaling.h',['../linear__scaling_8h.html',1,'']]],
+  ['linear_5fscaling_5fdevice_5fptr_2eh',['linear_scaling_device_ptr.h',['../linear__scaling__device__ptr_8h.html',1,'']]],
+  ['load_5fstore_2eh',['load_store.h',['../load__store_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_8.js b/docs/search/files_8.js
index b0cdc6b74a..c9a077bce4 100644
--- a/docs/search/files_8.js
+++ b/docs/search/files_8.js
@@ -1,5 +1,4 @@
 var searchData=
 [
-  ['platform_2eh',['platform.h',['../platform_8h.html',1,'']]],
-  ['predicate_5fvector_2eh',['predicate_vector.h',['../predicate__vector_8h.html',1,'']]]
+  ['matrix_5ftraits_2eh',['matrix_traits.h',['../matrix__traits_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_9.js b/docs/search/files_9.js
index e3c39a100a..0808acef9f 100644
--- a/docs/search/files_9.js
+++ b/docs/search/files_9.js
@@ -1,4 +1,4 @@
 var searchData=
 [
-  ['reshape_5ftile_2eh',['reshape_tile.h',['../reshape__tile_8h.html',1,'']]]
+  ['numeric_5ftypes_2eh',['numeric_types.h',['../numeric__types_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_a.js b/docs/search/files_a.js
index 5ee4742487..b0cdc6b74a 100644
--- a/docs/search/files_a.js
+++ b/docs/search/files_a.js
@@ -1,5 +1,5 @@
 var searchData=
 [
-  ['sgemm_5ftraits_2eh',['sgemm_traits.h',['../sgemm__traits_8h.html',1,'']]],
-  ['shape_2eh',['shape.h',['../shape_8h.html',1,'']]]
+  ['platform_2eh',['platform.h',['../platform_8h.html',1,'']]],
+  ['predicate_5fvector_2eh',['predicate_vector.h',['../predicate__vector_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_b.js b/docs/search/files_b.js
index f443994e64..e3c39a100a 100644
--- a/docs/search/files_b.js
+++ b/docs/search/files_b.js
@@ -1,8 +1,4 @@
 var searchData=
 [
-  ['tensor_5fref_2eh',['tensor_ref.h',['../tensor__ref_8h.html',1,'']]],
-  ['tensor_5fview_2eh',['tensor_view.h',['../tensor__view_8h.html',1,'']]],
-  ['thread_5fmultiply_5fadd_2eh',['thread_multiply_add.h',['../thread__multiply__add_8h.html',1,'']]],
-  ['tile_5fiterator_2eh',['tile_iterator.h',['../tile__iterator_8h.html',1,'']]],
-  ['tile_5ftraits_5fstandard_2eh',['tile_traits_standard.h',['../tile__traits__standard_8h.html',1,'']]]
+  ['reshape_5ftile_2eh',['reshape_tile.h',['../reshape__tile_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_c.js b/docs/search/files_c.js
index 4edbbe3921..cb299f5feb 100644
--- a/docs/search/files_c.js
+++ b/docs/search/files_c.js
@@ -1,4 +1,6 @@
 var searchData=
 [
-  ['vector_2eh',['vector.h',['../vector_8h.html',1,'']]]
+  ['scalar_5for_5fpointer_2eh',['scalar_or_pointer.h',['../scalar__or__pointer_8h.html',1,'']]],
+  ['sgemm_5ftraits_2eh',['sgemm_traits.h',['../sgemm__traits_8h.html',1,'']]],
+  ['shape_2eh',['shape.h',['../shape_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_d.js b/docs/search/files_d.js
index 732797da7c..7043d69e9f 100644
--- a/docs/search/files_d.js
+++ b/docs/search/files_d.js
@@ -1,9 +1,13 @@
 var searchData=
 [
-  ['wmma_5fgemm_5fepilogue_5ftraits_2eh',['wmma_gemm_epilogue_traits.h',['../wmma__gemm__epilogue__traits_8h.html',1,'']]],
-  ['wmma_5fgemm_5fglobal_5ftile_2eh',['wmma_gemm_global_tile.h',['../wmma__gemm__global__tile_8h.html',1,'']]],
-  ['wmma_5fgemm_5fmultiply_5fadd_2eh',['wmma_gemm_multiply_add.h',['../wmma__gemm__multiply__add_8h.html',1,'']]],
-  ['wmma_5fgemm_5fshared_5ftile_2eh',['wmma_gemm_shared_tile.h',['../wmma__gemm__shared__tile_8h.html',1,'']]],
-  ['wmma_5fgemm_5ftraits_2eh',['wmma_gemm_traits.h',['../wmma__gemm__traits_8h.html',1,'']]],
-  ['wmma_5fmatrix_2eh',['wmma_matrix.h',['../wmma__matrix_8h.html',1,'']]]
+  ['tensor_5fref_2eh',['tensor_ref.h',['../tensor__ref_8h.html',1,'']]],
+  ['tensor_5fref_5fcollection_2eh',['tensor_ref_collection.h',['../tensor__ref__collection_8h.html',1,'']]],
+  ['tensor_5fview_2eh',['tensor_view.h',['../tensor__view_8h.html',1,'']]],
+  ['thread_5fmultiply_5fadd_2eh',['thread_multiply_add.h',['../thread__multiply__add_8h.html',1,'']]],
+  ['threadblock_5fswizzle_2eh',['threadblock_swizzle.h',['../threadblock__swizzle_8h.html',1,'']]],
+  ['tile_5fallocation_2eh',['tile_allocation.h',['../tile__allocation_8h.html',1,'']]],
+  ['tile_5fcoord_2eh',['tile_coord.h',['../tile__coord_8h.html',1,'']]],
+  ['tile_5fiterator_2eh',['tile_iterator.h',['../tile__iterator_8h.html',1,'']]],
+  ['tile_5fstream_2eh',['tile_stream.h',['../tile__stream_8h.html',1,'']]],
+  ['tile_5ftraits_5fstandard_2eh',['tile_traits_standard.h',['../tile__traits__standard_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_e.js b/docs/search/files_e.js
index 732797da7c..4edbbe3921 100644
--- a/docs/search/files_e.js
+++ b/docs/search/files_e.js
@@ -1,9 +1,4 @@
 var searchData=
 [
-  ['wmma_5fgemm_5fepilogue_5ftraits_2eh',['wmma_gemm_epilogue_traits.h',['../wmma__gemm__epilogue__traits_8h.html',1,'']]],
-  ['wmma_5fgemm_5fglobal_5ftile_2eh',['wmma_gemm_global_tile.h',['../wmma__gemm__global__tile_8h.html',1,'']]],
-  ['wmma_5fgemm_5fmultiply_5fadd_2eh',['wmma_gemm_multiply_add.h',['../wmma__gemm__multiply__add_8h.html',1,'']]],
-  ['wmma_5fgemm_5fshared_5ftile_2eh',['wmma_gemm_shared_tile.h',['../wmma__gemm__shared__tile_8h.html',1,'']]],
-  ['wmma_5fgemm_5ftraits_2eh',['wmma_gemm_traits.h',['../wmma__gemm__traits_8h.html',1,'']]],
-  ['wmma_5fmatrix_2eh',['wmma_matrix.h',['../wmma__matrix_8h.html',1,'']]]
+  ['vector_2eh',['vector.h',['../vector_8h.html',1,'']]]
 ];
diff --git a/docs/search/files_f.html b/docs/search/files_f.html
new file mode 100644
index 0000000000..30cd09be23
--- /dev/null
+++ b/docs/search/files_f.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="files_f.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/files_f.js b/docs/search/files_f.js
new file mode 100644
index 0000000000..732797da7c
--- /dev/null
+++ b/docs/search/files_f.js
@@ -0,0 +1,9 @@
+var searchData=
+[
+  ['wmma_5fgemm_5fepilogue_5ftraits_2eh',['wmma_gemm_epilogue_traits.h',['../wmma__gemm__epilogue__traits_8h.html',1,'']]],
+  ['wmma_5fgemm_5fglobal_5ftile_2eh',['wmma_gemm_global_tile.h',['../wmma__gemm__global__tile_8h.html',1,'']]],
+  ['wmma_5fgemm_5fmultiply_5fadd_2eh',['wmma_gemm_multiply_add.h',['../wmma__gemm__multiply__add_8h.html',1,'']]],
+  ['wmma_5fgemm_5fshared_5ftile_2eh',['wmma_gemm_shared_tile.h',['../wmma__gemm__shared__tile_8h.html',1,'']]],
+  ['wmma_5fgemm_5ftraits_2eh',['wmma_gemm_traits.h',['../wmma__gemm__traits_8h.html',1,'']]],
+  ['wmma_5fmatrix_2eh',['wmma_matrix.h',['../wmma__matrix_8h.html',1,'']]]
+];
diff --git a/docs/search/functions_0.js b/docs/search/functions_0.js
index 9bb68b7cf6..60c7988db6 100644
--- a/docs/search/functions_0.js
+++ b/docs/search/functions_0.js
@@ -1,4 +1,5 @@
 var searchData=
 [
-  ['_5f_5falign_5f_5f',['__align__',['../namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8',1,'cutlass::platform::__align__(1) aligned_chunk&lt; 1 &gt;'],['../namespacecutlass_1_1platform.html#a0bcb016704ec57f9499e662ba6156f98',1,'cutlass::platform::__align__(2) aligned_chunk&lt; 2 &gt;'],['../namespacecutlass_1_1platform.html#a71be5af25eeffa4077777f919e67d8da',1,'cutlass::platform::__align__(4) aligned_chunk&lt; 4 &gt;'],['../namespacecutlass_1_1platform.html#a42440254a16d4b6b95b95cc3360ee372',1,'cutlass::platform::__align__(8) aligned_chunk&lt; 8 &gt;'],['../namespacecutlass_1_1platform.html#a91d5e970d6ebe619914f40a9510bdb1e',1,'cutlass::platform::__align__(16) aligned_chunk&lt; 16 &gt;'],['../namespacecutlass_1_1platform.html#a210f4d360b1f9c3d074e71129fe4c0d9',1,'cutlass::platform::__align__(32) aligned_chunk&lt; 32 &gt;'],['../namespacecutlass_1_1platform.html#ae792b1c7ada1a33e306cd552f583bdce',1,'cutlass::platform::__align__(64) aligned_chunk&lt; 64 &gt;'],['../namespacecutlass_1_1platform.html#a5712ec4fed335a9b7f863fb3abe3c5eb',1,'cutlass::platform::__align__(128) aligned_chunk&lt; 128 &gt;'],['../namespacecutlass_1_1platform.html#a595cc98db29fb4d59772d2e2f52e347a',1,'cutlass::platform::__align__(256) aligned_chunk&lt; 256 &gt;'],['../namespacecutlass_1_1platform.html#ae70bb5d14a66500b47d2e3f83063d4a5',1,'cutlass::platform::__align__(512) aligned_chunk&lt; 512 &gt;'],['../namespacecutlass_1_1platform.html#a181e44e9c66f704175590727aaa9e5a1',1,'cutlass::platform::__align__(1024) aligned_chunk&lt; 1024 &gt;'],['../namespacecutlass_1_1platform.html#ae72c8fa997bb251d4140dceb03147154',1,'cutlass::platform::__align__(2048) aligned_chunk&lt; 2048 &gt;'],['../namespacecutlass_1_1platform.html#ada29683f1b408ae7b73cc8fbe2108628',1,'cutlass::platform::__align__(4096) aligned_chunk&lt; 4096 &gt;'],['../namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706',1,'cutlass::__align__(1) AlignedStruct&lt; 1 &gt;'],['../namespacecutlass.html#a602227fad962270da185209ecc6012f2',1,'cutlass::__align__(2) AlignedStruct&lt; 2 &gt;'],['../namespacecutlass.html#a266d7d2ae6e79537e46ee37b4fdface7',1,'cutlass::__align__(4) AlignedStruct&lt; 4 &gt;'],['../namespacecutlass.html#a1101e01215ddb0e5a7b120a4541a3c4e',1,'cutlass::__align__(8) AlignedStruct&lt; 8 &gt;'],['../namespacecutlass.html#aa4071cf5103f352a5100d9b4bba895e2',1,'cutlass::__align__(16) AlignedStruct&lt; 16 &gt;'],['../namespacecutlass.html#ada65694bdd4b70d4c9d769a536275a47',1,'cutlass::__align__(32) AlignedStruct&lt; 32 &gt;'],['../namespacecutlass.html#aa80a7cb3febd19b96f2ecbcb610b1b9e',1,'cutlass::__align__(64) AlignedStruct&lt; 64 &gt;']]]
+  ['_5f_5falign_5f_5f',['__align__',['../namespacecutlass_1_1platform.html#ac9068e2d027ffdf5cd564deecc2cb9e8',1,'cutlass::platform::__align__(1) aligned_chunk&lt; 1 &gt;'],['../namespacecutlass_1_1platform.html#a0bcb016704ec57f9499e662ba6156f98',1,'cutlass::platform::__align__(2) aligned_chunk&lt; 2 &gt;'],['../namespacecutlass_1_1platform.html#a71be5af25eeffa4077777f919e67d8da',1,'cutlass::platform::__align__(4) aligned_chunk&lt; 4 &gt;'],['../namespacecutlass_1_1platform.html#a42440254a16d4b6b95b95cc3360ee372',1,'cutlass::platform::__align__(8) aligned_chunk&lt; 8 &gt;'],['../namespacecutlass_1_1platform.html#a91d5e970d6ebe619914f40a9510bdb1e',1,'cutlass::platform::__align__(16) aligned_chunk&lt; 16 &gt;'],['../namespacecutlass_1_1platform.html#a210f4d360b1f9c3d074e71129fe4c0d9',1,'cutlass::platform::__align__(32) aligned_chunk&lt; 32 &gt;'],['../namespacecutlass_1_1platform.html#ae792b1c7ada1a33e306cd552f583bdce',1,'cutlass::platform::__align__(64) aligned_chunk&lt; 64 &gt;'],['../namespacecutlass_1_1platform.html#a5712ec4fed335a9b7f863fb3abe3c5eb',1,'cutlass::platform::__align__(128) aligned_chunk&lt; 128 &gt;'],['../namespacecutlass_1_1platform.html#a595cc98db29fb4d59772d2e2f52e347a',1,'cutlass::platform::__align__(256) aligned_chunk&lt; 256 &gt;'],['../namespacecutlass_1_1platform.html#ae70bb5d14a66500b47d2e3f83063d4a5',1,'cutlass::platform::__align__(512) aligned_chunk&lt; 512 &gt;'],['../namespacecutlass_1_1platform.html#a181e44e9c66f704175590727aaa9e5a1',1,'cutlass::platform::__align__(1024) aligned_chunk&lt; 1024 &gt;'],['../namespacecutlass_1_1platform.html#ae72c8fa997bb251d4140dceb03147154',1,'cutlass::platform::__align__(2048) aligned_chunk&lt; 2048 &gt;'],['../namespacecutlass_1_1platform.html#ada29683f1b408ae7b73cc8fbe2108628',1,'cutlass::platform::__align__(4096) aligned_chunk&lt; 4096 &gt;'],['../namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706',1,'cutlass::__align__(1) AlignedStruct&lt; 1 &gt;'],['../namespacecutlass.html#a602227fad962270da185209ecc6012f2',1,'cutlass::__align__(2) AlignedStruct&lt; 2 &gt;'],['../namespacecutlass.html#a266d7d2ae6e79537e46ee37b4fdface7',1,'cutlass::__align__(4) AlignedStruct&lt; 4 &gt;'],['../namespacecutlass.html#a1101e01215ddb0e5a7b120a4541a3c4e',1,'cutlass::__align__(8) AlignedStruct&lt; 8 &gt;'],['../namespacecutlass.html#aa4071cf5103f352a5100d9b4bba895e2',1,'cutlass::__align__(16) AlignedStruct&lt; 16 &gt;'],['../namespacecutlass.html#ada65694bdd4b70d4c9d769a536275a47',1,'cutlass::__align__(32) AlignedStruct&lt; 32 &gt;'],['../namespacecutlass.html#aa80a7cb3febd19b96f2ecbcb610b1b9e',1,'cutlass::__align__(64) AlignedStruct&lt; 64 &gt;']]],
+  ['_5f_5flaunch_5fbounds_5f_5f',['__launch_bounds__',['../namespacecutlass_1_1gemm.html#a01dd61085e2b3f578a7fc266b94fac55',1,'cutlass::gemm']]]
 ];
diff --git a/docs/search/functions_1.js b/docs/search/functions_1.js
index 8b50e666c4..521fba1d7d 100644
--- a/docs/search/functions_1.js
+++ b/docs/search/functions_1.js
@@ -1,5 +1,8 @@
 var searchData=
 [
-  ['advance',['advance',['../classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478',1,'cutlass::TensorRef']]],
-  ['at',['at',['../structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8',1,'cutlass::Coord::at()'],['../structcutlass_1_1Coord.html#ab511a16210d1b94449f5bc6476f6a266',1,'cutlass::Coord::at(int dim)'],['../structcutlass_1_1Coord.html#af9cc7ab2088544d1240ac51c4c6e685d',1,'cutlass::Coord::at() const'],['../structcutlass_1_1Coord.html#aed4f4d1c7c0749fe72736d7a1213b6e9',1,'cutlass::Coord::at(int dim) const'],['../structcutlass_1_1FragmentIterator.html#a9cf31df06ff035705a1341810fcdcbf2',1,'cutlass::FragmentIterator::at(int d, int h, int w, int c=0) const'],['../structcutlass_1_1FragmentIterator.html#a7bdc407aae8d7360e089af347b585a53',1,'cutlass::FragmentIterator::at(int d, int h, int w, int c=0)'],['../structcutlass_1_1FragmentConstIterator.html#a8b957150545becacab1b8ead1be29424',1,'cutlass::FragmentConstIterator::at()'],['../structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd',1,'cutlass::PredicateVector::at()'],['../structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f',1,'cutlass::TrivialPredicateTileAdapter::at()'],['../structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986',1,'cutlass::PredicateTileAdapter::at()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd',1,'cutlass::ConstPredicateTileAdapter::at()'],['../classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f',1,'cutlass::TensorRef::at(Coord&lt; Rank &gt; const &amp;coord) const'],['../classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215',1,'cutlass::TensorRef::at(int idx) const'],['../classcutlass_1_1TensorView.html#ad894a8b373c413d308cb1b7c7ba545ce',1,'cutlass::TensorView::at(Coord_t const &amp;coord) const'],['../classcutlass_1_1TensorView.html#acc55581896fae8c0449b44b56d750155',1,'cutlass::TensorView::at(Offset_t idx) const']]]
+  ['abs',['abs',['../namespacecutlass_1_1platform.html#a1fbf209c41242b3f605ac220c39e8fd5',1,'cutlass::platform']]],
+  ['add_5fpointer_5foffset',['add_pointer_offset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6',1,'cutlass::gemm::GemmGlobalIteratorAb::add_pointer_offset()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db',1,'cutlass::gemm::GemmGlobalIteratorCd::add_pointer_offset()'],['../classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143',1,'cutlass::TensorRef::add_pointer_offset()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a93ff0a9fda3e136a1674aeb82de050db',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::add_pointer_offset()'],['../structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232',1,'cutlass::TileLoadIterator::add_pointer_offset()'],['../structcutlass_1_1TileStoreIterator.html#aa6977ded39ead005b3435f13f0e51116',1,'cutlass::TileStoreIterator::add_pointer_offset()'],['../classcutlass_1_1ZipTileIterator.html#a0752af296e110d9104a45ae24bd0a104',1,'cutlass::ZipTileIterator::add_pointer_offset()']]],
+  ['alpha',['alpha',['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae4038a59658c87d52cee3330bee59662',1,'cutlass::gemm::LinearScalingDevicePtr::Params']]],
+  ['arg',['arg',['../namespacecutlass_1_1platform.html#a8a1a03766dbd2c2ce10b10498f281bf0',1,'cutlass::platform']]],
+  ['at',['at',['../structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93',1,'cutlass::Coord::at()'],['../structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694',1,'cutlass::Coord::at(int dim)'],['../structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe',1,'cutlass::Coord::at() const'],['../structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46',1,'cutlass::Coord::at(int dim) const'],['../structcutlass_1_1FragmentIterator.html#a35b721563536ab2c5dbab0f5de1c2b43',1,'cutlass::FragmentIterator::at(int d, int h, int w, int c=0) const'],['../structcutlass_1_1FragmentIterator.html#adb863b44dfbc1fa923625e767f6dd7cd',1,'cutlass::FragmentIterator::at(int d, int h, int w, int c=0)'],['../structcutlass_1_1FragmentConstIterator.html#a14f2ad2f9b90aea092ff1836e8fb159d',1,'cutlass::FragmentConstIterator::at()'],['../structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd',1,'cutlass::PredicateVector::at()'],['../structcutlass_1_1TrivialPredicateTileAdapter.html#a3e41ab145489df08fca79251b2253d0f',1,'cutlass::TrivialPredicateTileAdapter::at()'],['../structcutlass_1_1PredicateTileAdapter.html#a7d54e877bca2e840c142293b4826e986',1,'cutlass::PredicateTileAdapter::at()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#a9e5651009a7b8df9960527c18c7b05dd',1,'cutlass::ConstPredicateTileAdapter::at()'],['../classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f',1,'cutlass::TensorRef::at(TensorCoord const &amp;coord) const'],['../classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c',1,'cutlass::TensorRef::at(LongIndex idx) const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a597bb02594c918c50f0bdb0cb4ce74c8',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::at(TensorCoord const &amp;coord) const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a92371a586e756734522a853bef74324d',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::at(LongIndex idx) const'],['../structcutlass_1_1TensorRefBatchStrided.html#aac4b013050925c1e2db4019140e82602',1,'cutlass::TensorRefBatchStrided::at()'],['../structcutlass_1_1TensorRefArray.html#a2a95fd42d48c550a45f340b04f9dfe3d',1,'cutlass::TensorRefArray::at()']]]
 ];
diff --git a/docs/search/functions_10.js b/docs/search/functions_10.js
index e7ab3ee107..ca213eb7f4 100644
--- a/docs/search/functions_10.js
+++ b/docs/search/functions_10.js
@@ -1,11 +1,14 @@
 var searchData=
 [
-  ['tensorref',['TensorRef',['../classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478',1,'cutlass::TensorRef::TensorRef()'],['../classcutlass_1_1TensorRef.html#ae48325312183ff61dbd312c64f31fcb8',1,'cutlass::TensorRef::TensorRef(Storage *ptr, Coord&lt; Rank &gt; stride)']]],
-  ['tensorview',['TensorView',['../classcutlass_1_1TensorView.html#a22401348796d603546e44d6c196018dc',1,'cutlass::TensorView::TensorView()'],['../classcutlass_1_1TensorView.html#a80480aa986a488a106a9b0aea331c317',1,'cutlass::TensorView::TensorView(TensorRef_t const &amp;_ref, Coord_t const &amp;_size)']]],
-  ['threadmultiplyadd',['ThreadMultiplyAdd',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#acec155117a56c942c5e695984b0f072d',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ThreadMultiplyAdd()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a9b75e499f4c14369b5c86051dceeb81d',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadMultiplyAdd()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ab271a3f11ccde4b629ddb11b78c0d555',1,'cutlass::gemm::ThreadMultiplyAdd::ThreadMultiplyAdd()']]],
-  ['tileloaditerator',['TileLoadIterator',['../structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e',1,'cutlass::TileLoadIterator::TileLoadIterator()'],['../structcutlass_1_1TileLoadIterator.html#a93e166575be3b2f7489833ae5da23f23',1,'cutlass::TileLoadIterator::TileLoadIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())'],['../structcutlass_1_1TileLoadIterator.html#a53282fa4cb33cfcec79033d26e418af6',1,'cutlass::TileLoadIterator::TileLoadIterator(Params const &amp;, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())']]],
-  ['tilestoreiterator',['TileStoreIterator',['../structcutlass_1_1TileStoreIterator.html#aac4d49854d63f632627b6974f9b59dbb',1,'cutlass::TileStoreIterator::TileStoreIterator()'],['../structcutlass_1_1TileStoreIterator.html#a037ccd942359e6bc8640a240b13cd330',1,'cutlass::TileStoreIterator::TileStoreIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())'],['../structcutlass_1_1TileStoreIterator.html#a4f89c5182659de94605300e15c3651b2',1,'cutlass::TileStoreIterator::TileStoreIterator(Params const &amp;, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())']]],
-  ['transform',['transform',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a4dd95354137d3cb52752ecdd346a5685',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#aa9fe67c947bf461ba3e3ca48daa34815',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3',1,'cutlass::Copy::transform(Fragment_ const &amp;src, Fragment_ &amp;dst)'],['../structcutlass_1_1Copy.html#a171f9a44c05b6fb432b0339979de4eb2',1,'cutlass::Copy::transform(InputFragment_ const &amp;src, int offset, Fragment_ &amp;dst)'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26',1,'cutlass::gemm::HgemmSwizzle::transform()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b',1,'cutlass::gemm::IgemmFloatToInt8Converter::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a819fd33db88a68521108bab2641d73fd',1,'cutlass::gemm::IgemmFloatToInt8Converter::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d',1,'cutlass::gemm::IgemmInt8ToFloatConverter::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3',1,'cutlass::gemm::IgemmInt8ToFloatConverter::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811',1,'cutlass::gemm::IgemmSwizzle::transform()']]],
-  ['trivialiterator',['TrivialIterator',['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a6cb3664b5cba4280b7055a65ddad7850',1,'cutlass::PredicateVector::TrivialIterator::TrivialIterator()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ada8cd3ac6db568bb9bf268ba2c3a3e14',1,'cutlass::PredicateVector::TrivialIterator::TrivialIterator(Iterator const &amp;it)'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721',1,'cutlass::PredicateVector::TrivialIterator::TrivialIterator(PredicateVector const &amp;_vec)']]],
-  ['trivialpredicatetileadapter',['TrivialPredicateTileAdapter',['../structcutlass_1_1TrivialPredicateTileAdapter.html#a7259853a129a7e319b972d3b41dd59d7',1,'cutlass::TrivialPredicateTileAdapter']]]
+  ['real',['real',['../classcutlass_1_1platform_1_1complex.html#ab06cbc1eefd47df3d3748d42d6d95974',1,'cutlass::platform::complex::real() const'],['../classcutlass_1_1platform_1_1complex.html#acda3e2050b2fefb1aca1fa8aa2063f8b',1,'cutlass::platform::complex::real()'],['../namespacecutlass_1_1platform.html#a25a36d44c7b9f182eb404a3251cd4f39',1,'cutlass::platform::real(cuFloatComplex const &amp;z)'],['../namespacecutlass_1_1platform.html#aa9b17e4705337452761c0d3bd5edfc67',1,'cutlass::platform::real(cuFloatComplex &amp;z)'],['../namespacecutlass_1_1platform.html#a1f13c0049c5f94b0480c619612608f7b',1,'cutlass::platform::real(cuDoubleComplex const &amp;z)'],['../namespacecutlass_1_1platform.html#a3365c0200a034973b7baecede9728239',1,'cutlass::platform::real(cuDoubleComplex &amp;z)'],['../namespacecutlass_1_1platform.html#a01e98d1c13ac9384f2bdc407fce6131b',1,'cutlass::platform::real(complex&lt; T &gt; const &amp;z)'],['../namespacecutlass_1_1platform.html#aa5cfa5849e12b745236485dd2db5f854',1,'cutlass::platform::real(complex&lt; T &gt; &amp;z)']]],
+  ['ref',['ref',['../classcutlass_1_1TensorView.html#a7e2beb56a3bc2d58c9ec65467b78c4f3',1,'cutlass::TensorView']]],
+  ['reference',['reference',['../structcutlass_1_1TileAllocation.html#a3466ef2b478e4617aa1ff261217cfd05',1,'cutlass::TileAllocation::reference()'],['../structcutlass_1_1TileAllocation.html#afcdc0be82acf0b4ae66468e2170c5a0d',1,'cutlass::TileAllocation::reference() const'],['../structcutlass_1_1ZipTileAllocation.html#a0d00001220df7f2bdb1f09ae3f37c585',1,'cutlass::ZipTileAllocation::reference()'],['../structcutlass_1_1ZipTileAllocation.html#af9964904e789b3ab58334f1ec1ceee56',1,'cutlass::ZipTileAllocation::reference() const']]],
+  ['regulartilepredicatefunctor',['RegularTilePredicateFunctor',['../structcutlass_1_1RegularTilePredicateFunctor.html#a0e0b728d3685097a9280fbca6a47a2af',1,'cutlass::RegularTilePredicateFunctor']]],
+  ['release',['release',['../classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279',1,'cutlass::platform::unique_ptr']]],
+  ['reset',['reset',['../classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0',1,'cutlass::TensorRef::reset(Storage *ptr=nullptr)'],['../classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b',1,'cutlass::TensorRef::reset(Storage *ptr, StorageCoord const &amp;stride)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a1043f0ef382179b8ecd9f4e710f6e106',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::reset(Storage *ptr=nullptr)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6339a8ac88f9172acf0337d149b98cb4',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::reset(Storage *ptr, StorageCoord const &amp;stride)'],['../classcutlass_1_1TensorView.html#ae142eb93cf91e000b635d32fcacf1db3',1,'cutlass::TensorView::reset()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331',1,'cutlass::platform::unique_ptr::reset()']]],
+  ['residue',['residue',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a235adaea5d4f01232c79cb6109dc6d17',1,'cutlass::gemm::GlobalLoadStream::residue()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593',1,'cutlass::gemm::GemmGlobalIteratorAb::residue()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a1b1ec121cbd17ee61d58ea843b900e9a',1,'cutlass::gemm::GlobalLoadStreamPair::residue()']]],
+  ['rollback',['rollback',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1e2eecdba1871fc11aa43a06edf6ed34',1,'cutlass::gemm::GlobalLoadStream::rollback()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6a9287a2cd87ca8a96cbf6b6d29199da',1,'cutlass::gemm::GlobalLoadStreamPair::rollback()']]],
+  ['round_5fnearest',['round_nearest',['../namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e',1,'cutlass']]],
+  ['row',['row',['../structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546',1,'cutlass::MatrixCoord::row() const'],['../structcutlass_1_1MatrixCoord.html#a67f3102e51abad1205e8a3450e7a6c7e',1,'cutlass::MatrixCoord::row()']]],
+  ['rowmajorblockswizzle',['RowMajorBlockSwizzle',['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a4ed7847f8ddad11a6765d914b6f32fcd',1,'cutlass::gemm::RowMajorBlockSwizzle']]]
 ];
diff --git a/docs/search/functions_11.js b/docs/search/functions_11.js
index a0eb54d4d3..6b87493d79 100644
--- a/docs/search/functions_11.js
+++ b/docs/search/functions_11.js
@@ -1,4 +1,23 @@
 var searchData=
 [
-  ['unique_5fptr',['unique_ptr',['../classcutlass_1_1platform_1_1unique__ptr.html#aa8a370bc7e4c2d99eb85e7fea27b3179',1,'cutlass::platform::unique_ptr::unique_ptr()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a14c8bf5a5deefe4a6602ccd5c5af364c',1,'cutlass::platform::unique_ptr::unique_ptr(pointer p)']]]
+  ['scalario',['ScalarIO',['../structcutlass_1_1ScalarIO.html#ad4166575521254088bf6c6300c351714',1,'cutlass::ScalarIO::ScalarIO()'],['../structcutlass_1_1ScalarIO.html#a5227e1e9ed24326ad4f8dc94d186186f',1,'cutlass::ScalarIO::ScalarIO(T value)']]],
+  ['scalarorpointer',['ScalarOrPointer',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a45cf72b3f0e3408a4b51990b648b71ee',1,'cutlass::detail::ScalarOrPointer::ScalarOrPointer()'],['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b85e1940149922942c7d495f9d12134',1,'cutlass::detail::ScalarOrPointer::ScalarOrPointer(Scalar const &amp;val)'],['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a03a54e9150c2cccb26d9fa688ea03f96',1,'cutlass::detail::ScalarOrPointer::ScalarOrPointer(Scalar const *ptr_)']]],
+  ['set',['set',['../classcutlass_1_1PredicateVector_1_1Iterator.html#aadfd039b5622098c9e46706a27122575',1,'cutlass::PredicateVector::Iterator::set()'],['../structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af',1,'cutlass::PredicateVector::set()'],['../structcutlass_1_1PredicateTileAdapter.html#aeda47efdda0387f9c3c7b31f836afca5',1,'cutlass::PredicateTileAdapter::set()']]],
+  ['shared_5fload_5ffence',['shared_load_fence',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84',1,'cutlass::gemm::GemmEpilogue::shared_load_fence()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe',1,'cutlass::gemm::GemmTraits::shared_load_fence()']]],
+  ['shared_5fstore_5ffence',['shared_store_fence',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691',1,'cutlass::gemm::GemmEpilogue::shared_store_fence()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f',1,'cutlass::gemm::GemmTraits::shared_store_fence()']]],
+  ['sharedloadstream',['SharedLoadStream',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad',1,'cutlass::gemm::SharedLoadStream::SharedLoadStream()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#ad2f619712c817f91d62a13db0476a627',1,'cutlass::gemm::SharedLoadStream::SharedLoadStream(Params const &amp;params, TensorRef const &amp;ref)']]],
+  ['sharedstreampair',['SharedStreamPair',['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a0b69ca0b37dad32ba25c7f7e71a3dcc1',1,'cutlass::gemm::SharedStreamPair']]],
+  ['sin',['sin',['../namespacecutlass_1_1platform.html#a3c5dc10135c54b3b212c9e107ba1476a',1,'cutlass::platform']]],
+  ['size',['size',['../classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a',1,'cutlass::TensorView::size() const'],['../classcutlass_1_1TensorView.html#a3778dc1c62a27ed811f1bb82a420096e',1,'cutlass::TensorView::size(int dim) const']]],
+  ['slice',['slice',['../structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c',1,'cutlass::Coord']]],
+  ['source_5frequired',['source_required',['../structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54',1,'cutlass::gemm::LinearScaling']]],
+  ['sqrt',['sqrt',['../namespacecutlass_1_1platform.html#a81308ccea406262e143e27193cbdf747',1,'cutlass::platform']]],
+  ['store',['store',['../structcutlass_1_1Store.html#a187b63f682f7f00f8bf9ed3ee59d602f',1,'cutlass::Store::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#a535b4356c9bc21352fc2459b3c2246d1',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a453a2eed81a86d6637778a50bed06b59',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a1fcdc328d4b2deb1c50be5d31ef9e55f',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::store()'],['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a174ed368f1c702b4c958887f0b895eee',1,'cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#ae16a5d6d7a42ffeba0f0ebe2d252ec28',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a298a08c8c4c1ea871e92e2491b2cb549',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::store()'],['../structcutlass_1_1TileStoreIterator.html#a0218adf569557b17d8e36a3d97fb185e',1,'cutlass::TileStoreIterator::store(Fragment const &amp;fragment, PredicateIterator pred_it) const'],['../structcutlass_1_1TileStoreIterator.html#aa27a456bf12d0e44adc89a1c2ca7bc3b',1,'cutlass::TileStoreIterator::store(Fragment const &amp;fragment) const'],['../classcutlass_1_1ZipTileIterator.html#a884983cd1df81739fc971b46697b851c',1,'cutlass::ZipTileIterator::store(Fragment const &amp;fragment) const'],['../classcutlass_1_1ZipTileIterator.html#a425b4a4f2e66f3ff5960742d19d06bc2',1,'cutlass::ZipTileIterator::store(Fragment const &amp;fragment, Coord&lt; 4 &gt; const &amp;offset) const'],['../classcutlass_1_1ZipTileIterator.html#aa617653e75535fe13aafa80bc4cc9cc4',1,'cutlass::ZipTileIterator::store(Fragment const &amp;fragment, PredicateIterator pred_it) const']]],
+  ['store_5felement',['store_element',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d',1,'cutlass::gemm::GemmGlobalIteratorCd::store_element()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a051eb2a8637601cf9c1f52999117151b',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::store_element()'],['../structcutlass_1_1TileStoreIterator.html#a1f7c4143443d2bee4a69d1b380576f08',1,'cutlass::TileStoreIterator::store_element()']]],
+  ['store_5fpost_5fincrement',['store_post_increment',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a',1,'cutlass::gemm::GemmGlobalIteratorCd::store_post_increment()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a018d5be34cdbb263d7f133197b2921ca',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::store_post_increment()'],['../structcutlass_1_1TileStoreIterator.html#adbb7fdb5710295cdfb86e090a8c40f44',1,'cutlass::TileStoreIterator::store_post_increment(Fragment const &amp;fragment, PredicateIterator pred_it)'],['../structcutlass_1_1TileStoreIterator.html#a35ab2595b09912d31a60c2a4e5847c88',1,'cutlass::TileStoreIterator::store_post_increment(Fragment const &amp;fragment)'],['../classcutlass_1_1ZipTileIterator.html#a961a340f902542f3000dc80e852958f2',1,'cutlass::ZipTileIterator::store_post_increment(Fragment const &amp;fragment)'],['../classcutlass_1_1ZipTileIterator.html#a18ed76e6be1a02d0229cdf1d6528e34f',1,'cutlass::ZipTileIterator::store_post_increment(Fragment const &amp;fragment, Coord&lt; 4 &gt; const &amp;offset)'],['../classcutlass_1_1ZipTileIterator.html#a3a2cae47533c1122eb8ec404473a0d9e',1,'cutlass::ZipTileIterator::store_post_increment(Fragment const &amp;fragment, PredicateIterator pred_it)']]],
+  ['stride',['stride',['../structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a56f728be8b1a3e71f4f322e1dbfb3495',1,'cutlass::MatrixLayout::RowMajorInterleaved::stride()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dab2c5aee6958c9d99109183401f41f',1,'cutlass::MatrixLayout::ColumnMajorInterleaved::stride()'],['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#aa3c5b8d44216fdeeee9cce5e38ce418b',1,'cutlass::MatrixLayout::ContiguousLayout::stride()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#abb88bd43e5493682d1132c550b734a36',1,'cutlass::MatrixLayout::ColumnMajorBlockLinear::stride()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a1b25b4a7061d81041a8e2a548128ca71',1,'cutlass::MatrixLayout::RowMajorBlockLinear::stride()'],['../classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c',1,'cutlass::TensorRef::stride() const'],['../classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7',1,'cutlass::TensorRef::stride(int dim) const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::stride() const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af83380ffc0e5949d40d1a5039a5ddc00',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::stride(int dim) const']]],
+  ['stride_5fadvance',['stride_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7',1,'cutlass::gemm::GemmGlobalIteratorAb::stride_advance()'],['../structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11',1,'cutlass::TileLoadIterator::stride_advance()']]],
+  ['subview',['subview',['../classcutlass_1_1TensorView.html#ad4b3faa318699b786f94cf8735a11dbb',1,'cutlass::TensorView']]],
+  ['swap',['swap',['../classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036',1,'cutlass::platform::unique_ptr::swap()'],['../namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678',1,'cutlass::platform::swap()']]],
+  ['swizzle',['swizzle',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8',1,'cutlass::gemm::IdentityBlockSwizzle::swizzle()'],['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b',1,'cutlass::gemm::ColumnMajorBlockSwizzle::swizzle()'],['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d',1,'cutlass::gemm::RowMajorBlockSwizzle::swizzle()']]]
 ];
diff --git a/docs/search/functions_12.js b/docs/search/functions_12.js
index 972cb65272..0f645f1d20 100644
--- a/docs/search/functions_12.js
+++ b/docs/search/functions_12.js
@@ -1,4 +1,16 @@
 var searchData=
 [
-  ['valid',['valid',['../structcutlass_1_1FragmentIterator.html#ab18f8ea676b45831f939715212167a99',1,'cutlass::FragmentIterator::valid()'],['../structcutlass_1_1FragmentConstIterator.html#a01571b2fc566793fd50a10fa82441951',1,'cutlass::FragmentConstIterator::valid()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ac4d2c293f9312b673ea29bf79b2882fd',1,'cutlass::gemm::GemmGlobalIteratorAb::valid()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6594acc213fc8d4289c6c73631f60120',1,'cutlass::gemm::GemmGlobalIteratorCd::valid()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a468f8f503777e4a2b0089ee2bd6c471a',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::valid()'],['../structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770',1,'cutlass::TileIteratorBase::valid()']]]
+  ['tensorarrayref',['TensorArrayRef',['../structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109',1,'cutlass::TensorRefArray::TensorArrayRef()'],['../structcutlass_1_1TensorRefArray.html#aea35239326dcb23c3c6a18e7b3f92091',1,'cutlass::TensorRefArray::TensorArrayRef(Storage **_pointers, Index _strides[kStorageRank - 1])']]],
+  ['tensorref',['TensorRef',['../classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765',1,'cutlass::TensorRef::TensorRef(Storage *ptr=nullptr)'],['../classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135',1,'cutlass::TensorRef::TensorRef(Storage *ptr, Index ldm)'],['../classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c',1,'cutlass::TensorRef::TensorRef(Storage *ptr, StrideVector const &amp;stride)'],['../classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0',1,'cutlass::TensorRef::TensorRef(Storage *ptr, StorageCoord const &amp;stride)'],['../classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1',1,'cutlass::TensorRef::TensorRef(TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type, kRank, MapFunc, kStorageRank, Index, LongIndex &gt; const &amp;ref)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa091e497277d0ba8a98c4ebf73c0cdba',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef(Storage *ptr=nullptr)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a3464537a35ef7fbfc9349e5ce2233f1c',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef(Storage *ptr, StrideVector const &amp;stride)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeacb444d31783eafe27a9e8d8cab98f8',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef(Storage *ptr, StorageCoord const &amp;stride)'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af815dd66739801b10d43acc097e23636',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef(TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type, kRank, MapFunc, kStorageRank, Index, LongIndex &gt; const &amp;ref)']]],
+  ['tensorrefbatchstrided',['TensorRefBatchStrided',['../structcutlass_1_1TensorRefBatchStrided.html#aa5d7e9a4589d7dacc5d69ca3c70ecc2b',1,'cutlass::TensorRefBatchStrided::TensorRefBatchStrided()'],['../structcutlass_1_1TensorRefBatchStrided.html#abc2ddccdb742f95438b214e0a3a14620',1,'cutlass::TensorRefBatchStrided::TensorRefBatchStrided(TensorRef const &amp;ref, LongIndex _tensor_stride=0)']]],
+  ['tensorview',['TensorView',['../classcutlass_1_1TensorView.html#a36d48227f65ad482a7bded99d6a3d0c1',1,'cutlass::TensorView::TensorView()'],['../classcutlass_1_1TensorView.html#aad06edac0f43c358c5644dffb5fe9ad7',1,'cutlass::TensorView::TensorView(Base const &amp;_ref, TensorCoord const &amp;_size)'],['../classcutlass_1_1TensorView.html#a73f049694ca1ea4825b5a651852827f5',1,'cutlass::TensorView::TensorView(Storage *ptr, StrideVector const &amp;stride, TensorCoord const &amp;size)'],['../classcutlass_1_1TensorView.html#af64d4195fd6ba2cba53179e1ae678737',1,'cutlass::TensorView::TensorView(Storage *ptr, StorageCoord const &amp;stride, TensorCoord const &amp;size)']]],
+  ['threadmultiplyadd',['ThreadMultiplyAdd',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a0ab850304c3c6e73bcba321426ba93f9',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ThreadMultiplyAdd()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a32b234c873ffe44090a12e12d871024c',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ThreadMultiplyAdd()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aad8a642f46c88e407a1150ee1d42b8dd',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadMultiplyAdd()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac087f0b397599221b74d220fcb1c7121',1,'cutlass::gemm::ThreadMultiplyAdd::ThreadMultiplyAdd()']]],
+  ['tilecoord',['TileCoord',['../structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95',1,'cutlass::TileCoord::TileCoord()'],['../structcutlass_1_1TileCoord.html#ac760795433c0f0ccc5c44fb58626f51d',1,'cutlass::TileCoord::TileCoord(Coord&lt; 3, Index &gt; const &amp;coord)'],['../structcutlass_1_1TileCoord.html#a752dcc11f1a018de692e5846a80fe185',1,'cutlass::TileCoord::TileCoord(Coord&lt; 4, Index &gt; const &amp;coord)'],['../structcutlass_1_1TileCoord.html#a2ff6ac0ad18cff304ee7f79597fdc274',1,'cutlass::TileCoord::TileCoord(Index coord[4])'],['../structcutlass_1_1TileCoord.html#a28ee00699941f879cfa92327c038fca6',1,'cutlass::TileCoord::TileCoord(Index d, Index h, Index w, Index c)']]],
+  ['tileloaditerator',['TileLoadIterator',['../structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e',1,'cutlass::TileLoadIterator::TileLoadIterator()'],['../structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322',1,'cutlass::TileLoadIterator::TileLoadIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())'],['../structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30',1,'cutlass::TileLoadIterator::TileLoadIterator(Params const &amp;, Scalar const *ptr, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())']]],
+  ['tileloadstream',['TileLoadStream',['../structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3',1,'cutlass::TileLoadStream::TileLoadStream(Params const &amp;_params, TensorRef const &amp;_ref)'],['../structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7',1,'cutlass::TileLoadStream::TileLoadStream(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))']]],
+  ['tilestoreiterator',['TileStoreIterator',['../structcutlass_1_1TileStoreIterator.html#a9f4501c6e8ba0f4511919c1b63c14e69',1,'cutlass::TileStoreIterator::TileStoreIterator()'],['../structcutlass_1_1TileStoreIterator.html#aa563bb10f8e58d97e81959556923e210',1,'cutlass::TileStoreIterator::TileStoreIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())'],['../structcutlass_1_1TileStoreIterator.html#a2b58a21331cf3255f5d3938a39babf20',1,'cutlass::TileStoreIterator::TileStoreIterator(Params const &amp;, Scalar *ptr, ThreadOffset thread_offset_func=ThreadOffset())']]],
+  ['tilestorestream',['TileStoreStream',['../structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b',1,'cutlass::TileStoreStream::TileStoreStream(Params const &amp;_params, TensorRef const &amp;_ref)'],['../structcutlass_1_1TileStoreStream.html#a08e7e7bf74e1e0d670dd6a4e65d14084',1,'cutlass::TileStoreStream::TileStoreStream(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))']]],
+  ['transform',['transform',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a4dd95354137d3cb52752ecdd346a5685',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#aa9fe67c947bf461ba3e3ca48daa34815',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1Copy.html#ab356f0f473aa3fd8df8fb8ddd8e0e9f3',1,'cutlass::Copy::transform(Fragment_ const &amp;src, Fragment_ &amp;dst)'],['../structcutlass_1_1Copy.html#a171f9a44c05b6fb432b0339979de4eb2',1,'cutlass::Copy::transform(InputFragment_ const &amp;src, int offset, Fragment_ &amp;dst)'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#ad467ce744bf9d478900fb2661d7a1c26',1,'cutlass::gemm::HgemmSwizzle::transform()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a91ad48362b99a5f96ac1e92e95104f7b',1,'cutlass::gemm::IgemmFloatToInt8Converter::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a819fd33db88a68521108bab2641d73fd',1,'cutlass::gemm::IgemmFloatToInt8Converter::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#aca8a61e8eb1ab33b9c61e2e7d342379d',1,'cutlass::gemm::IgemmInt8ToFloatConverter::transform(InputFragment const &amp;src, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a89e078dbf376da872c3993ccbaf744d3',1,'cutlass::gemm::IgemmInt8ToFloatConverter::transform(Fragment_ const &amp;src, int offset, OutputFragment &amp;dst)'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a084917a512c7a411b76a69f86b906811',1,'cutlass::gemm::IgemmSwizzle::transform()'],['../structcutlass_1_1ZipConvert.html#a7e6398ad8ecd8757744a42f3ab8ef955',1,'cutlass::ZipConvert::transform()']]],
+  ['trivialiterator',['TrivialIterator',['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a6cb3664b5cba4280b7055a65ddad7850',1,'cutlass::PredicateVector::TrivialIterator::TrivialIterator()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ada8cd3ac6db568bb9bf268ba2c3a3e14',1,'cutlass::PredicateVector::TrivialIterator::TrivialIterator(Iterator const &amp;it)'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a3adf0440f9a0143a61b43d39c3f03721',1,'cutlass::PredicateVector::TrivialIterator::TrivialIterator(PredicateVector const &amp;_vec)']]],
+  ['trivialpredicatetileadapter',['TrivialPredicateTileAdapter',['../structcutlass_1_1TrivialPredicateTileAdapter.html#a7259853a129a7e319b972d3b41dd59d7',1,'cutlass::TrivialPredicateTileAdapter']]]
 ];
diff --git a/docs/search/functions_13.js b/docs/search/functions_13.js
index f2593b4ad0..a0eb54d4d3 100644
--- a/docs/search/functions_13.js
+++ b/docs/search/functions_13.js
@@ -1,4 +1,4 @@
 var searchData=
 [
-  ['wmmagemmglobaliteratorcd',['WmmaGemmGlobalIteratorCd',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a505f124fa3f47c6d57b7275e81be6dd3',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::WmmaGemmGlobalIteratorCd()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::WmmaGemmGlobalIteratorCd(Params const &amp;params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int const pointer_offset=0, int const pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())']]]
+  ['unique_5fptr',['unique_ptr',['../classcutlass_1_1platform_1_1unique__ptr.html#aa8a370bc7e4c2d99eb85e7fea27b3179',1,'cutlass::platform::unique_ptr::unique_ptr()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a14c8bf5a5deefe4a6602ccd5c5af364c',1,'cutlass::platform::unique_ptr::unique_ptr(pointer p)']]]
 ];
diff --git a/docs/search/functions_14.js b/docs/search/functions_14.js
index 10f55890b8..fcec0184c4 100644
--- a/docs/search/functions_14.js
+++ b/docs/search/functions_14.js
@@ -1,4 +1,5 @@
 var searchData=
 [
-  ['_7eunique_5fptr',['~unique_ptr',['../classcutlass_1_1platform_1_1unique__ptr.html#a8902399dac4ab64f08f909f2ad9d4bcf',1,'cutlass::platform::unique_ptr']]]
+  ['valid',['valid',['../structcutlass_1_1FragmentIterator.html#a8608dd815ed4906d8c82c41a10df23e2',1,'cutlass::FragmentIterator::valid()'],['../structcutlass_1_1FragmentConstIterator.html#ac4d601998a84a3eac23e3b7a7c8a935b',1,'cutlass::FragmentConstIterator::valid()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0',1,'cutlass::gemm::GemmGlobalIteratorAb::valid()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0',1,'cutlass::gemm::GemmGlobalIteratorCd::valid()'],['../structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973',1,'cutlass::TileIteratorBase::valid()']]],
+  ['vector',['Vector',['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1310cf2e92e260cf55cfda1cb2cb7280',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::Vector()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a50ae62579267952a648d4b6a6be3c663',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::Vector(uint32_t value)'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af166f710ebbfdff8a62453eee454c1d5',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::Vector()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a5feb070268f85bd73c3095eaf2d0e2bb',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::Vector(uint32_t value)'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a48e193a0b636934ea553c6e60ffef563',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::Vector()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a023d6ae1bf06d678f8cb5652eca1bf79',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::Vector(uint32_t value)']]]
 ];
diff --git a/docs/search/functions_15.html b/docs/search/functions_15.html
new file mode 100644
index 0000000000..546d13e654
--- /dev/null
+++ b/docs/search/functions_15.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="functions_15.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/functions_15.js b/docs/search/functions_15.js
new file mode 100644
index 0000000000..52580278f3
--- /dev/null
+++ b/docs/search/functions_15.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['w',['w',['../structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613',1,'cutlass::TileCoord::w() const'],['../structcutlass_1_1TileCoord.html#a8f83026751c83f57c1854c8544e75bd0',1,'cutlass::TileCoord::w()']]],
+  ['wmmagemmglobaliteratorcd',['WmmaGemmGlobalIteratorCd',['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd']]]
+];
diff --git a/docs/search/functions_16.html b/docs/search/functions_16.html
new file mode 100644
index 0000000000..b3e771acd0
--- /dev/null
+++ b/docs/search/functions_16.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="functions_16.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/functions_16.js b/docs/search/functions_16.js
new file mode 100644
index 0000000000..f24ea7a91e
--- /dev/null
+++ b/docs/search/functions_16.js
@@ -0,0 +1,7 @@
+var searchData=
+[
+  ['zipconvert',['ZipConvert',['../structcutlass_1_1ZipConvert.html#a7aa56d3ea300ebc58493c4d66339fff5',1,'cutlass::ZipConvert::ZipConvert()'],['../structcutlass_1_1ZipConvert.html#a3322c88b418c365423480a481e29df29',1,'cutlass::ZipConvert::ZipConvert(First const &amp;_first, Second const &amp;_second)']]],
+  ['zipfragment',['ZipFragment',['../structcutlass_1_1ZipFragment.html#aeb654423884324b14130a8fa8bc1ab83',1,'cutlass::ZipFragment::ZipFragment()'],['../structcutlass_1_1ZipFragment.html#a520318d060123c5870c4153b99cf0427',1,'cutlass::ZipFragment::ZipFragment(First const &amp;_first, Second const &amp;_second)']]],
+  ['ziptensorref',['ZipTensorRef',['../structcutlass_1_1ZipTensorRef.html#a9b4e616da5b0a71ac2d9bd03b4e07b86',1,'cutlass::ZipTensorRef::ZipTensorRef()'],['../structcutlass_1_1ZipTensorRef.html#a6905b853de0521e2f2fedac407a920e1',1,'cutlass::ZipTensorRef::ZipTensorRef(First const &amp;_first, Second const &amp;_second)']]],
+  ['ziptileiterator',['ZipTileIterator',['../classcutlass_1_1ZipTileIterator.html#a09eab0c5218fc122848b623462c18149',1,'cutlass::ZipTileIterator::ZipTileIterator()'],['../classcutlass_1_1ZipTileIterator.html#a45a8ba275f8d4f71deb102ad46712b3e',1,'cutlass::ZipTileIterator::ZipTileIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))'],['../classcutlass_1_1ZipTileIterator.html#a31553842afd1cfd5a18a2fd6c39e17b5',1,'cutlass::ZipTileIterator::ZipTileIterator(First const &amp;_first, Second const &amp;_second)'],['../classcutlass_1_1ZipTileIterator.html#a808e06560609aa5b7bb693ec79a3aa57',1,'cutlass::ZipTileIterator::ZipTileIterator(TensorRef const &amp;ref)'],['../classcutlass_1_1ZipTileIterator.html#a9d70b24bf38122c0fea49558c6f6b344',1,'cutlass::ZipTileIterator::ZipTileIterator(Params const &amp;_params, TensorRef const &amp;ref)']]]
+];
diff --git a/docs/search/functions_17.html b/docs/search/functions_17.html
new file mode 100644
index 0000000000..a7b9068756
--- /dev/null
+++ b/docs/search/functions_17.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="functions_17.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/functions_17.js b/docs/search/functions_17.js
new file mode 100644
index 0000000000..10f55890b8
--- /dev/null
+++ b/docs/search/functions_17.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['_7eunique_5fptr',['~unique_ptr',['../classcutlass_1_1platform_1_1unique__ptr.html#a8902399dac4ab64f08f909f2ad9d4bcf',1,'cutlass::platform::unique_ptr']]]
+];
diff --git a/docs/search/functions_2.js b/docs/search/functions_2.js
index 93a72e5ae6..047747158f 100644
--- a/docs/search/functions_2.js
+++ b/docs/search/functions_2.js
@@ -1,4 +1,6 @@
 var searchData=
 [
-  ['begin',['begin',['../structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5',1,'cutlass::PredicateVector']]]
+  ['batch',['batch',['../structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26',1,'cutlass::gemm::GemmCoord::batch() const'],['../structcutlass_1_1gemm_1_1GemmCoord.html#adaf31768b8239f497c0ec9b40bad1cb5',1,'cutlass::gemm::GemmCoord::batch()']]],
+  ['begin',['begin',['../structcutlass_1_1PredicateVector.html#a649045d8224514a4c28bcaf4b247b4a5',1,'cutlass::PredicateVector::begin()'],['../structcutlass_1_1TensorRefBatchStrided.html#a4f4a2f860cc10688ee27cc9ce1df1015',1,'cutlass::TensorRefBatchStrided::begin()'],['../structcutlass_1_1TensorRefArray.html#a6b0f0d9cef4a2f3f4a8bf6c192a282db',1,'cutlass::TensorRefArray::begin()']]],
+  ['beta',['beta',['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a0938bcb61d2572d5cf6cf2de95d11816',1,'cutlass::gemm::LinearScalingDevicePtr::Params']]]
 ];
diff --git a/docs/search/functions_3.js b/docs/search/functions_3.js
index b9f86bbaa1..dae6e66115 100644
--- a/docs/search/functions_3.js
+++ b/docs/search/functions_3.js
@@ -1,19 +1,28 @@
 var searchData=
 [
+  ['c',['c',['../structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c',1,'cutlass::TileCoord::c() const'],['../structcutlass_1_1TileCoord.html#ad8281750f2978c6c1c91982f347a14cd',1,'cutlass::TileCoord::c()']]],
+  ['capacity',['capacity',['../classcutlass_1_1TensorView.html#ad870c366ffe904d3363df1dfb0d5f04c',1,'cutlass::TensorView']]],
   ['check',['check',['../structcutlass_1_1platform_1_1is__base__of__helper.html#a5bf08859497e304ca353699ad6ac332b',1,'cutlass::platform::is_base_of_helper::check(DerivedT *, T)'],['../structcutlass_1_1platform_1_1is__base__of__helper.html#ae8896817cabf297437b3a073e693ffd2',1,'cutlass::platform::is_base_of_helper::check(BaseT *, int)']]],
-  ['clamp',['clamp',['../structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e',1,'cutlass::Coord']]],
-  ['clear',['clear',['../structcutlass_1_1Fragment.html#a29e7408fcde8cdf9de5e3a10eaa46391',1,'cutlass::Fragment::clear()'],['../structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab',1,'cutlass::gemm::ClearAccumulators::clear()']]],
-  ['clearaccumulators',['ClearAccumulators',['../structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef',1,'cutlass::gemm::ClearAccumulators']]],
-  ['commit',['commit',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6ce2c6e81d159d8e9ab736cb263f44ae',1,'cutlass::gemm::GlobalLoadStreamBase::commit()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a9cc435369c7fc76d0bb6233a8258e257',1,'cutlass::gemm::SharedLoadStream::commit()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a6dc512be014b9d849057e2fd4c0b0485',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::commit()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#ade2d85507dec77591e66276339a1eef5',1,'cutlass::gemm::GemmTraits::SharedLoadStream::commit()']]],
+  ['clamp',['clamp',['../structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba',1,'cutlass::Coord']]],
+  ['clear',['clear',['../structcutlass_1_1Fragment.html#acf28266500b87484530b2395925fca51',1,'cutlass::Fragment::clear()'],['../structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab',1,'cutlass::gemm::ClearAccumulators::clear()'],['../structcutlass_1_1ZipFragment.html#aa978dd7fca15ca20e9f52d15e6f8f9c1',1,'cutlass::ZipFragment::clear()']]],
+  ['clearaccumulators',['ClearAccumulators',['../structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef',1,'cutlass::gemm::ClearAccumulators::ClearAccumulators(SharedStorage &amp;shared_storage)'],['../structcutlass_1_1gemm_1_1ClearAccumulators.html#aef1832b62ae8caef5e6d34cb1d1564e3',1,'cutlass::gemm::ClearAccumulators::ClearAccumulators()']]],
+  ['clz',['clz',['../namespacecutlass.html#a6bc666acc9f0d7278a788975e226e005',1,'cutlass']]],
+  ['column',['column',['../structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9',1,'cutlass::MatrixCoord::column() const'],['../structcutlass_1_1MatrixCoord.html#a093f5e568a81c6464dbf4aef996c32ba',1,'cutlass::MatrixCoord::column()']]],
+  ['columnmajorblockswizzle',['ColumnMajorBlockSwizzle',['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a6d0ee4e76371af26030ab4922e6c915a',1,'cutlass::gemm::ColumnMajorBlockSwizzle']]],
+  ['commit',['commit',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab39c82ac1a8138c4b6d69dab9d48bdbc',1,'cutlass::gemm::GlobalLoadStream::commit()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#aa3aa987bf0fd6303e06f46e2f54e47e4',1,'cutlass::gemm::SharedLoadStream::commit()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a6be479189765a1803ceced424561466b',1,'cutlass::gemm::SharedLoadStream::commit(int step)'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6699714c357f2714df011f58c1c48861',1,'cutlass::gemm::GlobalLoadStreamPair::commit()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a93cc2a7eb3215ce5bae343fb117f55c5',1,'cutlass::gemm::SharedStreamPair::commit()'],['../structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627',1,'cutlass::TileLoadStream::commit()'],['../structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579',1,'cutlass::TileStoreStream::commit()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a165a0d486f53fb2315d4e555c9f59891',1,'cutlass::PredicatedTileStoreStream::commit()']]],
+  ['complex',['complex',['../classcutlass_1_1platform_1_1complex.html#a2e852c886e61a39e884026d6f4c32c1e',1,'cutlass::platform::complex::complex(T r=T(0), T i=T(0))'],['../classcutlass_1_1platform_1_1complex.html#a71ee9d620f72fbcd54f6e3049707eb99',1,'cutlass::platform::complex::complex(cuFloatComplex const &amp;z)'],['../classcutlass_1_1platform_1_1complex.html#af40324ec4d1d35a0ceda676c8de968f8',1,'cutlass::platform::complex::complex(cuDoubleComplex const &amp;z)']]],
+  ['conj',['conj',['../namespacecutlass_1_1platform.html#a7167baf0f7fcf52471c0413f084d98d4',1,'cutlass::platform']]],
   ['const_5fbegin',['const_begin',['../structcutlass_1_1PredicateVector.html#aeb7f9226a4fa49d06500c3c83958dc41',1,'cutlass::PredicateVector']]],
   ['const_5fend',['const_end',['../structcutlass_1_1PredicateVector.html#ab931610bc07ee0e87bb4d9a4d53a2321',1,'cutlass::PredicateVector']]],
-  ['const_5fref',['const_ref',['../classcutlass_1_1TensorView.html#a23564f1d333bb16343ed3a885f894285',1,'cutlass::TensorView']]],
-  ['constiterator',['ConstIterator',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7',1,'cutlass::PredicateVector::ConstIterator::ConstIterator(ConstIterator const &amp;it)'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda',1,'cutlass::PredicateVector::ConstIterator::ConstIterator(PredicateVector const &amp;_vec, int _start=0)']]],
+  ['const_5fref',['const_ref',['../classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47',1,'cutlass::TensorRef::const_ref()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0a48de201c35cbc9d5e3b94fa597a617',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::const_ref()'],['../classcutlass_1_1TensorView.html#a559f7210b445c77a167ab1f41c8d0827',1,'cutlass::TensorView::const_ref()']]],
+  ['constiterator',['ConstIterator',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a1216aab9c567ec0d4232019008ef3ea7',1,'cutlass::PredicateVector::ConstIterator::ConstIterator(ConstIterator const &amp;it)'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a590e4f4533c87162c0b79e8d876a8fda',1,'cutlass::PredicateVector::ConstIterator::ConstIterator(PredicateVector const &amp;_vec, int _start=0)'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed',1,'cutlass::TensorRefBatchStrided::ConstIterator::ConstIterator()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541',1,'cutlass::TensorRefArray::ConstIterator::ConstIterator()']]],
   ['constpredicatetileadapter',['ConstPredicateTileAdapter',['../structcutlass_1_1ConstPredicateTileAdapter.html#a9abd78d5c3e444bfb23d2b1a08be2be1',1,'cutlass::ConstPredicateTileAdapter']]],
-  ['contains',['contains',['../classcutlass_1_1TensorView.html#aa94063d9a9c6e599d3f53e22433274be',1,'cutlass::TensorView']]],
-  ['convert',['Convert',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a593a5a2c48708965e829d242ccb3b99f',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::Convert()'],['../classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c',1,'cutlass::TensorRef::convert()']]],
-  ['coord',['Coord',['../structcutlass_1_1Coord.html#a9cbfff91f0b0d0a149534c97e3d6e69b',1,'cutlass::Coord::Coord(int value=0)'],['../structcutlass_1_1Coord.html#a53a3d88a884f6cb7fda8aedfe2cec2c5',1,'cutlass::Coord::Coord(int _idx[])']]],
-  ['copy',['Copy',['../structcutlass_1_1Copy.html#ab2c20f886208396a1779c6d29b56c3f1',1,'cutlass::Copy::Copy()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#af7a15b4456cda01c1ffbb2fdc532e87e',1,'cutlass::gemm::GlobalLoadStreamBase::copy()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a7f6bf3b8d70bcd74d84519decd9f0d8e',1,'cutlass::gemm::SharedLoadStream::copy(FetchedFragment &amp;fetched)'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a279144e9722055d4b862e3fa25948762',1,'cutlass::gemm::SharedLoadStream::copy(int d, FetchedFragment &amp;fetched)'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ae033f55779b45b4228f40a4d699062bb',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::copy()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#af25495bb0bb35bd64246d3a80fe4806f',1,'cutlass::gemm::GemmTraits::SharedLoadStream::copy()']]],
-  ['count',['count',['../structcutlass_1_1Coord.html#a40429a9154f7a142ad7e9eb35282d196',1,'cutlass::Coord']]],
+  ['consume_5ftile',['consume_tile',['../structcutlass_1_1gemm_1_1Gemm.html#af8bb78ae198af4dccb0241da44428053',1,'cutlass::gemm::Gemm']]],
+  ['contains',['contains',['../classcutlass_1_1TensorView.html#a3f448bcf6e664c244f472e2659215628',1,'cutlass::TensorView']]],
+  ['convert',['Convert',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a593a5a2c48708965e829d242ccb3b99f',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;']]],
+  ['coord',['Coord',['../structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0',1,'cutlass::Coord::Coord(Index value=0)'],['../structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4',1,'cutlass::Coord::Coord(Index _idx[])'],['../structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573',1,'cutlass::Coord::Coord(Coord&lt; kRank &gt; const &amp;coord)']]],
+  ['copy',['Copy',['../structcutlass_1_1Copy.html#ab2c20f886208396a1779c6d29b56c3f1',1,'cutlass::Copy::Copy()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a3784dbb3efe0865ffa946419111c824a',1,'cutlass::gemm::GlobalLoadStream::copy()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a4b919d229e259909efbf994ff2c09339',1,'cutlass::gemm::SharedLoadStream::copy()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a99039d115a539fc99e2235c12ac57eed',1,'cutlass::gemm::SharedLoadStream::copy(int step)'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5c0efc259bb3bd1675f5d395dab71e95',1,'cutlass::gemm::GlobalLoadStreamPair::copy()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#ad46887abb2e3136b635c3ef5be29cf69',1,'cutlass::gemm::SharedStreamPair::copy()'],['../structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23',1,'cutlass::TileLoadStream::copy()'],['../structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009',1,'cutlass::TileStoreStream::copy()'],['../structcutlass_1_1TileStoreStream.html#aa0f3c75e59054d6229de159474c9c978',1,'cutlass::TileStoreStream::copy(Fragment const &amp;frag)'],['../structcutlass_1_1PredicatedTileLoadStream.html#a60a03c95452fe627477933d60815f7cb',1,'cutlass::PredicatedTileLoadStream::copy()'],['../structcutlass_1_1PredicatedTileStoreStream.html#ae84437a66097189406c2090d88a79350',1,'cutlass::PredicatedTileStoreStream::copy()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a1d33da4593ae68e6301df54b310a70a0',1,'cutlass::PredicatedTileStoreStream::copy(Fragment const &amp;frag)']]],
+  ['cos',['cos',['../namespacecutlass_1_1platform.html#ae0ad2891ed2be526d97bc5665d5c0a92',1,'cutlass::platform']]],
+  ['count',['count',['../structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017',1,'cutlass::Coord']]],
   ['cuda_5fperror_5fimpl',['cuda_perror_impl',['../namespacecutlass.html#a6d3dfeb642a2ce3d5f52243fe48f89cc',1,'cutlass']]]
 ];
diff --git a/docs/search/functions_4.js b/docs/search/functions_4.js
index 7288b40538..c5d6c22472 100644
--- a/docs/search/functions_4.js
+++ b/docs/search/functions_4.js
@@ -1,5 +1,9 @@
 var searchData=
 [
-  ['data',['data',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3af66b82b1a0cc5bf6141f940553e048',1,'cutlass::gemm::GemmGlobalIteratorAb::data()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a0d3c1a58f23957f9850d1b22992a981a',1,'cutlass::gemm::GemmGlobalIteratorCd::data()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6fd4e62eb280a5b8c17eb79141414581',1,'cutlass::gemm::GemmGlobalIteratorCd::data() const'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afe77778a126449e210c0bd6ec2dc6709',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::data()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a90e9886534ecbbce69f57b4030d0903f',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::data() const'],['../classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7',1,'cutlass::TensorRef::data()'],['../classcutlass_1_1TensorView.html#a248e4240ccf96c976254464710a73fc8',1,'cutlass::TensorView::data()'],['../structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4',1,'cutlass::TileLoadIterator::data()'],['../structcutlass_1_1TileStoreIterator.html#a5ebab59862d5f50ad980871515d999b0',1,'cutlass::TileStoreIterator::data()']]],
-  ['dot',['dot',['../structcutlass_1_1Coord.html#ad4b3704d14057c043f972827671115cf',1,'cutlass::Coord::dot(Coord const &amp;b, T sum) const'],['../structcutlass_1_1Coord.html#ae023c0c664c22a978e9b9ce5e063aae4',1,'cutlass::Coord::dot(Coord const &amp;b) const']]]
+  ['d',['d',['../structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b',1,'cutlass::TileCoord::d() const'],['../structcutlass_1_1TileCoord.html#aec4ffcdc8fbf57a8b649fff38af55007',1,'cutlass::TileCoord::d()']]],
+  ['data',['data',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a0e05007f939b27e6a17dce5c2a49e3e0',1,'cutlass::gemm::GemmEpilogueTraits::SharedStorage::data()'],['../classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7',1,'cutlass::TensorRef::data()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a67b25cc51ce867b073feead7b94e6aa3',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::data()'],['../structcutlass_1_1TileAllocation.html#a69c43b27939e9ecebd23edb18ed3a9dc',1,'cutlass::TileAllocation::data()'],['../structcutlass_1_1TileAllocation.html#acc3f2c29fe21316091a1405613083000',1,'cutlass::TileAllocation::data() const']]],
+  ['debugtypefunc',['DebugTypeFunc',['../cutlass_8h.html#ab7e23b523490567225b20e2c72649f20',1,'cutlass.h']]],
+  ['decrement',['decrement',['../classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6',1,'cutlass::ZipTileIterator']]],
+  ['dhw',['dhw',['../structcutlass_1_1TileCoord.html#abe65d1a0ff3798b662376032d51e9713',1,'cutlass::TileCoord']]],
+  ['dot',['dot',['../structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184',1,'cutlass::Coord::dot(Coord const &amp;b, T sum) const'],['../structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d',1,'cutlass::Coord::dot(Coord const &amp;b) const']]]
 ];
diff --git a/docs/search/functions_5.js b/docs/search/functions_5.js
index 64953e70f0..7e85d21f2a 100644
--- a/docs/search/functions_5.js
+++ b/docs/search/functions_5.js
@@ -1,7 +1,8 @@
 var searchData=
 [
   ['end',['end',['../structcutlass_1_1PredicateVector.html#ad9493fc80fdc33330cc15641779cc275',1,'cutlass::PredicateVector']]],
-  ['epilogue',['epilogue',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c',1,'cutlass::gemm::GemmEpilogue']]],
-  ['epilogue_5fwith_5for_5fwithout_5fbeta',['epilogue_with_or_without_beta',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4',1,'cutlass::gemm::GemmEpilogue']]],
-  ['evaluate',['evaluate',['../structcutlass_1_1gemm_1_1LinearScaling.html#a2e0d140aed388d2457dfb24d28fcd08a',1,'cutlass::gemm::LinearScaling::evaluate(Fragment_ const &amp;accum, Fragment_ &amp;output)'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a47a53e5b67b2207fb3ba38a8b9cef448',1,'cutlass::gemm::LinearScaling::evaluate(Fragment_ const &amp;accum, Fragment_ const &amp;old, Fragment_ &amp;output)']]]
+  ['epilogue',['epilogue',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3',1,'cutlass::gemm::GemmEpilogue']]],
+  ['epilogue_5fwith_5for_5fwithout_5fbeta',['epilogue_with_or_without_beta',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32',1,'cutlass::gemm::GemmEpilogue']]],
+  ['evaluate',['evaluate',['../structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb',1,'cutlass::gemm::LinearScaling::evaluate(FragmentA_ const &amp;accum, FragmentB_ &amp;output)'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02',1,'cutlass::gemm::LinearScaling::evaluate(ScalarAccum const *accum, ScalarOutput *output)'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a429d78c47d55929903ee02733ad881c1',1,'cutlass::gemm::LinearScaling::evaluate(FragmentA_ const &amp;accum, FragmentB_ const &amp;old, FragmentB_ &amp;output)'],['../structcutlass_1_1gemm_1_1LinearScaling.html#aad0708f7681b16e6d6b4ca8d1f59a947',1,'cutlass::gemm::LinearScaling::evaluate(ScalarAccum const *accum, ScalarOutput const *old, ScalarOutput *output)']]],
+  ['exp',['exp',['../namespacecutlass_1_1platform.html#a1a6ab5742404272f76faeaf22f3ec11b',1,'cutlass::platform']]]
 ];
diff --git a/docs/search/functions_6.js b/docs/search/functions_6.js
index 3d4faf6765..86e2fbe681 100644
--- a/docs/search/functions_6.js
+++ b/docs/search/functions_6.js
@@ -1,9 +1,11 @@
 var searchData=
 [
   ['fill',['fill',['../structcutlass_1_1PredicateVector.html#a236bd1a822479750a809452fd58dd917',1,'cutlass::PredicateVector']]],
-  ['fragment_5fa',['fragment_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a4a8c64d85aa012e3689dd024c486924b',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['fragment_5fb',['fragment_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#aa28f34fb0c4bf739246d92c2fef80e0b',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['fragmentconstiterator',['FragmentConstIterator',['../structcutlass_1_1FragmentConstIterator.html#ac4b6f351e6e72bed37e425f02a10c81e',1,'cutlass::FragmentConstIterator::FragmentConstIterator(OtherFragment_ &amp;fragment, int offset=0)'],['../structcutlass_1_1FragmentConstIterator.html#a3a8fd8f13c157ed13dc93fd78036c59e',1,'cutlass::FragmentConstIterator::FragmentConstIterator(FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;rhs_)']]],
-  ['fragmentiterator',['FragmentIterator',['../structcutlass_1_1FragmentIterator.html#ae1825fe3e138e2aa62d27dab2b5227b4',1,'cutlass::FragmentIterator']]],
-  ['fragmentmultiplyadd',['FragmentMultiplyAdd',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af19e14a22aefd1124f7d31beec6f8c42',1,'cutlass::gemm::FragmentMultiplyAdd::FragmentMultiplyAdd()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a21f0965f6178917c7f5c6d79ed048059',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::FragmentMultiplyAdd()']]]
+  ['find_5flog2',['find_log2',['../namespacecutlass.html#a58a119c3f7b33d97c43ae8c114004d9e',1,'cutlass']]],
+  ['fragment',['fragment',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#ad5cb076de46e841a165bd43924dab463',1,'cutlass::gemm::SharedLoadStream::fragment(int step=0)'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a30e815fcee63b5a99b2797464b6a3192',1,'cutlass::gemm::SharedLoadStream::fragment(int step=0) const'],['../structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be',1,'cutlass::TileLoadStream::fragment()'],['../structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5',1,'cutlass::TileStoreStream::fragment()']]],
+  ['fragment_5fa',['fragment_a',['../structcutlass_1_1gemm_1_1SharedStreamPair.html#af29f052dc0145abe3144dea1472d241a',1,'cutlass::gemm::SharedStreamPair']]],
+  ['fragment_5fb',['fragment_b',['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a375e96bc2e35447682bd1dea3c4d87ad',1,'cutlass::gemm::SharedStreamPair']]],
+  ['fragmentconstiterator',['FragmentConstIterator',['../structcutlass_1_1FragmentConstIterator.html#ad3e99cd7f56d4aec0a28cfcbde66f5af',1,'cutlass::FragmentConstIterator::FragmentConstIterator(OtherFragment_ &amp;fragment, int offset=0)'],['../structcutlass_1_1FragmentConstIterator.html#a18f926c9c877e15a279f16637bd24e83',1,'cutlass::FragmentConstIterator::FragmentConstIterator(FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;rhs_)']]],
+  ['fragmentiterator',['FragmentIterator',['../structcutlass_1_1FragmentIterator.html#a638e4e1d84b4ae84e758288c7f37548b',1,'cutlass::FragmentIterator']]],
+  ['fragmentmultiplyadd',['FragmentMultiplyAdd',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ae1fbd0fd103deda51208102f15f896ed',1,'cutlass::gemm::FragmentMultiplyAdd::FragmentMultiplyAdd()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ad35b57b3f0cf5a467a1b0e48cffc3061',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::FragmentMultiplyAdd()']]]
 ];
diff --git a/docs/search/functions_7.js b/docs/search/functions_7.js
index 3ce9c5d824..ba5f46cdee 100644
--- a/docs/search/functions_7.js
+++ b/docs/search/functions_7.js
@@ -2,16 +2,23 @@ var searchData=
 [
   ['gcd',['gcd',['../namespacecutlass.html#a38481ebfe13bc199aa621ceecfa016b8',1,'cutlass']]],
   ['gemm',['Gemm',['../structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd',1,'cutlass::gemm::Gemm']]],
-  ['gemm_5fkernel',['gemm_kernel',['../namespacecutlass_1_1gemm.html#ad9577c9086b0f7fd1202d7f8109e4439',1,'cutlass::gemm']]],
-  ['gemmepilogue',['GemmEpilogue',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925',1,'cutlass::gemm::GemmEpilogue']]],
-  ['gemmglobaliteratorab',['GemmGlobalIteratorAb',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a34cb153d311377388e7819296a84d07e',1,'cutlass::gemm::GemmGlobalIteratorAb']]],
-  ['gemmglobaliteratorcd',['GemmGlobalIteratorCd',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6dae81995ab94c0b7f28eeeeb84a6c8d',1,'cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a64f1df43acb37a1901f0b55becaa9557',1,'cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd(Params const &amp;params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())']]],
-  ['get',['get',['../classcutlass_1_1PredicateVector_1_1Iterator.html#af035589126434bd2dbef4000cd864b8b',1,'cutlass::PredicateVector::Iterator::get()'],['../structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38',1,'cutlass::ComputeOffsetFromShape::get()'],['../structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html#a5198e838e3892245fe7b10884555ec93',1,'cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;::get()'],['../structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html#a11bf40abc57580db5ce4b0fd4c3e55ff',1,'cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;::get()'],['../structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409',1,'cutlass::ComputeOffsetFromStrides::get()'],['../structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html#acdbb9c7cdf9fc054656614f72396434e',1,'cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;::get()'],['../structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html#a512a9d46f6bea9d85641d7263bcfee36',1,'cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad',1,'cutlass::ComputeThreadOffsetFromStrides::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html#a5d446b2663c01362361e09435a726996',1,'cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html#a6e621f5fae2ba29277fde46be1cede24',1,'cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;::get()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a2e7c14b8a118f81c1df46ea5045e297b',1,'cutlass::platform::unique_ptr::get()']]],
-  ['get_5fcoord_5fdhw',['get_Coord_dhw',['../namespacecutlass.html#a4680709eeeb679ef0219938f85f7394e',1,'cutlass']]],
-  ['get_5fcoord_5fhw',['get_Coord_hw',['../namespacecutlass.html#a7d2ab683e29b47d245e183ad5aeb962e',1,'cutlass::get_Coord_hw(Coord&lt; 3 &gt; const &amp;coord)'],['../namespacecutlass.html#a082e7a2e4acc2879468243f5732ccf0b',1,'cutlass::get_Coord_hw(Coord&lt; 4 &gt; const &amp;coord)']]],
-  ['get_5fcoord_5fhwc',['get_Coord_hwc',['../namespacecutlass.html#a71f3e2a12b9e98be1fba082610fa9d4f',1,'cutlass']]],
+  ['gemm_5fkernel_5fnolb',['gemm_kernel_nolb',['../namespacecutlass_1_1gemm.html#ae23b870e60261e2322f3c6edb3d2bcb9',1,'cutlass::gemm']]],
+  ['gemmcoord',['GemmCoord',['../structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01',1,'cutlass::gemm::GemmCoord::GemmCoord()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a03e6bfa95156962be51e190d381c8b5e',1,'cutlass::gemm::GemmCoord::GemmCoord(Coord&lt; 3, Index &gt; const &amp;coord, Index _batch=0)'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a65d1ca12c0f27984920cf1700322a746',1,'cutlass::gemm::GemmCoord::GemmCoord(Coord&lt; 4, Index &gt; const &amp;coord)'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a17da9936dbad99f2402c42b1bd6ea5ea',1,'cutlass::gemm::GemmCoord::GemmCoord(Index coord[4])'],['../structcutlass_1_1gemm_1_1GemmCoord.html#ac3b1cbdf86bd36d6b4b5e295ef846dfe',1,'cutlass::gemm::GemmCoord::GemmCoord(Index k, Index n, Index m, Index batch=0)']]],
+  ['gemmdesc',['GemmDesc',['../structcutlass_1_1gemm_1_1GemmDesc.html#ae2708b731cbb99d3e638382ecf599425',1,'cutlass::gemm::GemmDesc::GemmDesc()'],['../structcutlass_1_1gemm_1_1GemmDesc.html#a948af4a974f1aa74d3b6da9cd3e185de',1,'cutlass::gemm::GemmDesc::GemmDesc(Coord&lt; 3 &gt; _problem_size, SType _alpha, TensorRefA const &amp;_A, TensorRefB const &amp;_B, SType _beta, TensorRefC const &amp;_C, TensorRefD const &amp;_D)'],['../structcutlass_1_1gemm_1_1GemmDesc.html#a7292ac0196f22525b13f223a02271bc3',1,'cutlass::gemm::GemmDesc::GemmDesc(GemmCoord _problem_size, SType _alpha, TensorRefA const &amp;_A, TensorRefB const &amp;_B, SType _beta, TensorRefC const &amp;_C, TensorRefD const &amp;_D)'],['../structcutlass_1_1gemm_1_1GemmDesc.html#af96cd9c8f2454ea118dfa7358dd24824',1,'cutlass::gemm::GemmDesc::GemmDesc(GemmCoord _problem_size, SType _alpha, TensorRefA const &amp;_A, long long _batch_stride_A, TensorRefB const &amp;_B, long long _batch_stride_B, SType _beta, TensorRefC const &amp;_C, long long _batch_stride_C, TensorRefD const &amp;_D, long long _batch_stride_D)']]],
+  ['gemmepilogue',['GemmEpilogue',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8',1,'cutlass::gemm::GemmEpilogue']]],
+  ['gemmglobaliteratorab',['GemmGlobalIteratorAb',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5',1,'cutlass::gemm::GemmGlobalIteratorAb']]],
+  ['gemmglobaliteratorcd',['GemmGlobalIteratorCd',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff',1,'cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block_offset, ThreadOffset thread_offset_func=ThreadOffset())'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a15d3244546d1c8f4727e84b27a8b7fc6',1,'cutlass::gemm::GemmGlobalIteratorCd::GemmGlobalIteratorCd(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())']]],
+  ['get',['get',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a1661baed19b4aa4eea725a6f6e6b26a3',1,'cutlass::detail::ScalarOrPointer::get()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#af035589126434bd2dbef4000cd864b8b',1,'cutlass::PredicateVector::Iterator::get()'],['../structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b',1,'cutlass::ComputeOffsetFromShape::get()'],['../structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e',1,'cutlass::ComputeOffsetFromStrides::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad',1,'cutlass::ComputeThreadOffsetFromStrides::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html#a5d446b2663c01362361e09435a726996',1,'cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, T_c_ &gt;, Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;::get()'],['../structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html#a6e621f5fae2ba29277fde46be1cede24',1,'cutlass::ComputeThreadOffsetFromStrides&lt; Shape&lt; 1, T_h_, T_w_, 1 &gt;, Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;::get()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a2e7c14b8a118f81c1df46ea5045e297b',1,'cutlass::platform::unique_ptr::get()']]],
+  ['get_5fbatch_5fid',['get_batch_id',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a8f84a2b830caecff3edd052dc24635e6',1,'cutlass::gemm::IdentityBlockSwizzle::get_batch_id()'],['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#abb21a72e2cef3217f446f70758c59c1e',1,'cutlass::gemm::ColumnMajorBlockSwizzle::get_batch_id()'],['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a9be74716c0e3dc6a7f4cdd64cbb16211',1,'cutlass::gemm::RowMajorBlockSwizzle::get_batch_id()']]],
   ['get_5fdeleter',['get_deleter',['../classcutlass_1_1platform_1_1unique__ptr.html#a5b8d8ecafb4da336acd50e40cd42b6e0',1,'cutlass::platform::unique_ptr::get_deleter() noexcept'],['../classcutlass_1_1platform_1_1unique__ptr.html#aa427ab4ea4f2336ac6db28d53a4c11ac',1,'cutlass::platform::unique_ptr::get_deleter() const noexcept']]],
-  ['globalloadstream',['GlobalLoadStream',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a4dd11a75375b6b9d7b8dcbd4d402d8d6',1,'cutlass::gemm::GlobalLoadStream::GlobalLoadStream()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#ab2961b4db0694cf128d55d38a98db575',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::GlobalLoadStream()']]],
-  ['globalloadstreambase',['GlobalLoadStreamBase',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0fdc0f56d1352b5ad41fd4985edd3278',1,'cutlass::gemm::GlobalLoadStreamBase']]],
-  ['good',['good',['../classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780',1,'cutlass::TensorRef::good()'],['../classcutlass_1_1TensorView.html#a837881bc82704491accf54aad2b9def9',1,'cutlass::TensorView::good()']]]
+  ['get_5fgrid_5flayout',['get_grid_layout',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#afc20f302a5cc5b736cfc1c91dfcaa57c',1,'cutlass::gemm::IdentityBlockSwizzle::get_grid_layout()'],['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a927ce3eed4cd22554f9e6fe20a1ccc6e',1,'cutlass::gemm::ColumnMajorBlockSwizzle::get_grid_layout()'],['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#aa9fc825e19404ff527cb3d2dcc55ae1c',1,'cutlass::gemm::RowMajorBlockSwizzle::get_grid_layout()']]],
+  ['get_5fpointer_5foffset',['get_pointer_offset',['../structcutlass_1_1TensorRefBatchStrided.html#a3d1922402bba34d0bc865fcc3e1a9a5c',1,'cutlass::TensorRefBatchStrided']]],
+  ['get_5fptr',['get_ptr',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a6b066568947df37094e4125b0347faf1',1,'cutlass::detail::ScalarOrPointer']]],
+  ['get_5fscalar',['get_scalar',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a81bd7b4f50b8d7c5effe5291ad920380',1,'cutlass::detail::ScalarOrPointer']]],
+  ['get_5fthreadblock_5foffset',['get_threadblock_offset',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a386e5cf702b0dcc3d57f9fdb4ab5d236',1,'cutlass::gemm::IdentityBlockSwizzle::get_threadblock_offset()'],['../structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a380fb7f905548c52933ea411166424b4',1,'cutlass::gemm::ColumnMajorBlockSwizzle::get_threadblock_offset()'],['../structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#af7c1b4e0afb08e893cd14a169a0b47cd',1,'cutlass::gemm::RowMajorBlockSwizzle::get_threadblock_offset()']]],
+  ['getlinearidx',['getLinearIdx',['../namespacecutlass_1_1gemm.html#a2336880c866ef4e73bbe0c3dbcb6c40e',1,'cutlass::gemm']]],
+  ['getlinearidx_3c_20swizzledirection_3a_3aboustrophedon_20_3e',['getLinearIdx&lt; swizzleDirection::Boustrophedon &gt;',['../namespacecutlass_1_1gemm.html#a37c566ad59d61647374f215c3d33f088',1,'cutlass::gemm']]],
+  ['globalloadstream',['GlobalLoadStream',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#aec86bdf5d7d4ad1f7b6ebebcf2da8395',1,'cutlass::gemm::GlobalLoadStream']]],
+  ['globalloadstreampair',['GlobalLoadStreamPair',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab97442e24a1d6d64727b6320ab901ad1',1,'cutlass::gemm::GlobalLoadStreamPair']]],
+  ['good',['good',['../classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8',1,'cutlass::TensorRef::good()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a8e1cfab3a220175dad58239c764a5d98',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::good()']]]
 ];
diff --git a/docs/search/functions_8.js b/docs/search/functions_8.js
index 9418317cae..9b1cff368b 100644
--- a/docs/search/functions_8.js
+++ b/docs/search/functions_8.js
@@ -1,4 +1,7 @@
 var searchData=
 [
-  ['hgemmswizzle',['HgemmSwizzle',['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#ac3c52e0fee9b37a3dfc39ca168a63d36',1,'cutlass::gemm::HgemmSwizzle']]]
+  ['h',['h',['../structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3',1,'cutlass::TileCoord::h() const'],['../structcutlass_1_1TileCoord.html#a1d91ffa0a63ad03431ff79185526f92f',1,'cutlass::TileCoord::h()']]],
+  ['hgemmswizzle',['HgemmSwizzle',['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#ac3c52e0fee9b37a3dfc39ca168a63d36',1,'cutlass::gemm::HgemmSwizzle']]],
+  ['hw',['hw',['../structcutlass_1_1TileCoord.html#a0927c4ba212d00f3687034afe6bb8daf',1,'cutlass::TileCoord']]],
+  ['hwc',['hwc',['../structcutlass_1_1TileCoord.html#a11bb7593ce7bba2dcedd199322a8b42b',1,'cutlass::TileCoord']]]
 ];
diff --git a/docs/search/functions_9.js b/docs/search/functions_9.js
index 04276e19e0..d4b69c9e2c 100644
--- a/docs/search/functions_9.js
+++ b/docs/search/functions_9.js
@@ -1,22 +1,25 @@
 var searchData=
 [
-  ['identityblockswizzle',['IdentityBlockSwizzle',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#abfde9b316173b1c0b8622cf22ffb6d68',1,'cutlass::gemm::IdentityBlockSwizzle']]],
-  ['igemmepilogue',['IgemmEpilogue',['../structcutlass_1_1gemm_1_1IgemmEpilogue.html#ab7a51121d24250d6441ee538e6521dc2',1,'cutlass::gemm::IgemmEpilogue::IgemmEpilogue()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a49ac00bed1532707aacd3ff108c84623',1,'cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::IgemmEpilogue()']]],
+  ['identityblockswizzle',['IdentityBlockSwizzle',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a046a5dfd01164df2abd514e9a52987c3',1,'cutlass::gemm::IdentityBlockSwizzle']]],
+  ['igemmepilogue',['IgemmEpilogue',['../structcutlass_1_1gemm_1_1IgemmEpilogue.html#a599a50becefed561d063c1b834188aca',1,'cutlass::gemm::IgemmEpilogue::IgemmEpilogue()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a0a1be1aab827127161406871ca75cbe0',1,'cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::IgemmEpilogue()']]],
   ['igemmfloattoint8converter',['IgemmFloatToInt8Converter',['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#ac65f020e93584b1bd3cdb849ff625026',1,'cutlass::gemm::IgemmFloatToInt8Converter']]],
+  ['igemmglobaliteratorab',['IgemmGlobalIteratorAb',['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a489fe448cd7f7e1f3805d33504f9d336',1,'cutlass::gemm::IgemmGlobalIteratorAb']]],
   ['igemmint8tofloatconverter',['IgemmInt8ToFloatConverter',['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a88a55a494d3a30d50477d50bf6a8804d',1,'cutlass::gemm::IgemmInt8ToFloatConverter']]],
   ['igemmswizzle',['IgemmSwizzle',['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac041d287c966cf568599d7e462e81d5a',1,'cutlass::gemm::IgemmSwizzle']]],
-  ['inc_5fadvance',['inc_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a9dea455aa86bb59517b4a4d0309e424b',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_advance()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab4b8150f19c9f8649d75c69ec0a76e1a',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_advance()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a174ae7d8aa0664eaf1d6f63c5606baa0',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_advance()'],['../structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37',1,'cutlass::TileLoadIterator::inc_advance()'],['../structcutlass_1_1TileStoreIterator.html#a1614b27755cf82c0e1f3e7852c5a4c75',1,'cutlass::TileStoreIterator::inc_advance()']]],
-  ['inc_5fc',['inc_c',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a12ead84ea9634e963d10c6df7b7792c9',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_c()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a44287250bf5631a490b514859fd101d1',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_c()']]],
-  ['inc_5fd',['inc_d',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1e42503e5a54cdc01308e9030aebdd35',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_d()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad26ab8d8010c9a1d7f3b91f60940b460',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_d()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab1ebbe54e4315ac07daf260a88f41d04',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_d()'],['../structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5',1,'cutlass::TileLoadIterator::inc_d()'],['../structcutlass_1_1TileStoreIterator.html#a74dffe1ddcc84935ab170117e939b7e3',1,'cutlass::TileStoreIterator::inc_d()']]],
-  ['inc_5fh',['inc_h',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aa24336597f4a3316d94df6ab0c20f714',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_h()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ae07fa10a53d44471a04275145201299e',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_h()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa9a733f35e9be67663c9c8f80b0034d4',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_h()'],['../structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface',1,'cutlass::TileLoadIterator::inc_h()'],['../structcutlass_1_1TileStoreIterator.html#a3793f5d5846862f22f1de736e36ae7c1',1,'cutlass::TileStoreIterator::inc_h()']]],
-  ['inc_5fstage',['inc_stage',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f',1,'cutlass::gemm::SharedLoadStream::inc_stage()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8851150a49e4a9c135279c8c9dfdc592',1,'cutlass::gemm::GemmTraits::SharedLoadStream::inc_stage()'],['../structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64',1,'cutlass::TileLoadIterator::inc_stage()'],['../structcutlass_1_1TileStoreIterator.html#a187e0852ec4862f6d3cb6249bedc3bb3',1,'cutlass::TileStoreIterator::inc_stage()']]],
-  ['inc_5fw',['inc_w',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a622a4dd27162854ec96efea93cdd4380',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_w()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aec2d692967d9be5d42673dfde21f5427',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_w()'],['../structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073',1,'cutlass::TileLoadIterator::inc_w()'],['../structcutlass_1_1TileStoreIterator.html#aa573a47a9ffc3e07239a09e2bc470cf1',1,'cutlass::TileStoreIterator::inc_w()']]],
-  ['initialize',['initialize',['../structcutlass_1_1gemm_1_1Gemm_1_1Params.html#ac00c9d78a187d9c7d53399f971c0e129',1,'cutlass::gemm::Gemm::Params::initialize()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a3e9d0fd2989fea776b0cab0e0f2813ce',1,'cutlass::gemm::GemmEpilogueTraits::Params::initialize()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a7c7e448384156c801ed362359a1a6a40',1,'cutlass::gemm::GlobalLoadStreamBase::Params::initialize()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#a73091e07b6d4c99f6e0319fbf6bd1709',1,'cutlass::gemm::GemmGlobalIteratorAb::Params::initialize()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#af5a496f1b6a46ea6a9894512029add6a',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::initialize()'],['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a',1,'cutlass::gemm::SharedLoadStream::Params::initialize()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a8e4d277325bb5e56c718a2298b60d3cf',1,'cutlass::gemm::SharedLoadStream::initialize()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983',1,'cutlass::gemm::GemmTraits::Params::initialize()'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d',1,'cutlass::gemm::LinearScaling::Params::initialize()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#ad6b65c5f3ed7cd9e7ffeb684cbf30d04',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::initialize()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55',1,'cutlass::TileIteratorBase::Params::initialize(Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be',1,'cutlass::TileIteratorBase::Params::initialize(Index _stride_d, Index _stride_h, Index _stride_w)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224',1,'cutlass::TileIteratorBase::Params::initialize()'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76',1,'cutlass::TileLoadIterator::Params::initialize(SharedStorage const &amp;storage)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#afd9e82df76ad35fe883b7834457242b2',1,'cutlass::TileLoadIterator::Params::initialize(Scalar const *ptr, Index stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#aa3922946bb0da0c0040dec44aa389ec1',1,'cutlass::TileLoadIterator::Params::initialize(Scalar const *ptr, Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8',1,'cutlass::TileLoadIterator::Params::initialize()'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a71f5238a712f7b2f377fb58938ac829b',1,'cutlass::TileStoreIterator::Params::initialize(SharedStorage &amp;storage)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#af0d26a2df2a1a5ba3c3169b736bd5d43',1,'cutlass::TileStoreIterator::Params::initialize(Scalar *ptr, Index stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#ac1cfe92f1543ba445fa10f1859a0db98',1,'cutlass::TileStoreIterator::Params::initialize(Scalar *ptr, Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#af884f720d36aa82e7f972932686ae986',1,'cutlass::TileStoreIterator::Params::initialize()']]],
-  ['initialize_5fpredicates',['initialize_predicates',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab9375d9e779dcda79a5cd561bb3762ff',1,'cutlass::gemm::GemmGlobalIteratorAb::initialize_predicates()'],['../structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7',1,'cutlass::TileIteratorBase::initialize_predicates()'],['../structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5',1,'cutlass::TileLoadIterator::initialize_predicates()'],['../structcutlass_1_1TileStoreIterator.html#af92ba20db048a9ec96976a1673f0f7c2',1,'cutlass::TileStoreIterator::initialize_predicates()']]],
+  ['imag',['imag',['../classcutlass_1_1platform_1_1complex.html#a57360dbcada12083ecb92fba32fae801',1,'cutlass::platform::complex::imag() const'],['../classcutlass_1_1platform_1_1complex.html#a835363f62c6a079496c22074ab428651',1,'cutlass::platform::complex::imag()'],['../namespacecutlass_1_1platform.html#a18bc43cfdc4d066a6c10ad2002196ee6',1,'cutlass::platform::imag(cuFloatComplex const &amp;z)'],['../namespacecutlass_1_1platform.html#af127cab494309510051d6b45914faf33',1,'cutlass::platform::imag(cuFloatComplex &amp;z)'],['../namespacecutlass_1_1platform.html#a1739f880ca8398f808ee57a3f0c3c30b',1,'cutlass::platform::imag(cuDoubleComplex const &amp;z)'],['../namespacecutlass_1_1platform.html#a8f356af3c5828b7d31279a5d075c5bc9',1,'cutlass::platform::imag(cuDoubleComplex &amp;z)'],['../namespacecutlass_1_1platform.html#a714db927a811c86cda26fc12ca830356',1,'cutlass::platform::imag(complex&lt; T &gt; const &amp;z)'],['../namespacecutlass_1_1platform.html#aa35ea4f804f9ed39578b595ba2620c1d',1,'cutlass::platform::imag(complex&lt; T &gt; &amp;z)']]],
+  ['inc_5fadvance',['inc_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_advance()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_advance()'],['../structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b',1,'cutlass::TileLoadIterator::inc_advance()'],['../structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d',1,'cutlass::TileStoreIterator::inc_advance()']]],
+  ['inc_5fc',['inc_c',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316',1,'cutlass::gemm::GemmGlobalIteratorCd']]],
+  ['inc_5fd',['inc_d',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_d()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_d()'],['../structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674',1,'cutlass::TileLoadIterator::inc_d()'],['../structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975',1,'cutlass::TileStoreIterator::inc_d()']]],
+  ['inc_5fh',['inc_h',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_h()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_h()'],['../structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51',1,'cutlass::TileLoadIterator::inc_h()'],['../structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d',1,'cutlass::TileStoreIterator::inc_h()']]],
+  ['inc_5fstage',['inc_stage',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f',1,'cutlass::gemm::SharedLoadStream::inc_stage()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#ad4b9b1c1fe4b0c6961842d0eff6d7db7',1,'cutlass::gemm::SharedStreamPair::inc_stage()'],['../structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d',1,'cutlass::TileLoadIterator::inc_stage()'],['../structcutlass_1_1TileStoreIterator.html#ad61206a742c8c5ab5bcd64b76ece9f74',1,'cutlass::TileStoreIterator::inc_stage()']]],
+  ['inc_5fw',['inc_w',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209',1,'cutlass::gemm::GemmGlobalIteratorAb::inc_w()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2',1,'cutlass::gemm::GemmGlobalIteratorCd::inc_w()'],['../structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c',1,'cutlass::TileLoadIterator::inc_w()'],['../structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1',1,'cutlass::TileStoreIterator::inc_w()']]],
+  ['increment',['increment',['../classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808',1,'cutlass::ZipTileIterator']]],
+  ['initialize',['initialize',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a13395bf81eabdc539c935e179c31d7ca',1,'cutlass::gemm::GemmEpilogueTraits::Params::initialize()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a054aee5b4bf288cc1f5945f2521ef835',1,'cutlass::gemm::GlobalLoadStream::Params::initialize()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#ad0602cf5d322e98e3e5990c84ae1e3f3',1,'cutlass::gemm::GemmGlobalIteratorAb::Params::initialize()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::initialize()'],['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#adb66103b905b35a1594c6f0bab65758a',1,'cutlass::gemm::SharedLoadStream::Params::initialize()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a9b62788c187fff49b0250c0070a41fa0',1,'cutlass::gemm::SharedLoadStream::initialize()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983',1,'cutlass::gemm::GemmTraits::Params::initialize(GemmDesc_ const &amp;desc)'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#ac4cd0b74130ffc09e4ccb7b0acba87f8',1,'cutlass::gemm::GemmTraits::Params::initialize(Index m, Index n, Index k, typename Epilogue::Scalar alpha, ScalarA const *d_a, Index lda, ScalarB const *d_b, Index ldb, typename Epilogue::Scalar beta, ScalarC const *d_c, Index ldc, ScalarD *d_d, Index ldd)'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a95314e9a9279c4870f37f68a2357e064',1,'cutlass::gemm::GemmTraits::Params::initialize(Index m, Index n, Index k, typename Epilogue::Scalar alpha, ScalarA const *d_a, Index lda, long long int batch_stride_A, ScalarB const *d_b, Index ldb, long long int batch_stride_B, typename Epilogue::Scalar beta, ScalarC const *d_c, Index ldc, long long int batch_stride_C, ScalarD *d_d, Index ldd, long long int batch_stride_D, Index batch_count)'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ad4089906220d4656ba075fb9afd1012c',1,'cutlass::gemm::LinearScaling::Params::initialize(Scalar _alpha, Scalar _beta)'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d',1,'cutlass::gemm::LinearScaling::Params::initialize(GemmDesc_ const &amp;desc)'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ad1b2291b898091ee1966b73bd1ad56fa',1,'cutlass::gemm::LinearScalingDevicePtr::Params::initialize(Scalar alpha, Scalar beta)'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ab4dbffb32daffb64d2033e3091963507',1,'cutlass::gemm::LinearScalingDevicePtr::Params::initialize(Scalar const *alpha, Scalar const *beta)'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a491496037bf6613e128e667f87fda696',1,'cutlass::gemm::LinearScalingDevicePtr::Params::initialize(GemmDesc_ const &amp;desc)'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a98867f4fc4daf790e309f8365e71cc8f',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::initialize()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60',1,'cutlass::TileIteratorBase::Params::initialize(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd',1,'cutlass::TileIteratorBase::Params::initialize(Coord&lt; 4 &gt; const &amp;stride)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9',1,'cutlass::TileIteratorBase::Params::initialize(long long _stride_d, Index _stride_h, Index _stride_w)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9',1,'cutlass::TileIteratorBase::Params::initialize()'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803',1,'cutlass::TileLoadIterator::Params::initialize(TensorRef const &amp;ref)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a61b898051d0397b013407a4c90409aa0',1,'cutlass::TileLoadIterator::Params::initialize(SharedStorage const &amp;storage)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a8869188d1c3b867fe6389aadf04837bf',1,'cutlass::TileLoadIterator::Params::initialize(Scalar const *ptr)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662',1,'cutlass::TileLoadIterator::Params::initialize(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a53917e002fd29a5650752c65f96b353d',1,'cutlass::TileLoadIterator::Params::initialize(Scalar const *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d',1,'cutlass::TileLoadIterator::Params::initialize()'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#aca14058b112b7d5105658457341726cb',1,'cutlass::TileStoreIterator::Params::initialize(SharedStorage &amp;storage)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a0d36c05a4a757db5ebfe5f180b174b8c',1,'cutlass::TileStoreIterator::Params::initialize(Scalar *ptr)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a23c9e9d1d2bed7e5d8579df9cc42dda3',1,'cutlass::TileStoreIterator::Params::initialize(Scalar *ptr, long long stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a6a7702de0e88449b3d1864b208adf87a',1,'cutlass::TileStoreIterator::Params::initialize(Scalar *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#ad90642d96a3b5354813fbf4d9b04b83f',1,'cutlass::TileStoreIterator::Params::initialize()']]],
+  ['initialize_5fpredicates',['initialize_predicates',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018',1,'cutlass::gemm::GemmGlobalIteratorAb::initialize_predicates()'],['../structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208',1,'cutlass::TileIteratorBase::initialize_predicates()'],['../structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82',1,'cutlass::TileLoadIterator::initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))'],['../structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49',1,'cutlass::TileLoadIterator::initialize_predicates(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)'],['../structcutlass_1_1TileStoreIterator.html#acb6bc889b93d25c9e483a0b7297d7c89',1,'cutlass::TileStoreIterator::initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))'],['../structcutlass_1_1TileStoreIterator.html#a890a7239a89679662aeaea797ba32d32',1,'cutlass::TileStoreIterator::initialize_predicates(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)'],['../classcutlass_1_1ZipTileIterator.html#a8f334010614b50d962e4769904d7b76f',1,'cutlass::ZipTileIterator::initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))'],['../classcutlass_1_1ZipTileIterator.html#ab0f93878bbe5aac072450f9bf1dd8b64',1,'cutlass::ZipTileIterator::initialize_predicates(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)']]],
+  ['intermediate_5ffragment',['intermediate_fragment',['../structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093',1,'cutlass::TileLoadStream::intermediate_fragment()'],['../structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71',1,'cutlass::TileStoreStream::intermediate_fragment()']]],
+  ['is_5fpointer',['is_pointer',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a95373f3d1b286c61cb204ba6a1282ce0',1,'cutlass::detail::ScalarOrPointer']]],
   ['is_5fzero',['is_zero',['../structcutlass_1_1PredicateVector.html#a1c4fe2bec906cd7937428ed6561ac79a',1,'cutlass::PredicateVector::is_zero()'],['../namespacecutlass_1_1gemm.html#a3e30ae89e6f7501725028144cd2d88cb',1,'cutlass::gemm::is_zero(T x)'],['../namespacecutlass_1_1gemm.html#a4a12fcfae60f26efa47bf0a79483d8ac',1,'cutlass::gemm::is_zero(half x)']]],
   ['iterator',['Iterator',['../classcutlass_1_1PredicateVector_1_1Iterator.html#a91b7d25cbd64e696ef23c87671f0b077',1,'cutlass::PredicateVector::Iterator::Iterator(Iterator const &amp;it)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a83c2f584bd061f0b9b6b2a6cddf5b038',1,'cutlass::PredicateVector::Iterator::Iterator(PredicateVector &amp;_vec, int _start=0)']]],
-  ['iterator_5fload',['iterator_load',['../namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be',1,'cutlass::iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)'],['../namespacecutlass.html#a50f08aa93d7fe6825599d17e3c977031',1,'cutlass::iterator_load(InputIterator const &amp;_iterator, Fragment &amp;fragment, typename InputIterator::Index offset, ConstPredicateAdapter predicate_adapter)'],['../namespacecutlass.html#aca491136bdb966638a7ae57c47f86d1e',1,'cutlass::iterator_load(InputIterator const &amp;iterator, Fragment &amp;fragment, typename InputIterator::Index offset=0)'],['../namespacecutlass.html#af25d56f7391322d9a3b9aa3c507f90dc',1,'cutlass::iterator_load(InputIterator const &amp;iterator, Fragment &amp;fragment, ConstPredicateAdapter pred_it)']]],
-  ['iterator_5fload_5fpost_5fincrement',['iterator_load_post_increment',['../namespacecutlass.html#a3965068d8a4fdfe5e05782930fb4fe6b',1,'cutlass::iterator_load_post_increment(InputIterator &amp;iterator, Fragment &amp;fragment, typename InputIterator::Index offset, ConstPredicateAdapter predicate_adapter)'],['../namespacecutlass.html#af5abe551df7461eab66aa43907063d6b',1,'cutlass::iterator_load_post_increment(InputIterator &amp;iterator, Fragment &amp;fragment, typename InputIterator::Index offset=0)'],['../namespacecutlass.html#afb8e7a4e611e8b5ae7ca19d02f791d37',1,'cutlass::iterator_load_post_increment(InputIterator &amp;iterator, Fragment &amp;fragment, ConstPredicateAdapter pred_it)']]],
-  ['iterator_5fstore',['iterator_store',['../namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9',1,'cutlass::iterator_store(OutputIterator &amp;iterator, Fragment &amp;fragment)'],['../namespacecutlass.html#a88dce4b124a294cc123f7cf5fd2d6472',1,'cutlass::iterator_store(OutputIterator const &amp;_iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset, ConstPredicateAdapter predicate_adapter)'],['../namespacecutlass.html#a410ed4d45ccafc2db842967740b6211f',1,'cutlass::iterator_store(OutputIterator const &amp;iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset=0)'],['../namespacecutlass.html#ad804b804ac19360b293046f9cbfd8dd5',1,'cutlass::iterator_store(OutputIterator const &amp;iterator, Fragment const &amp;fragment, ConstPredicateAdapter pred_it)']]],
-  ['iterator_5fstore_5fpost_5fincrement',['iterator_store_post_increment',['../namespacecutlass.html#a5bf15cbf4cf4649d895fcbc2edf6a2de',1,'cutlass::iterator_store_post_increment(OutputIterator &amp;iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset, ConstPredicateAdapter predicate_adapter)'],['../namespacecutlass.html#ab8efb0edefca7a59acc5a14b7311130c',1,'cutlass::iterator_store_post_increment(OutputIterator &amp;iterator, Fragment const &amp;fragment, typename OutputIterator::Index offset=0)'],['../namespacecutlass.html#a96fdb65e922f6a3d46aa5de9ea78d460',1,'cutlass::iterator_store_post_increment(OutputIterator &amp;iterator, Fragment const &amp;fragment, ConstPredicateAdapter pred_it)']]]
+  ['iterator_5fload',['iterator_load',['../namespacecutlass.html#a45dd7add04736cb5c3e69991d2f210be',1,'cutlass']]],
+  ['iterator_5fstore',['iterator_store',['../namespacecutlass.html#a0cb5bdf7bef498705c51a9cdcbef71f9',1,'cutlass']]]
 ];
diff --git a/docs/search/functions_a.js b/docs/search/functions_a.js
index 61f3d1a74a..a3d676ab8d 100644
--- a/docs/search/functions_a.js
+++ b/docs/search/functions_a.js
@@ -1,9 +1,8 @@
 var searchData=
 [
-  ['launch',['launch',['../structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c',1,'cutlass::gemm::Gemm::launch(Params const &amp;params, cudaStream_t stream=cudaStreamDefault)'],['../structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906',1,'cutlass::gemm::Gemm::launch(CUfunction kernel, Params const &amp;params, CUstream stream=CU_STREAM_LEGACY)']]],
-  ['lcm',['lcm',['../namespacecutlass.html#af07506fee11de882d926f4e8237eef09',1,'cutlass']]],
-  ['leading_5fdim',['leading_dim',['../classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77',1,'cutlass::TensorRef']]],
-  ['linearscaling',['LinearScaling',['../structcutlass_1_1gemm_1_1LinearScaling.html#a34df6970f033b3090ad8f4d40063b1b2',1,'cutlass::gemm::LinearScaling']]],
-  ['load',['load',['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html#a01a847858cb330d7d109ddee228e96ce',1,'cutlass::FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::load()'],['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html#a014682b143bce65667075ea15fad184d',1,'cutlass::FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::load()'],['../structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140',1,'cutlass::Load::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#aa9d5e227ea20ad3c6952f296016ec167',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a0e58d26dd68aabb6cb9678f5656c7e6f',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::load()'],['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a7ba77016bee8e941f7831cc9fbfa994d',1,'cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a4ee00178c441bdf4d4a1f8cf984bc03f',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::load()'],['../structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140',1,'cutlass::TileLoadIterator::load(Fragment &amp;fragment, PredicateIterator pred_it) const'],['../structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db',1,'cutlass::TileLoadIterator::load(Fragment &amp;fragment) const']]],
-  ['load_5fpost_5fincrement',['load_post_increment',['../structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915',1,'cutlass::TileLoadIterator::load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)'],['../structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d',1,'cutlass::TileLoadIterator::load_post_increment(Fragment &amp;fragment)']]]
+  ['k',['k',['../structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7',1,'cutlass::gemm::GemmCoord::k() const'],['../structcutlass_1_1gemm_1_1GemmCoord.html#ae12eb84ec47ddf01b4d459c7aabc22ad',1,'cutlass::gemm::GemmCoord::k()']]],
+  ['kernellaunchconfiguration',['KernelLaunchConfiguration',['../structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa',1,'cutlass::KernelLaunchConfiguration']]],
+  ['km',['km',['../structcutlass_1_1gemm_1_1GemmCoord.html#ad6c884a5bb6e5edaf371e8af10df367d',1,'cutlass::gemm::GemmCoord']]],
+  ['kn',['kn',['../structcutlass_1_1gemm_1_1GemmCoord.html#a16501265d58ddaca0e2d9bb4e21d66ea',1,'cutlass::gemm::GemmCoord']]],
+  ['knm',['knm',['../structcutlass_1_1gemm_1_1GemmCoord.html#a4062c040208868c75dbc6ba18910bffb',1,'cutlass::gemm::GemmCoord']]]
 ];
diff --git a/docs/search/functions_b.js b/docs/search/functions_b.js
index 7b4b2eb9a3..6b8f609081 100644
--- a/docs/search/functions_b.js
+++ b/docs/search/functions_b.js
@@ -1,10 +1,13 @@
 var searchData=
 [
-  ['make_5fcoord',['make_Coord',['../namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9',1,'cutlass::make_Coord(int _0)'],['../namespacecutlass.html#a61d81e5363bcb8a7f6dd70f053242564',1,'cutlass::make_Coord(int _0, int _1)'],['../namespacecutlass.html#a25acf680a7d2592c957a7ac603f4c361',1,'cutlass::make_Coord(int _0, int _1, int _2)'],['../namespacecutlass.html#a9410b1f5956d3aaf4584e65d047428fc',1,'cutlass::make_Coord(int _0, int _1, int _2, int _3)']]],
-  ['make_5fpair',['make_pair',['../namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5',1,'cutlass::platform']]],
-  ['make_5fzero',['make_zero',['../namespacecutlass.html#acdb62db582cf90cfd437fc56f4ca7bbf',1,'cutlass::make_zero(Scalar_ &amp;x)'],['../namespacecutlass.html#abc5c00b4986db5a114e774cee9999717',1,'cutlass::make_zero(Vector&lt; Scalar_, kLanes_ &gt; &amp;vec)']]],
-  ['max',['max',['../namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0',1,'cutlass::platform']]],
-  ['min',['min',['../namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c',1,'cutlass::platform']]],
-  ['multiply',['multiply',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a522301fbe3e276cb5ef9fbe75bb2ab50',1,'cutlass::gemm::FragmentMultiplyAdd::multiply()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ae62d61ec068ac958753d0a2f5a99d8e2',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::multiply()']]],
-  ['multiply_5fadd',['multiply_add',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a34bbf209967fef6181d3d46dd27fa0c0',1,'cutlass::gemm::FragmentMultiplyAdd::multiply_add()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a89c8b663af69f13c2a02cb464b5172a5',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f',1,'cutlass::gemm::Gemm::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a66486d38349fa20eb065ae9542eb43aa',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad22dd143c304c22c2630aedbfd3459af',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5dcf66c8126ec8adf8e66d4bf5b2f347',1,'cutlass::gemm::ThreadMultiplyAdd::multiply_add()']]]
+  ['launch',['Launch',['../structcutlass_1_1gemm_1_1Launch.html#a8552a524b9419f60bf8ef3c6b8528d27',1,'cutlass::gemm::Launch::Launch()'],['../structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#ab7a89806834a5fa8022daae4180e6180',1,'cutlass::gemm::Launch&lt; Gemm, false &gt;::Launch()'],['../structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c',1,'cutlass::gemm::Gemm::launch(Params const &amp;params, cudaStream_t stream=cudaStreamDefault)'],['../structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906',1,'cutlass::gemm::Gemm::launch(CUfunction kernel, Params const &amp;params, CUstream stream=CU_STREAM_LEGACY)']]],
+  ['lcm',['lcm',['../namespacecutlass.html#af07506fee11de882d926f4e8237eef09',1,'cutlass']]],
+  ['leading_5fdim',['leading_dim',['../classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca',1,'cutlass::TensorRef::leading_dim()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6c580a451a36143d1eb0e409e7b13e33',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::leading_dim()']]],
+  ['linearscaling',['LinearScaling',['../structcutlass_1_1gemm_1_1LinearScaling.html#ae5ed200fe8c45b6478d3893e67da0ebe',1,'cutlass::gemm::LinearScaling::LinearScaling()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889',1,'cutlass::gemm::LinearScaling::LinearScaling(Params const &amp;_params)']]],
+  ['linearscalingdeviceptr',['LinearScalingDevicePtr',['../structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a9dcb15bbcf3785280fd5cea0e0da5602',1,'cutlass::gemm::LinearScalingDevicePtr']]],
+  ['load',['load',['../structcutlass_1_1Load.html#a0d13c39fdb813c3f043cdfaf0f1221a7',1,'cutlass::Load::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a4bab8959d29ee868fb6b3e1f9abc04fc',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#a2e906364a0631c2c9f97acd0ae4a1873',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#afee69b86f070e3badc75ab00bcc5996b',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::load()'],['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a7d9027453aa78d4448d70dc44307791e',1,'cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a7d3d3e156dc527f9c00acc7a66d21326',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::load()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a854c684b3f6c1a10b6e8fcf7967f6642',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load()'],['../structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#a619f643794f51b35f3c0a1011ba00bbd',1,'cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load()'],['../structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#abc4f879290c847a6e73dc9e68a340f74',1,'cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load()'],['../structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#af587adae1103b4242e0d56eb902f9302',1,'cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::load()'],['../structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf',1,'cutlass::TileLoadIterator::load(Fragment &amp;fragment, PredicateIterator pred_it) const'],['../structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480',1,'cutlass::TileLoadIterator::load(Fragment &amp;fragment) const'],['../structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6',1,'cutlass::TileLoadIterator::load(Fragment &amp;fragment, int d)'],['../structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6',1,'cutlass::TileStoreIterator::load(Fragment &amp;fragment, PredicateIterator pred_it) const'],['../structcutlass_1_1TileStoreIterator.html#a8c42ab8699c3fd74dc7b59d559364b9a',1,'cutlass::TileStoreIterator::load(Fragment &amp;fragment) const'],['../structcutlass_1_1TileStoreIterator.html#ad33c46a584deb1c7968e08e349382af3',1,'cutlass::TileStoreIterator::load(Fragment &amp;fragment, int d)'],['../classcutlass_1_1ZipTileIterator.html#a23b72b086f350dfe07cff22ac010c45c',1,'cutlass::ZipTileIterator::load(Fragment &amp;fragment) const'],['../classcutlass_1_1ZipTileIterator.html#a9a3f2f913ee73f0c04e74ec89c6c5cbb',1,'cutlass::ZipTileIterator::load(Fragment &amp;fragment, Coord&lt; 4 &gt; const &amp;offset) const'],['../classcutlass_1_1ZipTileIterator.html#a4c9997488be2f09b9653d8ef8ac06c2b',1,'cutlass::ZipTileIterator::load(Fragment &amp;fragment, PredicateIterator pred_it) const']]],
+  ['load_5felement',['load_element',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06',1,'cutlass::gemm::GemmGlobalIteratorAb::load_element()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433',1,'cutlass::gemm::GemmGlobalIteratorCd::load_element()'],['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a5cbda0dea8c87ca55499c97cc80b1ccf',1,'cutlass::gemm::IgemmGlobalIteratorAb::load_element()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a109209936a9453e8f1f3f5eecfd6afca',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::load_element()'],['../structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910',1,'cutlass::TileLoadIterator::load_element()'],['../structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c',1,'cutlass::TileStoreIterator::load_element()']]],
+  ['load_5fpost_5fincrement',['load_post_increment',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7',1,'cutlass::gemm::GemmGlobalIteratorAb::load_post_increment()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1',1,'cutlass::gemm::GemmGlobalIteratorCd::load_post_increment()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae2febd768cbbfb8aab3c2cb669c0505d',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::load_post_increment()'],['../structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f',1,'cutlass::TileLoadIterator::load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)'],['../structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a',1,'cutlass::TileLoadIterator::load_post_increment(Fragment &amp;fragment)'],['../structcutlass_1_1TileStoreIterator.html#a57c56e2fe02fc5c771283e35d59b9214',1,'cutlass::TileStoreIterator::load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)'],['../structcutlass_1_1TileStoreIterator.html#adfbd262dfb19fffd91e0712190d9712d',1,'cutlass::TileStoreIterator::load_post_increment(Fragment &amp;fragment)'],['../classcutlass_1_1ZipTileIterator.html#a95b8db4af9228beed273669b3b0b12fe',1,'cutlass::ZipTileIterator::load_post_increment(Fragment &amp;fragment)'],['../classcutlass_1_1ZipTileIterator.html#a3020bcd0a49efad674ca5539ea1c96c0',1,'cutlass::ZipTileIterator::load_post_increment(Fragment &amp;fragment, Coord&lt; 4 &gt; const &amp;offset)'],['../classcutlass_1_1ZipTileIterator.html#a53045f40d203a805af9c92fa0b5bc684',1,'cutlass::ZipTileIterator::load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)']]],
+  ['log',['log',['../namespacecutlass_1_1platform.html#adc1afc18e182f42f72210e2203ba293c',1,'cutlass::platform']]],
+  ['log10',['log10',['../namespacecutlass_1_1platform.html#a62dd6ae0e1b4476fd62ac70c26f12a06',1,'cutlass::platform']]]
 ];
diff --git a/docs/search/functions_c.js b/docs/search/functions_c.js
index 14ca492a38..2a79fffaea 100644
--- a/docs/search/functions_c.js
+++ b/docs/search/functions_c.js
@@ -1,31 +1,18 @@
 var searchData=
 [
-  ['offset',['offset',['../classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8',1,'cutlass::TensorRef::offset()'],['../classcutlass_1_1TensorView.html#a064f3630e69798e7915f910c4ee99ab7',1,'cutlass::TensorView::offset()']]],
-  ['operator_20_26_3d',['operator &amp;=',['../structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9',1,'cutlass::PredicateVector']]],
-  ['operator_20b_2a',['operator B*',['../structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html#a8d100273203db9018dffbbe84e0b6c76',1,'cutlass::platform::is_base_of_helper::dummy']]],
-  ['operator_20bool',['operator bool',['../classcutlass_1_1platform_1_1unique__ptr.html#a5791650488ae864f10ad04bec4a31005',1,'cutlass::platform::unique_ptr']]],
-  ['operator_20d_2a',['operator D*',['../structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html#a8aadc500baf1492b1a4d05cc8b35fc13',1,'cutlass::platform::is_base_of_helper::dummy']]],
-  ['operator_20value_5ftype',['operator value_type',['../structcutlass_1_1platform_1_1integral__constant.html#a55d25116387f1c6d978462b1d245d675',1,'cutlass::platform::integral_constant']]],
-  ['operator_21_3d',['operator!=',['../structcutlass_1_1Coord.html#a7fb46873e8f3cf38212703d35bd36995',1,'cutlass::Coord::operator!=()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685',1,'cutlass::PredicateVector::ConstIterator::operator!=()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887',1,'cutlass::PredicateVector::Iterator::operator!=()'],['../namespacecutlass_1_1platform.html#a248f49adf09654d2cd04bd2760ab2566',1,'cutlass::platform::operator!=()']]],
-  ['operator_28_29',['operator()',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html#ab8adb983c0573a0015469f40a75287be',1,'cutlass::gemm::GemmGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html#abaf0d4459a64b3e9533758b59600bd52',1,'cutlass::gemm::GemmGlobalTileCdTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html#a1e357fe5bc1daef333e6be776a21a2ca',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html#a51a325b435b9a53effaa003b3670e410',1,'cutlass::gemm::GemmSharedLoadTileATraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html#a5b4a635a521364357386259b0f84c0ba',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html#ace1b936cab289c6884e673312283d422',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits_1_1ThreadOffset.html#a1228edf6cc0f81af520dc77c8792b94c',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::ThreadOffset::operator()()'],['../structcutlass_1_1TiledThreadOffset.html#a7290b6ca9ef0bede634f69bd05450fa2',1,'cutlass::TiledThreadOffset::operator()()'],['../structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html#a0e4edffb19218ccbf77995f6d20df000',1,'cutlass::TileTraitsWarpRake::ThreadOffset::operator()()'],['../structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c',1,'cutlass::platform::plus::operator()()'],['../structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5',1,'cutlass::platform::less::operator()()'],['../structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978',1,'cutlass::platform::greater::operator()()'],['../structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18',1,'cutlass::platform::integral_constant::operator()()'],['../structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15',1,'cutlass::platform::default_delete::operator()()'],['../structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87',1,'cutlass::platform::default_delete&lt; T[]&gt;::operator()()']]],
-  ['operator_2a',['operator*',['../structcutlass_1_1Coord.html#a8e4f7df55a75d040cf50cf9984c04c8a',1,'cutlass::Coord::operator*()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946',1,'cutlass::PredicateVector::ConstIterator::operator*()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4',1,'cutlass::PredicateVector::Iterator::operator*()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78',1,'cutlass::PredicateVector::TrivialIterator::operator*()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b',1,'cutlass::platform::unique_ptr::operator*()']]],
-  ['operator_2a_3d',['operator*=',['../structcutlass_1_1Coord.html#a282b6cc9ac8b2f72720c252791155aad',1,'cutlass::Coord']]],
-  ['operator_2b',['operator+',['../structcutlass_1_1Coord.html#a3dfc4ce4191097b6c3268696f2a45ef5',1,'cutlass::Coord::operator+()'],['../classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842',1,'cutlass::TensorRef::operator+()']]],
-  ['operator_2b_2b',['operator++',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70',1,'cutlass::PredicateVector::ConstIterator::operator++()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a977a99af3166a58d5bc5a613a1abe7d5',1,'cutlass::PredicateVector::ConstIterator::operator++(int)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3',1,'cutlass::PredicateVector::Iterator::operator++()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a6c7333ad14d545cafc707e78752bf1e3',1,'cutlass::PredicateVector::Iterator::operator++(int)'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a',1,'cutlass::PredicateVector::TrivialIterator::operator++()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051',1,'cutlass::PredicateVector::TrivialIterator::operator++(int)']]],
-  ['operator_2b_3d',['operator+=',['../structcutlass_1_1Coord.html#aeb209486943fa9d42911325b16e49e09',1,'cutlass::Coord']]],
-  ['operator_2d',['operator-',['../structcutlass_1_1Coord.html#acc510511ffb52bed7f6a52f14b99750d',1,'cutlass::Coord::operator-()'],['../classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938',1,'cutlass::TensorRef::operator-()']]],
-  ['operator_2d_2d',['operator--',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286',1,'cutlass::PredicateVector::ConstIterator::operator--()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b',1,'cutlass::PredicateVector::ConstIterator::operator--(int)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61',1,'cutlass::PredicateVector::Iterator::operator--()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a',1,'cutlass::PredicateVector::Iterator::operator--(int)']]],
-  ['operator_2d_3d',['operator-=',['../structcutlass_1_1Coord.html#ac1795ec2a5890d8a39840567a4bea88e',1,'cutlass::Coord']]],
-  ['operator_2d_3e',['operator-&gt;',['../classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b',1,'cutlass::platform::unique_ptr']]],
-  ['operator_2f',['operator/',['../structcutlass_1_1Coord.html#a87f485be079fa68bcf576da4d56f0ece',1,'cutlass::Coord']]],
-  ['operator_2f_3d',['operator/=',['../structcutlass_1_1Coord.html#abe91e59962ef0d73aec9c14824f64ecc',1,'cutlass::Coord']]],
-  ['operator_3c',['operator&lt;',['../namespacecutlass_1_1platform.html#a412dbdbc678ecd12b55fcad4ef4155bd',1,'cutlass::platform']]],
-  ['operator_3c_3c',['operator&lt;&lt;',['../core__io_8h.html#a4a0d84a2a19a11549b87a2328d58690d',1,'core_io.h']]],
-  ['operator_3c_3d',['operator&lt;=',['../namespacecutlass_1_1platform.html#a41d573133357bd555f78d33afc1152d3',1,'cutlass::platform']]],
-  ['operator_3d',['operator=',['../classcutlass_1_1TensorView.html#aa9e9e19f35ce3111f64b763ca49b51ef',1,'cutlass::TensorView']]],
-  ['operator_3d_3d',['operator==',['../structcutlass_1_1Coord.html#acfa94aabd0c9a71ee994ca479d5f515f',1,'cutlass::Coord::operator==()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357',1,'cutlass::PredicateVector::ConstIterator::operator==()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e',1,'cutlass::PredicateVector::Iterator::operator==()'],['../namespacecutlass_1_1platform.html#ab9b8306ae9dc21fa646c49b68fa8e197',1,'cutlass::platform::operator==()']]],
-  ['operator_3e',['operator&gt;',['../namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12',1,'cutlass::platform']]],
-  ['operator_3e_3d',['operator&gt;=',['../namespacecutlass_1_1platform.html#ab0f21e67c0a4b5c6952042b502c6816f',1,'cutlass::platform']]],
-  ['operator_5b_5d',['operator[]',['../structcutlass_1_1Coord.html#ab7fc89de3ccd7096ab275fb5dd40104c',1,'cutlass::Coord::operator[](int dim)'],['../structcutlass_1_1Coord.html#a6eeab0a1686ee25389e1bd017c5f03ae',1,'cutlass::Coord::operator[](int dim) const'],['../structcutlass_1_1Fragment.html#a99fef5f3093b2df50905ab13819b67a0',1,'cutlass::Fragment::operator[](int i)'],['../structcutlass_1_1Fragment.html#a75f51bb6ca84615076aab42ac9d42592',1,'cutlass::Fragment::operator[](int i) const'],['../structcutlass_1_1FragmentIterator.html#a83bb6a3ed588e2d890bf986665d2b7bb',1,'cutlass::FragmentIterator::operator[](int i) const'],['../structcutlass_1_1FragmentIterator.html#a3bd2a9d8467f8db02ca3a01ae0c11ad7',1,'cutlass::FragmentIterator::operator[](int i)'],['../structcutlass_1_1FragmentConstIterator.html#af16f2aa14ff424b038a393b683c4783e',1,'cutlass::FragmentConstIterator::operator[]()'],['../structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5',1,'cutlass::PredicateVector::operator[]()'],['../classcutlass_1_1TensorRef.html#a6a2aa88ed77557c089a165da0df1e974',1,'cutlass::TensorRef::operator[](Coord&lt; Rank &gt; const &amp;coord) const'],['../classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c',1,'cutlass::TensorRef::operator[](int idx) const'],['../classcutlass_1_1TensorView.html#a7fe7e44e15fd1ac58fb55edf72e8fb23',1,'cutlass::TensorView::operator[]()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d',1,'cutlass::platform::unique_ptr::operator[]()'],['../unioncutlass_1_1Vector.html#a250860c921c94a6077344f9e11bf5b02',1,'cutlass::Vector::operator[](uint32_t i) const'],['../unioncutlass_1_1Vector.html#a44cc27bf8a7b789b4ae8538155a50156',1,'cutlass::Vector::operator[](uint32_t i)'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab0516cef8949f5998b5251cc6b6db683',1,'cutlass::Vector&lt; half, kLanes_ &gt;::operator[](uint32_t i) const'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a8ade80e040264fbd669d3f15c249884e',1,'cutlass::Vector&lt; half, kLanes_ &gt;::operator[](uint32_t i)']]],
-  ['operator_7c_3d',['operator|=',['../structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc',1,'cutlass::PredicateVector']]]
+  ['m',['m',['../structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793',1,'cutlass::gemm::GemmCoord::m() const'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a8199f5e336a20c31e54d68b11e9fa3d3',1,'cutlass::gemm::GemmCoord::m()']]],
+  ['make_5fcoord',['make_Coord',['../namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9',1,'cutlass::make_Coord(int _0)'],['../namespacecutlass.html#a61d81e5363bcb8a7f6dd70f053242564',1,'cutlass::make_Coord(int _0, int _1)'],['../namespacecutlass.html#a25acf680a7d2592c957a7ac603f4c361',1,'cutlass::make_Coord(int _0, int _1, int _2)'],['../namespacecutlass.html#a9410b1f5956d3aaf4584e65d047428fc',1,'cutlass::make_Coord(int _0, int _1, int _2, int _3)']]],
+  ['make_5fcoord_5ffrom_5fshape',['make_Coord_from_shape',['../namespacecutlass.html#a90028a415a05ce09073860e5c761aa6f',1,'cutlass']]],
+  ['make_5fpair',['make_pair',['../namespacecutlass_1_1platform.html#a90ce74c7faa4e27c888ce56e957b73d5',1,'cutlass::platform']]],
+  ['make_5fzero',['make_zero',['../namespacecutlass.html#aa03883e612d292e1b53eedd46e08ccd1',1,'cutlass::make_zero(Scalar_ &amp;x)'],['../namespacecutlass.html#a55b5b15eadf125d5ddddee1ea22191ee',1,'cutlass::make_zero(Vector&lt; Scalar_, kLanes_ &gt; &amp;vec)']]],
+  ['make_5fzipconvert',['make_ZipConvert',['../namespacecutlass.html#adad916101ca58fc9714362c611a0cad8',1,'cutlass']]],
+  ['make_5fzipfragment',['make_ZipFragment',['../namespacecutlass.html#a07b0da6c47bbd827779aa871249ff4b6',1,'cutlass']]],
+  ['make_5fziptensorref',['make_ZipTensorRef',['../namespacecutlass.html#a64869d4ab18d70dc8604098ec03e1a5a',1,'cutlass']]],
+  ['map',['map',['../classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360',1,'cutlass::TensorRef::map()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a215f63b5a1b3799654c5670ef108fcfb',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::map()']]],
+  ['matrixcoord',['MatrixCoord',['../structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6',1,'cutlass::MatrixCoord::MatrixCoord()'],['../structcutlass_1_1MatrixCoord.html#a64bddbf8238dc937a01a140722f7f39c',1,'cutlass::MatrixCoord::MatrixCoord(Coord&lt; 2, Index &gt; const &amp;coord)'],['../structcutlass_1_1MatrixCoord.html#ac77b18e67be18cfdfe1935939e7f2017',1,'cutlass::MatrixCoord::MatrixCoord(Index row, Index column)']]],
+  ['max',['max',['../namespacecutlass_1_1platform.html#af6a9a165e53d7e85ae121d5789aa03e0',1,'cutlass::platform']]],
+  ['min',['min',['../namespacecutlass_1_1platform.html#a57c071d2a7305dd4ec60542e66b0c81c',1,'cutlass::platform']]],
+  ['move_5fto_5fresidue',['move_to_residue',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac269a9280a55d3988ca60f571bdf7f29',1,'cutlass::gemm::GlobalLoadStream::move_to_residue()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab94c0c95d6d4e019563ba8a142f9d410',1,'cutlass::gemm::GlobalLoadStreamPair::move_to_residue()']]],
+  ['multiply',['multiply',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a934c0d74c70fc87796ecb5cde50fd516',1,'cutlass::gemm::FragmentMultiplyAdd::multiply()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a6bed70e7074931419e9441688aee00ea',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::multiply()']]],
+  ['multiply_5fadd',['multiply_add',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aafa37c2e1ffd2f7d7031c24c732157d8',1,'cutlass::gemm::FragmentMultiplyAdd::multiply_add()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a92edee5611d25b60cdab6a1c8e32141f',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#ae0ea662652907b60140598dad777c5ab',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f',1,'cutlass::gemm::Gemm::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aaf8ea4aaf393488f03ba7fb7af264940',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ad9d8e47e8896d8d4eab538aa78b56e47',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::multiply_add()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7989d48e4c2e16b7804b813630f347cb',1,'cutlass::gemm::ThreadMultiplyAdd::multiply_add()']]]
 ];
diff --git a/docs/search/functions_d.js b/docs/search/functions_d.js
index 8aefe3b0fd..4f1b1aa628 100644
--- a/docs/search/functions_d.js
+++ b/docs/search/functions_d.js
@@ -1,6 +1,6 @@
 var searchData=
 [
-  ['predicatetileadapter',['PredicateTileAdapter',['../structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea',1,'cutlass::PredicateTileAdapter']]],
-  ['predicatevector',['PredicateVector',['../structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21',1,'cutlass::PredicateVector']]],
-  ['project',['project',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html#ae91b2350374f1734a30cbed45e14b8e3',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;::project()'],['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html#a0f1579013f56fe16ebc147271f163c3c',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;::project()'],['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html#af2a323461334a6b55b95074a1973d250',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kC, true &gt;::project()'],['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html#ace04040ccb13af5f9a283ca80ffe93d1',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kD, true &gt;::project()']]]
+  ['n',['n',['../structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd',1,'cutlass::gemm::GemmCoord::n() const'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a1327b9b4b9379df24df3d4b716952d11',1,'cutlass::gemm::GemmCoord::n()']]],
+  ['nm',['nm',['../structcutlass_1_1gemm_1_1GemmCoord.html#ac4550a7e80e1f0265eacecebe54794d9',1,'cutlass::gemm::GemmCoord']]],
+  ['norm',['norm',['../namespacecutlass_1_1platform.html#a9d631b040eea94d9b5af04faa5c20bb1',1,'cutlass::platform']]]
 ];
diff --git a/docs/search/functions_e.js b/docs/search/functions_e.js
index 8bc9b11121..26a243fb80 100644
--- a/docs/search/functions_e.js
+++ b/docs/search/functions_e.js
@@ -1,8 +1,36 @@
 var searchData=
 [
-  ['ref',['ref',['../classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09',1,'cutlass::TensorView::ref()'],['../classcutlass_1_1TensorView.html#a5cbff89d3d8dc71d27a4d6c1d7abb58a',1,'cutlass::TensorView::ref() const']]],
-  ['release',['release',['../classcutlass_1_1platform_1_1unique__ptr.html#a7ac06ebe7bc66573d3225891e12d2279',1,'cutlass::platform::unique_ptr']]],
-  ['reset',['reset',['../classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674',1,'cutlass::TensorRef::reset()'],['../classcutlass_1_1TensorView.html#a8b1785a1ea5d7aa7eba8e45297d539d3',1,'cutlass::TensorView::reset()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a6740f71511f5495d6038cf8878862331',1,'cutlass::platform::unique_ptr::reset()']]],
-  ['residue',['residue',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aae1adef6312e069e59a83d38c03116f9',1,'cutlass::gemm::GlobalLoadStreamBase::residue()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aab37ea6c47e34466371314ed3971dc7b',1,'cutlass::gemm::GemmGlobalIteratorAb::residue()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a405b93680bb6e356369863244d0b56aa',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::residue()']]],
-  ['round_5fnearest',['round_nearest',['../namespacecutlass.html#a17c8c408d672d26f1c70d2435f6ac83e',1,'cutlass']]]
+  ['offset',['offset',['../classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1',1,'cutlass::TensorRef::offset()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a07c7f56e724cfbc844777e8ee9f616b5',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::offset()']]],
+  ['operator',['operator',['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679',1,'cutlass::TensorRefArray::ConstIterator::operator()']]],
+  ['operator_20_26_3d',['operator &amp;=',['../structcutlass_1_1PredicateVector.html#a3dd9aeba8f3cbe7a8198d68d91a0bbb9',1,'cutlass::PredicateVector']]],
+  ['operator_20b_2a',['operator B*',['../structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html#a8d100273203db9018dffbbe84e0b6c76',1,'cutlass::platform::is_base_of_helper::dummy']]],
+  ['operator_20bool',['operator bool',['../structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f',1,'cutlass::Coord::operator bool()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a5791650488ae864f10ad04bec4a31005',1,'cutlass::platform::unique_ptr::operator bool()']]],
+  ['operator_20cudoublecomplex',['operator cuDoubleComplex',['../classcutlass_1_1platform_1_1complex.html#a3b92e54de1c4262c7e481218162be7ec',1,'cutlass::platform::complex']]],
+  ['operator_20cufloatcomplex',['operator cuFloatComplex',['../classcutlass_1_1platform_1_1complex.html#ac5a3a0dc9815dadbe539312eb6fe36c4',1,'cutlass::platform::complex']]],
+  ['operator_20d_2a',['operator D*',['../structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html#a8aadc500baf1492b1a4d05cc8b35fc13',1,'cutlass::platform::is_base_of_helper::dummy']]],
+  ['operator_20scalar',['operator Scalar',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a896f35e776c1291ceda0f432cc3da654',1,'cutlass::detail::ScalarOrPointer']]],
+  ['operator_20value_5ftype',['operator value_type',['../structcutlass_1_1platform_1_1integral__constant.html#a55d25116387f1c6d978462b1d245d675',1,'cutlass::platform::integral_constant']]],
+  ['operator_21',['operator!',['../structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02',1,'cutlass::Coord']]],
+  ['operator_21_3d',['operator!=',['../structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3',1,'cutlass::Coord::operator!=()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a3d06715a77740034697686a7977cb685',1,'cutlass::PredicateVector::ConstIterator::operator!=()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a08cb4d1395b88a4451fbb1a27e010887',1,'cutlass::PredicateVector::Iterator::operator!=()'],['../namespacecutlass_1_1platform.html#aa8b8911c3529ee9d433b0c4d90bde50c',1,'cutlass::platform::operator!=(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)'],['../namespacecutlass_1_1platform.html#a248f49adf09654d2cd04bd2760ab2566',1,'cutlass::platform::operator!=(const pair&lt; T1, T2 &gt; &amp;lhs, const pair&lt; T1, T2 &gt; &amp;rhs)']]],
+  ['operator_28_29',['operator()',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html#ab8adb983c0573a0015469f40a75287be',1,'cutlass::gemm::GemmGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html#abaf0d4459a64b3e9533758b59600bd52',1,'cutlass::gemm::GemmGlobalTileCdTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html#a1e357fe5bc1daef333e6be776a21a2ca',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html#a4e35f0b2ca63a6b981230b73f843f726',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html#a51a325b435b9a53effaa003b3670e410',1,'cutlass::gemm::GemmSharedLoadTileATraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html#a5b4a635a521364357386259b0f84c0ba',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html#a4f9cca16303ac9ae29a0eaa11dcc23b6',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html#ace1b936cab289c6884e673312283d422',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html#a9fc1ca09733113f80fe5fe45db3d9b81',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#a80562f5ceab2049c3b7834c2891a07ee',1,'cutlass::gemm::IgemmGlobalTileTraits::ThreadOffset::operator()()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::ThreadOffset::operator()()'],['../structcutlass_1_1MatrixLayout_1_1RowMajor.html#a736620aef395e4224d7aae098573aa34',1,'cutlass::MatrixLayout::RowMajor::operator()()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#af51e07c6605524581e5d27d290c8b8d2',1,'cutlass::MatrixLayout::ColumnMajor::operator()()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a5199cb7f7c10f6123c63703453b7937c',1,'cutlass::MatrixLayout::RowMajorInterleaved::operator()()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dbf79e5df5bcf52d54a699d2587319d',1,'cutlass::MatrixLayout::ColumnMajorInterleaved::operator()()'],['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a512248a443c5914fab6aeabc4a73978e',1,'cutlass::MatrixLayout::ContiguousLayout::operator()()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a24c06bb7e64a8015ac528b3ae954a689',1,'cutlass::MatrixLayout::ColumnMajorBlockLinear::operator()()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#abde0a4a7c487da0c78ea2519323c04af',1,'cutlass::MatrixLayout::RowMajorBlockLinear::operator()()'],['../structcutlass_1_1IdentityTensorMapFunc.html#a3922130841c34d3ce8c112ee6fae4ca1',1,'cutlass::IdentityTensorMapFunc::operator()()'],['../structcutlass_1_1RegularTilePredicateFunctor.html#a084c0a2732827a74f7a30873c5883827',1,'cutlass::RegularTilePredicateFunctor::operator()()'],['../structcutlass_1_1TiledThreadOffset.html#a7290b6ca9ef0bede634f69bd05450fa2',1,'cutlass::TiledThreadOffset::operator()()'],['../structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html#a0e4edffb19218ccbf77995f6d20df000',1,'cutlass::TileTraitsWarpRake::ThreadOffset::operator()()'],['../structcutlass_1_1platform_1_1plus.html#a3bf1e5147df4287bf58ad8f11ea0d98c',1,'cutlass::platform::plus::operator()()'],['../structcutlass_1_1platform_1_1less.html#adfb49ee70a700a8483c70b4b353f6bc5',1,'cutlass::platform::less::operator()()'],['../structcutlass_1_1platform_1_1greater.html#a8d56cf343dd33acebe19d0b51abe3978',1,'cutlass::platform::greater::operator()()'],['../structcutlass_1_1platform_1_1integral__constant.html#a5271a533526a535ae8b783c736252f18',1,'cutlass::platform::integral_constant::operator()()'],['../structcutlass_1_1platform_1_1default__delete.html#a59e6e3cc95685ac34fa6f9cf301b3a15',1,'cutlass::platform::default_delete::operator()()'],['../structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html#a16c5595a5aec7d7ee34e38bef4a66c87',1,'cutlass::platform::default_delete&lt; T[]&gt;::operator()()']]],
+  ['operator_2a',['operator*',['../structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033',1,'cutlass::Coord::operator*()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a5a158b5f3c0b1779972b25aa52be1164',1,'cutlass::gemm::GemmCoord::operator*()'],['../structcutlass_1_1MatrixCoord.html#ac68a57c17811b0a04dc6fb21423ab226',1,'cutlass::MatrixCoord::operator*()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#abbc2bceb6cf8d7f168b8a00eb48c0946',1,'cutlass::PredicateVector::ConstIterator::operator*()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a049b568e0f5de011ee76ce79bcedbab4',1,'cutlass::PredicateVector::Iterator::operator*()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#a78016158f99dd87e822a2a2cbd4cec78',1,'cutlass::PredicateVector::TrivialIterator::operator*()'],['../structcutlass_1_1TileCoord.html#ab8fbb13cc5ea4f580a7fc32963de9553',1,'cutlass::TileCoord::operator*()'],['../classcutlass_1_1platform_1_1unique__ptr.html#a45a3cb6d8641a6130991d56e84cbb38b',1,'cutlass::platform::unique_ptr::operator*()'],['../namespacecutlass_1_1platform.html#a34950f01ed89108b1d79c651aa58ecba',1,'cutlass::platform::operator*(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)'],['../namespacecutlass_1_1platform.html#aef5da2c88431ab40b58fdd6afea13dba',1,'cutlass::platform::operator*(complex&lt; T &gt; const &amp;lhs, T const &amp;s)'],['../namespacecutlass_1_1platform.html#a289b6e31bdc0be1302b8dbab55eb568c',1,'cutlass::platform::operator*(T const &amp;s, complex&lt; T &gt; const &amp;rhs)']]],
+  ['operator_2a_3d',['operator*=',['../structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168',1,'cutlass::Coord::operator*=()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a69fb0bb5e73f35d3c8df71a0174d6520',1,'cutlass::gemm::GemmCoord::operator*=()'],['../structcutlass_1_1MatrixCoord.html#a5fd3c3b58af1147a5c73657c05a16f5b',1,'cutlass::MatrixCoord::operator*=()'],['../structcutlass_1_1TileCoord.html#ae946b3af6b795d26632da7ca66b3751c',1,'cutlass::TileCoord::operator*=()'],['../namespacecutlass_1_1platform.html#a9a4928ab582beee4e7ddd337529d45ac',1,'cutlass::platform::operator*=(complex&lt; T &gt; &amp;lhs, complex&lt; T &gt; const &amp;rhs)'],['../namespacecutlass_1_1platform.html#a21adde191e48e604908ce886690c6d6b',1,'cutlass::platform::operator*=(complex&lt; T &gt; &amp;lhs, T s)']]],
+  ['operator_2b',['operator+',['../structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc',1,'cutlass::Coord::operator+()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a675efbb9ed360888faf3c333708ae4d5',1,'cutlass::gemm::GemmCoord::operator+()'],['../structcutlass_1_1MatrixCoord.html#a25236953237f965965b1c9b7a04ba26e',1,'cutlass::MatrixCoord::operator+()'],['../classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f',1,'cutlass::TensorRef::operator+()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ad054f14b5580c9480d671b8fc8ef016a',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator+()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a1d48f4fea3fa85a7bf1b26b421387afd',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator+()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a9fcd43018e60f12cb328859c76ec7891',1,'cutlass::TensorRefArray::ConstIterator::operator+()'],['../classcutlass_1_1TensorView.html#aa2390d8e127a51df239affd2ca36e97a',1,'cutlass::TensorView::operator+()'],['../structcutlass_1_1TileCoord.html#a3bfa2daa0e63144c1e8510ba336f185b',1,'cutlass::TileCoord::operator+()'],['../namespacecutlass_1_1platform.html#a93b0f0d73fa3cf11c5018460b257837c',1,'cutlass::platform::operator+()']]],
+  ['operator_2b_2b',['operator++',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a10ee4bb2f206432aa5ee1a83cb046b70',1,'cutlass::PredicateVector::ConstIterator::operator++()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a977a99af3166a58d5bc5a613a1abe7d5',1,'cutlass::PredicateVector::ConstIterator::operator++(int)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a7dddc0a6b5c958156beef29bedfd1bd3',1,'cutlass::PredicateVector::Iterator::operator++()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a6c7333ad14d545cafc707e78752bf1e3',1,'cutlass::PredicateVector::Iterator::operator++(int)'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#ad24e9b451064e99fb19955f772c30e6a',1,'cutlass::PredicateVector::TrivialIterator::operator++()'],['../structcutlass_1_1PredicateVector_1_1TrivialIterator.html#aa35b9165920b83b9a5a888df83925051',1,'cutlass::PredicateVector::TrivialIterator::operator++(int)'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a3481d6f41defd25ab574bb19ee5fe424',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator++()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#aca860ff7f125e02f35c7dc174e84708d',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator++(int)'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a8ce80124ab0f4ab9981f1a4d64d976a5',1,'cutlass::TensorRefArray::ConstIterator::operator++()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a051f34d90c0680dc5f4e4e1c4d79e929',1,'cutlass::TensorRefArray::ConstIterator::operator++(int)'],['../classcutlass_1_1ZipTileIterator.html#a47d270fc4a119d7b95b2d5dd3ee5b87b',1,'cutlass::ZipTileIterator::operator++()']]],
+  ['operator_2b_3d',['operator+=',['../structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20',1,'cutlass::Coord::operator+=()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a5465f7308778eac5d14d8020179a65e0',1,'cutlass::gemm::GemmCoord::operator+=()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a8e79a153de72eef10d90bfd02b5dd27e',1,'cutlass::gemm::GlobalLoadStream::operator+=()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af',1,'cutlass::gemm::GemmGlobalIteratorAb::operator+=()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec',1,'cutlass::gemm::GemmGlobalIteratorCd::operator+=()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a769813dcffe1767aab49ac30b838a5f4',1,'cutlass::gemm::GlobalLoadStreamPair::operator+=()'],['../structcutlass_1_1MatrixCoord.html#ad105615dbf7ede75caa0e778c873bd06',1,'cutlass::MatrixCoord::operator+=()'],['../classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306',1,'cutlass::TensorRef::operator+=()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0753aeb57365a976bc0a88481af504cb',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator+=()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab07a5d1a4ec6d96ec53e868b3a6d7cae',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator+=()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a22b87d281057c8e03b80db7046c54dd8',1,'cutlass::TensorRefArray::ConstIterator::operator+=()'],['../classcutlass_1_1TensorView.html#a4fa8fa35d00eb4d0097da492c738cddc',1,'cutlass::TensorView::operator+=()'],['../structcutlass_1_1TileCoord.html#a812760c633ea813db8a2bc24826c68df',1,'cutlass::TileCoord::operator+=()'],['../structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120',1,'cutlass::TileLoadIterator::operator+=()'],['../structcutlass_1_1TileStoreIterator.html#a57b284e6cbff892d45e5cfeb0ae1e3ed',1,'cutlass::TileStoreIterator::operator+=()'],['../classcutlass_1_1ZipTileIterator.html#a60ba516d7382cb7788d5430023f7fc44',1,'cutlass::ZipTileIterator::operator+=(int count)'],['../classcutlass_1_1ZipTileIterator.html#a200a4e88ee6d23dcc80e974c77f8fa1f',1,'cutlass::ZipTileIterator::operator+=(Coord&lt; 3 &gt; const &amp;offset)'],['../namespacecutlass_1_1platform.html#a34c5ca341da805d5d1bc703c53c96d9d',1,'cutlass::platform::operator+=()']]],
+  ['operator_2d',['operator-',['../structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b',1,'cutlass::Coord::operator-()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a762fd45e61477d700c82bfd67443c6f9',1,'cutlass::gemm::GemmCoord::operator-()'],['../structcutlass_1_1MatrixCoord.html#aa462303d75a5d98b680b6e20080ce877',1,'cutlass::MatrixCoord::operator-()'],['../classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa',1,'cutlass::TensorRef::operator-()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#afde28cda18918d3e177d3e5024ed3dd4',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator-()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad1d8099e8d63b6d88c53738ec68a7589',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator-(Index idx)'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab92bc090d6753ff5e17676ba85a1e478',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator-(ConstIterator const &amp;it)'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a143ec893406d930aa4c5aa860052197e',1,'cutlass::TensorRefArray::ConstIterator::operator-()'],['../classcutlass_1_1TensorView.html#a1e4b2bb02c5843898f72f62787403add',1,'cutlass::TensorView::operator-()'],['../structcutlass_1_1TileCoord.html#a9f274d8e93f9cd3e0a9699e11b85fa7c',1,'cutlass::TileCoord::operator-()'],['../namespacecutlass_1_1platform.html#aa486433971cdd6b7648c1e5459c42763',1,'cutlass::platform::operator-()']]],
+  ['operator_2d_2d',['operator--',['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2763012a9284e97650b14e20c5668286',1,'cutlass::PredicateVector::ConstIterator::operator--()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#a2910a714d34a688b8ea560ea2933436b',1,'cutlass::PredicateVector::ConstIterator::operator--(int)'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a69fb5b24eeb43331b7401768e8584e61',1,'cutlass::PredicateVector::Iterator::operator--()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#aad709a11f43b84c88e3ce3a0394f8e8a',1,'cutlass::PredicateVector::Iterator::operator--(int)'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad5290f0e7814892cb4fff55e9518562b',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator--()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a09909fbe2e4365b5f34ddb61658f27b3',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator--(int)'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a0f395558e2c589ac48179447a23b59d8',1,'cutlass::TensorRefArray::ConstIterator::operator--()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ac9019febbc8b6bfea06ac4d23d253d57',1,'cutlass::TensorRefArray::ConstIterator::operator--(int)'],['../classcutlass_1_1ZipTileIterator.html#a3d22dab34b2abd0d05c00668f8591151',1,'cutlass::ZipTileIterator::operator--()']]],
+  ['operator_2d_3d',['operator-=',['../structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b',1,'cutlass::Coord::operator-=()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a12ba250be3d5474b7c6fc4eddd4f58d5',1,'cutlass::gemm::GemmCoord::operator-=()'],['../structcutlass_1_1MatrixCoord.html#a6feef48cf24733d22ca53a27cbc33ac0',1,'cutlass::MatrixCoord::operator-=()'],['../classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890',1,'cutlass::TensorRef::operator-=()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a11964d045ac8e41c80026515adb03008',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator-=()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ac4018b51e78842fb252d6917738fa571',1,'cutlass::TensorRefBatchStrided::ConstIterator::operator-=()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ae3561f863072cd7be7dcdee2cb5cc1f0',1,'cutlass::TensorRefArray::ConstIterator::operator-=()'],['../classcutlass_1_1TensorView.html#abc088fad6debb6a0ceb04c5d2767e81b',1,'cutlass::TensorView::operator-=()'],['../structcutlass_1_1TileCoord.html#a02da20e580962fe0754a772842045389',1,'cutlass::TileCoord::operator-=()'],['../classcutlass_1_1ZipTileIterator.html#a7bae0f9b789e75bb154c5f37db50e14c',1,'cutlass::ZipTileIterator::operator-=()'],['../namespacecutlass_1_1platform.html#abff9e10130849ea46f6245f4e8cc2cc9',1,'cutlass::platform::operator-=()']]],
+  ['operator_2d_3e',['operator-&gt;',['../classcutlass_1_1platform_1_1unique__ptr.html#afa52edcaef23461ce1f9c1dac349c24b',1,'cutlass::platform::unique_ptr']]],
+  ['operator_2f',['operator/',['../structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568',1,'cutlass::Coord::operator/()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a41770bb99f02f4debbafe95e019ce02b',1,'cutlass::gemm::GemmCoord::operator/()'],['../structcutlass_1_1MatrixCoord.html#aa89b196410d25d8c9ed3746fb6833374',1,'cutlass::MatrixCoord::operator/()'],['../structcutlass_1_1TileCoord.html#a5d2cc915343a3b90fb530348ddd329d2',1,'cutlass::TileCoord::operator/()'],['../namespacecutlass_1_1platform.html#a4fe79c19fb599cd9b85d08676a711f9f',1,'cutlass::platform::operator/(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)'],['../namespacecutlass_1_1platform.html#a33f75d77ff629335c9666128837c4581',1,'cutlass::platform::operator/(complex&lt; T &gt; const &amp;lhs, T const &amp;s)'],['../namespacecutlass_1_1platform.html#ae302b414576ecb5afb0cdfdda6b30ad3',1,'cutlass::platform::operator/(T const &amp;s, complex&lt; T &gt; const &amp;rhs)']]],
+  ['operator_2f_3d',['operator/=',['../structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28',1,'cutlass::Coord::operator/=()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#aac1e1bad751237fd76d32a1ea10f6c40',1,'cutlass::gemm::GemmCoord::operator/=()'],['../structcutlass_1_1MatrixCoord.html#aab345c8ddb8048bfe3d667bc7ce6522f',1,'cutlass::MatrixCoord::operator/=()'],['../structcutlass_1_1TileCoord.html#ac3207d8aa879c86a907cdcc93ccb2eb5',1,'cutlass::TileCoord::operator/=()'],['../namespacecutlass_1_1platform.html#ac594526ef64ecf364ae957753ce64b40',1,'cutlass::platform::operator/=()']]],
+  ['operator_3c',['operator&lt;',['../structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308',1,'cutlass::Coord::operator&lt;()'],['../namespacecutlass_1_1platform.html#a412dbdbc678ecd12b55fcad4ef4155bd',1,'cutlass::platform::operator&lt;()']]],
+  ['operator_3c_3c',['operator&lt;&lt;',['../namespacecutlass.html#afe231b125bbb1e9aa51307a8abdf9a60',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, Coord&lt; Rank &gt; const &amp;coord)'],['../namespacecutlass.html#a30ddfc5e90b9103840cb30c9f9b96b49',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; T &gt; const &amp;scalar)'],['../namespacecutlass.html#a36690681ed19dc7e398fcdafdbfe9975',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; int8_t &gt; const &amp;scalar)'],['../namespacecutlass.html#a1a35d6b9b984a9c143957db733a93f51',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; uint8_t &gt; const &amp;scalar)'],['../namespacecutlass.html#a2fd306c63f71877f9231a7e1265752cf',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; cutlass::Vector&lt; cutlass::bin1_t, 32 &gt; &gt; const &amp;scalar)'],['../namespacecutlass.html#aecf2cd62eee939946b7173a110ecf76e',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; cutlass::Vector&lt; cutlass::int4_t, 8 &gt; &gt; const &amp;scalar)'],['../namespacecutlass.html#a3ceda5ed2d923222662a37e8f355c9b8',1,'cutlass::operator&lt;&lt;(std::ostream &amp;out, ScalarIO&lt; cutlass::Vector&lt; cutlass::uint4_t, 8 &gt; &gt; const &amp;scalar)'],['../namespacecutlass_1_1platform.html#ab4c3e4eabba020d7a9faf86ee6cf437a',1,'cutlass::platform::operator&lt;&lt;()']]],
+  ['operator_3c_3d',['operator&lt;=',['../structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c',1,'cutlass::Coord::operator&lt;=()'],['../namespacecutlass_1_1platform.html#a41d573133357bd555f78d33afc1152d3',1,'cutlass::platform::operator&lt;=()']]],
+  ['operator_3d',['operator=',['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a3b29491782c3a129355fa4ef159cb970',1,'cutlass::detail::ScalarOrPointer::operator=(Scalar const &amp;scalar_)'],['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a54357e2f1d52aa8355b2ae7796740ea3',1,'cutlass::detail::ScalarOrPointer::operator=(Scalar const *ptr_)'],['../classcutlass_1_1TensorView.html#acf0c156efb9197bc7538f7e9057d8a68',1,'cutlass::TensorView::operator=()']]],
+  ['operator_3d_3d',['operator==',['../structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d',1,'cutlass::Coord::operator==()'],['../classcutlass_1_1PredicateVector_1_1ConstIterator.html#aa2d03d88ac23051803d010f78157c357',1,'cutlass::PredicateVector::ConstIterator::operator==()'],['../classcutlass_1_1PredicateVector_1_1Iterator.html#a5c5266fcef67c7b263682c4bc4a5000e',1,'cutlass::PredicateVector::Iterator::operator==()'],['../namespacecutlass_1_1platform.html#a043e8559161ee0fcaf943a1dfe1a9cbb',1,'cutlass::platform::operator==(complex&lt; T &gt; const &amp;lhs, complex&lt; T &gt; const &amp;rhs)'],['../namespacecutlass_1_1platform.html#ab9b8306ae9dc21fa646c49b68fa8e197',1,'cutlass::platform::operator==(const pair&lt; T1, T2 &gt; &amp;lhs, const pair&lt; T1, T2 &gt; &amp;rhs)']]],
+  ['operator_3e',['operator&gt;',['../namespacecutlass_1_1platform.html#a9e8e698d40b8df881991fde9ba2a1b12',1,'cutlass::platform']]],
+  ['operator_3e_3d',['operator&gt;=',['../namespacecutlass_1_1platform.html#ab0f21e67c0a4b5c6952042b502c6816f',1,'cutlass::platform']]],
+  ['operator_5b_5d',['operator[]',['../structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24',1,'cutlass::Coord::operator[](int dim)'],['../structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454',1,'cutlass::Coord::operator[](int dim) const'],['../structcutlass_1_1Fragment.html#a77ba7cddf7822d64534b019c4ad9732e',1,'cutlass::Fragment::operator[](int i)'],['../structcutlass_1_1Fragment.html#a7795c5cf4d5626ff125abd5e8f156e9b',1,'cutlass::Fragment::operator[](int i) const'],['../structcutlass_1_1FragmentIterator.html#a21877944988f34eb69cb6eefb00c6575',1,'cutlass::FragmentIterator::operator[](int i) const'],['../structcutlass_1_1FragmentIterator.html#ad665745f3d6a3a88d7894fe0fc1bbd3e',1,'cutlass::FragmentIterator::operator[](int i)'],['../structcutlass_1_1FragmentConstIterator.html#a6216b58ffe6322f037f1e0a3ffa714c8',1,'cutlass::FragmentConstIterator::operator[]()'],['../structcutlass_1_1PredicateVector.html#a840985438ac8306ec680eb20edd4e5c5',1,'cutlass::PredicateVector::operator[]()'],['../classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6',1,'cutlass::TensorRef::operator[](TensorCoord const &amp;coord) const'],['../classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3',1,'cutlass::TensorRef::operator[](LongIndex idx) const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a64a5e91e01555b8bfd22875543573d22',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator[](TensorCoord const &amp;coord) const'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a57f132816e51bbdb4c807d57c067b619',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator[](LongIndex idx) const'],['../classcutlass_1_1platform_1_1unique__ptr.html#a5c7a204af07a7d325b0a8303e199a50d',1,'cutlass::platform::unique_ptr::operator[]()'],['../unioncutlass_1_1Vector.html#a69be4f85c1dac371fa6f1c6747724adc',1,'cutlass::Vector::operator[](uint32_t i) const'],['../unioncutlass_1_1Vector.html#abf531676caf85cde1c8df435c1ebe8bb',1,'cutlass::Vector::operator[](uint32_t i)'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a12fa9366dd57fadb2d3f624ab7836dc8',1,'cutlass::Vector&lt; half, 1 &gt;::operator[](uint32_t i) const'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a1e6568c0f3f958db739074ab6978ff10',1,'cutlass::Vector&lt; half, 1 &gt;::operator[](uint32_t i)'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ad50b5d4acbd7ead82c128091c9db9113',1,'cutlass::Vector&lt; half, kLanes_ &gt;::operator[](uint32_t i) const'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a3891ce1c321a3e57e938c8864de9baf0',1,'cutlass::Vector&lt; half, kLanes_ &gt;::operator[](uint32_t i)'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a8eda6e6181a5333ca8350977374708cb',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::operator[]()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a2d5ec0b76daa136dae0b4aec1edf9e0b',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::operator[]()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#ae2215fe7c2c223175b4172d73a6c7a82',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::operator[]()']]],
+  ['operator_7c_3d',['operator|=',['../structcutlass_1_1PredicateVector.html#aab9de134132c62de1c062ca57582cdbc',1,'cutlass::PredicateVector']]]
 ];
diff --git a/docs/search/functions_f.js b/docs/search/functions_f.js
index 183adc887b..ab75d047d7 100644
--- a/docs/search/functions_f.js
+++ b/docs/search/functions_f.js
@@ -1,16 +1,12 @@
 var searchData=
 [
-  ['set',['set',['../classcutlass_1_1PredicateVector_1_1Iterator.html#aadfd039b5622098c9e46706a27122575',1,'cutlass::PredicateVector::Iterator::set()'],['../structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af',1,'cutlass::PredicateVector::set()'],['../structcutlass_1_1PredicateTileAdapter.html#aeda47efdda0387f9c3c7b31f836afca5',1,'cutlass::PredicateTileAdapter::set()']]],
-  ['shared_5fiterator_5fload',['shared_iterator_load',['../namespacecutlass.html#abcec976c59cab75ca55b338d125154a3',1,'cutlass::shared_iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment)'],['../namespacecutlass.html#aa9416026c6db08d92a34c2ac08fea8c3',1,'cutlass::shared_iterator_load(InputIterator &amp;iterator, Fragment &amp;fragment, int d)']]],
-  ['shared_5fiterator_5fstore',['shared_iterator_store',['../namespacecutlass.html#a705c6d75513e112d2731d1c40f4cf109',1,'cutlass']]],
-  ['shared_5fload_5ffence',['shared_load_fence',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84',1,'cutlass::gemm::GemmEpilogue::shared_load_fence()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe',1,'cutlass::gemm::GemmTraits::shared_load_fence()']]],
-  ['shared_5fstore_5ffence',['shared_store_fence',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691',1,'cutlass::gemm::GemmEpilogue::shared_store_fence()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f',1,'cutlass::gemm::GemmTraits::shared_store_fence()']]],
-  ['sharedloadstream',['SharedLoadStream',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad',1,'cutlass::gemm::SharedLoadStream::SharedLoadStream()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a93e9bcdca4ceb68754fb1f73e2b25d25',1,'cutlass::gemm::SharedLoadStream::SharedLoadStream(Params const &amp;params, SharedStorage &amp;shared_storage)'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a49315aea1c54d84ff19b0ac215128b95',1,'cutlass::gemm::GemmTraits::SharedLoadStream::SharedLoadStream()']]],
-  ['size',['size',['../classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027',1,'cutlass::TensorView::size() const'],['../classcutlass_1_1TensorView.html#a6218d8555679966eab784a6bb1fa4ed1',1,'cutlass::TensorView::size(int dim) const']]],
-  ['store',['store',['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html#a118c78aa6b0ae0f0c78889689b6878c8',1,'cutlass::FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::store()'],['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html#a45319520b7d341c66bd54d3e8fec48f8',1,'cutlass::FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::store()'],['../structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf',1,'cutlass::Store::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a00f6bb93d318bf4cff35c9dabc630167',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a027980b8456243974b0c442866a66e3a',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::store()'],['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ab70d04589637f285f861902f649f834e',1,'cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;::store()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aa130564bb2eba7b07e1f183c98f1d9e2',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::store()'],['../structcutlass_1_1TileStoreIterator.html#a53820de506cecb1f5fb07b3385d8272a',1,'cutlass::TileStoreIterator::store(Fragment &amp;fragment, PredicateIterator pred_it) const'],['../structcutlass_1_1TileStoreIterator.html#a60258b7c1a1708f97e28f8f6c292bfe4',1,'cutlass::TileStoreIterator::store(Fragment &amp;fragment) const']]],
-  ['store_5fpost_5fincrement',['store_post_increment',['../structcutlass_1_1TileStoreIterator.html#a57aa2c36eb6ad9d2500c1f5396b3a526',1,'cutlass::TileStoreIterator::store_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)'],['../structcutlass_1_1TileStoreIterator.html#ae63949f58c1b32959bbfa5b64d521f0f',1,'cutlass::TileStoreIterator::store_post_increment(Fragment &amp;fragment)']]],
-  ['stride',['stride',['../classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878',1,'cutlass::TensorRef::stride() const'],['../classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31',1,'cutlass::TensorRef::stride(int dim) const'],['../classcutlass_1_1TensorView.html#a3ac125a25199fd91f73d2cfe9fc3d09b',1,'cutlass::TensorView::stride() const'],['../classcutlass_1_1TensorView.html#a522630bb0df977282a9bff17e6fee843',1,'cutlass::TensorView::stride(int dim) const']]],
-  ['subview',['subview',['../classcutlass_1_1TensorView.html#aee43c516397d7c06eb8012711d8d7c15',1,'cutlass::TensorView']]],
-  ['swap',['swap',['../classcutlass_1_1platform_1_1unique__ptr.html#a748d413c50bdbbe9e2f9986fbc423036',1,'cutlass::platform::unique_ptr::swap()'],['../namespacecutlass_1_1platform.html#a3e83320a39137d92042eb0bf93be9678',1,'cutlass::platform::swap()']]],
-  ['swizzle',['swizzle',['../structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8',1,'cutlass::gemm::IdentityBlockSwizzle']]]
+  ['params',['Params',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#afb39229d0ad334834cd2ba0c1fcc9412',1,'cutlass::gemm::GlobalLoadStreamPair::Params::Params()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#ab26c1aaa2b7709c32bab39801d6c7772',1,'cutlass::gemm::GlobalLoadStreamPair::Params::Params(typename StreamA::Params const &amp;_params_A, typename StreamB::Params const &amp;_params_B)'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ae515cd98a75ff3eafffcc69692d6301a',1,'cutlass::gemm::LinearScaling::Params::Params()'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#ae28323819fc8950bc0fee3a34b2184ff',1,'cutlass::gemm::LinearScalingDevicePtr::Params::Params()'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a26b04702140a550f3ab598132a74cd93',1,'cutlass::gemm::LinearScalingDevicePtr::Params::Params(Scalar alpha, Scalar beta)'],['../classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#a38aa3e6beb09c7c4bea952094a2ea682',1,'cutlass::gemm::LinearScalingDevicePtr::Params::Params(Scalar const *alpha_ptr, Scalar const *beta_ptr)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71',1,'cutlass::TileIteratorBase::Params::Params()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c',1,'cutlass::TileIteratorBase::Params::Params(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a',1,'cutlass::TileIteratorBase::Params::Params(Coord&lt; 4 &gt; const &amp;stride)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5',1,'cutlass::TileLoadIterator::Params::Params()'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a88a90437f11d029ef109ebb4f828f282',1,'cutlass::TileLoadIterator::Params::Params(Scalar const *ptr)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192',1,'cutlass::TileLoadIterator::Params::Params(TensorRef const &amp;ref)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a78380e92553010656516400d51e14c7e',1,'cutlass::TileLoadIterator::Params::Params(Scalar const *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a8c9856709d3392d8b70dce9a13fa529a',1,'cutlass::TileLoadIterator::Params::Params(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a79304c022d2466c97cd671a98128815a',1,'cutlass::TileStoreIterator::Params::Params()'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#ae1cb260e7b05034ec9b7fa61c92bbc80',1,'cutlass::TileStoreIterator::Params::Params(Scalar *ptr)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#afae37ebc78884290300f38fce7c021b1',1,'cutlass::TileStoreIterator::Params::Params(TensorRef const &amp;ref)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#aa131e0ef02ce37038c1a17bea7088ef6',1,'cutlass::TileStoreIterator::Params::Params(Scalar *ptr, long long stride_d, Index stride_h, Index stride_w)'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a9cf4cd4ecb0a81cf3c03a70c7bfc4e09',1,'cutlass::TileStoreIterator::Params::Params(Scalar *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)'],['../structcutlass_1_1TileLoadStream_1_1Params.html#a90772ac34f8c49f049eb62fada0a2165',1,'cutlass::TileLoadStream::Params::Params()'],['../structcutlass_1_1TileLoadStream_1_1Params.html#a50f136516b139f011939015c8c417ddd',1,'cutlass::TileLoadStream::Params::Params(typename Iterator::Params const &amp;_iterator)'],['../structcutlass_1_1TileStoreStream_1_1Params.html#adfa2399bf13cdff16b7bfe1cb0dd2bd9',1,'cutlass::TileStoreStream::Params::Params()'],['../structcutlass_1_1TileStoreStream_1_1Params.html#acc400568f7694f818b5afbb109bd2e63',1,'cutlass::TileStoreStream::Params::Params(typename Iterator::Params const &amp;_iterator)'],['../structcutlass_1_1ZipTileIterator_1_1Params.html#a4ed93b5319fe96457caf53e9384722d4',1,'cutlass::ZipTileIterator::Params::Params()'],['../structcutlass_1_1ZipTileIterator_1_1Params.html#ad38f6a2cc5800c0ec82b12d183040390',1,'cutlass::ZipTileIterator::Params::Params(typename First::Params const &amp;_first, typename Second::Params const &amp;_second)']]],
+  ['polar',['polar',['../namespacecutlass_1_1platform.html#a6c9200b03868a5090027e5cfc8e27c62',1,'cutlass::platform']]],
+  ['predicatedtileloadstream',['PredicatedTileLoadStream',['../structcutlass_1_1PredicatedTileLoadStream.html#a672a8883d16eff4ecc90dc79162084d3',1,'cutlass::PredicatedTileLoadStream']]],
+  ['predicatedtilestorestream',['PredicatedTileStoreStream',['../structcutlass_1_1PredicatedTileStoreStream.html#ac4aafc6bcc6cf3bff5b31b9cd60fd667',1,'cutlass::PredicatedTileStoreStream']]],
+  ['predicatetileadapter',['PredicateTileAdapter',['../structcutlass_1_1PredicateTileAdapter.html#a4c9eb6c6498ccf117427a3b35f7ce5ea',1,'cutlass::PredicateTileAdapter']]],
+  ['predicatevector',['PredicateVector',['../structcutlass_1_1PredicateVector.html#aec1201df19c0ed0516810a3f19353c21',1,'cutlass::PredicateVector']]],
+  ['proj',['proj',['../namespacecutlass_1_1platform.html#a4e57cfad9bf0b78e338d536ff1bdda39',1,'cutlass::platform']]],
+  ['project',['project',['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html#ae91b2350374f1734a30cbed45e14b8e3',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kA, Kstrided &gt;::project()'],['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html#a0f1579013f56fe16ebc147271f163c3c',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kB, Kstrided &gt;::project()'],['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html#af2a323461334a6b55b95074a1973d250',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kC, true &gt;::project()'],['../structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html#ace04040ccb13af5f9a283ca80ffe93d1',1,'cutlass::gemm::ProjectOperand&lt; GemmOperand::kD, true &gt;::project()']]],
+  ['project_5fcoordinate',['project_coordinate',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001',1,'cutlass::gemm::GlobalLoadStream']]]
 ];
diff --git a/docs/search/groups_1.js b/docs/search/groups_1.js
index 5ebe29b052..5597eb84ec 100644
--- a/docs/search/groups_1.js
+++ b/docs/search/groups_1.js
@@ -1,4 +1,4 @@
 var searchData=
 [
-  ['layout_20concept',['Layout Concept',['../group__layout__concept.html',1,'']]]
+  ['identity_20block_20swizzle',['Identity Block Swizzle',['../group__IdentityBlockSwizzle.html',1,'']]]
 ];
diff --git a/docs/search/groups_2.js b/docs/search/groups_2.js
index b7fc0e347b..5ebe29b052 100644
--- a/docs/search/groups_2.js
+++ b/docs/search/groups_2.js
@@ -1,6 +1,4 @@
 var searchData=
 [
-  ['predicate_20iterator_20concept',['Predicate Iterator Concept',['../group__predicate__iterator__concept.html',1,'']]],
-  ['predicate_20tile_20adapter_20concept',['Predicate Tile Adapter Concept',['../group__predicate__tile__adapter.html',1,'']]],
-  ['predicate_20vector_20concept',['Predicate Vector Concept',['../group__predicate__vector__concept.html',1,'']]]
+  ['layout_20concept',['Layout Concept',['../group__layout__concept.html',1,'']]]
 ];
diff --git a/docs/search/groups_3.js b/docs/search/groups_3.js
index e48e674fad..b7fc0e347b 100644
--- a/docs/search/groups_3.js
+++ b/docs/search/groups_3.js
@@ -1,6 +1,6 @@
 var searchData=
 [
-  ['tile_20load_20iterator_20concept',['Tile Load Iterator Concept',['../group__tile__load__iterator__concept.html',1,'']]],
-  ['tile_20store_20iterator_20concept',['Tile Store Iterator Concept',['../group__tile__store__iterator__concept.html',1,'']]],
-  ['tile_20traits_20concept',['Tile Traits Concept',['../group__tile__traits__concept.html',1,'']]]
+  ['predicate_20iterator_20concept',['Predicate Iterator Concept',['../group__predicate__iterator__concept.html',1,'']]],
+  ['predicate_20tile_20adapter_20concept',['Predicate Tile Adapter Concept',['../group__predicate__tile__adapter.html',1,'']]],
+  ['predicate_20vector_20concept',['Predicate Vector Concept',['../group__predicate__vector__concept.html',1,'']]]
 ];
diff --git a/docs/search/groups_4.html b/docs/search/groups_4.html
new file mode 100644
index 0000000000..34edffce95
--- /dev/null
+++ b/docs/search/groups_4.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="groups_4.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/groups_4.js b/docs/search/groups_4.js
new file mode 100644
index 0000000000..e48e674fad
--- /dev/null
+++ b/docs/search/groups_4.js
@@ -0,0 +1,6 @@
+var searchData=
+[
+  ['tile_20load_20iterator_20concept',['Tile Load Iterator Concept',['../group__tile__load__iterator__concept.html',1,'']]],
+  ['tile_20store_20iterator_20concept',['Tile Store Iterator Concept',['../group__tile__store__iterator__concept.html',1,'']]],
+  ['tile_20traits_20concept',['Tile Traits Concept',['../group__tile__traits__concept.html',1,'']]]
+];
diff --git a/docs/search/namespaces_0.js b/docs/search/namespaces_0.js
index 538984567e..04a4d974ac 100644
--- a/docs/search/namespaces_0.js
+++ b/docs/search/namespaces_0.js
@@ -1,6 +1,7 @@
 var searchData=
 [
   ['cutlass',['cutlass',['../namespacecutlass.html',1,'']]],
+  ['detail',['detail',['../namespacecutlass_1_1detail.html',1,'cutlass']]],
   ['gemm',['gemm',['../namespacecutlass_1_1gemm.html',1,'cutlass']]],
   ['platform',['platform',['../namespacecutlass_1_1platform.html',1,'cutlass']]]
 ];
diff --git a/docs/search/searchdata.js b/docs/search/searchdata.js
index 5565048861..d9737d4316 100644
--- a/docs/search/searchdata.js
+++ b/docs/search/searchdata.js
@@ -1,16 +1,16 @@
 var indexSectionsWithContent =
 {
-  0: "_abcdefghiklmnoprstuvwy~",
-  1: "abcdefghilmnprstuvw",
+  0: "_abcdefghiklmnoprstuvwyz~",
+  1: "abcdefghiklmnprstuvwz",
   2: "c",
-  3: "cdfghilmprstvw",
-  4: "_abcdefghilmoprstuvw~",
-  5: "abcdefgiklmnprstv",
-  6: "abcdefgilmnopstvwy",
+  3: "cdfghiklmnprstvwz",
+  4: "_abcdefghiklmnoprstuvwz~",
+  5: "abcdefgiklmnoprstv",
+  6: "abcdefgiklmnopstvwy",
   7: "k",
-  8: "akmv",
+  8: "abkmov",
   9: "_cns",
-  10: "flpt"
+  10: "filpt"
 };
 
 var indexSectionNames =
diff --git a/docs/search/typedefs_0.js b/docs/search/typedefs_0.js
index fc2d59d1a1..6511587357 100644
--- a/docs/search/typedefs_0.js
+++ b/docs/search/typedefs_0.js
@@ -1,7 +1,8 @@
 var searchData=
 [
-  ['accesstype',['AccessType',['../structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7',1,'cutlass::FragmentIterator::AccessType()'],['../structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b',1,'cutlass::FragmentConstIterator::AccessType()'],['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar__a157bdca477e8efca5bc9cda0db6db8e.html#a0b656c41b9fff6402f33e95204ce8860',1,'cutlass::FragmentLoad&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::AccessType()'],['../structcutlass_1_1FragmentLoad_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___00_9bf6f8f94e2cd7f3702b853d418a9863.html#a7eccab04c8d3968e74486d0525a3fa02',1,'cutlass::FragmentLoad&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::AccessType()'],['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kWmmaMatrix_00_01kAccessSize_00_01Scalar_00c2299561c3ffbb17f8afc6add32eba.html#abca5165caae7304f33fcad267c16b002',1,'cutlass::FragmentStore&lt; IteratorFragment::kWmmaMatrix, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::AccessType()'],['../structcutlass_1_1FragmentStore_3_01IteratorFragment_1_1kScalar_00_01kAccessSize_00_01Scalar___0087787c90510d0c4c07703b5a90c263de.html#a87d46956aa317f06f2ba9a535fdfc5da',1,'cutlass::FragmentStore&lt; IteratorFragment::kScalar, kAccessSize, Scalar_, Memory_, FragmentElement_, kStride &gt;::AccessType()'],['../structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae',1,'cutlass::Load::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a5d7ed0abaeea99ec3399f8eea930f761',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#a2b9faed8d92f55a46e313d79d214316d',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#a8611550c045d6def964d9dafb2be80c6',1,'cutlass::Load&lt; double, 2, Memory_, true, 16 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#a942970f88e13c88f496a9da67ed47a6f',1,'cutlass::Load&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::AccessType()'],['../structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942',1,'cutlass::Store::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_014_01_4.html#a89f329ba11f96ee3ce4428cbc792ac3d',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 4 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_018_01_4.html#ac0af6ae18137156abe24d6479232b955',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 8 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01true_00_0116_01_4.html#ad073f5e8252ad24b086f14bd2a109cf9',1,'cutlass::Store&lt; double, 2, Memory_, true, 16 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01Lanes___00_01Memory___00_01true_00_0116_01_4.html#aeb70e4859e2795b6af63ad5e203b4da9',1,'cutlass::Store&lt; Scalar_, Lanes_, Memory_, true, 16 &gt;::AccessType()'],['../structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53',1,'cutlass::TileIteratorBase::AccessType()'],['../structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0',1,'cutlass::TileLoadIterator::AccessType()'],['../structcutlass_1_1TileStoreIterator.html#a0e79ed59263ebc3478c43f2f9a50cb5a',1,'cutlass::TileStoreIterator::AccessType()']]],
-  ['accumulators',['Accumulators',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce',1,'cutlass::gemm::GemmEpilogue::Accumulators()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2',1,'cutlass::gemm::GemmEpilogueTraits::Accumulators()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54',1,'cutlass::gemm::GemmConfig::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a505306c2af2059f6e84ba32d701d1602',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a4712650b46b6183ea60d79ef18f55b86',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d',1,'cutlass::gemm::ThreadMultiplyAdd::Accumulators()']]],
-  ['accumulatorsperthread',['AccumulatorsPerThread',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a98d0f84730551eaabfe7404b36478b50',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerThread()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a47807c9c9fb43e7f7b5f409a49986c30',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerThread()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5',1,'cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerThread()']]],
-  ['accumulatorsperwarp',['AccumulatorsPerWarp',['../structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108',1,'cutlass::gemm::GemmConfig::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af0c856abdd9f7f26f671493cc629bf0a',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a327ce1b7b6478c27c80baf5d9e26bdbc',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77',1,'cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerWarp()']]]
+  ['accesstype',['AccessType',['../structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7',1,'cutlass::FragmentIterator::AccessType()'],['../structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b',1,'cutlass::FragmentConstIterator::AccessType()'],['../structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8',1,'cutlass::Load::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57',1,'cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::AccessType()'],['../structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7',1,'cutlass::Store::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44',1,'cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab',1,'cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301',1,'cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a',1,'cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType()'],['../structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9',1,'cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType()'],['../structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385',1,'cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;::AccessType()'],['../structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973',1,'cutlass::TileIteratorBase::AccessType()'],['../structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125',1,'cutlass::TileLoadIterator::AccessType()'],['../structcutlass_1_1TileStoreIterator.html#a10431ed94c0dd66a8c1d01ba7c8b5aa2',1,'cutlass::TileStoreIterator::AccessType()']]],
+  ['accumulators',['Accumulators',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::Accumulators()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591',1,'cutlass::gemm::GemmConfig::Accumulators()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce',1,'cutlass::gemm::GemmEpilogue::Accumulators()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4',1,'cutlass::gemm::GemmEpilogueTraits::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::Accumulators()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6',1,'cutlass::gemm::ThreadMultiplyAdd::Accumulators()']]],
+  ['accumulatorsperthread',['AccumulatorsPerThread',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a70e8444060c36afb41e5064b2fb18b42',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::AccumulatorsPerThread()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a24dd9fdc54b001840e8b82664b3bfe3a',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerThread()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa88edf2e89062be00181f5dc4f4a0947',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerThread()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad8ea3777c307bf3f8c58a8df3966715d',1,'cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerThread()']]],
+  ['accumulatorsperwarp',['AccumulatorsPerWarp',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a9a5632bb1891a33126d6170af72a3ae2',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3',1,'cutlass::gemm::GemmConfig::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aacb9a5a1d8f3b6e21bc449b0b97949b7',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ae3152470cbbba2310d9c83b9d5d43027',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::AccumulatorsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e',1,'cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerWarp()']]],
+  ['atype',['AType',['../structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037',1,'cutlass::gemm::GemmDesc']]]
 ];
diff --git a/docs/search/typedefs_1.js b/docs/search/typedefs_1.js
index e1e869f3d4..45a9fd7791 100644
--- a/docs/search/typedefs_1.js
+++ b/docs/search/typedefs_1.js
@@ -1,6 +1,7 @@
 var searchData=
 [
-  ['base',['Base',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a507f825824e624d80a34ea9395934160',1,'cutlass::gemm::GlobalLoadStream::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a',1,'cutlass::gemm::GemmGlobalTileCdTraits::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed',1,'cutlass::gemm::GemmGlobalIteratorAb::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5',1,'cutlass::gemm::GemmGlobalIteratorCd::Base()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Base()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04',1,'cutlass::gemm::IgemmEpilogue::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf',1,'cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#ab19f72d239f639f261fbb63f72f10acf',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::Base()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#affd04d88a0bbef13c54f10000a5dc15d',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aef7047c6a0d0c3db0bfb6bec08520aad',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::Base()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a48a8eda430139e6a131654a54bbf0f3b',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Base()'],['../classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4',1,'cutlass::TensorView::Base()'],['../structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3',1,'cutlass::TileLoadIterator::Base()'],['../structcutlass_1_1TileStoreIterator.html#af4576dca736bab8ac73b308522cb4a67',1,'cutlass::TileStoreIterator::Base()']]],
-  ['baseparams',['BaseParams',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517',1,'cutlass::gemm::GemmGlobalIteratorAb::BaseParams()'],['../structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76',1,'cutlass::TileLoadIterator::BaseParams()'],['../structcutlass_1_1TileStoreIterator.html#a5484b46ac2646edb7a185b51137f70c0',1,'cutlass::TileStoreIterator::BaseParams()']]],
-  ['blockswizzle',['BlockSwizzle',['../structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941',1,'cutlass::gemm::GemmTraits']]]
+  ['base',['Base',['../structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b',1,'cutlass::gemm::GemmCoord::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a581b7cdeef3e620f246923fa07f9db5a',1,'cutlass::gemm::GemmGlobalTileCdTraits::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed',1,'cutlass::gemm::GemmGlobalIteratorAb::Base()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5',1,'cutlass::gemm::GemmGlobalIteratorCd::Base()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Base()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7ec19bf90207a7f598f2ec5166649495',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aca63ec1099444c555299dc144282dded',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a4b23ba8c14e26672a516aa43063250c2',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04',1,'cutlass::gemm::IgemmEpilogue::Base()'],['../structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf',1,'cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ac14f4ef560bd8068d16c0471af6df82c',1,'cutlass::gemm::IgemmGlobalTileTraits::Base()'],['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a82a9cfc61ecc117592bdb30f57bd35c9',1,'cutlass::gemm::IgemmGlobalIteratorAb::Base()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#adbbf19c2f86c198bbe4cc596c63e65ae',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4f7dfa33f6b6e52aac05ad5072710aa9',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::Base()'],['../structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#ad10463da3f5a421f9b87638775ef0a85',1,'cutlass::gemm::LinearScalingDevicePtr::Base()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::Base()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aea87c73ae2d4e027014ebd4d8141c89e',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Base()'],['../structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d',1,'cutlass::MatrixCoord::Base()'],['../structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000',1,'cutlass::TensorRefBatchStrided::Base()'],['../classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6',1,'cutlass::TensorView::Base()'],['../structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca',1,'cutlass::TileCoord::Base()'],['../structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264',1,'cutlass::TileLoadIterator::Base()'],['../structcutlass_1_1TileStoreIterator.html#a24fa369165de783a72311d8ec3115c48',1,'cutlass::TileStoreIterator::Base()'],['../structcutlass_1_1PredicatedTileLoadStream.html#ac7f57248d3e10c9309f042e5d41440c1',1,'cutlass::PredicatedTileLoadStream::Base()'],['../structcutlass_1_1PredicatedTileStoreStream.html#afc320f4d29f05102e9de0064ca31e49b',1,'cutlass::PredicatedTileStoreStream::Base()']]],
+  ['baseparams',['BaseParams',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517',1,'cutlass::gemm::GemmGlobalIteratorAb::BaseParams()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afd2bed46f4cf04aaf331fb2ecae953f8',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::BaseParams()'],['../structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e',1,'cutlass::TileLoadIterator::BaseParams()'],['../structcutlass_1_1TileStoreIterator.html#a5dd2a31d41d9098e928c559af12cbe66',1,'cutlass::TileStoreIterator::BaseParams()']]],
+  ['blockswizzle',['BlockSwizzle',['../structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941',1,'cutlass::gemm::GemmTraits']]],
+  ['btype',['BType',['../structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49',1,'cutlass::gemm::GemmDesc']]]
 ];
diff --git a/docs/search/typedefs_10.js b/docs/search/typedefs_10.js
index e488958fd2..4d47f80af8 100644
--- a/docs/search/typedefs_10.js
+++ b/docs/search/typedefs_10.js
@@ -1,4 +1,6 @@
 var searchData=
 [
-  ['warps',['Warps',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4',1,'cutlass::gemm::GemmSharedLoadTileATraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd',1,'cutlass::gemm::GemmConfig::Warps()']]]
+  ['value_5ftype',['value_type',['../classcutlass_1_1platform_1_1complex.html#aa7c319b0c67f8ffeee3d1bb4b83ea0d6',1,'cutlass::platform::complex::value_type()'],['../structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd',1,'cutlass::platform::integral_constant::value_type()']]],
+  ['vector',['Vector',['../structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2',1,'cutlass::VectorTraits::Vector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Vector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Vector()']]],
+  ['vectorizedtile',['VectorizedTile',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac',1,'cutlass::gemm::GemmGlobalTileTraits']]]
 ];
diff --git a/docs/search/typedefs_11.js b/docs/search/typedefs_11.js
index d8526488a7..1ad66a0925 100644
--- a/docs/search/typedefs_11.js
+++ b/docs/search/typedefs_11.js
@@ -1,4 +1,4 @@
 var searchData=
 [
-  ['yes',['yes',['../structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669',1,'cutlass::platform::is_base_of_helper']]]
+  ['warps',['Warps',['../structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3',1,'cutlass::gemm::GemmConfig::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaff4a5e0f9e4256f184a22cad0ce8cf4',1,'cutlass::gemm::GemmSharedLoadTileATraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7ad7a4e33ed43926e165e66162eb620b',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af4597927405d8bb1ad2c464fad064703',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Warps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Warps()']]]
 ];
diff --git a/docs/search/typedefs_12.html b/docs/search/typedefs_12.html
new file mode 100644
index 0000000000..b1382a2907
--- /dev/null
+++ b/docs/search/typedefs_12.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="typedefs_12.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/typedefs_12.js b/docs/search/typedefs_12.js
new file mode 100644
index 0000000000..d8526488a7
--- /dev/null
+++ b/docs/search/typedefs_12.js
@@ -0,0 +1,4 @@
+var searchData=
+[
+  ['yes',['yes',['../structcutlass_1_1platform_1_1is__base__of__helper.html#ac1cf3f804e7686213fd42c678cc6d669',1,'cutlass::platform::is_base_of_helper']]]
+];
diff --git a/docs/search/typedefs_2.js b/docs/search/typedefs_2.js
index d216b10908..3fe0e321eb 100644
--- a/docs/search/typedefs_2.js
+++ b/docs/search/typedefs_2.js
@@ -1,6 +1,9 @@
 var searchData=
 [
-  ['clearaccumulators',['ClearAccumulators',['../structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165',1,'cutlass::gemm::GemmTraits::ClearAccumulators()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041',1,'cutlass::gemm::HgemmTraitsHelper::ClearAccumulators()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5',1,'cutlass::gemm::IgemmTraitsHelper::ClearAccumulators()']]],
-  ['consttensorref_5ft',['ConstTensorRef_t',['../classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830',1,'cutlass::TensorView']]],
-  ['coord_5ft',['Coord_t',['../classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017',1,'cutlass::TensorView']]]
+  ['clearaccumulators',['ClearAccumulators',['../structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165',1,'cutlass::gemm::GemmTraits::ClearAccumulators()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6',1,'cutlass::gemm::HgemmTraitsHelper::ClearAccumulators()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760',1,'cutlass::gemm::IgemmTraitsHelper::ClearAccumulators()']]],
+  ['consttensorref',['ConstTensorRef',['../classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17',1,'cutlass::TensorRef::ConstTensorRef()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::ConstTensorRef()'],['../classcutlass_1_1TensorView.html#a3861f7f09da0b8153d0e3686f2c7cf57',1,'cutlass::TensorView::ConstTensorRef()'],['../structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033',1,'cutlass::TileAllocation::ConstTensorRef()'],['../structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4',1,'cutlass::ZipTileAllocation::ConstTensorRef()']]],
+  ['consttensorref_5ft',['ConstTensorRef_t',['../classcutlass_1_1TensorView.html#a162c4cb4f4e866892d63cd37f7f72165',1,'cutlass::TensorView']]],
+  ['consttensorview',['ConstTensorView',['../classcutlass_1_1TensorView.html#ab879a7b6552c879a81c49cbc0946d719',1,'cutlass::TensorView']]],
+  ['coord_5ft',['Coord_t',['../classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6',1,'cutlass::TensorRef::Coord_t()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a705c22cb328c4dc9365c2f370ece2031',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Coord_t()'],['../classcutlass_1_1TensorView.html#ab16a0244199ca2800ea5460ed8ed6ae2',1,'cutlass::TensorView::Coord_t()']]],
+  ['ctype',['CType',['../structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704',1,'cutlass::gemm::GemmDesc']]]
 ];
diff --git a/docs/search/typedefs_3.js b/docs/search/typedefs_3.js
index 1c82be67fc..c429308121 100644
--- a/docs/search/typedefs_3.js
+++ b/docs/search/typedefs_3.js
@@ -1,5 +1,6 @@
 var searchData=
 [
   ['deleter_5ftype',['deleter_type',['../classcutlass_1_1platform_1_1unique__ptr.html#a85cab9945c36dc56bd7d6adf30c0d252',1,'cutlass::platform::unique_ptr']]],
-  ['delta',['Delta',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae',1,'cutlass::gemm::GemmEpilogueTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aede069e51e0732a9648c437261bd4d66',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Delta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f',1,'cutlass::gemm::GemmGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4',1,'cutlass::gemm::GemmGlobalTileCdTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a2ee87510d2deccf8b9633aaa4f6340ea',1,'cutlass::gemm::GemmSharedLoadTileATraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ad029d098ba13543bf99c728e6b93006d',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#ac5578da2577cddd5a38cb628f894f644',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Delta()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Delta()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a08dada072eefded4c859df4e5fc25ca6',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::Delta()'],['../structcutlass_1_1TileTraits.html#af88f5cea9f452d83004ea0fa0f9d56eb',1,'cutlass::TileTraits::Delta()'],['../structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088',1,'cutlass::TileIteratorBase::Delta()'],['../structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf',1,'cutlass::TileLoadIterator::Delta()'],['../structcutlass_1_1TileStoreIterator.html#a1c433ba0eea5e6a46f36101d8de98ed0',1,'cutlass::TileStoreIterator::Delta()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5',1,'cutlass::TileTraitsStrideMajor::Delta()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#ab1a4945bf562debeee1af813288e5896',1,'cutlass::TileTraitsContiguousMajor::Delta()'],['../structcutlass_1_1TileTraitsWarpRake.html#a3ce218b223c5716af40c316899324bbe',1,'cutlass::TileTraitsWarpRake::Delta()']]]
+  ['delta',['Delta',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da',1,'cutlass::gemm::GemmEpilogueTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aede069e51e0732a9648c437261bd4d66',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Delta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f',1,'cutlass::gemm::GemmGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4',1,'cutlass::gemm::GemmGlobalTileCdTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a645f65f7d8f123936b286521df470224',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#afd691b764b7d105a1ed41dada6049e71',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a134a02091bf4360d2cbca56624e52024',1,'cutlass::gemm::GemmSharedLoadTileATraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#adcede218eec980903221feb664cad3a1',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a5587ef22f419ab9a7c6117917cc99c57',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Delta()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Delta()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aed055504ec5f09657e059416150188a9',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Delta()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#adab639892c3586464e2ea5f947b9e0f0',1,'cutlass::gemm::IgemmGlobalTileTraits::Delta()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002',1,'cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::Delta()'],['../structcutlass_1_1TileTraits.html#ad6d99ccf2fcd2bd47e45d068f4d99c82',1,'cutlass::TileTraits::Delta()'],['../structcutlass_1_1RegularTilePredicateFunctor.html#acd32282ce7852c4669098c06bcd9a360',1,'cutlass::RegularTilePredicateFunctor::Delta()'],['../structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815',1,'cutlass::TileIteratorBase::Delta()'],['../structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604',1,'cutlass::TileLoadIterator::Delta()'],['../structcutlass_1_1TileStoreIterator.html#afdb38f790d9c7cf1ac238643103b45ce',1,'cutlass::TileStoreIterator::Delta()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5',1,'cutlass::TileTraitsStrideMajor::Delta()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#ab1a4945bf562debeee1af813288e5896',1,'cutlass::TileTraitsContiguousMajor::Delta()'],['../structcutlass_1_1TileTraitsWarpRake.html#a3ce218b223c5716af40c316899324bbe',1,'cutlass::TileTraitsWarpRake::Delta()']]],
+  ['dtype',['DType',['../structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd',1,'cutlass::gemm::GemmDesc']]]
 ];
diff --git a/docs/search/typedefs_4.js b/docs/search/typedefs_4.js
index 6415af3376..2c50d31a61 100644
--- a/docs/search/typedefs_4.js
+++ b/docs/search/typedefs_4.js
@@ -2,5 +2,5 @@ var searchData=
 [
   ['element',['Element',['../structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab',1,'cutlass::Fragment::Element()'],['../structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d',1,'cutlass::FragmentIterator::Element()'],['../structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706',1,'cutlass::FragmentConstIterator::Element()']]],
   ['element_5ftype',['element_type',['../classcutlass_1_1platform_1_1unique__ptr.html#a94cea0ebf2ac4bec69dfa1f80ea07d50',1,'cutlass::platform::unique_ptr']]],
-  ['epilogue',['Epilogue',['../structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe',1,'cutlass::gemm::GemmTraits::Epilogue()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a234ae6065d5ab56135e10119d3ad2d98',1,'cutlass::gemm::HgemmTraitsHelper::Epilogue()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5e2ed697a9091a1ca8b19855b5a2c651',1,'cutlass::gemm::IgemmTraitsHelper::Epilogue()']]]
+  ['epilogue',['Epilogue',['../structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe',1,'cutlass::gemm::GemmTraits::Epilogue()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada2812153440cf1e678ca4c795a6e8ae',1,'cutlass::gemm::HgemmTraitsHelper::Epilogue()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a36c8b17c98723934d9d75228dd9c2915',1,'cutlass::gemm::IgemmTraitsHelper::Epilogue()']]]
 ];
diff --git a/docs/search/typedefs_5.js b/docs/search/typedefs_5.js
index 84d69abc40..37a4cd06f3 100644
--- a/docs/search/typedefs_5.js
+++ b/docs/search/typedefs_5.js
@@ -1,14 +1,15 @@
 var searchData=
 [
   ['false_5ftype',['false_type',['../namespacecutlass_1_1platform.html#ad8c95b2109070847b13d355120344380',1,'cutlass::platform']]],
-  ['fetchedfragment',['FetchedFragment',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36',1,'cutlass::gemm::GlobalLoadStreamBase::FetchedFragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7',1,'cutlass::gemm::SharedLoadStream::FetchedFragment()']]],
-  ['fragment',['Fragment',['../structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808',1,'cutlass::FragmentIterator::Fragment()'],['../structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05',1,'cutlass::FragmentConstIterator::Fragment()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a32687e2aa49dfa251eab14d5cd2036be',1,'cutlass::gemm::GlobalLoadStreamBase::Fragment()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4',1,'cutlass::gemm::GemmGlobalIteratorAb::Fragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7',1,'cutlass::gemm::SharedLoadStream::Fragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7',1,'cutlass::gemm::HgemmSwizzle::Fragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d',1,'cutlass::gemm::IgemmSwizzle::Fragment()'],['../structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e',1,'cutlass::TileIteratorBase::Fragment()'],['../structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc',1,'cutlass::TileLoadIterator::Fragment()'],['../structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1',1,'cutlass::TileStoreIterator::Fragment()']]],
-  ['fragmenta',['FragmentA',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1daf96b6d152c5cf32f248bbfd605b74',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::FragmentA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a71aadbb130d4b1a6532c45282b37354f',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914',1,'cutlass::gemm::ThreadMultiplyAdd::FragmentA()']]],
-  ['fragmentb',['FragmentB',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae79e7fc5be2f4c8d30ca83edc151f63a',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::FragmentB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a43e278686b493d0aef943f32a9f47b9e',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620',1,'cutlass::gemm::ThreadMultiplyAdd::FragmentB()']]],
-  ['fragmentconstiterator',['FragmentConstIterator',['../structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60',1,'cutlass::TileIteratorBase::FragmentConstIterator()'],['../structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76',1,'cutlass::TileLoadIterator::FragmentConstIterator()'],['../structcutlass_1_1TileStoreIterator.html#a48de0db7ee2ee9699b946a9d5a0364c7',1,'cutlass::TileStoreIterator::FragmentConstIterator()']]],
-  ['fragmentelement',['FragmentElement',['../structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7',1,'cutlass::TileIteratorBase::FragmentElement()'],['../structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464',1,'cutlass::TileLoadIterator::FragmentElement()'],['../structcutlass_1_1TileStoreIterator.html#a2b13136a970fae187fcb377c9be28fac',1,'cutlass::TileStoreIterator::FragmentElement()']]],
-  ['fragmentiterator',['FragmentIterator',['../structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5',1,'cutlass::TileIteratorBase::FragmentIterator()'],['../structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591',1,'cutlass::TileLoadIterator::FragmentIterator()'],['../structcutlass_1_1TileStoreIterator.html#a0843b2d82422e7178f324a8d3be9d705',1,'cutlass::TileStoreIterator::FragmentIterator()']]],
+  ['fetchedfragment',['FetchedFragment',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf',1,'cutlass::gemm::GlobalLoadStream::FetchedFragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7',1,'cutlass::gemm::SharedLoadStream::FetchedFragment()']]],
+  ['first',['First',['../structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2',1,'cutlass::ZipTileAllocation::First()'],['../structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4',1,'cutlass::ZipFragment::First()'],['../structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4',1,'cutlass::ZipConvert::First()'],['../structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9',1,'cutlass::ZipTensorRef::First()'],['../classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7',1,'cutlass::ZipTileIterator::First()']]],
+  ['fragment',['Fragment',['../structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808',1,'cutlass::FragmentIterator::Fragment()'],['../structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05',1,'cutlass::FragmentConstIterator::Fragment()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab7e315253b3301c191581bce05644106',1,'cutlass::gemm::GlobalLoadStream::Fragment()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4',1,'cutlass::gemm::GemmGlobalIteratorAb::Fragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7',1,'cutlass::gemm::SharedLoadStream::Fragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#a82dc6d9a10de7aba9a69e6025b2cc2b7',1,'cutlass::gemm::HgemmSwizzle::Fragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a67693ee79f93cb61fc37f2e632eaea8d',1,'cutlass::gemm::IgemmSwizzle::Fragment()'],['../structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219',1,'cutlass::TileIteratorBase::Fragment()'],['../structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139',1,'cutlass::TileLoadIterator::Fragment()'],['../structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb',1,'cutlass::TileStoreIterator::Fragment()'],['../structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81',1,'cutlass::TileLoadStream::Fragment()'],['../structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878',1,'cutlass::TileStoreStream::Fragment()'],['../structcutlass_1_1PredicatedTileLoadStream.html#a7f802c4c733375d0a63f91c58196e6a0',1,'cutlass::PredicatedTileLoadStream::Fragment()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a6c9737f5b09e7eb1aa7daabb00ae2e69',1,'cutlass::PredicatedTileStoreStream::Fragment()'],['../classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06',1,'cutlass::ZipTileIterator::Fragment()']]],
+  ['fragmenta',['FragmentA',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::FragmentA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::FragmentA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649',1,'cutlass::gemm::ThreadMultiplyAdd::FragmentA()']]],
+  ['fragmentb',['FragmentB',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::FragmentB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::FragmentB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::FragmentB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad',1,'cutlass::gemm::ThreadMultiplyAdd::FragmentB()']]],
+  ['fragmentconstiterator',['FragmentConstIterator',['../structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5',1,'cutlass::TileIteratorBase::FragmentConstIterator()'],['../structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca',1,'cutlass::TileLoadIterator::FragmentConstIterator()'],['../structcutlass_1_1TileStoreIterator.html#adfcd8a2e63bd0c515ef03760cc1c4283',1,'cutlass::TileStoreIterator::FragmentConstIterator()']]],
+  ['fragmentelement',['FragmentElement',['../structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45',1,'cutlass::TileIteratorBase::FragmentElement()'],['../structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6',1,'cutlass::TileLoadIterator::FragmentElement()'],['../structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8',1,'cutlass::TileStoreIterator::FragmentElement()']]],
+  ['fragmentiterator',['FragmentIterator',['../structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51',1,'cutlass::TileIteratorBase::FragmentIterator()'],['../structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016',1,'cutlass::TileLoadIterator::FragmentIterator()'],['../structcutlass_1_1TileStoreIterator.html#ace8a65d90db264a0ee93a810be38918f',1,'cutlass::TileStoreIterator::FragmentIterator()']]],
   ['fragmentmultiplyadd',['FragmentMultiplyAdd',['../structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8',1,'cutlass::gemm::LinearScaling']]],
-  ['fragmentshape',['FragmentShape',['../structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76',1,'cutlass::FragmentIterator::FragmentShape()'],['../structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577',1,'cutlass::FragmentConstIterator::FragmentShape()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4',1,'cutlass::gemm::HgemmSwizzle::FragmentShape()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004',1,'cutlass::gemm::IgemmSwizzle::FragmentShape()'],['../structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24',1,'cutlass::TileIteratorBase::FragmentShape()'],['../structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869',1,'cutlass::TileLoadIterator::FragmentShape()'],['../structcutlass_1_1TileStoreIterator.html#a3b872e85844c9e009fa480a71a829136',1,'cutlass::TileStoreIterator::FragmentShape()']]],
-  ['functor',['Functor',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1',1,'cutlass::gemm::GemmEpilogue::Functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee',1,'cutlass::gemm::GemmEpilogueTraits::Functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Functor()']]]
+  ['fragmentshape',['FragmentShape',['../structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76',1,'cutlass::FragmentIterator::FragmentShape()'],['../structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577',1,'cutlass::FragmentConstIterator::FragmentShape()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#afe44fedcf24b90c0cf6ac7d1495b89e4',1,'cutlass::gemm::HgemmSwizzle::FragmentShape()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a13a3b052cd8b714471489a9cc4dc7004',1,'cutlass::gemm::IgemmSwizzle::FragmentShape()'],['../structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be',1,'cutlass::TileIteratorBase::FragmentShape()'],['../structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1',1,'cutlass::TileLoadIterator::FragmentShape()'],['../structcutlass_1_1TileStoreIterator.html#a82ceeea55603dbb0c6e5bf9c22ac692e',1,'cutlass::TileStoreIterator::FragmentShape()']]],
+  ['functor',['Functor',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1',1,'cutlass::gemm::GemmEpilogue::Functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99',1,'cutlass::gemm::GemmEpilogueTraits::Functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Functor()']]]
 ];
diff --git a/docs/search/typedefs_6.js b/docs/search/typedefs_6.js
index 84c6585cf2..aac9a67504 100644
--- a/docs/search/typedefs_6.js
+++ b/docs/search/typedefs_6.js
@@ -1,23 +1,25 @@
 var searchData=
 [
-  ['gemmconfig',['GemmConfig',['../structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5',1,'cutlass::gemm::GemmTraits::GemmConfig()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118',1,'cutlass::gemm::HgemmTraitsHelper::GemmConfig()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac',1,'cutlass::gemm::IgemmTraitsHelper::GemmConfig()']]],
-  ['gemmepiloguetraits',['GemmEpilogueTraits',['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6',1,'cutlass::gemm::HgemmTraitsHelper']]],
-  ['gemmtiletraitshelpera',['GemmTileTraitsHelperA',['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a5557c86a530f5d20a35d3fa620adf417',1,'cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ab9e10d54c81a359db0eba58a11b9a0cf',1,'cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperA()']]],
-  ['gemmtiletraitshelperb',['GemmTileTraitsHelperB',['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8768c2b03bea0c3601c47dde2bc7ca89',1,'cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a095505bfcea6791accd06bf4d37b9df8',1,'cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperB()']]],
+  ['gemmconfig',['GemmConfig',['../structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5',1,'cutlass::gemm::GemmTraits::GemmConfig()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4',1,'cutlass::gemm::HgemmTraitsHelper::GemmConfig()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71',1,'cutlass::gemm::IgemmTraitsHelper::GemmConfig()']]],
+  ['gemmepiloguetraits',['GemmEpilogueTraits',['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047',1,'cutlass::gemm::HgemmTraitsHelper']]],
+  ['gemmtiletraitshelpera',['GemmTileTraitsHelperA',['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4f3afb4b1f37a2c43a1935a3000b2a02',1,'cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aee1dfb15e1b63f838a712af93777e5d3',1,'cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperA()']]],
+  ['gemmtiletraitshelperb',['GemmTileTraitsHelperB',['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada910ee63493bc3c70f7395127268a1d',1,'cutlass::gemm::HgemmTraitsHelper::GemmTileTraitsHelperB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7f175193ac6bcdccba012f5d80324685',1,'cutlass::gemm::IgemmTraitsHelper::GemmTileTraitsHelperB()']]],
   ['globalfragmentc',['GlobalFragmentC',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e',1,'cutlass::gemm::IgemmEpilogueTraitsHelper']]],
   ['globalfragmentd',['GlobalFragmentD',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88',1,'cutlass::gemm::IgemmEpilogueTraitsHelper']]],
   ['globaliterator',['GlobalIterator',['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#a56d3f2606f9464ec57aa61aae378c642',1,'cutlass::gemm::HgemmSwizzle::GlobalIterator()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a880878914c25db44a1781725c24af514',1,'cutlass::gemm::IgemmSwizzle::GlobalIterator()']]],
-  ['globalloaditeratora',['GlobalLoadIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorA()']]],
-  ['globalloaditeratorb',['GlobalLoadIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorB()']]],
-  ['globalloaditeratorc',['GlobalLoadIteratorC',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a',1,'cutlass::gemm::GemmEpilogue::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2',1,'cutlass::gemm::GemmEpilogueTraits::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalLoadIteratorC()']]],
-  ['globalloadstreama',['GlobalLoadStreamA',['../structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47',1,'cutlass::gemm::GemmTraits::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a448c242880183e006b70d839d210a2ec',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2aaece6093100c71c4d587994200e3bb',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7fb1354154f303642da72e6fd157d846',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamA()']]],
-  ['globalloadstreamb',['GlobalLoadStreamB',['../structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b',1,'cutlass::gemm::GemmTraits::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aad467ed9a680b4d77acecb096799cd89',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abaf5f16ab0b215b406766ecadab29394',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a88e66ee760aea03687e7b3ccc6ea535b',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamB()']]],
+  ['globalloaditerator',['GlobalLoadIterator',['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a4237c6c9e33397bc1633182e9c3b6504',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aed9492775f012986a7c158156bf4e01e',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#acd7e5d5b940f410275ebbcd6c27e4327',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a57670718427808a241005f5e27acce5d',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalLoadIterator()']]],
+  ['globalloaditeratora',['GlobalLoadIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorA()']]],
+  ['globalloaditeratorb',['GlobalLoadIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadIteratorB()']]],
+  ['globalloaditeratorc',['GlobalLoadIteratorC',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a',1,'cutlass::gemm::GemmEpilogue::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24',1,'cutlass::gemm::GemmEpilogueTraits::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalLoadIteratorC()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalLoadIteratorC()']]],
+  ['globalloadstream',['GlobalLoadStream',['../structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8',1,'cutlass::gemm::GemmTraits']]],
+  ['globalloadstreama',['GlobalLoadStreamA',['../structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47',1,'cutlass::gemm::GemmTraits::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a50121da13661e9fa50e5ea3a87c06266',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a80e36b583ccd9aa9b37d52faa090cbca',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2aceaceb30287e909c254f01f1716845',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamA()']]],
+  ['globalloadstreamb',['GlobalLoadStreamB',['../structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b',1,'cutlass::gemm::GemmTraits::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a2fcf34dcf8d89424aa15da709aed4a83',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2c46c11f5fddb865645f555547c823ba',1,'cutlass::gemm::HgemmTraitsHelper::GlobalLoadStreamB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae59454c1b3862522c8ea293bacb194a8',1,'cutlass::gemm::IgemmTraitsHelper::GlobalLoadStreamB()']]],
   ['globalloadtiletraits',['GlobalLoadTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalLoadTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aaa009025dcd6360ead1dc18005688821',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalLoadTileTraits()']]],
-  ['globalstoreiteratord',['GlobalStoreIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4',1,'cutlass::gemm::GemmEpilogue::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1',1,'cutlass::gemm::GemmEpilogueTraits::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalStoreIteratorD()']]],
+  ['globalstoreiteratord',['GlobalStoreIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4',1,'cutlass::gemm::GemmEpilogue::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02',1,'cutlass::gemm::GemmEpilogueTraits::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalStoreIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalStoreIteratorD()']]],
   ['globalstoretiletraits',['GlobalStoreTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a16b06a1611dbd22adaa0c9ee5e1b15bd',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalStoreTileTraits()']]],
-  ['globaltiletraits',['GlobalTileTraits',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a738774d1eb79de7e29c372ddfd48258d',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a24f38105e3c331c733cb672c3a9be588',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()']]],
-  ['globaltransformera',['GlobalTransformerA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647',1,'cutlass::gemm::HgemmTraitsHelper::GlobalTransformerA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d',1,'cutlass::gemm::IgemmTraitsHelper::GlobalTransformerA()']]],
-  ['globaltransformerb',['GlobalTransformerB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de',1,'cutlass::gemm::HgemmTraitsHelper::GlobalTransformerB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9',1,'cutlass::gemm::IgemmTraitsHelper::GlobalTransformerB()']]],
-  ['globaltransformerc',['GlobalTransformerC',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9',1,'cutlass::gemm::GemmEpilogue::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa',1,'cutlass::gemm::GemmEpilogueTraits::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalTransformerC()']]],
-  ['globaltransformerd',['GlobalTransformerD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7',1,'cutlass::gemm::GemmEpilogue::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7',1,'cutlass::gemm::GemmEpilogueTraits::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalTransformerD()']]]
+  ['globaltiletraits',['GlobalTileTraits',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a66f11407e9f5bf0d6123c81dfee6b330',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a125c9a43da3bcdc00d5194a1376f613c',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::GlobalTileTraits()']]],
+  ['globaltransformera',['GlobalTransformerA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60',1,'cutlass::gemm::HgemmTraitsHelper::GlobalTransformerA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb',1,'cutlass::gemm::IgemmTraitsHelper::GlobalTransformerA()']]],
+  ['globaltransformerb',['GlobalTransformerB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::GlobalTransformerB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184',1,'cutlass::gemm::HgemmTraitsHelper::GlobalTransformerB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2',1,'cutlass::gemm::IgemmTraitsHelper::GlobalTransformerB()']]],
+  ['globaltransformerc',['GlobalTransformerC',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9',1,'cutlass::gemm::GemmEpilogue::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d',1,'cutlass::gemm::GemmEpilogueTraits::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerC()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalTransformerC()']]],
+  ['globaltransformerd',['GlobalTransformerD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7',1,'cutlass::gemm::GemmEpilogue::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6',1,'cutlass::gemm::GemmEpilogueTraits::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43',1,'cutlass::gemm::GemmEpilogueTraitsHelper::GlobalTransformerD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::GlobalTransformerD()']]]
 ];
diff --git a/docs/search/typedefs_7.js b/docs/search/typedefs_7.js
index ec92354833..8920b60492 100644
--- a/docs/search/typedefs_7.js
+++ b/docs/search/typedefs_7.js
@@ -1,11 +1,11 @@
 var searchData=
 [
   ['igemmconfig',['IgemmConfig',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5a52727bb9b5d5f8afa7d0384f564036',1,'cutlass::gemm::IgemmEpilogueTraitsHelper']]],
-  ['immediateoffsetstrides',['ImmediateOffsetStrides',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf',1,'cutlass::gemm::GemmGlobalTileTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c',1,'cutlass::gemm::GemmGlobalTileCdTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a8e767b5e2fb95b0b02a0ea3e8ea58368',1,'cutlass::gemm::GemmSharedLoadTileATraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a5e4204b52ee081a37e824ca71c291c03',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9cfb32f902593e7dc018ee802c3520b8',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::ImmediateOffsetStrides()'],['../structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8',1,'cutlass::TileIteratorBase::ImmediateOffsetStrides()']]],
-  ['index',['Index',['../structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34',1,'cutlass::gemm::Gemm::Index()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e',1,'cutlass::gemm::GemmEpilogue::Index()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331',1,'cutlass::gemm::GemmEpilogueTraits::Index()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2',1,'cutlass::gemm::GlobalLoadStreamBase::Index()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f',1,'cutlass::gemm::GemmGlobalIteratorAb::Index()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f',1,'cutlass::gemm::GemmGlobalIteratorCd::Index()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367',1,'cutlass::gemm::GemmTraits::Index()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Index()'],['../structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3',1,'cutlass::TileIteratorBase::Index()'],['../structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36',1,'cutlass::TileLoadIterator::Index()'],['../structcutlass_1_1TileStoreIterator.html#a5ac2280dfcac08cec17b8c0db1c4593e',1,'cutlass::TileStoreIterator::Index()']]],
-  ['inputfragment',['InputFragment',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#ac7906301019c3e6d60985c3851f1e95e',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::InputFragment()'],['../structcutlass_1_1Copy.html#aed254bbc1ad94ed9d335ab02f199ceb1',1,'cutlass::Copy::InputFragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#ab5fab63d83eb0444c08bda16491d2627',1,'cutlass::gemm::HgemmSwizzle::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c',1,'cutlass::gemm::IgemmFloatToInt8Converter::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb',1,'cutlass::gemm::IgemmInt8ToFloatConverter::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727',1,'cutlass::gemm::IgemmSwizzle::InputFragment()']]],
-  ['instructionshape',['InstructionShape',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ac93ba536992debeae86087e638167a13',1,'cutlass::gemm::FragmentMultiplyAdd::InstructionShape()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#ab16a3d8adda89cc4f9765116ea75a4b7',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b',1,'cutlass::gemm::GemmConfig::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa56cdefa659af5ce4efd493b94bafdfd',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#ad73372a37315b0c17a8db21e40a78574',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b',1,'cutlass::gemm::ThreadMultiplyAdd::InstructionShape()']]],
-  ['iterations',['Iterations',['../structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0',1,'cutlass::FragmentIterator::Iterations()'],['../structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2',1,'cutlass::FragmentConstIterator::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae',1,'cutlass::gemm::GemmEpilogue::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d',1,'cutlass::gemm::GemmEpilogueTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Iterations()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f',1,'cutlass::gemm::GemmGlobalTileTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a',1,'cutlass::gemm::GemmGlobalTileCdTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b',1,'cutlass::gemm::GemmSharedLoadTileATraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a81ca35e0c5d9553d1dccc981cbd89d47',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Iterations()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#aa9b46937bea47d071d277aa212dd610b',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Iterations()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Iterations()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a9fb4b56091d4458ebd82130bc3951e5b',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::Iterations()'],['../structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450',1,'cutlass::PredicateTileAdapter::Iterations()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058',1,'cutlass::ConstPredicateTileAdapter::Iterations()'],['../structcutlass_1_1TileTraits.html#af7ae2fdb4c8f1702169cc7d437d2b469',1,'cutlass::TileTraits::Iterations()'],['../structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474',1,'cutlass::TileIteratorBase::Iterations()'],['../structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf',1,'cutlass::TileLoadIterator::Iterations()'],['../structcutlass_1_1TileStoreIterator.html#a552a67fb03c28e985d143f6193f88308',1,'cutlass::TileStoreIterator::Iterations()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2',1,'cutlass::TileTraitsStrideMajor::Iterations()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a425a20b642ae8736c12626b2de9b8b82',1,'cutlass::TileTraitsContiguousMajor::Iterations()'],['../structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323',1,'cutlass::TileTraitsWarpRake::Iterations()']]],
-  ['iterationsstrides',['IterationsStrides',['../structcutlass_1_1FragmentConstIterator.html#ab683796885f3bae3765efd96883f311b',1,'cutlass::FragmentConstIterator']]],
-  ['iterator',['Iterator',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6',1,'cutlass::gemm::SharedLoadStream']]]
+  ['immediateoffsetstrides',['ImmediateOffsetStrides',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf',1,'cutlass::gemm::GemmGlobalTileTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c',1,'cutlass::gemm::GemmGlobalTileCdTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a027bebceeda2287b40915ffd95d494a7',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a39414f484da7f993bc96d61c97273614',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ad012add21d9393d136720f609467e121',1,'cutlass::gemm::GemmSharedLoadTileATraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a99017ecc737060f53fd9804ea6f9583f',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ac585815d08290d9a5a9cdbd611ffdac4',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a57b065abb737bee1c17398c90b5bc39b',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::ImmediateOffsetStrides()'],['../structcutlass_1_1TileTraits.html#a3db8202befa891bbc7c0a53c535cd21f',1,'cutlass::TileTraits::ImmediateOffsetStrides()'],['../structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4',1,'cutlass::TileIteratorBase::ImmediateOffsetStrides()']]],
+  ['index',['Index',['../structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c',1,'cutlass::Coord::Index()'],['../structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34',1,'cutlass::gemm::Gemm::Index()'],['../structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892',1,'cutlass::gemm::GemmCoord::Index()'],['../structcutlass_1_1gemm_1_1GemmDesc.html#abd12fea9779ada02c0f2266909602171',1,'cutlass::gemm::GemmDesc::Index()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e',1,'cutlass::gemm::GemmEpilogue::Index()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0',1,'cutlass::gemm::GemmEpilogueTraits::Index()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02',1,'cutlass::gemm::GlobalLoadStream::Index()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f',1,'cutlass::gemm::GemmGlobalIteratorAb::Index()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f',1,'cutlass::gemm::GemmGlobalIteratorCd::Index()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a',1,'cutlass::gemm::GlobalLoadStreamPair::Index()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367',1,'cutlass::gemm::GemmTraits::Index()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Index()'],['../structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f',1,'cutlass::MatrixCoord::Index()'],['../classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890',1,'cutlass::TensorRef::Index()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Index()'],['../structcutlass_1_1TensorRefBatchStrided.html#ab12d9d196122dc3075185ab239a27fb4',1,'cutlass::TensorRefBatchStrided::Index()'],['../structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9',1,'cutlass::TensorRefArray::Index()'],['../classcutlass_1_1TensorView.html#a5a3f096a01e6a2dfe984d7e605380599',1,'cutlass::TensorView::Index()'],['../structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259',1,'cutlass::TileCoord::Index()'],['../structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c',1,'cutlass::TileIteratorBase::Index()'],['../structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827',1,'cutlass::TileLoadIterator::Index()'],['../structcutlass_1_1TileStoreIterator.html#aae07fdedeef68abd4e6c099924c70910',1,'cutlass::TileStoreIterator::Index()'],['../structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652',1,'cutlass::TileLoadStream::Index()'],['../structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4',1,'cutlass::TileStoreStream::Index()'],['../classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0',1,'cutlass::ZipTileIterator::Index()']]],
+  ['inputfragment',['InputFragment',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#ac7906301019c3e6d60985c3851f1e95e',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::InputFragment()'],['../structcutlass_1_1Copy.html#aed254bbc1ad94ed9d335ab02f199ceb1',1,'cutlass::Copy::InputFragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#ab5fab63d83eb0444c08bda16491d2627',1,'cutlass::gemm::HgemmSwizzle::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#aa9a4b05f9fc28b80a4ae4aabb2ce1e8c',1,'cutlass::gemm::IgemmFloatToInt8Converter::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a702ca51abc077355a2d7343976a0cfdb',1,'cutlass::gemm::IgemmInt8ToFloatConverter::InputFragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#a24a0bd5a9251ba5204b35eb4c4ac7727',1,'cutlass::gemm::IgemmSwizzle::InputFragment()'],['../structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3',1,'cutlass::ZipConvert::InputFragment()']]],
+  ['instructionshape',['InstructionShape',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aa101be5d45e2be54bb4056517b6d5e76',1,'cutlass::gemm::FragmentMultiplyAdd::InstructionShape()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a7d83cf5bde360251a252c6e728ea80ff',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#afc7858e849a2967631761986512dbfb7',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b',1,'cutlass::gemm::GemmConfig::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a245bdf059794144d04d2823d2b39588e',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa84c3d4efc7947d6efb75536c88043bd',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::InstructionShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af',1,'cutlass::gemm::ThreadMultiplyAdd::InstructionShape()']]],
+  ['iterations',['Iterations',['../structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0',1,'cutlass::FragmentIterator::Iterations()'],['../structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2',1,'cutlass::FragmentConstIterator::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae',1,'cutlass::gemm::GemmEpilogue::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10',1,'cutlass::gemm::GemmEpilogueTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Iterations()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c',1,'cutlass::gemm::GemmGlobalTileTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a',1,'cutlass::gemm::GemmGlobalTileCdTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a6125e052e47296c3ef53c8a149ffd31b',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a025445699c5c86237d8c3e48f01081ea',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b',1,'cutlass::gemm::GemmSharedLoadTileATraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a6bacc866485330f80596f634e6d14336',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Iterations()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b33700f904dd15e3533fec15d9d71bd',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Iterations()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a2dc8573498bcda33273b86db76dbd511',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Iterations()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a0b9b2b7838cb13a61a16501a2662fa51',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Iterations()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ae1d930fa295d8ddfaa10bda5978258de',1,'cutlass::gemm::IgemmGlobalTileTraits::Iterations()'],['../structcutlass_1_1PredicateTileAdapter.html#a1f2d52eec9f488c2a53c4d62af824450',1,'cutlass::PredicateTileAdapter::Iterations()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#a5e461e0eb376de60605a6ab5fdc38058',1,'cutlass::ConstPredicateTileAdapter::Iterations()'],['../structcutlass_1_1TileTraits.html#a46b9e04bb8d33fcf8fc116cc48a555fc',1,'cutlass::TileTraits::Iterations()'],['../structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da',1,'cutlass::TileIteratorBase::Iterations()'],['../structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce',1,'cutlass::TileLoadIterator::Iterations()'],['../structcutlass_1_1TileStoreIterator.html#a8628ea7116f736b59c644fc0d85d395f',1,'cutlass::TileStoreIterator::Iterations()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2',1,'cutlass::TileTraitsStrideMajor::Iterations()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a425a20b642ae8736c12626b2de9b8b82',1,'cutlass::TileTraitsContiguousMajor::Iterations()'],['../structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323',1,'cutlass::TileTraitsWarpRake::Iterations()']]],
+  ['iterationsstrides',['IterationsStrides',['../structcutlass_1_1FragmentConstIterator.html#a14ef0a0095e391503a19067e146c584a',1,'cutlass::FragmentConstIterator']]],
+  ['iterator',['Iterator',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6',1,'cutlass::gemm::SharedLoadStream::Iterator()'],['../structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b',1,'cutlass::TileLoadStream::Iterator()'],['../structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97',1,'cutlass::TileStoreStream::Iterator()'],['../structcutlass_1_1PredicatedTileLoadStream.html#a1f2314aa062360b249b7c57c39af5430',1,'cutlass::PredicatedTileLoadStream::Iterator()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a0ba9097d54f3ba7b7dab12012631fa76',1,'cutlass::PredicatedTileStoreStream::Iterator()']]]
 ];
diff --git a/docs/search/typedefs_8.js b/docs/search/typedefs_8.js
index e54f847b9c..d3b667c21a 100644
--- a/docs/search/typedefs_8.js
+++ b/docs/search/typedefs_8.js
@@ -1,4 +1,4 @@
 var searchData=
 [
-  ['loaditerator',['LoadIterator',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe',1,'cutlass::gemm::GlobalLoadStreamBase']]]
+  ['kernelclass',['KernelClass',['../structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae',1,'cutlass::gemm::GemmTraits']]]
 ];
diff --git a/docs/search/typedefs_9.js b/docs/search/typedefs_9.js
index 76a1247d22..6eb3858ed6 100644
--- a/docs/search/typedefs_9.js
+++ b/docs/search/typedefs_9.js
@@ -1,6 +1,5 @@
 var searchData=
 [
-  ['multiplicandtraits',['MultiplicandTraits',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7',1,'cutlass::gemm::GemmGlobalTileTraits']]],
-  ['multiplyadd',['MultiplyAdd',['../structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7',1,'cutlass::gemm::GemmConfig::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c',1,'cutlass::gemm::GemmTraits::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae9facf63912d98e597883bf7efb56cc8',1,'cutlass::gemm::HgemmTraitsHelper::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a87e34d56fa955670331749724bee9fd8',1,'cutlass::gemm::IgemmTraitsHelper::MultiplyAdd()']]],
-  ['multiplyaddscalar',['MultiplyAddScalar',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar()']]]
+  ['loaditerator',['LoadIterator',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64',1,'cutlass::gemm::GlobalLoadStream']]],
+  ['longindex',['LongIndex',['../classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1',1,'cutlass::TensorRef::LongIndex()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::LongIndex()'],['../structcutlass_1_1TensorRefBatchStrided.html#aa3df5b7337d41d8f96717ea73bf3e24e',1,'cutlass::TensorRefBatchStrided::LongIndex()'],['../structcutlass_1_1TensorRefArray.html#a6220549b72ed8451dbf76466b50a96c0',1,'cutlass::TensorRefArray::LongIndex()']]]
 ];
diff --git a/docs/search/typedefs_a.js b/docs/search/typedefs_a.js
index be59a69a5c..c8ea6851fd 100644
--- a/docs/search/typedefs_a.js
+++ b/docs/search/typedefs_a.js
@@ -1,4 +1,7 @@
 var searchData=
 [
-  ['no',['no',['../structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af',1,'cutlass::platform::is_base_of_helper']]]
+  ['mapfunc',['MapFunc',['../classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29',1,'cutlass::TensorRef::MapFunc()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::MapFunc()']]],
+  ['multiplicandtraits',['MultiplicandTraits',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7',1,'cutlass::gemm::GemmGlobalTileTraits']]],
+  ['multiplyadd',['MultiplyAdd',['../structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835',1,'cutlass::gemm::Gemm::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd',1,'cutlass::gemm::GemmConfig::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c',1,'cutlass::gemm::GemmTraits::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae82826fde376748cf67ff2e1bcaa8cef',1,'cutlass::gemm::HgemmTraitsHelper::MultiplyAdd()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae84c7fd1567580dc3da15a520c47ff6e',1,'cutlass::gemm::IgemmTraitsHelper::MultiplyAdd()']]],
+  ['multiplyaddscalar',['MultiplyAddScalar',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a29c3a5e4ea1fb6d0ea8b234849684daf',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::MultiplyAddScalar()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aac06796d174a2d54103903e7dbe7b194',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::MultiplyAddScalar()']]]
 ];
diff --git a/docs/search/typedefs_b.js b/docs/search/typedefs_b.js
index 90d2ef437b..be59a69a5c 100644
--- a/docs/search/typedefs_b.js
+++ b/docs/search/typedefs_b.js
@@ -1,6 +1,4 @@
 var searchData=
 [
-  ['offset_5ft',['Offset_t',['../classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f',1,'cutlass::TensorView']]],
-  ['outputfragment',['OutputFragment',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a8ef69ab595489e142911e8e240fb405a',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::OutputFragment()'],['../structcutlass_1_1Copy.html#a545be6c284d625b0841a10cc9126e14a',1,'cutlass::Copy::OutputFragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#a9c04f0b0eb0293325f661b72168d4fa8',1,'cutlass::gemm::HgemmSwizzle::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553',1,'cutlass::gemm::IgemmFloatToInt8Converter::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7',1,'cutlass::gemm::IgemmInt8ToFloatConverter::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8',1,'cutlass::gemm::IgemmSwizzle::OutputFragment()']]],
-  ['outputtile',['OutputTile',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b',1,'cutlass::gemm::GemmEpilogue::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075',1,'cutlass::gemm::GemmEpilogueTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101',1,'cutlass::gemm::GemmEpilogueTraitsHelper::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d',1,'cutlass::gemm::GemmSharedStoreTileDTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899',1,'cutlass::gemm::GemmSharedLoadTileDTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd',1,'cutlass::gemm::GemmConfig::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367',1,'cutlass::gemm::GemmTraits::OutputTile()']]]
+  ['no',['no',['../structcutlass_1_1platform_1_1is__base__of__helper.html#ae096aa6c67f60d8d9c5a4b084118a8af',1,'cutlass::platform::is_base_of_helper']]]
 ];
diff --git a/docs/search/typedefs_c.js b/docs/search/typedefs_c.js
index 7807c3a1f6..612b8f9085 100644
--- a/docs/search/typedefs_c.js
+++ b/docs/search/typedefs_c.js
@@ -1,6 +1,6 @@
 var searchData=
 [
-  ['params',['Params',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e',1,'cutlass::gemm::GemmEpilogue']]],
-  ['pointer',['pointer',['../classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9',1,'cutlass::platform::unique_ptr::pointer()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1',1,'cutlass::gemm::GlobalLoadStreamBase::Pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd',1,'cutlass::gemm::GemmGlobalTileTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6',1,'cutlass::gemm::GemmGlobalIteratorCd::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#adc4946dfbe914140c6852d0c05b30864',1,'cutlass::gemm::GemmSharedLoadTileATraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afafb3d9ae470c8ef56ec4ca5e66e2182',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Pointer()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Pointer()'],['../structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8',1,'cutlass::TileLoadIterator::Pointer()']]],
-  ['predicatevector',['PredicateVector',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c',1,'cutlass::gemm::GemmGlobalIteratorAb::PredicateVector()'],['../structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4',1,'cutlass::PredicateTileAdapter::PredicateVector()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f',1,'cutlass::ConstPredicateTileAdapter::PredicateVector()'],['../structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5',1,'cutlass::TileIteratorBase::PredicateVector()'],['../structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328',1,'cutlass::TileLoadIterator::PredicateVector()'],['../structcutlass_1_1TileStoreIterator.html#a5aa507eaeb63951f8e69fb223ec41809',1,'cutlass::TileStoreIterator::PredicateVector()']]]
+  ['offset_5ft',['Offset_t',['../classcutlass_1_1TensorView.html#a408d9a8026115bdaf70a37c86dc720b1',1,'cutlass::TensorView']]],
+  ['outputfragment',['OutputFragment',['../structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html#a8ef69ab595489e142911e8e240fb405a',1,'cutlass::Convert&lt; Fragment&lt; InputScalar_, kScalars_ &gt;, Fragment&lt; OutputScalar_, kScalars_ &gt; &gt;::OutputFragment()'],['../structcutlass_1_1Copy.html#a545be6c284d625b0841a10cc9126e14a',1,'cutlass::Copy::OutputFragment()'],['../structcutlass_1_1gemm_1_1HgemmSwizzle.html#a9c04f0b0eb0293325f661b72168d4fa8',1,'cutlass::gemm::HgemmSwizzle::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html#a3d89bfc0d94cd695cbe4a61859e5e553',1,'cutlass::gemm::IgemmFloatToInt8Converter::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html#a66ac385a1cd771b95f70ee36cd74e8f7',1,'cutlass::gemm::IgemmInt8ToFloatConverter::OutputFragment()'],['../structcutlass_1_1gemm_1_1IgemmSwizzle.html#ac0a4e31e95f8e0c77ae087284bb02ff8',1,'cutlass::gemm::IgemmSwizzle::OutputFragment()'],['../structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584',1,'cutlass::ZipConvert::OutputFragment()']]],
+  ['outputtile',['OutputTile',['../structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399',1,'cutlass::gemm::GemmConfig::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b',1,'cutlass::gemm::GemmEpilogue::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c',1,'cutlass::gemm::GemmEpilogueTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101',1,'cutlass::gemm::GemmEpilogueTraitsHelper::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ad52b81080731ee1f0d3c2c7eaba6f60d',1,'cutlass::gemm::GemmSharedStoreTileDTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899',1,'cutlass::gemm::GemmSharedLoadTileDTraits::OutputTile()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367',1,'cutlass::gemm::GemmTraits::OutputTile()']]]
 ];
diff --git a/docs/search/typedefs_d.js b/docs/search/typedefs_d.js
index b573365691..7d07a83493 100644
--- a/docs/search/typedefs_d.js
+++ b/docs/search/typedefs_d.js
@@ -1,31 +1,7 @@
 var searchData=
 [
-  ['scalar',['Scalar',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295',1,'cutlass::gemm::GemmEpilogue::Scalar()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66',1,'cutlass::gemm::GemmEpilogueTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Scalar()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afbbf15a7b5e4c38e59bf1debf67f04d6',1,'cutlass::gemm::GlobalLoadStreamBase::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b',1,'cutlass::gemm::GemmGlobalTileTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a',1,'cutlass::gemm::GemmGlobalIteratorAb::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e',1,'cutlass::gemm::GemmGlobalIteratorCd::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a8b04fd003fc2db46d749360e8838438b',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aaa439a0bb6b9de5e2722ea7b011effea',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a1b6956adc65254202864520b668edd14',1,'cutlass::gemm::GemmSharedLoadTileATraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a2a6065e583155b3e389253d3bfb64d73',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317',1,'cutlass::gemm::IgemmEpilogueScalar::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650',1,'cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183',1,'cutlass::gemm::LinearScaling::Scalar()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Scalar()'],['../structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16',1,'cutlass::TileIteratorBase::Scalar()'],['../structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895',1,'cutlass::TileLoadIterator::Scalar()'],['../structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7',1,'cutlass::TileStoreIterator::Scalar()'],['../unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd',1,'cutlass::Vector::Scalar()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b',1,'cutlass::Vector&lt; half, kLanes_ &gt;::Scalar()'],['../structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599',1,'cutlass::VectorTraits::Scalar()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Scalar()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Scalar()']]],
-  ['scalara',['ScalarA',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a6fa76b3e7ac721d47df47eba4e9ef222',1,'cutlass::gemm::FragmentMultiplyAdd::ScalarA()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#a366083b229b28e7f44da38273b2ab263',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b',1,'cutlass::gemm::Gemm::ScalarA()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa',1,'cutlass::gemm::GemmConfig::ScalarA()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6',1,'cutlass::gemm::GemmTraits::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a236a408791a38358cbadf19dd0e8ed9f',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aeef5fa0437b4ce1c2e8ac4bc7e062b65',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarA()']]],
-  ['scalarb',['ScalarB',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af4f5c4a79c447e5aaf313878eca022cb',1,'cutlass::gemm::FragmentMultiplyAdd::ScalarB()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af52ec4b92a3e788169764014aebb85a1',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4',1,'cutlass::gemm::Gemm::ScalarB()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b',1,'cutlass::gemm::GemmConfig::ScalarB()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698',1,'cutlass::gemm::GemmTraits::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac7557562de1108bf1abc10829c83e88f',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#aaf9e4b8b16150a6ad826c228af2bf103',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarB()']]],
-  ['scalarc',['ScalarC',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a92c1ffbfb479cd9fa2c2632ef8e347d3',1,'cutlass::gemm::FragmentMultiplyAdd::ScalarC()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_01_4.html#af553be8ef0b4dc9bb593d98dfce8628d',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55',1,'cutlass::gemm::Gemm::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0',1,'cutlass::gemm::GemmEpilogue::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc',1,'cutlass::gemm::GemmEpilogueTraits::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea',1,'cutlass::gemm::GemmConfig::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443',1,'cutlass::gemm::GemmTraits::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af1a6d91d4734683ea791bf57f3c3bbb0',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#acdd554e996a712ff62eb70d6ecf8e116',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarC()']]],
-  ['scalard',['ScalarD',['../structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694',1,'cutlass::gemm::Gemm::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f',1,'cutlass::gemm::GemmEpilogue::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe',1,'cutlass::gemm::GemmEpilogueTraits::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8',1,'cutlass::gemm::GemmConfig::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e',1,'cutlass::gemm::GemmTraits::ScalarD()']]],
-  ['scalarepilogue',['ScalarEpilogue',['../structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936',1,'cutlass::gemm::Gemm']]],
-  ['shape',['Shape',['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e',1,'cutlass::gemm::GemmMultiplicandTraits::Shape()'],['../structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29',1,'cutlass::ShapeScale::Shape()'],['../structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71',1,'cutlass::ShapeAdd::Shape()'],['../structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9',1,'cutlass::ShapeSub::Shape()'],['../structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94',1,'cutlass::ShapeMul::Shape()'],['../structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b',1,'cutlass::ShapeDiv::Shape()'],['../structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961',1,'cutlass::ShapeMax::Shape()'],['../structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549',1,'cutlass::ShapeMin::Shape()'],['../structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a',1,'cutlass::ShapeStrides::Shape()']]],
-  ['sharedloaditeratora',['SharedLoadIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorA()']]],
-  ['sharedloaditeratorb',['SharedLoadIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorB()']]],
-  ['sharedloaditeratord',['SharedLoadIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070',1,'cutlass::gemm::GemmEpilogue::SharedLoadIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5',1,'cutlass::gemm::GemmEpilogueTraits::SharedLoadIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedLoadIteratorD()']]],
-  ['sharedloadstreama',['SharedLoadStreamA',['../structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc',1,'cutlass::gemm::GemmTraits::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a21c860cc877df13d22dd30eeb5e2b06b',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a70063eb7e19921efef55a6f32562773f',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamA()']]],
-  ['sharedloadstreamb',['SharedLoadStreamB',['../structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290',1,'cutlass::gemm::GemmTraits::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac5eeca1e91f0e0d4dd48d432d5213215',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a54e8ad5874306a3764951a9791f02c96',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamB()']]],
-  ['sharedloadtiletraits',['SharedLoadTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a458cbcc16fc296d024f2a1a95fb926c1',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af1bc7f7c26db3399201cd95f35a56790',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedLoadTileTraits()']]],
-  ['sharedloadtransformerd',['SharedLoadTransformerD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13',1,'cutlass::gemm::GemmEpilogue']]],
-  ['sharedstorage',['SharedStorage',['../structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7',1,'cutlass::gemm::Gemm::SharedStorage()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc',1,'cutlass::gemm::GemmEpilogue::SharedStorage()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404',1,'cutlass::gemm::SharedLoadStream::SharedStorage()'],['../structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39',1,'cutlass::TileLoadIterator::SharedStorage()'],['../structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b',1,'cutlass::TileStoreIterator::SharedStorage()']]],
-  ['sharedstorefragmentd',['SharedStoreFragmentD',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8',1,'cutlass::gemm::IgemmEpilogueTraitsHelper']]],
-  ['sharedstoreiteratora',['SharedStoreIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4',1,'cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46',1,'cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorA()']]],
-  ['sharedstoreiteratorb',['SharedStoreIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448',1,'cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f',1,'cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorB()']]],
-  ['sharedstoreiteratord',['SharedStoreIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a',1,'cutlass::gemm::GemmEpilogue::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc',1,'cutlass::gemm::GemmEpilogueTraits::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreIteratorD()']]],
-  ['sharedstorestorage',['SharedStoreStorage',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa',1,'cutlass::gemm::GlobalLoadStreamBase']]],
-  ['sharedstorestoragea',['SharedStoreStorageA',['../structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c',1,'cutlass::gemm::GemmTraits']]],
-  ['sharedstorestorageb',['SharedStoreStorageB',['../structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed',1,'cutlass::gemm::GemmTraits']]],
-  ['sharedstoretiletraits',['SharedStoreTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a2aad3b2454d956f20dac1bb0ad75a2f8',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab1ae3d51f65f7af60147da1c51a7a0c2',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a7624585480f83a46725c92b5dee20ebc',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aca6118b5bbe6f667f05c53bd52543045',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits()']]],
-  ['sharedstoretransformerd',['SharedStoreTransformerD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c',1,'cutlass::gemm::GemmEpilogue::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c',1,'cutlass::gemm::GemmEpilogueTraits::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreTransformerD()']]],
-  ['skew',['Skew',['../structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16',1,'cutlass::TileIteratorBase::Skew()'],['../structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c',1,'cutlass::TileLoadIterator::Skew()'],['../structcutlass_1_1TileStoreIterator.html#a57348779bb004ed1ea0fd9cc252e895d',1,'cutlass::TileStoreIterator::Skew()']]],
-  ['storage',['Storage',['../structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a',1,'cutlass::PredicateVector::Storage()'],['../classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd',1,'cutlass::TensorRef::Storage()'],['../structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a',1,'cutlass::TileIteratorBase::Storage()']]],
-  ['storeiterator',['StoreIterator',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834',1,'cutlass::gemm::GlobalLoadStreamBase']]],
-  ['strides',['Strides',['../structcutlass_1_1FragmentIterator.html#a2858ba9a8a9bbaef1de73415cff9b3c1',1,'cutlass::FragmentIterator']]]
+  ['params',['Params',['../structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916',1,'cutlass::gemm::Gemm::Params()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e',1,'cutlass::gemm::GemmEpilogue::Params()'],['../structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6',1,'cutlass::PredicatedTileLoadStream::Params()'],['../structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba',1,'cutlass::PredicatedTileStoreStream::Params()']]],
+  ['pointer',['pointer',['../classcutlass_1_1platform_1_1unique__ptr.html#ab6ce60d03d11b269c1e151dfa7c696f9',1,'cutlass::platform::unique_ptr::pointer()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2',1,'cutlass::gemm::GlobalLoadStream::Pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd',1,'cutlass::gemm::GemmGlobalTileTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6',1,'cutlass::gemm::GemmGlobalIteratorCd::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a5be0c995c57faafaad7ae55ae015fc00',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ab883c2a8b90262152faca9cabe515dc4',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#adc4946dfbe914140c6852d0c05b30864',1,'cutlass::gemm::GemmSharedLoadTileATraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afafb3d9ae470c8ef56ec4ca5e66e2182',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a20471c2f569c28538dad8a220ab25624',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Pointer()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Pointer()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Pointer()'],['../structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f',1,'cutlass::TileLoadIterator::Pointer()'],['../structcutlass_1_1TileStoreIterator.html#adc4182adb78e34b7741f297eca86fe35',1,'cutlass::TileStoreIterator::Pointer()']]],
+  ['predicatefunctor',['PredicateFunctor',['../structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5',1,'cutlass::PredicatedTileLoadStream::PredicateFunctor()'],['../structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f',1,'cutlass::PredicatedTileStoreStream::PredicateFunctor()']]],
+  ['predicatevector',['PredicateVector',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c',1,'cutlass::gemm::GemmGlobalIteratorAb::PredicateVector()'],['../structcutlass_1_1PredicateTileAdapter.html#a72669300eb0bd18ea8124f780862a0e4',1,'cutlass::PredicateTileAdapter::PredicateVector()'],['../structcutlass_1_1ConstPredicateTileAdapter.html#ab9143288811a1262f7007f1b76b32e8f',1,'cutlass::ConstPredicateTileAdapter::PredicateVector()'],['../structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000',1,'cutlass::TileIteratorBase::PredicateVector()'],['../structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5',1,'cutlass::TileLoadIterator::PredicateVector()'],['../structcutlass_1_1TileStoreIterator.html#a6157fe8a2ffefd45eba6f3953f0e2994',1,'cutlass::TileStoreIterator::PredicateVector()'],['../classcutlass_1_1ZipTileIterator.html#aa853fa2a2e73397d8950567f3f5b7a15',1,'cutlass::ZipTileIterator::PredicateVector()']]]
 ];
diff --git a/docs/search/typedefs_e.js b/docs/search/typedefs_e.js
index 529cbd114b..4131dc29e8 100644
--- a/docs/search/typedefs_e.js
+++ b/docs/search/typedefs_e.js
@@ -1,21 +1,37 @@
 var searchData=
 [
-  ['tensorref_5ft',['TensorRef_t',['../classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab',1,'cutlass::TensorView']]],
-  ['this_5f',['This_',['../structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95',1,'cutlass::Fragment::This_()'],['../structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369',1,'cutlass::FragmentIterator::This_()'],['../structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f',1,'cutlass::FragmentConstIterator::This_()'],['../structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317',1,'cutlass::gemm::Gemm::This_()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8',1,'cutlass::gemm::GemmGlobalIteratorAb::This_()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b',1,'cutlass::gemm::GemmGlobalIteratorCd::This_()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::This_()']]],
-  ['threadblocktile',['ThreadBlockTile',['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a5e43f3c9aa8d7dc5f01dfc63b1ea97dc',1,'cutlass::gemm::GemmMultiplicandTraits']]],
-  ['threadoffset',['ThreadOffset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5',1,'cutlass::gemm::GemmGlobalIteratorAb::ThreadOffset()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1',1,'cutlass::gemm::GemmGlobalIteratorCd::ThreadOffset()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::ThreadOffset()'],['../structcutlass_1_1TileTraits.html#af9c0fc178dac7f9dac8d254da34e04dd',1,'cutlass::TileTraits::ThreadOffset()'],['../structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f',1,'cutlass::TileIteratorBase::ThreadOffset()'],['../structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d',1,'cutlass::TileLoadIterator::ThreadOffset()'],['../structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27',1,'cutlass::TileStoreIterator::ThreadOffset()'],['../structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c',1,'cutlass::TileTraitsStrideMajor::ThreadOffset()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a823ba83e9ca680da0af7d63be772a351',1,'cutlass::TileTraitsContiguousMajor::ThreadOffset()']]],
-  ['threads',['Threads',['../structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57',1,'cutlass::gemm::ReshapeThreads::Threads()'],['../structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c',1,'cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, true &gt;::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6',1,'cutlass::gemm::GemmGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6',1,'cutlass::gemm::GemmGlobalTileCdTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50',1,'cutlass::gemm::GemmGlobalIteratorAb::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02',1,'cutlass::gemm::GemmGlobalIteratorCd::Threads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Threads()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a5fd1a9f132c7aa0f68e129553f519d1e',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Threads()']]],
-  ['threadsdelta',['ThreadsDelta',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d',1,'cutlass::gemm::GemmGlobalTileTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077',1,'cutlass::gemm::GemmGlobalTileCdTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a6eee97f03dcea1c441116e143cf58018',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html#a2bb0f0820e52417ff77e7a2bdb9ed434',1,'cutlass::gemm::IgemmContiguousGlobalTileTraits::ThreadsDelta()']]],
-  ['threadshape',['ThreadShape',['../structcutlass_1_1TileTraitsStrideMajor.html#a03567f41ce616ebb4cdb309c85820599',1,'cutlass::TileTraitsStrideMajor::ThreadShape()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a33116b67e580292d4e354ca17ecd4167',1,'cutlass::TileTraitsContiguousMajor::ThreadShape()'],['../structcutlass_1_1TileTraitsWarpRake.html#ad6619e0b5d876fafd51c78e39f2c029e',1,'cutlass::TileTraitsWarpRake::ThreadShape()']]],
-  ['threadsperwarp',['ThreadsPerWarp',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0761c497c41a45652368fc0d54def98f',1,'cutlass::gemm::GemmSharedLoadTileATraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aa784f29ff453c1656fdea8270454fa55',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, half, half, half &gt;::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01AccumulatorsPerThread___00_01ThreadsPerWarp___00_f5353db950bbf0023472029cac4814b6.html#a5bc98fd196c1f1e4e3f1bfc621df4f50',1,'cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e',1,'cutlass::gemm::ThreadMultiplyAdd::ThreadsPerWarp()']]],
-  ['threadsstrides',['ThreadsStrides',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae540e7ea7106552682aa4c97b833b3b1',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ThreadsStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadsStrides()']]],
-  ['tile',['Tile',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758',1,'cutlass::gemm::GemmGlobalTileTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc',1,'cutlass::gemm::GemmSharedLoadTileATraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Tile()'],['../structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5',1,'cutlass::ReshapeTile::Tile()'],['../structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06',1,'cutlass::ReshapeTile&lt; Tile_, kAccessSize_, true &gt;::Tile()'],['../structcutlass_1_1TileTraits.html#ab831be0adb255eece4f2e12fd9713831',1,'cutlass::TileTraits::Tile()'],['../structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c',1,'cutlass::TileIteratorBase::Tile()'],['../structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10',1,'cutlass::TileLoadIterator::Tile()'],['../structcutlass_1_1TileStoreIterator.html#a8a87c8ef986e110a01a9226012594a61',1,'cutlass::TileStoreIterator::Tile()'],['../structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac',1,'cutlass::TileTraitsStrideMajor::Tile()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a1607d53544302c12278793bc9b283763',1,'cutlass::TileTraitsContiguousMajor::Tile()'],['../structcutlass_1_1TileTraitsWarpRake.html#adcd658d9daf286368a9d51c8c1647f89',1,'cutlass::TileTraitsWarpRake::Tile()'],['../structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b',1,'cutlass::TileTraitsStandard::Tile()']]],
-  ['tilewithoutskew',['TileWithoutSkew',['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a050cf5964a2d3683491bc4313ead5450',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::TileWithoutSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a5a5a36fc570e1225b20ce0a48c89d213',1,'cutlass::gemm::GemmSharedLoadTileATraits::TileWithoutSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a1f35981a6d661635dfbcf7c7a76056a2',1,'cutlass::gemm::GemmSharedLoadTileBTraits::TileWithoutSkew()']]],
-  ['tilewithoutskew_5f',['TileWithoutSkew_',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a93ae99460695718babaef6d1ef597e38',1,'cutlass::gemm::GemmSharedLoadTileATraits::TileWithoutSkew_()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a3d8be9ddea1cab53d1b4b3d508f9eab8',1,'cutlass::gemm::GemmSharedLoadTileBTraits::TileWithoutSkew_()']]],
-  ['tilewithskew',['TileWithSkew',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a72e0214f86cf8b3711d006dcd69d7a17',1,'cutlass::gemm::GemmSharedLoadTileATraits::TileWithSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a69c7ec2a779718556e6d9119588e791c',1,'cutlass::gemm::GemmSharedLoadTileBTraits::TileWithSkew()']]],
-  ['traits',['Traits',['../structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff',1,'cutlass::gemm::Gemm::Traits()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b',1,'cutlass::gemm::GemmEpilogue::Traits()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Traits()'],['../structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696',1,'cutlass::TileIteratorBase::Traits()'],['../structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a',1,'cutlass::TileLoadIterator::Traits()'],['../structcutlass_1_1TileStoreIterator.html#a6f50a8aec2d7045e9057b93df08172a8',1,'cutlass::TileStoreIterator::Traits()']]],
-  ['transformedfragment',['TransformedFragment',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108',1,'cutlass::gemm::GlobalLoadStreamBase::TransformedFragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4',1,'cutlass::gemm::SharedLoadStream::TransformedFragment()']]],
-  ['transformer',['Transformer',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe',1,'cutlass::gemm::GlobalLoadStreamBase::Transformer()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904',1,'cutlass::gemm::SharedLoadStream::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296',1,'cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b',1,'cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#aaaccb3f02a857e0c80d2891c6c6dcdb7',1,'cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85',1,'cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html#a98aefa95117dbfdf2e577890318a6c13',1,'cutlass::gemm::IgemmGlobalStoreTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html#a52ecdfd8b94d8d7f4881048e11a33aba',1,'cutlass::gemm::IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html#ad3190650741cef20c1aca919eddd9d72',1,'cutlass::gemm::IgemmGlobalLoadTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html#a49c249026be24ec8a66f5eda99cb855c',1,'cutlass::gemm::IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html#a9edd08d595327a8cc3b8da50622b3bd2',1,'cutlass::gemm::IgemmSharedStoreTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197',1,'cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a8a4e3ce1174789e2b695bda7b863079f',1,'cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49',1,'cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a',1,'cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()']]],
-  ['true_5ftype',['true_type',['../namespacecutlass_1_1platform.html#a0eddc4a3921e137f31fd8014be96e807',1,'cutlass::platform']]],
-  ['type',['Type',['../structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06',1,'cutlass::StorageType::Type()'],['../structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807',1,'cutlass::StorageType&lt; 4 &gt;::Type()'],['../structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4',1,'cutlass::StorageType&lt; 2 &gt;::Type()'],['../structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4',1,'cutlass::StorageType&lt; 1 &gt;::Type()'],['../structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e',1,'cutlass::Vectorize::Type()'],['../structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html#a79f147933e3f520145aee94ae18da3c5',1,'cutlass::Vectorize&lt; Element_, 1 &gt;::Type()'],['../structcutlass_1_1platform_1_1integral__constant.html#af58810ccead8f16ed88cd6a4afdc6e52',1,'cutlass::platform::integral_constant::type()'],['../structcutlass_1_1platform_1_1enable__if.html#aff9c0f270020cf097addf77e53a5af99',1,'cutlass::platform::enable_if::type()'],['../structcutlass_1_1platform_1_1conditional.html#ab6484d0dd6449b5195c4e868026fed11',1,'cutlass::platform::conditional::type()'],['../structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html#a8d55f500f667de560650554e9c220644',1,'cutlass::platform::conditional&lt; false, T, F &gt;::type()'],['../structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085',1,'cutlass::platform::remove_const::type()'],['../structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html#af68706cfaa6af14edc26ad5b974b47e3',1,'cutlass::platform::remove_const&lt; const T &gt;::type()'],['../structcutlass_1_1platform_1_1remove__volatile.html#a4f5b043d46206248d1bbbcf650707dd1',1,'cutlass::platform::remove_volatile::type()'],['../structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3',1,'cutlass::platform::remove_volatile&lt; volatile T &gt;::type()'],['../structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08',1,'cutlass::platform::remove_cv::type()'],['../structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1',1,'cutlass::platform::aligned_storage::type()']]]
+  ['scalar',['Scalar',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295',1,'cutlass::gemm::GemmEpilogue::Scalar()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a',1,'cutlass::gemm::GemmEpilogueTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8',1,'cutlass::gemm::GemmEpilogueTraitsHelper::Scalar()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7073b32c2cc62ffcad70a9ca46995c4c',1,'cutlass::gemm::GlobalLoadStream::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b',1,'cutlass::gemm::GemmGlobalTileTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a',1,'cutlass::gemm::GemmGlobalIteratorAb::Scalar()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e',1,'cutlass::gemm::GemmGlobalIteratorCd::Scalar()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429',1,'cutlass::gemm::SharedLoadStream::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a8b04fd003fc2db46d749360e8838438b',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aaa439a0bb6b9de5e2722ea7b011effea',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a1b6956adc65254202864520b668edd14',1,'cutlass::gemm::GemmSharedLoadTileATraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a2a6065e583155b3e389253d3bfb64d73',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aa37f285c74bb63c8bb8cbfc767378c41',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a1ebf24984863d0422356031615b74c53',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html#ab1068ba72468f9ede1d05ba41ea31317',1,'cutlass::gemm::IgemmEpilogueScalar::Scalar()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html#a0983fd25494f6a7ed5af37a02e99f650',1,'cutlass::gemm::IgemmEpilogueScalar&lt; int &gt;::Scalar()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183',1,'cutlass::gemm::LinearScaling::Scalar()'],['../structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e',1,'cutlass::gemm::LinearScalingDevicePtr::Scalar()'],['../classcutlass_1_1detail_1_1ScalarOrPointer.html#a9d3006fc0c8bd98b9262606858b26cad',1,'cutlass::detail::ScalarOrPointer::Scalar()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Scalar()'],['../structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6',1,'cutlass::TileAllocation::Scalar()'],['../structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34',1,'cutlass::TileIteratorBase::Scalar()'],['../structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511',1,'cutlass::TileLoadIterator::Scalar()'],['../structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5',1,'cutlass::TileStoreIterator::Scalar()'],['../unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd',1,'cutlass::Vector::Scalar()'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac',1,'cutlass::Vector&lt; half, 1 &gt;::Scalar()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b',1,'cutlass::Vector&lt; half, kLanes_ &gt;::Scalar()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a05914a7339b9d399ac7d8cf7ef617c31',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::Scalar()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af60049062cedca55d8cb4a3cae82641f',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::Scalar()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a602530542f526bd151f8a32deda015a1',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::Scalar()'],['../structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599',1,'cutlass::VectorTraits::Scalar()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Scalar()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Scalar()']]],
+  ['scalara',['ScalarA',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b',1,'cutlass::gemm::Gemm::ScalarA()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b',1,'cutlass::gemm::GemmConfig::ScalarA()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6',1,'cutlass::gemm::GemmTraits::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarA()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarA()']]],
+  ['scalaraccum',['ScalarAccum',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a1e854c281072db280ae90c2569b5f64c',1,'cutlass::gemm::FragmentMultiplyAdd::ScalarAccum()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ab3774e6aa28266b25e3822fc9e72edc2',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::ScalarAccum()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309',1,'cutlass::gemm::LinearScaling::ScalarAccum()']]],
+  ['scalaralphabeta',['ScalarAlphaBeta',['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322',1,'cutlass::gemm::FragmentMultiplyAdd::ScalarAlphaBeta()'],['../structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ae7a333f7aa3f52226c76cec9d2da042d',1,'cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;::ScalarAlphaBeta()']]],
+  ['scalarb',['ScalarB',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4',1,'cutlass::gemm::Gemm::ScalarB()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6',1,'cutlass::gemm::GemmConfig::ScalarB()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698',1,'cutlass::gemm::GemmTraits::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarB()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarB()']]],
+  ['scalarc',['ScalarC',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1Gemm.html#a71f0c91768a1a87e94030c8c2db51e55',1,'cutlass::gemm::Gemm::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d',1,'cutlass::gemm::GemmConfig::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0',1,'cutlass::gemm::GemmEpilogue::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c',1,'cutlass::gemm::GemmEpilogueTraits::ScalarC()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443',1,'cutlass::gemm::GemmTraits::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a48a641d601c88d95aa542b636f94d60d',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ScalarC()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1',1,'cutlass::gemm::ThreadMultiplyAdd::ScalarC()']]],
+  ['scalard',['ScalarD',['../structcutlass_1_1gemm_1_1Gemm.html#ae2aa3663f9f6f5708e816dcf7cd66694',1,'cutlass::gemm::Gemm::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa',1,'cutlass::gemm::GemmConfig::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f',1,'cutlass::gemm::GemmEpilogue::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50',1,'cutlass::gemm::GemmEpilogueTraits::ScalarD()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e',1,'cutlass::gemm::GemmTraits::ScalarD()']]],
+  ['scalarepilogue',['ScalarEpilogue',['../structcutlass_1_1gemm_1_1Gemm.html#a9349fc5f20215c1c6508e250b0b4e936',1,'cutlass::gemm::Gemm']]],
+  ['second',['Second',['../structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527',1,'cutlass::ZipTileAllocation::Second()'],['../structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a',1,'cutlass::ZipFragment::Second()'],['../structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10',1,'cutlass::ZipConvert::Second()'],['../structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e',1,'cutlass::ZipTensorRef::Second()'],['../classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c',1,'cutlass::ZipTileIterator::Second()']]],
+  ['shape',['Shape',['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a89f1d9599b418c8bb81c104ca86cf00e',1,'cutlass::gemm::GemmMultiplicandTraits::Shape()'],['../structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29',1,'cutlass::ShapeScale::Shape()'],['../structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71',1,'cutlass::ShapeAdd::Shape()'],['../structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9',1,'cutlass::ShapeSub::Shape()'],['../structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94',1,'cutlass::ShapeMul::Shape()'],['../structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b',1,'cutlass::ShapeDiv::Shape()'],['../structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799',1,'cutlass::ShapeDivCeiling::Shape()'],['../structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961',1,'cutlass::ShapeMax::Shape()'],['../structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549',1,'cutlass::ShapeMin::Shape()'],['../structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4',1,'cutlass::ShapeStrides::Shape()'],['../structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc',1,'cutlass::TileAllocation::Shape()']]],
+  ['sharedloaditeratora',['SharedLoadIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorA()']]],
+  ['sharedloaditeratorb',['SharedLoadIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a4de905aadc734df69fd0db83f01be56e',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadIteratorB()']]],
+  ['sharedloaditeratord',['SharedLoadIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedLoadIteratorD()']]],
+  ['sharedloadstreama',['SharedLoadStreamA',['../structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc',1,'cutlass::gemm::GemmTraits::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aa5ebe3a857b55412a86ec65ad1c55dd8',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aaa35c4d2a90f137f50c9ccd24d5c4f5c',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7e035ceab26dc904726ddbf14371f476',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamA()']]],
+  ['sharedloadstreamb',['SharedLoadStreamB',['../structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290',1,'cutlass::gemm::GemmTraits::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a12447ce4d11601a625662f9d177cc3d8',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1d458fe1e416ddc4565f2b802592268b',1,'cutlass::gemm::HgemmTraitsHelper::SharedLoadStreamB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aff287e2ca10a437a82736baab2d7c28d',1,'cutlass::gemm::IgemmTraitsHelper::SharedLoadStreamB()']]],
+  ['sharedloadstreamd',['SharedLoadStreamD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b',1,'cutlass::gemm::GemmEpilogue::SharedLoadStreamD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f',1,'cutlass::gemm::GemmEpilogueTraits::SharedLoadStreamD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadStreamD()']]],
+  ['sharedloadtiletraits',['SharedLoadTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a53dd72126a43a1c5811ed92a2313d19d',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::SharedLoadTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#ad8f1b0fda40f1fb7dc598cc841f38afe',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::SharedLoadTileTraits()']]],
+  ['sharedstorage',['SharedStorage',['../structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7',1,'cutlass::gemm::Gemm::SharedStorage()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc',1,'cutlass::gemm::GemmEpilogue::SharedStorage()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404',1,'cutlass::gemm::SharedLoadStream::SharedStorage()'],['../structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948',1,'cutlass::TileLoadIterator::SharedStorage()'],['../structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca',1,'cutlass::TileStoreIterator::SharedStorage()']]],
+  ['sharedstorefragmentd',['SharedStoreFragmentD',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8',1,'cutlass::gemm::IgemmEpilogueTraitsHelper']]],
+  ['sharedstoreiteratora',['SharedStoreIteratorA',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorA()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9',1,'cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorA()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae',1,'cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorA()']]],
+  ['sharedstoreiteratorb',['SharedStoreIteratorB',['../structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08',1,'cutlass::gemm::SimplifiedGemmTraitsHelper::SharedStoreIteratorB()'],['../structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce',1,'cutlass::gemm::HgemmTraitsHelper::SharedStoreIteratorB()'],['../structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1',1,'cutlass::gemm::IgemmTraitsHelper::SharedStoreIteratorB()']]],
+  ['sharedstoreiteratord',['SharedStoreIteratorD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a',1,'cutlass::gemm::GemmEpilogue::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668',1,'cutlass::gemm::GemmEpilogueTraits::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreIteratorD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreIteratorD()']]],
+  ['sharedstoretiletraits',['SharedStoreTileTraits',['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aa21c231aa56c9e5f2705cac62b17bbbe',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a86ed2ebc5b6e4426ab35a1f30a3e47bb',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a872dc2d0b8ed6c75c41d258a23183861',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::SharedStoreTileTraits()']]],
+  ['sharedstoretransformerd',['SharedStoreTransformerD',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c',1,'cutlass::gemm::GemmEpilogue::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69',1,'cutlass::gemm::GemmEpilogueTraits::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33',1,'cutlass::gemm::GemmEpilogueTraitsHelper::SharedStoreTransformerD()'],['../structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf',1,'cutlass::gemm::IgemmEpilogueTraitsHelper::SharedStoreTransformerD()']]],
+  ['sharedstream',['SharedStream',['../structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17',1,'cutlass::gemm::GemmTraits']]],
+  ['skew',['Skew',['../structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1',1,'cutlass::TileIteratorBase::Skew()'],['../structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f',1,'cutlass::TileLoadIterator::Skew()'],['../structcutlass_1_1TileStoreIterator.html#a18248da35dc9a0ae2411121bee323085',1,'cutlass::TileStoreIterator::Skew()']]],
+  ['storage',['Storage',['../structcutlass_1_1PredicateVector.html#afe85a07b9f311327c6bf04e3a5f94e5a',1,'cutlass::PredicateVector::Storage()'],['../classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009',1,'cutlass::TensorRef::Storage()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Storage()'],['../structcutlass_1_1TensorRefBatchStrided.html#aa86a59779c0830e8cf82066853dc1089',1,'cutlass::TensorRefBatchStrided::Storage()'],['../structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8',1,'cutlass::TensorRefArray::Storage()'],['../classcutlass_1_1TensorView.html#a52fb77744c7c7ecf0f8a3a725556293d',1,'cutlass::TensorView::Storage()'],['../structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd',1,'cutlass::TileAllocation::Storage()'],['../structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0',1,'cutlass::TileIteratorBase::Storage()']]],
+  ['storagecoord',['StorageCoord',['../classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d',1,'cutlass::TensorRef::StorageCoord()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::StorageCoord()'],['../classcutlass_1_1TensorView.html#abaf7ec0e96bc99cf0ce243e703b8711c',1,'cutlass::TensorView::StorageCoord()']]],
+  ['storeiterator',['StoreIterator',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2',1,'cutlass::gemm::GlobalLoadStream']]],
+  ['streama',['StreamA',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227',1,'cutlass::gemm::GlobalLoadStreamPair::StreamA()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4',1,'cutlass::gemm::SharedStreamPair::StreamA()']]],
+  ['streamb',['StreamB',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c',1,'cutlass::gemm::GlobalLoadStreamPair::StreamB()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529',1,'cutlass::gemm::SharedStreamPair::StreamB()']]],
+  ['strides',['Strides',['../structcutlass_1_1FragmentIterator.html#a2e93985d759d904ac858054eeaa9e50e',1,'cutlass::FragmentIterator::Strides()'],['../structcutlass_1_1TileAllocation.html#aba9164abe2fd7a091a858b23c0d3ac9c',1,'cutlass::TileAllocation::Strides()']]],
+  ['stridevector',['StrideVector',['../classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059',1,'cutlass::TensorRef::StrideVector()'],['../classcutlass_1_1TensorView.html#a625892aa9063eebf769bb2ed0cba7684',1,'cutlass::TensorView::StrideVector()']]],
+  ['stype',['SType',['../structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2',1,'cutlass::gemm::GemmDesc']]]
 ];
diff --git a/docs/search/typedefs_f.js b/docs/search/typedefs_f.js
index 1d8d485106..2cc14d93fc 100644
--- a/docs/search/typedefs_f.js
+++ b/docs/search/typedefs_f.js
@@ -1,5 +1,30 @@
 var searchData=
 [
-  ['value_5ftype',['value_type',['../structcutlass_1_1platform_1_1integral__constant.html#ab2ed0b3506818139f1f96639742e79fd',1,'cutlass::platform::integral_constant']]],
-  ['vector',['Vector',['../structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2',1,'cutlass::VectorTraits::Vector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Vector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Vector()']]]
+  ['tensorcoord',['TensorCoord',['../classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65',1,'cutlass::TensorRef::TensorCoord()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorCoord()'],['../structcutlass_1_1TensorRefBatchStrided.html#a9d07d96c2eccba10c3a9e4bef58d4e01',1,'cutlass::TensorRefBatchStrided::TensorCoord()'],['../classcutlass_1_1TensorView.html#ada8a241b6b2c5439183b0d6c456c934e',1,'cutlass::TensorView::TensorCoord()']]],
+  ['tensorref',['TensorRef',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a',1,'cutlass::gemm::SharedLoadStream::TensorRef()'],['../structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd',1,'cutlass::TensorRefBatchStrided::TensorRef()'],['../classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc',1,'cutlass::TensorRefBatchStrided::ConstIterator::TensorRef()'],['../structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75',1,'cutlass::TensorRefArray::TensorRef()'],['../classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f',1,'cutlass::TensorRefArray::ConstIterator::TensorRef()'],['../classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507',1,'cutlass::TensorView::TensorRef()'],['../structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80',1,'cutlass::TileAllocation::TensorRef()'],['../structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf',1,'cutlass::ZipTileAllocation::TensorRef()'],['../structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548',1,'cutlass::TileLoadIterator::TensorRef()'],['../structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac',1,'cutlass::TileStoreIterator::TensorRef()'],['../structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7',1,'cutlass::TileLoadStream::TensorRef()'],['../structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe',1,'cutlass::TileStoreStream::TensorRef()'],['../classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c',1,'cutlass::ZipTileIterator::TensorRef()']]],
+  ['tensorref_5ft',['TensorRef_t',['../classcutlass_1_1TensorView.html#a25eb8c0fe380114ddaabb37453be4606',1,'cutlass::TensorView']]],
+  ['tensorrefa',['TensorRefA',['../structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe',1,'cutlass::gemm::GemmDesc']]],
+  ['tensorrefb',['TensorRefB',['../structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab',1,'cutlass::gemm::GemmDesc']]],
+  ['tensorrefc',['TensorRefC',['../structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b',1,'cutlass::gemm::GemmDesc']]],
+  ['tensorrefd',['TensorRefD',['../structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052',1,'cutlass::gemm::GemmDesc']]],
+  ['this_5f',['This_',['../structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95',1,'cutlass::Fragment::This_()'],['../structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369',1,'cutlass::FragmentIterator::This_()'],['../structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f',1,'cutlass::FragmentConstIterator::This_()'],['../structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317',1,'cutlass::gemm::Gemm::This_()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8',1,'cutlass::gemm::GemmGlobalIteratorAb::This_()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b',1,'cutlass::gemm::GemmGlobalIteratorCd::This_()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989',1,'cutlass::gemm::GemmTraits::This_()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::This_()'],['../structcutlass_1_1ZipFragment.html#a2f038ddb37879cbc54dbadaeb7085fb1',1,'cutlass::ZipFragment::This_()']]],
+  ['threadblocktile',['ThreadBlockTile',['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a5e43f3c9aa8d7dc5f01dfc63b1ea97dc',1,'cutlass::gemm::GemmMultiplicandTraits']]],
+  ['threadblocktileref',['ThreadblockTileRef',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77',1,'cutlass::gemm::GlobalLoadStream::ThreadblockTileRef()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be',1,'cutlass::gemm::GlobalLoadStreamPair::ThreadblockTileRef()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d',1,'cutlass::gemm::SharedStreamPair::ThreadblockTileRef()']]],
+  ['threadblocktilestorage',['ThreadblockTileStorage',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a17804b01904a9a4ee7a857905833f7a8',1,'cutlass::gemm::GlobalLoadStream::ThreadblockTileStorage()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158',1,'cutlass::gemm::GlobalLoadStreamPair::ThreadblockTileStorage()'],['../structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee',1,'cutlass::gemm::GemmTraits::ThreadblockTileStorage()']]],
+  ['threadgemmshape',['ThreadGemmShape',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ThreadGemmShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ThreadGemmShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadGemmShape()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e',1,'cutlass::gemm::ThreadMultiplyAdd::ThreadGemmShape()']]],
+  ['threadoffset',['ThreadOffset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5',1,'cutlass::gemm::GemmGlobalIteratorAb::ThreadOffset()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1',1,'cutlass::gemm::GemmGlobalIteratorCd::ThreadOffset()'],['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a07ff2f97fdd57c4df05ef8e817265b30',1,'cutlass::gemm::IgemmGlobalIteratorAb::ThreadOffset()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::ThreadOffset()'],['../structcutlass_1_1TileTraits.html#a671ef48f4141a9de30b6ec6fb0be1feb',1,'cutlass::TileTraits::ThreadOffset()'],['../structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5',1,'cutlass::TileIteratorBase::ThreadOffset()'],['../structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a',1,'cutlass::TileLoadIterator::ThreadOffset()'],['../structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a',1,'cutlass::TileStoreIterator::ThreadOffset()'],['../structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c',1,'cutlass::TileTraitsStrideMajor::ThreadOffset()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a823ba83e9ca680da0af7d63be772a351',1,'cutlass::TileTraitsContiguousMajor::ThreadOffset()']]],
+  ['threads',['Threads',['../structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57',1,'cutlass::gemm::ReshapeThreads::Threads()'],['../structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html#a894932ad04fae3aea06eb6d259e01c1c',1,'cutlass::gemm::ReshapeThreads&lt; Tile_, Threads_, true &gt;::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30',1,'cutlass::gemm::GemmGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6',1,'cutlass::gemm::GemmGlobalTileCdTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50',1,'cutlass::gemm::GemmGlobalIteratorAb::Threads()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02',1,'cutlass::gemm::GemmGlobalIteratorCd::Threads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a1acf2a1d8bf73fda142e7d82e05f00a2',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Threads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a9bef06b59f27c6e673066a7f0280aa06',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Threads()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f',1,'cutlass::gemm::IgemmGlobalTileTraits::Threads()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Threads()']]],
+  ['threadsdelta',['ThreadsDelta',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9',1,'cutlass::gemm::GemmGlobalTileTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077',1,'cutlass::gemm::GemmGlobalTileCdTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a61907b1afa07c12de74545d2e23a4281',1,'cutlass::gemm::HgemmCrosswiseGlobalTileTraits::ThreadsDelta()'],['../structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a160d1ecd86de4742f550d11bc281786b',1,'cutlass::gemm::IgemmGlobalTileTraits::ThreadsDelta()']]],
+  ['threadshape',['ThreadShape',['../structcutlass_1_1TileTraitsStrideMajor.html#a03567f41ce616ebb4cdb309c85820599',1,'cutlass::TileTraitsStrideMajor::ThreadShape()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a33116b67e580292d4e354ca17ecd4167',1,'cutlass::TileTraitsContiguousMajor::ThreadShape()'],['../structcutlass_1_1TileTraitsWarpRake.html#ad6619e0b5d876fafd51c78e39f2c029e',1,'cutlass::TileTraitsWarpRake::ThreadShape()']]],
+  ['threadsperwarp',['ThreadsPerWarp',['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0761c497c41a45652368fc0d54def98f',1,'cutlass::gemm::GemmSharedLoadTileATraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aed92656a074e915d97a1b6a990aeba66',1,'cutlass::gemm::GemmSharedLoadTileBTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#adf72ea773b8d4d3eb184f59c8cdf9543',1,'cutlass::gemm::GemmSharedStoreTileDTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3',1,'cutlass::gemm::GemmSharedLoadTileDTraits::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df',1,'cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::ThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b',1,'cutlass::gemm::ThreadMultiplyAdd::ThreadsPerWarp()']]],
+  ['threadsstrides',['ThreadsStrides',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae540e7ea7106552682aa4c97b833b3b1',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::ThreadsStrides()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a2053e4b9cb3ed2727c89960354ea0b29',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::ThreadsStrides()']]],
+  ['tile',['Tile',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a260543a618fb187c2da40c9f630925ec',1,'cutlass::gemm::GlobalLoadStream::Tile()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19',1,'cutlass::gemm::GemmGlobalTileTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111',1,'cutlass::gemm::GemmGlobalIteratorAb::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ab96f324083e51ce4c2b73c18803c69a7',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a74196946c28e98ee60346b0eeede1471',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a9a00be672617162c4c7ac94c7d8980cc',1,'cutlass::gemm::GemmSharedLoadTileATraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac242508ec46db0493a69a589dbfc19e4',1,'cutlass::gemm::GemmSharedLoadTileBTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a2bc41b907417b47f3dca9c3dd358f8bc',1,'cutlass::gemm::GemmSharedStoreTileDTraits::Tile()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5',1,'cutlass::gemm::GemmSharedLoadTileDTraits::Tile()'],['../structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5',1,'cutlass::ReshapeTile::Tile()'],['../structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html#a966a9432cf42dfdff8ad6b89ebd74f06',1,'cutlass::ReshapeTile&lt; Tile_, kAccessSize_, true &gt;::Tile()'],['../structcutlass_1_1TileTraits.html#a3632c351a28f71f6c140dd33089d80b0',1,'cutlass::TileTraits::Tile()'],['../structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4',1,'cutlass::TileIteratorBase::Tile()'],['../structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539',1,'cutlass::TileLoadIterator::Tile()'],['../structcutlass_1_1TileStoreIterator.html#ad18ee6f519b03e1dbf711339b63e16d6',1,'cutlass::TileStoreIterator::Tile()'],['../structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac',1,'cutlass::TileTraitsStrideMajor::Tile()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a1607d53544302c12278793bc9b283763',1,'cutlass::TileTraitsContiguousMajor::Tile()'],['../structcutlass_1_1TileTraitsWarpRake.html#adcd658d9daf286368a9d51c8c1647f89',1,'cutlass::TileTraitsWarpRake::Tile()'],['../structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b',1,'cutlass::TileTraitsStandard::Tile()']]],
+  ['tilewithoutskew',['TileWithoutSkew',['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a050cf5964a2d3683491bc4313ead5450',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::TileWithoutSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a5a5a36fc570e1225b20ce0a48c89d213',1,'cutlass::gemm::GemmSharedLoadTileATraits::TileWithoutSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a1f35981a6d661635dfbcf7c7a76056a2',1,'cutlass::gemm::GemmSharedLoadTileBTraits::TileWithoutSkew()']]],
+  ['tilewithoutskew_5f',['TileWithoutSkew_',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a93ae99460695718babaef6d1ef597e38',1,'cutlass::gemm::GemmSharedLoadTileATraits::TileWithoutSkew_()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a3d8be9ddea1cab53d1b4b3d508f9eab8',1,'cutlass::gemm::GemmSharedLoadTileBTraits::TileWithoutSkew_()']]],
+  ['tilewithskew',['TileWithSkew',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a72e0214f86cf8b3711d006dcd69d7a17',1,'cutlass::gemm::GemmSharedLoadTileATraits::TileWithSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a69c7ec2a779718556e6d9119588e791c',1,'cutlass::gemm::GemmSharedLoadTileBTraits::TileWithSkew()']]],
+  ['traits',['Traits',['../structcutlass_1_1gemm_1_1Gemm.html#a29f52e33e1f1cf150f5062d9ad2590ff',1,'cutlass::gemm::Gemm::Traits()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b',1,'cutlass::gemm::GemmEpilogue::Traits()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Traits()'],['../structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7',1,'cutlass::TileIteratorBase::Traits()'],['../structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948',1,'cutlass::TileLoadIterator::Traits()'],['../structcutlass_1_1TileStoreIterator.html#a5016bd7b24938026a2879ec0054eb3b6',1,'cutlass::TileStoreIterator::Traits()']]],
+  ['transformedfragment',['TransformedFragment',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9',1,'cutlass::gemm::GlobalLoadStream::TransformedFragment()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4',1,'cutlass::gemm::SharedLoadStream::TransformedFragment()'],['../structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1',1,'cutlass::TileLoadStream::TransformedFragment()'],['../structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993',1,'cutlass::TileStoreStream::TransformedFragment()'],['../structcutlass_1_1PredicatedTileLoadStream.html#adeb35451885c1c4fb930ae8c914ceb20',1,'cutlass::PredicatedTileLoadStream::TransformedFragment()'],['../structcutlass_1_1PredicatedTileStoreStream.html#af349831b19bb91d414a83c67d14f6927',1,'cutlass::PredicatedTileStoreStream::TransformedFragment()']]],
+  ['transformer',['Transformer',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02',1,'cutlass::gemm::GlobalLoadStream::Transformer()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904',1,'cutlass::gemm::SharedLoadStream::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a882c10bed18f62ece97f5f20f9de3296',1,'cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a42c5bafcb226623b3326dbd01fc72f3b',1,'cutlass::gemm::HgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#aaaccb3f02a857e0c80d2891c6c6dcdb7',1,'cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#ae66bb2c1f87e19278ff471c32e71ea85',1,'cutlass::gemm::HgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html#a98aefa95117dbfdf2e577890318a6c13',1,'cutlass::gemm::IgemmGlobalStoreTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html#a52ecdfd8b94d8d7f4881048e11a33aba',1,'cutlass::gemm::IgemmGlobalStoreTransformer&lt; float, Fragment&lt; int8_t, kElements_ &gt; &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html#ad3190650741cef20c1aca919eddd9d72',1,'cutlass::gemm::IgemmGlobalLoadTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html#a49c249026be24ec8a66f5eda99cb855c',1,'cutlass::gemm::IgemmGlobalLoadTransformer&lt; Fragment&lt; int8_t, kElements_ &gt;, float &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html#a9edd08d595327a8cc3b8da50622b3bd2',1,'cutlass::gemm::IgemmSharedStoreTransformer::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a0b53e18f109ac0fd116e0d01ed6ec197',1,'cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a8a4e3ce1174789e2b695bda7b863079f',1,'cutlass::gemm::IgemmTransformerA&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html#a92320b7224a77a8af61e55beef30ad49',1,'cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kColumnMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html#a9728f71c2e7a6a649bd28d8c11241b0a',1,'cutlass::gemm::IgemmTransformerB&lt; MatrixLayout::kRowMajor, Iterator_ &gt;::Transformer()'],['../structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7',1,'cutlass::TileLoadStream::Transformer()'],['../structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e',1,'cutlass::TileStoreStream::Transformer()'],['../structcutlass_1_1PredicatedTileLoadStream.html#a9f79fd30231825b38694bf7c1d12ec2a',1,'cutlass::PredicatedTileLoadStream::Transformer()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a0f91f328ed2b6bd65ef4eeafe18f9afd',1,'cutlass::PredicatedTileStoreStream::Transformer()']]],
+  ['true_5ftype',['true_type',['../namespacecutlass_1_1platform.html#a0eddc4a3921e137f31fd8014be96e807',1,'cutlass::platform']]],
+  ['type',['Type',['../structcutlass_1_1StorageType.html#abb0d270cdf38d46347261cac36dc619b',1,'cutlass::StorageType::Type()'],['../structcutlass_1_1StorageType_3_014_01_4.html#aa6754c0eb530544a1457afe1ae94a807',1,'cutlass::StorageType&lt; 4 &gt;::Type()'],['../structcutlass_1_1StorageType_3_012_01_4.html#a66c52fe770774ea01c511aea1af1f8d4',1,'cutlass::StorageType&lt; 2 &gt;::Type()'],['../structcutlass_1_1StorageType_3_011_01_4.html#a4a70002785c378c1f180800f2a65bcd4',1,'cutlass::StorageType&lt; 1 &gt;::Type()'],['../structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e',1,'cutlass::Vectorize::Type()'],['../structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html#a5c32d50c6c97d7489034efb7188c8186',1,'cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;::Type()'],['../structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html#a40dac8fb50ddccb5c1e2a98200ac3a06',1,'cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;::Type()'],['../structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html#a9db5873c0d4df1452129022a280247ca',1,'cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;::Type()'],['../structcutlass_1_1platform_1_1integral__constant.html#af58810ccead8f16ed88cd6a4afdc6e52',1,'cutlass::platform::integral_constant::type()'],['../structcutlass_1_1platform_1_1enable__if.html#aff9c0f270020cf097addf77e53a5af99',1,'cutlass::platform::enable_if::type()'],['../structcutlass_1_1platform_1_1conditional.html#ab6484d0dd6449b5195c4e868026fed11',1,'cutlass::platform::conditional::type()'],['../structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html#a8d55f500f667de560650554e9c220644',1,'cutlass::platform::conditional&lt; false, T, F &gt;::type()'],['../structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085',1,'cutlass::platform::remove_const::type()'],['../structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html#af68706cfaa6af14edc26ad5b974b47e3',1,'cutlass::platform::remove_const&lt; const T &gt;::type()'],['../structcutlass_1_1platform_1_1remove__volatile.html#a4f5b043d46206248d1bbbcf650707dd1',1,'cutlass::platform::remove_volatile::type()'],['../structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html#aca9bb93efe43106321e4afe0b67542a3',1,'cutlass::platform::remove_volatile&lt; volatile T &gt;::type()'],['../structcutlass_1_1platform_1_1remove__cv.html#a19e5b12cf4eb15ce13d6306735b6de08',1,'cutlass::platform::remove_cv::type()'],['../structcutlass_1_1platform_1_1aligned__storage.html#a9cf0360f335bcd1e9d9e1b266b6dd6c1',1,'cutlass::platform::aligned_storage::type()']]]
 ];
diff --git a/docs/search/variables_0.js b/docs/search/variables_0.js
index 6dbf197f17..542bfed423 100644
--- a/docs/search/variables_0.js
+++ b/docs/search/variables_0.js
@@ -1,5 +1,6 @@
 var searchData=
 [
-  ['aligned_5f',['aligned_',['../unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c',1,'cutlass::Vector::aligned_()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896',1,'cutlass::Vector&lt; half, kLanes_ &gt;::aligned_()']]],
-  ['alpha',['alpha',['../structcutlass_1_1gemm_1_1GemmDesc.html#a053c2b529be527f510ee317737fbf7e8',1,'cutlass::gemm::GemmDesc::alpha()'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70',1,'cutlass::gemm::LinearScaling::Params::alpha()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6',1,'cutlass::gemm::LinearScaling::alpha()']]]
+  ['a',['A',['../structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b',1,'cutlass::gemm::GemmDesc']]],
+  ['aligned_5f',['aligned_',['../unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c',1,'cutlass::Vector::aligned_()'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#acc698443a38fd0ad63f931bdf172ad99',1,'cutlass::Vector&lt; half, 1 &gt;::aligned_()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896',1,'cutlass::Vector&lt; half, kLanes_ &gt;::aligned_()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1df3324868465331db13bd7775b55e87',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::aligned_()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ad6784e347f068ad20af52379286337c0',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::aligned_()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a4eab187b6f7650bd88ccd421c8330d3c',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::aligned_()']]],
+  ['alpha',['alpha',['../structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785',1,'cutlass::gemm::GemmDesc::alpha()'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70',1,'cutlass::gemm::LinearScaling::Params::alpha()']]]
 ];
diff --git a/docs/search/variables_1.js b/docs/search/variables_1.js
index 15bf17b9f1..dcd8404ca1 100644
--- a/docs/search/variables_1.js
+++ b/docs/search/variables_1.js
@@ -1,5 +1,12 @@
 var searchData=
 [
-  ['beta',['beta',['../structcutlass_1_1gemm_1_1GemmDesc.html#ab91b702a9932144b388fad3159130332',1,'cutlass::gemm::GemmDesc::beta()'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b',1,'cutlass::gemm::LinearScaling::Params::beta()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e',1,'cutlass::gemm::LinearScaling::beta()']]],
+  ['b',['B',['../structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774',1,'cutlass::gemm::GemmDesc']]],
+  ['batch_5fstride_5fa',['batch_stride_A',['../structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599',1,'cutlass::gemm::GemmDesc']]],
+  ['batch_5fstride_5fb',['batch_stride_B',['../structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a',1,'cutlass::gemm::GemmDesc']]],
+  ['batch_5fstride_5fc',['batch_stride_C',['../structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2',1,'cutlass::gemm::GemmDesc']]],
+  ['batch_5fstride_5fd',['batch_stride_D',['../structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de',1,'cutlass::gemm::GemmDesc']]],
+  ['beta',['beta',['../structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b',1,'cutlass::gemm::GemmDesc::beta()'],['../structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b',1,'cutlass::gemm::LinearScaling::Params::beta()']]],
+  ['block',['block',['../structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd',1,'cutlass::KernelLaunchConfiguration']]],
+  ['bounds',['bounds',['../structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a',1,'cutlass::RegularTilePredicateFunctor']]],
   ['byte',['byte',['../structcutlass_1_1platform_1_1alignment__of_1_1pad.html#a86f075f91b80918e968951713430f0b4',1,'cutlass::platform::alignment_of::pad']]]
 ];
diff --git a/docs/search/variables_10.js b/docs/search/variables_10.js
index c577038591..9f7e84fb6c 100644
--- a/docs/search/variables_10.js
+++ b/docs/search/variables_10.js
@@ -1,5 +1,10 @@
 var searchData=
 [
-  ['val',['val',['../structcutlass_1_1platform_1_1alignment__of_1_1pad.html#abc729cc51d5c90b1d7b0df3092d47cd4',1,'cutlass::platform::alignment_of::pad']]],
-  ['value',['value',['../structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9',1,'cutlass::platform::integral_constant::value()'],['../structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff',1,'cutlass::platform::is_base_of_helper::value()']]]
+  ['tensor_5fstride',['tensor_stride',['../structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f',1,'cutlass::TensorRefBatchStrided']]],
+  ['thread_5foffset',['thread_offset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04',1,'cutlass::gemm::GemmGlobalIteratorAb::thread_offset()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0',1,'cutlass::gemm::GemmGlobalIteratorCd::thread_offset()'],['../structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f',1,'cutlass::TileLoadIterator::thread_offset()'],['../structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825',1,'cutlass::TileStoreIterator::thread_offset()']]],
+  ['threadblock_5foffset',['threadblock_offset',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a',1,'cutlass::gemm::GlobalLoadStream']]],
+  ['threadblock_5ftile',['threadblock_tile',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#af8f0050e818b788402526857afc7c919',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage']]],
+  ['transformed',['transformed',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88',1,'cutlass::gemm::SharedLoadStream']]],
+  ['transformed_5ffragment',['transformed_fragment',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1',1,'cutlass::gemm::GlobalLoadStream::transformed_fragment()'],['../structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01',1,'cutlass::TileLoadStream::transformed_fragment()'],['../structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48',1,'cutlass::TileStoreStream::transformed_fragment()']]],
+  ['transformer',['transformer',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4',1,'cutlass::gemm::GlobalLoadStream::transformer()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7',1,'cutlass::gemm::SharedLoadStream::transformer()'],['../structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552',1,'cutlass::TileLoadStream::transformer()'],['../structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934',1,'cutlass::TileStoreStream::transformer()']]]
 ];
diff --git a/docs/search/variables_11.html b/docs/search/variables_11.html
new file mode 100644
index 0000000000..2ce8561a1f
--- /dev/null
+++ b/docs/search/variables_11.html
@@ -0,0 +1,30 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html><head><title></title>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<link rel="stylesheet" type="text/css" href="search.css"/>
+<script type="text/javascript" src="variables_11.js"></script>
+<script type="text/javascript" src="search.js"></script>
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body class="SRPage">
+<div id="SRIndex">
+<div class="SRStatus" id="Loading">Loading...</div>
+<div id="SRResults"></div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+createResults();
+/* @license-end */
+--></script>
+<div class="SRStatus" id="Searching">Searching...</div>
+<div class="SRStatus" id="NoMatches">No Matches</div>
+<script type="text/javascript"><!--
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+document.getElementById("Loading").style.display="none";
+document.getElementById("NoMatches").style.display="none";
+var searchResults = new SearchResults("searchResults");
+searchResults.Search();
+/* @license-end */
+--></script>
+</div>
+</body>
+</html>
diff --git a/docs/search/variables_11.js b/docs/search/variables_11.js
new file mode 100644
index 0000000000..c9d76cbb9b
--- /dev/null
+++ b/docs/search/variables_11.js
@@ -0,0 +1,5 @@
+var searchData=
+[
+  ['val',['val',['../structcutlass_1_1platform_1_1alignment__of_1_1pad.html#abc729cc51d5c90b1d7b0df3092d47cd4',1,'cutlass::platform::alignment_of::pad']]],
+  ['value',['value',['../structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd',1,'cutlass::ScalarIO::value()'],['../structcutlass_1_1platform_1_1integral__constant.html#a9bbaca83ae76941edb9b75b2741d3ad9',1,'cutlass::platform::integral_constant::value()'],['../structcutlass_1_1platform_1_1is__base__of__helper.html#ac7e3ab73057682cc2eb6ed74c33e5eff',1,'cutlass::platform::is_base_of_helper::value()']]]
+];
diff --git a/docs/search/variables_2.js b/docs/search/variables_2.js
index 1f0095000c..04694b2b9f 100644
--- a/docs/search/variables_2.js
+++ b/docs/search/variables_2.js
@@ -1,5 +1,6 @@
 var searchData=
 [
+  ['c',['C',['../structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30',1,'cutlass::gemm::GemmDesc']]],
   ['clear',['clear',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage']]],
   ['congruous',['Congruous',['../structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html#abe4eb7f9a0ed7d48a81029e88849dcf2',1,'cutlass::gemm::GemmOperandTraitsAb']]]
 ];
diff --git a/docs/search/variables_3.js b/docs/search/variables_3.js
index 91abc96bcf..614ae3701a 100644
--- a/docs/search/variables_3.js
+++ b/docs/search/variables_3.js
@@ -1,7 +1,5 @@
 var searchData=
 [
-  ['d_5fa',['d_a',['../structcutlass_1_1gemm_1_1GemmDesc.html#aae63781de41962f496da469684919447',1,'cutlass::gemm::GemmDesc']]],
-  ['d_5fb',['d_b',['../structcutlass_1_1gemm_1_1GemmDesc.html#a05915032eba39bc9b085bec5ff17257b',1,'cutlass::gemm::GemmDesc']]],
-  ['d_5fc',['d_c',['../structcutlass_1_1gemm_1_1GemmDesc.html#aa2b3126c082d04fd31521cb0e84cf4d5',1,'cutlass::gemm::GemmDesc']]],
-  ['d_5fd',['d_d',['../structcutlass_1_1gemm_1_1GemmDesc.html#a30326e2d81c8e154d749f35837903216',1,'cutlass::gemm::GemmDesc']]]
+  ['d',['D',['../structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f',1,'cutlass::gemm::GemmDesc']]],
+  ['dynamic_5fsmem',['dynamic_smem',['../structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc',1,'cutlass::KernelLaunchConfiguration']]]
 ];
diff --git a/docs/search/variables_5.js b/docs/search/variables_5.js
index b10e64d980..a940fd6932 100644
--- a/docs/search/variables_5.js
+++ b/docs/search/variables_5.js
@@ -1,7 +1,7 @@
 var searchData=
 [
-  ['fetched_5fa',['fetched_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a3147da380e4c1e465aba0b965ac87ab5',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['fetched_5fb',['fetched_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a837fbec1d47ae45480941de6290889c0',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['fetched_5ffragment',['fetched_fragment',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d',1,'cutlass::gemm::GlobalLoadStreamBase']]],
-  ['functor',['functor',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#afa888d993b86ed88950a9e5ab7edeb06',1,'cutlass::gemm::GemmEpilogueTraits::Params']]]
+  ['fetched',['fetched',['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4',1,'cutlass::gemm::SharedLoadStream']]],
+  ['fetched_5ffragment',['fetched_fragment',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03',1,'cutlass::gemm::GlobalLoadStream::fetched_fragment()'],['../structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869',1,'cutlass::TileLoadStream::fetched_fragment()']]],
+  ['first',['first',['../structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014',1,'cutlass::ZipTileAllocation::first()'],['../structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c',1,'cutlass::ZipFragment::first()'],['../structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f',1,'cutlass::ZipConvert::first()'],['../structcutlass_1_1ZipTensorRef.html#a535f0e6fc79d0e305f651efed099275c',1,'cutlass::ZipTensorRef::first()'],['../structcutlass_1_1ZipTileIterator_1_1Params.html#a5dd69883d6b3f16fe28ebfe79235743e',1,'cutlass::ZipTileIterator::Params::first()'],['../classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9',1,'cutlass::ZipTileIterator::first()']]],
+  ['functor',['functor',['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57',1,'cutlass::gemm::GemmEpilogue::functor()'],['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adb04e5990ab7faae9e8c0b110d2e3bee',1,'cutlass::gemm::GemmEpilogueTraits::Params::functor()']]]
 ];
diff --git a/docs/search/variables_6.js b/docs/search/variables_6.js
index 859d50bf7c..e3c09b99a8 100644
--- a/docs/search/variables_6.js
+++ b/docs/search/variables_6.js
@@ -1,6 +1,5 @@
 var searchData=
 [
-  ['global',['global',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#a3c2980547310ec4307f3a5f9817dfc51',1,'cutlass::gemm::GemmTraits::StreamSharedStorage']]],
-  ['global_5fstream_5fa',['global_stream_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a575bcff901d69ae3f46987222f23ab64',1,'cutlass::gemm::GemmTraits::Params']]],
-  ['global_5fstream_5fb',['global_stream_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a46affe35cb16874de5a2b9777aedf596',1,'cutlass::gemm::GemmTraits::Params']]]
+  ['global_5fto_5fshared_5fstream',['global_to_shared_stream',['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3',1,'cutlass::gemm::GemmTraits::Params::global_to_shared_stream()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a61fcc63cb0df6754eef16f5cf138f3a2',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage::global_to_shared_stream()']]],
+  ['grid',['grid',['../structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b',1,'cutlass::KernelLaunchConfiguration']]]
 ];
diff --git a/docs/search/variables_7.js b/docs/search/variables_7.js
index 504309120a..c33caec124 100644
--- a/docs/search/variables_7.js
+++ b/docs/search/variables_7.js
@@ -1,12 +1,12 @@
 var searchData=
 [
-  ['idx',['idx',['../structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc',1,'cutlass::Coord']]],
-  ['inc_5fadvance',['inc_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::inc_advance()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a857db0c999250248b104f17f13fe9bd8',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::inc_advance()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2',1,'cutlass::TileIteratorBase::Params::inc_advance()']]],
-  ['inc_5fd',['inc_d',['../structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150',1,'cutlass::TileIteratorBase::Params']]],
-  ['inc_5fh',['inc_h',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::inc_h()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::inc_h()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366',1,'cutlass::TileIteratorBase::Params::inc_h()']]],
-  ['inc_5fw',['inc_w',['../structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178',1,'cutlass::TileIteratorBase::Params']]],
+  ['idx',['idx',['../structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68',1,'cutlass::Coord']]],
+  ['inc_5fadvance',['inc_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::inc_advance()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3',1,'cutlass::TileIteratorBase::Params::inc_advance()']]],
+  ['inc_5fd',['inc_d',['../structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd',1,'cutlass::TileIteratorBase::Params']]],
+  ['inc_5fh',['inc_h',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::inc_h()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06',1,'cutlass::TileIteratorBase::Params::inc_h()']]],
+  ['inc_5fw',['inc_w',['../structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c',1,'cutlass::TileIteratorBase::Params']]],
   ['isvector',['IsVector',['../structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2',1,'cutlass::VectorTraits::IsVector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aead181209c756f25ab5870682670bb99',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::IsVector()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a893488718d8437970c1b4ed4f4056620',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::IsVector()']]],
-  ['iterator',['iterator',['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7',1,'cutlass::gemm::SharedLoadStream::Params::iterator()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10',1,'cutlass::gemm::SharedLoadStream::iterator()']]],
-  ['iterator_5fc',['iterator_c',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a7350ceefcd09a9e3662ca30b780cc2ce',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
-  ['iterator_5fd',['iterator_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a987c179a7e73c2572fe8aef3255668f7',1,'cutlass::gemm::GemmEpilogueTraits::Params']]]
+  ['iterator',['iterator',['../structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html#ae59f871c06a0ac7b9224f0de923082d7',1,'cutlass::gemm::SharedLoadStream::Params::iterator()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10',1,'cutlass::gemm::SharedLoadStream::iterator()'],['../structcutlass_1_1TileLoadStream_1_1Params.html#a0430f377595718291f84ef62eb6f4e57',1,'cutlass::TileLoadStream::Params::iterator()'],['../structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8',1,'cutlass::TileLoadStream::iterator()'],['../structcutlass_1_1TileStoreStream_1_1Params.html#acd106661221997d7c5943daac8eb5088',1,'cutlass::TileStoreStream::Params::iterator()'],['../structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c',1,'cutlass::TileStoreStream::iterator()']]],
+  ['iterator_5fc',['iterator_c',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a0745d33dd881f6ca78b168e05b133ff8',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
+  ['iterator_5fd',['iterator_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#abbcccb203f9823e621caa4475aa3d346',1,'cutlass::gemm::GemmEpilogueTraits::Params']]]
 ];
diff --git a/docs/search/variables_8.js b/docs/search/variables_8.js
index 7406b11917..114a0042a0 100644
--- a/docs/search/variables_8.js
+++ b/docs/search/variables_8.js
@@ -1,63 +1,81 @@
 var searchData=
 [
-  ['k',['k',['../structcutlass_1_1gemm_1_1GemmDesc.html#ac789a7e5d2db65d006f1e8e3df542a6f',1,'cutlass::gemm::GemmDesc::k()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aae3a008b39f9678a03192f6ff54152d8',1,'cutlass::gemm::GemmTraits::Params::k()']]],
-  ['kaccesssize',['kAccessSize',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f',1,'cutlass::gemm::GemmGlobalTileTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e',1,'cutlass::gemm::GemmSharedLoadTileATraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kAccessSize()'],['../structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3',1,'cutlass::TileIteratorBase::kAccessSize()']]],
-  ['kaccumulatorsperldsa',['kAccumulatorsPerLdsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf',1,'cutlass::gemm::GemmConfig']]],
-  ['kaccumulatorsperldsb',['kAccumulatorsPerLdsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1',1,'cutlass::gemm::GemmConfig']]],
-  ['kadvance',['kAdvance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125',1,'cutlass::gemm::GemmGlobalIteratorAb::kAdvance()'],['../structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421',1,'cutlass::TileIteratorBase::kAdvance()'],['../structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6',1,'cutlass::TileLoadIterator::kAdvance()'],['../structcutlass_1_1TileStoreIterator.html#a8059c57030df99b73309e9210ec5f624',1,'cutlass::TileStoreIterator::kAdvance()']]],
+  ['kaccesssize',['kAccessSize',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f',1,'cutlass::gemm::GemmGlobalTileTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ae852c89da0455025c0c41af258e47047',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#a846e6d8d06be0ba6fa41b1431c8ec061',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e',1,'cutlass::gemm::GemmSharedLoadTileATraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9521c4017e227b2511891a7fb18513e1',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kAccessSize()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kAccessSize()'],['../structcutlass_1_1TileTraits.html#a0a494c2eacb51b65487f8405908a0214',1,'cutlass::TileTraits::kAccessSize()'],['../structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499',1,'cutlass::TileIteratorBase::kAccessSize()'],['../structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8',1,'cutlass::TileLoadIterator::kAccessSize()'],['../structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671',1,'cutlass::TileStoreIterator::kAccessSize()'],['../structcutlass_1_1TileTraitsStandard.html#a5e04777205c7a292602880c59d6b43c8',1,'cutlass::TileTraitsStandard::kAccessSize()']]],
+  ['kaccumulatorsperldsa',['kAccumulatorsPerLdsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5',1,'cutlass::gemm::GemmConfig']]],
+  ['kaccumulatorsperldsb',['kAccumulatorsPerLdsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb',1,'cutlass::gemm::GemmConfig']]],
+  ['kadvance',['kAdvance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125',1,'cutlass::gemm::GemmGlobalIteratorAb::kAdvance()'],['../structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f',1,'cutlass::TileIteratorBase::kAdvance()'],['../structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352',1,'cutlass::TileLoadIterator::kAdvance()'],['../structcutlass_1_1TileStoreIterator.html#a44200854ad5b35c1863f73c435b8750b',1,'cutlass::TileStoreIterator::kAdvance()']]],
+  ['kalignment',['kAlignment',['../structcutlass_1_1Fragment.html#a84b6d68a5a24dbd04d842e0755b42bda',1,'cutlass::Fragment']]],
+  ['kbatch',['kBatch',['../structcutlass_1_1gemm_1_1GemmCoord.html#ad7b490ce2150e54fccad6b0f11932382',1,'cutlass::gemm::GemmCoord']]],
+  ['kblockcolumns',['kBlockColumns',['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21',1,'cutlass::MatrixLayout::ColumnMajorBlockLinear::kBlockColumns()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e',1,'cutlass::MatrixLayout::RowMajorBlockLinear::kBlockColumns()']]],
+  ['kblockrows',['kBlockRows',['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b',1,'cutlass::MatrixLayout::ColumnMajorBlockLinear::kBlockRows()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922',1,'cutlass::MatrixLayout::RowMajorBlockLinear::kBlockRows()']]],
   ['kbytes',['kBytes',['../structcutlass_1_1PredicateVector.html#ab870e074b33c598f69fe11e104615c5a',1,'cutlass::PredicateVector']]],
-  ['kc',['kC',['../structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c',1,'cutlass::Shape']]],
+  ['kc',['kC',['../structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c',1,'cutlass::Shape::kC()'],['../structcutlass_1_1TileCoord.html#a8236879e1670072033983b7ec4b7ae32',1,'cutlass::TileCoord::kC()']]],
+  ['kcolumn',['kColumn',['../structcutlass_1_1MatrixCoord.html#a1e096b25138e027c31ea8624729ec433',1,'cutlass::MatrixCoord::kColumn()'],['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#adb3b8cccf1ac91265fff998a3d48f5e7',1,'cutlass::MatrixLayout::ContiguousLayout::kColumn()']]],
   ['kcount',['kCount',['../structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5',1,'cutlass::ShapeCount']]],
-  ['kd',['kD',['../structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25',1,'cutlass::Shape']]],
+  ['kd',['kD',['../structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25',1,'cutlass::Shape::kD()'],['../structcutlass_1_1TileCoord.html#ab5ebf352327baadcc740175d6b39adcb',1,'cutlass::TileCoord::kD()']]],
   ['kdhw',['kDhw',['../structcutlass_1_1ShapeCount.html#af7d7ccd42de2c49fe57f03cf0e657fe8',1,'cutlass::ShapeCount']]],
   ['kdhwc',['kDhwc',['../structcutlass_1_1ShapeCount.html#a5a274564d6b8607a0be621b2664fba18',1,'cutlass::ShapeCount']]],
   ['kelements',['kElements',['../structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60',1,'cutlass::Fragment']]],
   ['kelementsperaccess',['kElementsPerAccess',['../structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a',1,'cutlass::FragmentIterator::kElementsPerAccess()'],['../structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f',1,'cutlass::FragmentConstIterator::kElementsPerAccess()']]],
   ['kextent',['kExtent',['../structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html#a881f84951bc9e47ab2be9ef3f2c1e423',1,'cutlass::gemm::GetExtent&lt; GemmOperand::kA, Tile_ &gt;::kExtent()'],['../structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html#a82ff9b447e4a58164b5f7d53d2602930',1,'cutlass::gemm::GetExtent&lt; GemmOperand::kB, Tile_ &gt;::kExtent()']]],
-  ['kfragmentsize',['kFragmentSize',['../structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2',1,'cutlass::TileIteratorBase']]],
-  ['kh',['kH',['../structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e',1,'cutlass::Shape']]],
+  ['kfragmentelementtype',['kFragmentElementType',['../structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826',1,'cutlass::TileIteratorBase::kFragmentElementType()'],['../structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177',1,'cutlass::TileLoadIterator::kFragmentElementType()'],['../structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f',1,'cutlass::TileStoreIterator::kFragmentElementType()']]],
+  ['kfragmentsize',['kFragmentSize',['../structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761',1,'cutlass::TileIteratorBase']]],
+  ['kh',['kH',['../structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e',1,'cutlass::Shape::kH()'],['../structcutlass_1_1TileCoord.html#a24d32587359493bb965745f5551e1624',1,'cutlass::TileCoord::kH()']]],
   ['khw',['kHw',['../structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f',1,'cutlass::ShapeCount']]],
   ['khwc',['kHwc',['../structcutlass_1_1ShapeCount.html#a75324e2c9d31a0787343fc994586b742',1,'cutlass::ShapeCount']]],
   ['kint8output',['kInt8Output',['../structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html#a8609af98d1e43cd25688bae6f33feed4',1,'cutlass::gemm::IgemmEpilogueTraits']]],
+  ['kinterleave',['kInterleave',['../structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143',1,'cutlass::MatrixLayout::RowMajorInterleaved::kInterleave()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7',1,'cutlass::MatrixLayout::ColumnMajorInterleaved::kInterleave()']]],
   ['kiterationsd',['kIterationsD',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0',1,'cutlass::gemm::GemmSharedLoadTileDTraits']]],
   ['kiterationsh',['kIterationsH',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1',1,'cutlass::gemm::GemmSharedLoadTileDTraits']]],
   ['kiterationsinhperwarp',['kIterationsInHPerWarp',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237',1,'cutlass::gemm::GemmSharedLoadTileDTraits']]],
-  ['kiteratorfragment',['kIteratorFragment',['../structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be',1,'cutlass::TileIteratorBase::kIteratorFragment()'],['../structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98',1,'cutlass::TileLoadIterator::kIteratorFragment()'],['../structcutlass_1_1TileStoreIterator.html#a94c0567316118abfb84fc28560a5a46a',1,'cutlass::TileStoreIterator::kIteratorFragment()']]],
+  ['kk',['kK',['../structcutlass_1_1gemm_1_1GemmCoord.html#a521d4b8e720d2261c825e05397c92a5e',1,'cutlass::gemm::GemmCoord']]],
   ['kkstrided',['kKstrided',['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a1984c9ef6abfd029acbc3f702593ab85',1,'cutlass::gemm::GemmMultiplicandTraits']]],
   ['klanes',['kLanes',['../structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8',1,'cutlass::VectorTraits::kLanes()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aca745b59c6c21292f119943e5a480f39',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::kLanes()'],['../structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a43ac200035052a2c352c8c4b84aac73c',1,'cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::kLanes()']]],
-  ['klayout',['kLayout',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a807cffc6f69f8d30a2fc94cf49fb904c',1,'cutlass::gemm::GlobalLoadStreamBase::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90',1,'cutlass::gemm::GemmGlobalTileTraits::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece',1,'cutlass::gemm::GemmGlobalIteratorAb::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a',1,'cutlass::gemm::GemmGlobalIteratorCd::kLayout()'],['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd',1,'cutlass::gemm::GemmMultiplicandTraits::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ad2010686bceb21aec9a1924ae379edc1',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::kLayout()']]],
+  ['klaunchbounds',['kLaunchBounds',['../structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b',1,'cutlass::gemm::GemmConfig']]],
+  ['klayout',['kLayout',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db',1,'cutlass::gemm::GlobalLoadStream::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90',1,'cutlass::gemm::GemmGlobalTileTraits::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece',1,'cutlass::gemm::GemmGlobalIteratorAb::kLayout()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a',1,'cutlass::gemm::GemmGlobalIteratorCd::kLayout()'],['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a19076e58e60d296da74cf504e2a473fd',1,'cutlass::gemm::GemmMultiplicandTraits::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ad2010686bceb21aec9a1924ae379edc1',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a32729d0fad10fcbbcf2643a2fa5671d6',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a11026d05b2b32f1373020c049f2cfa66',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::kLayout()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::kLayout()']]],
   ['klayouta',['kLayoutA',['../structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b',1,'cutlass::gemm::GemmTraits']]],
   ['klayoutb',['kLayoutB',['../structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684',1,'cutlass::gemm::GemmTraits']]],
-  ['kmemoryspace',['kMemorySpace',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d',1,'cutlass::gemm::GemmGlobalTileTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5',1,'cutlass::gemm::GemmSharedLoadTileATraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#afb4687520eff9c6a21c35a5e04f69de8',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kMemorySpace()'],['../structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97',1,'cutlass::TileIteratorBase::kMemorySpace()'],['../structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1',1,'cutlass::TileLoadIterator::kMemorySpace()'],['../structcutlass_1_1TileStoreIterator.html#adaebec9eacf767f63f048033de73ea5b',1,'cutlass::TileStoreIterator::kMemorySpace()']]],
-  ['koperand',['kOperand',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1',1,'cutlass::gemm::GemmGlobalTileTraits::kOperand()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851',1,'cutlass::gemm::GemmSharedLoadTileATraits::kOperand()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kOperand()']]],
+  ['km',['kM',['../structcutlass_1_1gemm_1_1GemmCoord.html#af1f5c03c35eaa406c6a63082da26bec3',1,'cutlass::gemm::GemmCoord']]],
+  ['kmemoryspace',['kMemorySpace',['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d',1,'cutlass::gemm::GemmGlobalTileTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#a59c981aa720f983b846bed7c3e4a7cab',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#ae5a07814b9cfe9a64f69bac0f0772f20',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5',1,'cutlass::gemm::GemmSharedLoadTileATraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a8914bc5154f21fa5fd182b0009c44c39',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kMemorySpace()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#afb4687520eff9c6a21c35a5e04f69de8',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kMemorySpace()'],['../structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56',1,'cutlass::TileIteratorBase::kMemorySpace()'],['../structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043',1,'cutlass::TileLoadIterator::kMemorySpace()'],['../structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f',1,'cutlass::TileStoreIterator::kMemorySpace()']]],
+  ['kn',['kN',['../structcutlass_1_1gemm_1_1GemmCoord.html#a67f08a03dabee497fa5547cff0f1faea',1,'cutlass::gemm::GemmCoord']]],
+  ['koperand',['kOperand',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a30113b850dfd3de60f8778bc7a66f700',1,'cutlass::gemm::GlobalLoadStream::kOperand()'],['../structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1',1,'cutlass::gemm::GemmGlobalTileTraits::kOperand()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af511bba9fc2125516eb1442b1c88d851',1,'cutlass::gemm::GemmSharedLoadTileATraits::kOperand()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#afd4881aae69c8041d3931982d85f44e4',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kOperand()']]],
   ['kpredicates',['kPredicates',['../structcutlass_1_1PredicateVector.html#afff3a2142d9853606d6ad7c3a459f492',1,'cutlass::PredicateVector']]],
   ['kpredicatesperbyte',['kPredicatesPerByte',['../structcutlass_1_1PredicateVector.html#a1387c4a964f971ed4611d750a09ec0b5',1,'cutlass::PredicateVector']]],
   ['kpredicatestart',['kPredicateStart',['../structcutlass_1_1PredicateVector.html#acf848dce84c01453ab8a2d00c8d4f86e',1,'cutlass::PredicateVector']]],
+  ['krank',['kRank',['../structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3',1,'cutlass::Coord::kRank()'],['../classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31',1,'cutlass::TensorRef::kRank()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::kRank()']]],
+  ['kresidueinprolog',['kResidueInProlog',['../structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46',1,'cutlass::gemm::GemmConfig']]],
+  ['kresidueseparate',['kResidueSeparate',['../structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c',1,'cutlass::gemm::GemmConfig']]],
+  ['krow',['kRow',['../structcutlass_1_1MatrixCoord.html#a5149f4a37407746407251efc0779bb53',1,'cutlass::MatrixCoord::kRow()'],['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#ae97a9ba9d5045bef258d8994eb732256',1,'cutlass::MatrixLayout::ContiguousLayout::kRow()']]],
   ['kscalarsin4b',['kScalarsIn4B',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kScalarsIn4B()'],['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kScalarsIn4B()']]],
-  ['kscalarsperldga',['kScalarsPerLdgA',['../structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperldgb',['kScalarsPerLdgB',['../structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperldgc',['kScalarsPerLdgC',['../structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperldsa',['kScalarsPerLdsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperldsb',['kScalarsPerLdsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperldsd',['kScalarsPerLdsD',['../structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldga',['kScalarsPerLdgA',['../structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldgb',['kScalarsPerLdgB',['../structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldgc',['kScalarsPerLdgC',['../structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldsa',['kScalarsPerLdsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldsb',['kScalarsPerLdsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperldsd',['kScalarsPerLdsD',['../structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951',1,'cutlass::gemm::GemmConfig']]],
   ['kscalarsperrow',['kScalarsPerRow',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#af1c981ec89a9cabaf5d34231d51a029c',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kScalarsPerRow()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kScalarsPerRow()']]],
-  ['kscalarsperstgd',['kScalarsPerStgD',['../structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7',1,'cutlass::gemm::GemmConfig']]],
-  ['kscalarsperstsa',['kScalarsPerStsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186',1,'cutlass::gemm::GemmConfig::kScalarsPerStsA()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ae396f7301f934c179e054f68f0420edf',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kScalarsPerStsA()']]],
-  ['kscalarsperstsb',['kScalarsPerStsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21',1,'cutlass::gemm::GemmConfig::kScalarsPerStsB()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a47d99d98c783cf1d317698bd465ffa9a',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kScalarsPerStsB()']]],
-  ['kscalarsperstsd',['kScalarsPerStsD',['../structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperstgd',['kScalarsPerStgD',['../structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203',1,'cutlass::gemm::GemmConfig']]],
+  ['kscalarsperstsa',['kScalarsPerStsA',['../structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f',1,'cutlass::gemm::GemmConfig::kScalarsPerStsA()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a69775031f651795f697b628677b8e4eb',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::kScalarsPerStsA()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aedb61c43d8fb9c4ba18ae72601b9f6e1',1,'cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::kScalarsPerStsA()']]],
+  ['kscalarsperstsb',['kScalarsPerStsB',['../structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce',1,'cutlass::gemm::GemmConfig::kScalarsPerStsB()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aaa3228d45ff4428bba0f88a7a6e8b31b',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;::kScalarsPerStsB()'],['../structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a8a6cef5e733eab9c0ead20b1e345ad6f',1,'cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;::kScalarsPerStsB()']]],
+  ['kscalarsperstsd',['kScalarsPerStsD',['../structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f',1,'cutlass::gemm::GemmConfig']]],
   ['kscalarsperthread',['kScalarsPerThread',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#ae0b53d76096f9d34df6e16280565c7b1',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kScalarsPerThread()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kScalarsPerThread()']]],
   ['kskew',['kSkew',['../structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html#ace14ca9ad11e2cdafcd4a4b63c0df591',1,'cutlass::gemm::GemmSharedStoreTileAbTraits::kSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html#aba6decf87d770becaadd610d9fc27491',1,'cutlass::gemm::GemmSharedStoreWithSkewTileAbTraits::kSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#aaffe67e519e919bf561142e05da6e6c8',1,'cutlass::gemm::GemmSharedLoadTileATraits::kSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ac9cd90ecd02809060a2fe6e2da4210f9',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kSkew()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kSkew()']]],
-  ['kstages',['kStages',['../structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52',1,'cutlass::gemm::GemmConfig']]],
+  ['kskewa',['kSkewA',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9c296924f9a6c6908f09830bbbf6a775',1,'cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kSkewA()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac8da30393042cf6e785bdd54b11d9408',1,'cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;::kSkewA()']]],
+  ['kskewb',['kSkewB',['../structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab35a6b3ff04e4128e4ca4a8cc0459b16',1,'cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kSkewB()'],['../structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a6d0f50e83067373b249b38444eb7fe65',1,'cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;::kSkewB()']]],
+  ['ksplitk',['kSplitK',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2',1,'cutlass::gemm::GemmSharedLoadTileDTraits']]],
+  ['kstages',['kStages',['../structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508',1,'cutlass::gemm::GemmConfig']]],
+  ['kstoragerank',['kStorageRank',['../structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30',1,'cutlass::MatrixLayout::RowMajor::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70',1,'cutlass::MatrixLayout::ColumnMajor::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800',1,'cutlass::MatrixLayout::RowMajorInterleaved::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f',1,'cutlass::MatrixLayout::ColumnMajorInterleaved::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7',1,'cutlass::MatrixLayout::ContiguousLayout::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3',1,'cutlass::MatrixLayout::ColumnMajorBlockLinear::kStorageRank()'],['../structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d',1,'cutlass::MatrixLayout::RowMajorBlockLinear::kStorageRank()'],['../structcutlass_1_1IdentityTensorMapFunc.html#ac609498e7fe858b4fb3791d1039438f4',1,'cutlass::IdentityTensorMapFunc::kStorageRank()'],['../classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2',1,'cutlass::TensorRef::kStorageRank()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::kStorageRank()'],['../structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243',1,'cutlass::TensorRefArray::kStorageRank()']]],
   ['kstrideh',['kStrideH',['../structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a87918f4d67a9c1e19dcd3c6bfc243e97',1,'cutlass::gemm::GemmGlobalTileCdTraits']]],
-  ['kthreads',['kThreads',['../structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b',1,'cutlass::gemm::Gemm::kThreads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kThreads()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kThreads()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf',1,'cutlass::gemm::GemmConfig::kThreads()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85',1,'cutlass::TileTraitsStrideMajor::kThreads()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9',1,'cutlass::TileTraitsContiguousMajor::kThreads()'],['../structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642',1,'cutlass::TileTraitsWarpRake::kThreads()'],['../structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1',1,'cutlass::TileTraitsStandard::kThreads()']]],
+  ['kthreads',['kThreads',['../structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b',1,'cutlass::gemm::Gemm::kThreads()'],['../structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f',1,'cutlass::gemm::GemmConfig::kThreads()'],['../structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a05039ba8b7d9890903064b1a834dcd3e',1,'cutlass::gemm::GemmSharedStoreTileDTraits::kThreads()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d',1,'cutlass::gemm::GemmSharedLoadTileDTraits::kThreads()'],['../structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85',1,'cutlass::TileTraitsStrideMajor::kThreads()'],['../structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9',1,'cutlass::TileTraitsContiguousMajor::kThreads()'],['../structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642',1,'cutlass::TileTraitsWarpRake::kThreads()'],['../structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1',1,'cutlass::TileTraitsStandard::kThreads()']]],
   ['kthreadsperwarp',['kThreadsPerWarp',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f',1,'cutlass::gemm::GemmSharedLoadTileATraits::kThreadsPerWarp()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kThreadsPerWarp()']]],
   ['kusage',['kUsage',['../structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html#a962ffde3b3db78792b67dd1f57ab0a05',1,'cutlass::gemm::GemmMultiplicandTraits']]],
-  ['kvalue',['kValue',['../structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad',1,'cutlass::Extent::kValue()'],['../structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a10f7184a9a50de0268efa45dab5dc304',1,'cutlass::Extent&lt; Vector&lt; T, Lanes &gt; &gt;::kValue()'],['../structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a87917a6dfbb1662416c4ea4831669aaf',1,'cutlass::Extent&lt; Vector&lt; T, Lanes &gt; const &gt;::kValue()']]],
-  ['kw',['kW',['../structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421',1,'cutlass::Shape']]],
+  ['kvalue',['kValue',['../structcutlass_1_1Min.html#a97e6dd3ff6fb5404e8a6e6109f73f429',1,'cutlass::Min::kValue()'],['../structcutlass_1_1Max.html#a6ed8be7ed855eea8f8d08921f7b5d763',1,'cutlass::Max::kValue()'],['../structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad',1,'cutlass::Extent::kValue()'],['../structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a10f7184a9a50de0268efa45dab5dc304',1,'cutlass::Extent&lt; Vector&lt; T, Lanes &gt; &gt;::kValue()'],['../structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a87917a6dfbb1662416c4ea4831669aaf',1,'cutlass::Extent&lt; Vector&lt; T, Lanes &gt; const &gt;::kValue()']]],
+  ['kw',['kW',['../structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421',1,'cutlass::Shape::kW()'],['../structcutlass_1_1TileCoord.html#ac2c14af3ceffd5ef8f17c9e0efb4e5ec',1,'cutlass::TileCoord::kW()']]],
   ['kwarpcount',['kWarpCount',['../structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d',1,'cutlass::TileTraitsWarpRake::kWarpCount()'],['../structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25',1,'cutlass::TileTraitsStandard::kWarpCount()']]],
+  ['kwarpgemmsteps',['kWarpGemmSteps',['../structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356',1,'cutlass::gemm::Gemm']]],
   ['kwarps',['kWarps',['../structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be',1,'cutlass::gemm::GemmSharedLoadTileATraits::kWarps()'],['../structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2',1,'cutlass::gemm::GemmSharedLoadTileBTraits::kWarps()']]],
   ['kwarpscontiguous',['kWarpsContiguous',['../structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce',1,'cutlass::TileTraitsWarpRake']]],
-  ['kwarpsize',['kWarpSize',['../structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e',1,'cutlass::gemm::GemmConfig::kWarpSize()'],['../structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b',1,'cutlass::TileTraitsWarpRake::kWarpSize()'],['../structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10',1,'cutlass::TileTraitsStandard::kWarpSize()']]],
+  ['kwarpsize',['kWarpSize',['../structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396',1,'cutlass::gemm::GemmConfig::kWarpSize()'],['../structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b',1,'cutlass::TileTraitsWarpRake::kWarpSize()'],['../structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10',1,'cutlass::TileTraitsStandard::kWarpSize()']]],
   ['kwarpsstrided',['kWarpsStrided',['../structcutlass_1_1TileTraitsWarpRake.html#a8b1d3fe590f426ce11d597bb98c51bd4',1,'cutlass::TileTraitsWarpRake']]],
   ['kwc',['kWc',['../structcutlass_1_1ShapeCount.html#aac5c49469aa80d119c2006291b431276',1,'cutlass::ShapeCount']]],
   ['kwordcount',['kWordCount',['../structcutlass_1_1PredicateVector.html#a734bbfaf3829f73ef0b44fa7db4ccd42',1,'cutlass::PredicateVector']]]
diff --git a/docs/search/variables_9.js b/docs/search/variables_9.js
index d7ebf99aab..8041de3c48 100644
--- a/docs/search/variables_9.js
+++ b/docs/search/variables_9.js
@@ -1,9 +1,5 @@
 var searchData=
 [
-  ['lda',['lda',['../structcutlass_1_1gemm_1_1GemmDesc.html#a62ad30ba419ccb661e6700da98221789',1,'cutlass::gemm::GemmDesc']]],
-  ['ldb',['ldb',['../structcutlass_1_1gemm_1_1GemmDesc.html#a7591ce0223b0d05c4d6fca6c67b98bfe',1,'cutlass::gemm::GemmDesc']]],
-  ['ldc',['ldc',['../structcutlass_1_1gemm_1_1GemmDesc.html#a0f492560cabc45cd492da65b819d09db',1,'cutlass::gemm::GemmDesc']]],
-  ['ldd',['ldd',['../structcutlass_1_1gemm_1_1GemmDesc.html#a3280e5c5484f5c10d1412bcb70eb77e9',1,'cutlass::gemm::GemmDesc']]],
-  ['load',['load',['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#aea5ed35a44624684ffa9ada9d09a8893',1,'cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage']]],
-  ['load_5fiterator',['load_iterator',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a42ffcba6af2b5ddfb1f4825a34d43532',1,'cutlass::gemm::GlobalLoadStreamBase::Params::load_iterator()'],['../unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a3be938f8661f9cd10966866b7b80b471',1,'cutlass::gemm::GlobalLoadStreamBase::SharedStorage::load_iterator()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e',1,'cutlass::gemm::GlobalLoadStreamBase::load_iterator()']]]
+  ['load',['load',['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#ae7bc498e4976814111114091de4e43af',1,'cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage']]],
+  ['load_5fiterator',['load_iterator',['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a46f2546f9b88f4fc87f1396d0f08b065',1,'cutlass::gemm::GlobalLoadStream::Params::load_iterator()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c',1,'cutlass::gemm::GlobalLoadStream::load_iterator()']]]
 ];
diff --git a/docs/search/variables_a.js b/docs/search/variables_a.js
index 131fefbd75..a26f7fe2ce 100644
--- a/docs/search/variables_a.js
+++ b/docs/search/variables_a.js
@@ -1,5 +1,6 @@
 var searchData=
 [
-  ['m',['m',['../structcutlass_1_1gemm_1_1GemmDesc.html#a5c2b3e75cb6873762ba3f85487b78579',1,'cutlass::gemm::GemmDesc::m()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22',1,'cutlass::gemm::GemmEpilogue::m()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aaf27c0f2f4ab730ed5c865e9f7d2373b',1,'cutlass::gemm::GemmTraits::Params::m()']]],
-  ['main_5floop',['main_loop',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4',1,'cutlass::gemm::GemmTraits::SharedStorage']]]
+  ['main_5floop',['main_loop',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#aa5dd7edc3cffa785eb1e5b62c18c74c4',1,'cutlass::gemm::GemmTraits::SharedStorage']]],
+  ['mask_5f',['mask_',['../structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762',1,'cutlass::gemm::IgemmGlobalIteratorAb']]],
+  ['multiplicand_5fbounds',['multiplicand_bounds',['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1',1,'cutlass::gemm::GlobalLoadStream']]]
 ];
diff --git a/docs/search/variables_b.js b/docs/search/variables_b.js
index 97f3b3b158..edb0ab20a2 100644
--- a/docs/search/variables_b.js
+++ b/docs/search/variables_b.js
@@ -1,4 +1,4 @@
 var searchData=
 [
-  ['n',['N',['../structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca',1,'cutlass::Coord::N()'],['../structcutlass_1_1gemm_1_1GemmDesc.html#acee9727aa6cb612a25cd6ced4829061a',1,'cutlass::gemm::GemmDesc::n()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea',1,'cutlass::gemm::GemmEpilogue::n()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a437d4b6f1f149849c5ae635a5993e7ac',1,'cutlass::gemm::GemmTraits::Params::n()']]]
+  ['n',['N',['../structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030',1,'cutlass::Coord']]]
 ];
diff --git a/docs/search/variables_c.js b/docs/search/variables_c.js
index 4774d499d1..1dfe6b3efa 100644
--- a/docs/search/variables_c.js
+++ b/docs/search/variables_c.js
@@ -1,9 +1,4 @@
 var searchData=
 [
-  ['params',['params',['../structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2',1,'cutlass::gemm::Gemm::params()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362',1,'cutlass::gemm::GemmEpilogue::params()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322',1,'cutlass::gemm::GemmGlobalIteratorAb::params()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f',1,'cutlass::gemm::GemmGlobalIteratorCd::params()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::params()'],['../structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b',1,'cutlass::TileLoadIterator::params()'],['../structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f',1,'cutlass::TileStoreIterator::params()']]],
-  ['pointer',['pointer',['../structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6',1,'cutlass::FragmentIterator::pointer()'],['../structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b',1,'cutlass::FragmentConstIterator::pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::pointer()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::pointer()'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9',1,'cutlass::TileLoadIterator::Params::pointer()'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b',1,'cutlass::TileStoreIterator::Params::pointer()']]],
-  ['predicate_5finc_5fadvance',['predicate_inc_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_inc_advance()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa0367d016549cce6bd896bae364fc248',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::predicate_inc_advance()']]],
-  ['predicate_5finc_5fh',['predicate_inc_h',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_inc_h()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::predicate_inc_h()']]],
-  ['predicate_5foffset',['predicate_offset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_offset()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::predicate_offset()']]],
-  ['predicates',['predicates',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c',1,'cutlass::gemm::GemmGlobalIteratorAb::predicates()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977',1,'cutlass::gemm::GemmGlobalIteratorCd::predicates()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::predicates()']]]
+  ['offset_5fto_5fresidue',['offset_to_residue',['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1',1,'cutlass::gemm::GlobalLoadStream::Params']]]
 ];
diff --git a/docs/search/variables_d.js b/docs/search/variables_d.js
index c72e153966..32f5df5c6d 100644
--- a/docs/search/variables_d.js
+++ b/docs/search/variables_d.js
@@ -1,5 +1,11 @@
 var searchData=
 [
-  ['rank',['Rank',['../classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66',1,'cutlass::TensorRef::Rank()'],['../classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90',1,'cutlass::TensorView::Rank()']]],
-  ['registers',['registers',['../unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a',1,'cutlass::Vector::registers()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#abd116dc7a5b82ac9b1481fb1d2bfc93f',1,'cutlass::Vector&lt; half, kLanes_ &gt;::registers()']]]
+  ['params',['params',['../structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2',1,'cutlass::gemm::Gemm::params()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362',1,'cutlass::gemm::GemmEpilogue::params()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e',1,'cutlass::gemm::GlobalLoadStream::params()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322',1,'cutlass::gemm::GemmGlobalIteratorAb::params()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f',1,'cutlass::gemm::GemmGlobalIteratorCd::params()'],['../structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d',1,'cutlass::gemm::LinearScaling::params()'],['../structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596',1,'cutlass::TileLoadIterator::params()'],['../structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d',1,'cutlass::TileStoreIterator::params()']]],
+  ['pointer',['pointer',['../structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6',1,'cutlass::FragmentIterator::pointer()'],['../structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b',1,'cutlass::FragmentConstIterator::pointer()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::pointer()'],['../structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6',1,'cutlass::TileLoadIterator::Params::pointer()'],['../structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827',1,'cutlass::TileStoreIterator::Params::pointer()']]],
+  ['pointers',['pointers',['../structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e',1,'cutlass::TensorRefArray']]],
+  ['predicate_5finc_5fadvance',['predicate_inc_advance',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129',1,'cutlass::gemm::GemmGlobalIteratorCd::Params']]],
+  ['predicate_5finc_5fh',['predicate_inc_h',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c',1,'cutlass::gemm::GemmGlobalIteratorCd::Params']]],
+  ['predicate_5foffset',['predicate_offset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a',1,'cutlass::gemm::GemmGlobalIteratorCd::Params']]],
+  ['predicates',['predicates',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c',1,'cutlass::gemm::GemmGlobalIteratorAb::predicates()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977',1,'cutlass::gemm::GemmGlobalIteratorCd::predicates()'],['../structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f',1,'cutlass::PredicatedTileLoadStream::predicates()'],['../structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe',1,'cutlass::PredicatedTileStoreStream::predicates()']]],
+  ['problem_5fsize',['problem_size',['../structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f',1,'cutlass::gemm::GemmDesc::problem_size()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e',1,'cutlass::gemm::GemmEpilogue::problem_size()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90',1,'cutlass::gemm::GemmTraits::Params::problem_size()']]]
 ];
diff --git a/docs/search/variables_e.js b/docs/search/variables_e.js
index 0f47e54982..a908e7a2d3 100644
--- a/docs/search/variables_e.js
+++ b/docs/search/variables_e.js
@@ -1,19 +1,5 @@
 var searchData=
 [
-  ['scalars',['scalars',['../unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f',1,'cutlass::Vector::scalars()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3',1,'cutlass::Vector&lt; half, kLanes_ &gt;::scalars()']]],
-  ['shared',['shared',['../unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html#afabd328b106d45b156200f73942d211e',1,'cutlass::gemm::GemmTraits::StreamSharedStorage']]],
-  ['shared_5fload_5fiterator_5fd',['shared_load_iterator_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a1742e43c128665f0ca39cb578291df81',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
-  ['shared_5fstorage',['shared_storage',['../structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b',1,'cutlass::gemm::Gemm::shared_storage()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e',1,'cutlass::gemm::GemmEpilogue::shared_storage()']]],
-  ['shared_5fstore_5fiterator_5fd',['shared_store_iterator_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#af79a0c74a4c30ccec59b393721b5dfc1',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
-  ['shared_5fstream',['shared_stream',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#ae63b5a52106dbd37ea304196335ec210',1,'cutlass::gemm::GemmEpilogueTraits::SharedStorage']]],
-  ['shared_5fstream_5fa',['shared_stream_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aa9937ec51d18aad02398d95095117978',1,'cutlass::gemm::GemmTraits::Params']]],
-  ['shared_5fstream_5fb',['shared_stream_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a78f22007632937bbd5f3dab7b097477d',1,'cutlass::gemm::GemmTraits::Params']]],
-  ['stage',['stage',['../structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92',1,'cutlass::TileLoadIterator::stage()'],['../structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e',1,'cutlass::TileStoreIterator::stage()']]],
-  ['store',['store',['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a1f31090613c4e6f0895f598880d6c4e5',1,'cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage']]],
-  ['store_5fiterator',['store_iterator',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html#a3e5167fa3f2dc0d8b4b903bd4e936969',1,'cutlass::gemm::GlobalLoadStreamBase::Params::store_iterator()'],['../unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html#a939e9ddecc5ee97882a54211a61f5586',1,'cutlass::gemm::GlobalLoadStreamBase::SharedStorage::store_iterator()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae',1,'cutlass::gemm::GlobalLoadStreamBase::store_iterator()']]],
-  ['stream_5fa',['stream_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a62d3dcf5d97a0a896b2033e55dfb0811',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage::stream_a()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#a82a59524b5d3134eb609d280193a5c47',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::stream_a()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a8e68561561ac6b08efbfd116903198c8',1,'cutlass::gemm::GemmTraits::SharedLoadStream::stream_a()']]],
-  ['stream_5fb',['stream_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a0173fcc8856b17a52cc5eee845f101fa',1,'cutlass::gemm::GemmTraits::MainLoopSharedStorage::stream_b()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#acc287ce5e2f3635d9d55d91914d2d04c',1,'cutlass::gemm::GemmTraits::GlobalLoadStream::stream_b()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a1fdc6af44c14c88a94529d187fda176d',1,'cutlass::gemm::GemmTraits::SharedLoadStream::stream_b()']]],
-  ['stride_5fd',['stride_d',['../structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1',1,'cutlass::TileIteratorBase::Params']]],
-  ['stride_5fh',['stride_h',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae0fdc7426b22ff2c20f077e251ebc823',1,'cutlass::gemm::GemmEpilogueTraits::Params::stride_h()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::stride_h()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::stride_h()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc',1,'cutlass::TileIteratorBase::Params::stride_h()']]],
-  ['stride_5fw',['stride_w',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2',1,'cutlass::gemm::GemmEpilogueTraits::Params::stride_w()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c',1,'cutlass::TileIteratorBase::Params::stride_w()']]]
+  ['rank',['Rank',['../classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a',1,'cutlass::TensorRef::Rank()'],['../classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a233fba9abdbbd0fe3a2cc7465ea76a41',1,'cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Rank()'],['../classcutlass_1_1TensorView.html#a8dbb7043546fae133547d2c3e46dddab',1,'cutlass::TensorView::Rank()']]],
+  ['registers',['registers',['../unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a',1,'cutlass::Vector::registers()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#abd116dc7a5b82ac9b1481fb1d2bfc93f',1,'cutlass::Vector&lt; half, kLanes_ &gt;::registers()'],['../unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#af27a36f604513f05aebe0624a9c539ab',1,'cutlass::Vector&lt; bin1_t, kLanes_ &gt;::registers()'],['../unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ace5e03860b434b2d2a4590bd2bc8c147',1,'cutlass::Vector&lt; int4_t, kLanes_ &gt;::registers()'],['../unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a15d5103e46d53e030100dedaecb0220a',1,'cutlass::Vector&lt; uint4_t, kLanes_ &gt;::registers()']]]
 ];
diff --git a/docs/search/variables_f.js b/docs/search/variables_f.js
index 834a84b7ce..c8429bd42c 100644
--- a/docs/search/variables_f.js
+++ b/docs/search/variables_f.js
@@ -1,8 +1,20 @@
 var searchData=
 [
-  ['thread_5foffset',['thread_offset',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04',1,'cutlass::gemm::GemmGlobalIteratorAb::thread_offset()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0',1,'cutlass::gemm::GemmGlobalIteratorCd::thread_offset()'],['../structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066',1,'cutlass::gemm::WmmaGemmGlobalIteratorCd::thread_offset()'],['../structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457',1,'cutlass::TileLoadIterator::thread_offset()'],['../structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035',1,'cutlass::TileStoreIterator::thread_offset()']]],
-  ['transformed_5fa',['transformed_a',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a883b28ca237b1ec076856232cfee0c6f',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['transformed_5fb',['transformed_b',['../structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#a9369a5f819d2a42997491e0df96f47ef',1,'cutlass::gemm::GemmTraits::SharedLoadStream']]],
-  ['transformed_5ffragment',['transformed_fragment',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf',1,'cutlass::gemm::GlobalLoadStreamBase']]],
-  ['transformer',['transformer',['../structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9',1,'cutlass::gemm::GlobalLoadStreamBase::transformer()'],['../structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7',1,'cutlass::gemm::SharedLoadStream::transformer()']]]
+  ['scalars',['scalars',['../unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f',1,'cutlass::Vector::scalars()'],['../unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a81709dacea12d6bd3bb328a3f0a519b0',1,'cutlass::Vector&lt; half, 1 &gt;::scalars()'],['../unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3',1,'cutlass::Vector&lt; half, kLanes_ &gt;::scalars()']]],
+  ['second',['second',['../structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc',1,'cutlass::ZipTileAllocation::second()'],['../structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c',1,'cutlass::ZipFragment::second()'],['../structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9',1,'cutlass::ZipConvert::second()'],['../structcutlass_1_1ZipTensorRef.html#ad981b056cc96709a23e6d51dba4cd451',1,'cutlass::ZipTensorRef::second()'],['../structcutlass_1_1ZipTileIterator_1_1Params.html#a6eb742dc39b1d776cf5d62719835fe26',1,'cutlass::ZipTileIterator::Params::second()'],['../classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0',1,'cutlass::ZipTileIterator::second()']]],
+  ['shared_5fload_5fstream_5fd',['shared_load_stream_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a5d3d1abd85f18476a74bcf616a717f9d',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
+  ['shared_5fstorage',['shared_storage',['../structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b',1,'cutlass::gemm::Gemm::shared_storage()'],['../structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e',1,'cutlass::gemm::GemmEpilogue::shared_storage()']]],
+  ['shared_5fstore_5fiterator_5fd',['shared_store_iterator_d',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adfdf3eca06ea4061fbfe016336a3f276',1,'cutlass::gemm::GemmEpilogueTraits::Params']]],
+  ['shared_5fstream',['shared_stream',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a64ecac7d5843c38e55df78dcf609d33e',1,'cutlass::gemm::GemmEpilogueTraits::SharedStorage::shared_stream()'],['../structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a50e9cc382a32abd5beab299a79b30b27',1,'cutlass::gemm::GemmTraits::Params::shared_stream()']]],
+  ['source_5ffragment',['source_fragment',['../structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a',1,'cutlass::TileStoreStream']]],
+  ['stage',['stage',['../structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3',1,'cutlass::TileLoadIterator::stage()'],['../structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e',1,'cutlass::TileStoreIterator::stage()']]],
+  ['storage',['storage',['../structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604',1,'cutlass::TileAllocation']]],
+  ['store',['store',['../unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a673ddeb91e89c9a39c0a4dbaaa97dd8f',1,'cutlass::gemm::GemmEpilogueTraits::StreamSharedStorage']]],
+  ['store_5fiterator',['store_iterator',['../structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a289ac736c0c098ae6da6a21c9abfe63f',1,'cutlass::gemm::GlobalLoadStream::Params::store_iterator()'],['../structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d',1,'cutlass::gemm::GlobalLoadStream::store_iterator()']]],
+  ['stream_5fa',['stream_a',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705',1,'cutlass::gemm::GlobalLoadStreamPair::Params::stream_a()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a87d507b703a0eb654265f4529ed18f66',1,'cutlass::gemm::GlobalLoadStreamPair::SharedStorage::stream_a()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127',1,'cutlass::gemm::GlobalLoadStreamPair::stream_a()'],['../structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#afb56016927b59b8d5447c3656f0b634e',1,'cutlass::gemm::SharedStreamPair::Params::stream_a()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a',1,'cutlass::gemm::SharedStreamPair::stream_a()']]],
+  ['stream_5fb',['stream_b',['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258',1,'cutlass::gemm::GlobalLoadStreamPair::Params::stream_b()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a6d9444ed13ed544febe196e3e835ea16',1,'cutlass::gemm::GlobalLoadStreamPair::SharedStorage::stream_b()'],['../structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9',1,'cutlass::gemm::GlobalLoadStreamPair::stream_b()'],['../structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#a4a8f9207ffb3bbcdb000af62808371f5',1,'cutlass::gemm::SharedStreamPair::Params::stream_b()'],['../structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9',1,'cutlass::gemm::SharedStreamPair::stream_b()']]],
+  ['stride_5fd',['stride_d',['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::stride_d()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2',1,'cutlass::TileIteratorBase::Params::stride_d()']]],
+  ['stride_5fh',['stride_h',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a497b91e93d0eb29ca54553f8de4c694f',1,'cutlass::gemm::GemmEpilogueTraits::Params::stride_h()'],['../structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e',1,'cutlass::gemm::GemmGlobalIteratorCd::Params::stride_h()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623',1,'cutlass::TileIteratorBase::Params::stride_h()']]],
+  ['stride_5fw',['stride_w',['../structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68',1,'cutlass::gemm::GemmEpilogueTraits::Params::stride_w()'],['../structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d',1,'cutlass::TileIteratorBase::Params::stride_w()']]],
+  ['strides',['strides',['../structcutlass_1_1TensorRefArray.html#a76228819a72b8ed341e680ba84a960be',1,'cutlass::TensorRefArray']]]
 ];
diff --git a/docs/sgemm__traits_8h.html b/docs/sgemm__traits_8h.html
index 4dd76bfcc8..ad0a7e506b 100644
--- a/docs/sgemm__traits_8h.html
+++ b/docs/sgemm__traits_8h.html
@@ -82,21 +82,24 @@
 
 <p>Defies structural properties of single-precision GEMM.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="gemm_8h_source.html">cutlass/gemm/gemm.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__epilogue_8h_source.html">cutlass/gemm/gemm_epilogue.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__epilogue__traits_8h_source.html">cutlass/gemm/gemm_epilogue_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="gemm__traits_8h_source.html">cutlass/gemm/gemm_traits.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="thread__multiply__add_8h_source.html">cutlass/gemm/thread_multiply_add.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="gemm_8h_source.html">cutlass/gemm/gemm.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__epilogue_8h_source.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__epilogue__traits_8h_source.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__shared__tile_8h_source.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__traits_8h_source.html">cutlass/gemm/gemm_traits.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="thread__multiply__add_8h_source.html">cutlass/gemm/thread_multiply_add.h</a>&quot;</code><br />
 </div>
 <p><a href="sgemm__traits_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html">cutlass::gemm::SgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html">cutlass::gemm::SgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, kLaunchBounds &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html">cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html">cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SgemmLBTraits.html">cutlass::gemm::SgemmLBTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to define SGEMM traits using <a class="el" href="structcutlass_1_1gemm_1_1Launch.html" title="Partial specialization for launching the GEMM kernel with or without launch bounds. ">Launch</a> Bounds.  <a href="structcutlass_1_1gemm_1_1SgemmLBTraits.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -109,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/sgemm__traits_8h_source.html b/docs/sgemm__traits_8h_source.html
index 965c549700..01b42b7b73 100644
--- a/docs/sgemm__traits_8h_source.html
+++ b/docs/sgemm__traits_8h_source.html
@@ -76,26 +76,27 @@
 <div class="title">sgemm_traits.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="sgemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="thread__multiply__add_8h.html">cutlass/gemm/thread_multiply_add.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerThread_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1&gt;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SgemmConfig.html">   52</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SgemmConfig.html">SgemmConfig</a></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;          float,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;          float,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;          float,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;          float,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;          OutputTile_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;          ThreadMultiplyAdd&lt;AccumulatorsPerThread_, Shape&lt;1, 4, 8&gt;, float, float, float&gt;,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;          kScalarsPerLdgA_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;          kScalarsPerLdgA_,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;          4,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;          kScalarsPerLdgB_,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;          kScalarsPerLdgB_,</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;          4,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;          1,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;          4,</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;          1,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;          2&gt; {};</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;    <span class="keyword">typename</span> OutputTile_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 128, 128&gt;</a>,</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling&lt;float&gt;</a>,</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerThread_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 8, 8&gt;</a>,</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1,</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    <span class="keyword">typename</span> GemmConfig_ =</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SgemmConfig.html">SgemmConfig&lt;OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_&gt;</a>,</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    <span class="keyword">typename</span> GemmEpilogueTraits_ =</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits&lt;GemmConfig_, EpilogueFunctor_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SgemmTraits.html">  112</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SgemmTraits.html">SgemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a>&lt;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                         <span class="comment">// The layout for A.</span></div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;                         kLayoutA_,</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;                         <span class="comment">// The layout for B.</span></div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;                         kLayoutB_,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;                         <span class="comment">// The config.</span></div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;                         GemmConfig_,</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;                         <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;                         GemmEpilogue&lt;GemmEpilogueTraits_&gt;,</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;                         <span class="comment">// The index.</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;                         Index_&gt; {};</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<a href="sgemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="thread__multiply__add_8h.html">cutlass/gemm/thread_multiply_add.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    <span class="keywordtype">bool</span> kLaunchBounds = <span class="keyword">true</span>&gt;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SgemmConfig.html">   54</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SgemmConfig.html">SgemmConfig</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html">GemmConfig</a>&lt;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;                         float,</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;                         float,</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;                         float,</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;                         float,</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;                         OutputTile_,</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;                         ThreadMultiplyAdd&lt;ThreadGemmShape_, Shape&lt;1, 4, 8&gt;, float, float, float&gt;,</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;                         kScalarsPerLdgA_,</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;                         kScalarsPerLdgA_,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                         4,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;                         kScalarsPerLdgB_,</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;                         kScalarsPerLdgB_,</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;                         4,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;                         1,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;                         4,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;                         1,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;                         2,</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;                         false,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;                         true,</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;                         kLaunchBounds&gt; {};</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    <span class="keyword">typename</span> OutputTile_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 128, 128&gt;</a>,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling&lt;float&gt;</a>,</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 8, 8&gt;</a>,</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;    <span class="keyword">typename</span> GemmConfig_ =</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SgemmConfig.html">SgemmConfig&lt;OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, false&gt;</a>,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    <span class="keyword">typename</span> GemmEpilogueTraits_ =</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits&lt;GemmConfig_, EpilogueFunctor_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SgemmTraits.html">  119</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SgemmTraits.html">SgemmTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a>&lt;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;                         <span class="comment">// The layout for A.</span></div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;                         kLayoutA_,</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;                         <span class="comment">// The layout for B.</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;                         kLayoutB_,</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;                         <span class="comment">// The config.</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;                         GemmConfig_,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;                         <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;                         GemmEpilogue&lt;GemmEpilogueTraits_&gt;,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                         <span class="comment">// The index.</span></div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;                         Index_&gt; {};</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;    <span class="keyword">typename</span> OutputTile_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 128, 128&gt;</a>,</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = <a class="code" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling&lt;float&gt;</a>,</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    <span class="keyword">typename</span> ThreadGemmShape_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;8, 8, 8&gt;</a>,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 1,</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 1,</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    <span class="keyword">typename</span> GemmConfig_ =</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SgemmConfig.html">SgemmConfig&lt;OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, true&gt;</a>,</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;    <span class="keyword">typename</span> GemmEpilogueTraits_ =</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits&lt;GemmConfig_, EpilogueFunctor_, Index_&gt;</a> &gt;</div><div class="line"><a name="l00157"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1SgemmLBTraits.html">  157</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1SgemmLBTraits.html">SgemmLBTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">SimplifiedGemmTraits</a>&lt;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;                         <span class="comment">// The layout for A.</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;                         kLayoutA_,</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;                         <span class="comment">// The layout for B.</span></div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;                         kLayoutB_,</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;                         <span class="comment">// The config.</span></div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;                         GemmConfig_,</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;                         <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;                         GemmEpilogue&lt;GemmEpilogueTraits_&gt;,</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;                         <span class="comment">// The index.</span></div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;                         Index_&gt; {};</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="gemm__global__tile_8h_html"><div class="ttname"><a href="gemm__global__tile_8h.html">gemm_global_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing to global memory. </div></div>
 <div class="ttc" id="gemm__traits_8h_html"><div class="ttname"><a href="gemm__traits_8h.html">gemm_traits.h</a></div><div class="ttdoc">Defines structural properties of complete GEMM computation. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SgemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SgemmConfig.html">cutlass::gemm::SgemmConfig</a></div><div class="ttdef"><b>Definition:</b> sgemm_traits.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SgemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SgemmConfig.html">cutlass::gemm::SgemmConfig</a></div><div class="ttdef"><b>Definition:</b> sgemm_traits.h:54</div></div>
 <div class="ttc" id="thread__multiply__add_8h_html"><div class="ttname"><a href="thread__multiply__add_8h.html">thread_multiply_add.h</a></div><div class="ttdoc">Template implementing matrix multiply-add operations on fragments. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SgemmLBTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SgemmLBTraits.html">cutlass::gemm::SgemmLBTraits</a></div><div class="ttdoc">Helper to define SGEMM traits using Launch Bounds. </div><div class="ttdef"><b>Definition:</b> sgemm_traits.h:157</div></div>
 <div class="ttc" id="gemm__epilogue_8h_html"><div class="ttname"><a href="gemm__epilogue_8h.html">gemm_epilogue.h</a></div><div class="ttdoc">Implements the epilogue phase of the GEMM kernel that efficiently updates global memory with the comp...</div></div>
 <div class="ttc" id="gemm__shared__tile_8h_html"><div class="ttname"><a href="gemm__shared__tile_8h.html">gemm_shared_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing tiles to and from shared memory. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:79</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a></div><div class="ttdef"><b>Definition:</b> gemm_config.h:76</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">cutlass::gemm::SimplifiedGemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:300</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SgemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SgemmTraits.html">cutlass::gemm::SgemmTraits</a></div><div class="ttdef"><b>Definition:</b> sgemm_traits.h:112</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:40</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">cutlass::gemm::SimplifiedGemmEpilogueTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_epilogue_traits.h:323</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SgemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SgemmTraits.html">cutlass::gemm::SgemmTraits</a></div><div class="ttdef"><b>Definition:</b> sgemm_traits.h:119</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1LinearScaling_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a></div><div class="ttdoc">Functor to compute linear combination of fragments. </div><div class="ttdef"><b>Definition:</b> linear_scaling.h:51</div></div>
 <div class="ttc" id="gemm_8h_html"><div class="ttname"><a href="gemm_8h.html">gemm.h</a></div><div class="ttdoc">Implements a software-pipelined efficient GEMM. </div></div>
 <div class="ttc" id="gemm__epilogue__traits_8h_html"><div class="ttname"><a href="gemm__epilogue__traits_8h.html">gemm_epilogue_traits.h</a></div><div class="ttdoc">Defines structural properties of the GEMM epilogue. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">cutlass::gemm::SimplifiedGemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:723</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1SimplifiedGemmTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html">cutlass::gemm::SimplifiedGemmTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_traits.h:650</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/shape_8h.html b/docs/shape_8h.html
index 483edeeb0f..9c876db2f3 100644
--- a/docs/shape_8h.html
+++ b/docs/shape_8h.html
@@ -82,7 +82,7 @@
 
 <p>Defines Shape implementing the Layout concept for representing a 4D hypercube of objects.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
 </div>
 <p><a href="shape_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -104,30 +104,20 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeDiv.html">cutlass::ShapeDiv&lt; A_, B_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeDivCeiling.html">cutlass::ShapeDivCeiling&lt; A_, B_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeMax.html">cutlass::ShapeMax&lt; A_, B_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeMin.html">cutlass::ShapeMin&lt; A_, B_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeStrides.html">cutlass::ShapeStrides&lt; Shape_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeStrides.html">cutlass::ShapeStrides&lt; Shape_, elementsPerAccess &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html">cutlass::ComputeOffsetFromShape&lt; Shape_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube.  <a href="structcutlass_1_1ComputeOffsetFromShape.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html">cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, kSc_ &gt; &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube with a depth of 1.  <a href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html">cutlass::ComputeOffsetFromShape&lt; Shape&lt; 1, kSh_, kSw_, 1 &gt; &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube with one channel and a depth of 1.  <a href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html">cutlass::ComputeOffsetFromStrides&lt; Strides_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube.  <a href="structcutlass_1_1ComputeOffsetFromStrides.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html">cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, S_c_ &gt; &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube with a depth of 1.  <a href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html">cutlass::ComputeOffsetFromStrides&lt; Shape&lt; 1, S_h_, S_w_, 1 &gt; &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Compute the offset for the given coordinates in a cube with one channel and a depth of 1.  <a href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">cutlass::ComputeThreadOffsetFromStrides&lt; Threads_, Strides_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Decompose threadId.x into coordinate of a cube whose dimensions are specified by Threads_. Afterwards compute the offset of those coordinates using Strides_.  <a href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -146,7 +136,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/shape_8h_source.html b/docs/shape_8h_source.html
index 5b980198be..0e48d6eb21 100644
--- a/docs/shape_8h_source.html
+++ b/docs/shape_8h_source.html
@@ -76,43 +76,46 @@
 <div class="title">shape.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="shape_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kD_ = 1, <span class="keywordtype">int</span> kH_ = 1, <span class="keywordtype">int</span> kW_ = 1, <span class="keywordtype">int</span> kC_ = 1&gt;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1Shape.html">   64</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Shape.html">Shape</a> {</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">   66</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">kD</a> = kD_;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">   68</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">kH</a> = kH_;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">   70</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">kW</a> = kW_;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">   72</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">kC</a> = kC_;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;};</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Shape&gt;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html">   79</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount</a> {</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#aac5c49469aa80d119c2006291b431276">   81</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#aac5c49469aa80d119c2006291b431276">kWc</a> = <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Shape::kW</a> * <a class="code" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">Shape::kC</a>;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f">   83</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f">kHw</a> = <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Shape::kH</a> * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Shape::kW</a>;</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#a75324e2c9d31a0787343fc994586b742">   85</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#a75324e2c9d31a0787343fc994586b742">kHwc</a> = <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Shape::kH</a> * <a class="code" href="structcutlass_1_1ShapeCount.html#aac5c49469aa80d119c2006291b431276">kWc</a>;</div><div class="line"><a name="l00087"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#af7d7ccd42de2c49fe57f03cf0e657fe8">   87</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#af7d7ccd42de2c49fe57f03cf0e657fe8">kDhw</a> = <a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Shape::kD</a> * <a class="code" href="structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f">kHw</a>;</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#a5a274564d6b8607a0be621b2664fba18">   89</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#a5a274564d6b8607a0be621b2664fba18">kDhwc</a> = <a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Shape::kD</a> * <a class="code" href="structcutlass_1_1ShapeCount.html#a75324e2c9d31a0787343fc994586b742">kHwc</a>;</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">   91</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">kCount</a> = <a class="code" href="structcutlass_1_1ShapeCount.html#a5a274564d6b8607a0be621b2664fba18">kDhwc</a>;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;};</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keywordtype">int</span> kScale_&gt;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeScale.html">   97</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeScale.html">ShapeScale</a> {</div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29">   98</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29">Shape&lt;A_::kD * kScale_, A_::kH * kScale_, A_::kW * kScale_, A_::kC * kScale_&gt;</a> <a class="code" href="structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29">Shape</a>;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;};</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeAdd.html">  104</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeAdd.html">ShapeAdd</a> {</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71">  105</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71">Shape&lt;A_::kD + B_::kD, A_::kH + B_::kH, A_::kW + B_::kW, A_::kC + B_::kC&gt;</a> <a class="code" href="structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71">Shape</a>;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;};</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeSub.html">  111</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeSub.html">ShapeSub</a> {</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9">  112</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9">Shape</a>&lt;A_::kD - B_::kD, A_::kH - B_::kH, A_::kW - B_::kW, A_::kC - B_::kC&gt; <a class="code" href="structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9">Shape</a>;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;};</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00118"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMul.html">  118</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeMul.html">ShapeMul</a> {</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">  119</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">Shape&lt;A_::kD * B_::kD, A_::kH * B_::kH, A_::kW * B_::kW, A_::kC * B_::kC&gt;</a> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">Shape</a>;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;};</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeDiv.html">  125</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a> {</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">  126</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">Shape</a>&lt;A_::kD / B_::kD, A_::kH / B_::kH, A_::kW / B_::kW, A_::kC / B_::kC&gt; <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">Shape</a>;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;};</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00132"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMax.html">  132</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeMax.html">ShapeMax</a> {</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961">Shape&lt;(A_::kD &gt;</a> B_::kD ? A_::kD : B_::kD),</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;                (A_::kH &gt; B_::kH ? A_::kH : B_::kH),</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;                (A_::kW &gt; B_::kW ? A_::kW : B_::kW),</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;                (A_::kC &gt; B_::kC ? A_::kC : B_::kC)&gt;</div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961">  137</a></span>&#160;      <a class="code" href="structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961">Shape</a>;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;};</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMin.html">  143</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeMin.html">ShapeMin</a> {</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">Shape</a>&lt;(A_::kD &lt; B_::kD ? A_::kD : B_::kD),</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;                (A_::kH &lt; B_::kH ? A_::kH : B_::kH),</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;                (A_::kW &lt; B_::kW ? A_::kW : B_::kW),</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;                (A_::kC &lt; B_::kC ? A_::kC : B_::kC)&gt;</div><div class="line"><a name="l00148"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">  148</a></span>&#160;      <a class="code" href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">Shape</a>;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;};</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Shape_&gt;</div><div class="line"><a name="l00154"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeStrides.html">  154</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a> {</div><div class="line"><a name="l00155"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">  155</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">Shape&lt;Shape_::kH * Shape_::kW * Shape_::kC, Shape_::kW * Shape_::kC, Shape_::kC, 1&gt;</a> <a class="code" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">Shape</a>;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;};</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Shape_&gt;</div><div class="line"><a name="l00165"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromShape.html">  165</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html">ComputeOffsetFromShape</a> {</div><div class="line"><a name="l00166"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">  166</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) {</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;    <span class="comment">// clang-format off</span></div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;    <span class="keywordflow">return</span> d * Shape_::kH * Shape_::kW * Shape_::kC +</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;           h * Shape_::kW * Shape_::kC +</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;           w * Shape_::kC +</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;           c;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;    <span class="comment">// clang-format on</span></div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;  }</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;};</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kSh_, <span class="keywordtype">int</span> kSw_, <span class="keywordtype">int</span> kSc_&gt;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html">  185</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html">ComputeOffsetFromShape</a>&lt;<a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, kSh_, kSw_, kSc_&gt; &gt; {</div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_01kSc___01_4_01_4.html#a5198e838e3892245fe7b10884555ec93">  186</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) {</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    <span class="keywordflow">return</span> h * kSw_ * kSc_ + w * kSc_ + c;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;  }</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;};</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kSh_, <span class="keywordtype">int</span> kSw_&gt;</div><div class="line"><a name="l00199"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html">  199</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html">ComputeOffsetFromShape</a>&lt;<a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, kSh_, kSw_, 1&gt; &gt; {</div><div class="line"><a name="l00200"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromShape_3_01Shape_3_011_00_01kSh___00_01kSw___00_011_01_4_01_4.html#a11bf40abc57580db5ce4b0fd4c3e55ff">  200</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) { <span class="keywordflow">return</span> h * kSw_ + w; }</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;};</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Str<span class="keywordtype">id</span>es_&gt;</div><div class="line"><a name="l00210"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromStrides.html">  210</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html">ComputeOffsetFromStrides</a> {</div><div class="line"><a name="l00211"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">  211</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) {</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;    <span class="keywordflow">return</span> d * Strides_::kD + h * Strides_::kH + w * Strides_::kW + c * Strides_::kC;</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;  }</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;};</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> S_h_, <span class="keywordtype">int</span> S_w_, <span class="keywordtype">int</span> S_c_&gt;</div><div class="line"><a name="l00225"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html">  225</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html">ComputeOffsetFromStrides</a>&lt;<a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, S_h_, S_w_, S_c_&gt; &gt; {</div><div class="line"><a name="l00226"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_01S__c___01_4_01_4.html#acdbb9c7cdf9fc054656614f72396434e">  226</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) {</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;    <span class="keywordflow">return</span> h * S_h_ + w * S_w_ + c * S_c_;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;  }</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;};</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> S_h_, <span class="keywordtype">int</span> S_w_&gt;</div><div class="line"><a name="l00239"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html">  239</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html">ComputeOffsetFromStrides</a>&lt;<a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, S_h_, S_w_, 1&gt; &gt; {</div><div class="line"><a name="l00240"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromStrides_3_01Shape_3_011_00_01S__h___00_01S__w___00_011_01_4_01_4.html#a512a9d46f6bea9d85641d7263bcfee36">  240</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) { <span class="keywordflow">return</span> h * S_h_ + w * S_w_; }</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;};</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Threads_, <span class="keyword">typename</span> Str<span class="keywordtype">id</span>es_&gt;</div><div class="line"><a name="l00252"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">  252</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">ComputeThreadOffsetFromStrides</a> {</div><div class="line"><a name="l00253"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">  253</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>() {</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;    <span class="comment">// Decompose the thread index.</span></div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;    <span class="keywordtype">int</span> c = threadIdx.x % Threads_::kC;</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;    <span class="keywordtype">int</span> w = threadIdx.x / Threads_::kC % Threads_::kW;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;    <span class="keywordtype">int</span> h = threadIdx.x / Threads_::kC / Threads_::kW % Threads_::kH;</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    <span class="keywordtype">int</span> d = threadIdx.x / Threads_::kC / Threads_::kW / Threads_::kH;</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;    <span class="comment">// Compute the offset.</span></div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    <span class="keywordflow">return</span> d * Strides_::kD + h * Strides_::kH + w * Strides_::kW + c * Strides_::kC;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;  }</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;};</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> T_h_, <span class="keywordtype">int</span> T_w_, <span class="keywordtype">int</span> T_c_, <span class="keywordtype">int</span> S_h_, <span class="keywordtype">int</span> S_w_, <span class="keywordtype">int</span> S_c_&gt;</div><div class="line"><a name="l00270"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html">  270</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">ComputeThreadOffsetFromStrides</a>&lt;<a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, T_h_, T_w_, T_c_&gt;, <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, S_h_, S_w_, S_c_&gt; &gt; {</div><div class="line"><a name="l00271"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html#a5d446b2663c01362361e09435a726996">  271</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>() {</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;    <span class="comment">// Decompose the thread index.</span></div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;    <span class="keywordtype">int</span> c = threadIdx.x % T_c_;</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;    <span class="keywordtype">int</span> w = threadIdx.x / T_c_ % T_w_;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;    <span class="keywordtype">int</span> h = threadIdx.x / T_c_ / T_w_ % T_h_;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;    <span class="comment">// Compute the offset.</span></div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;    <span class="keywordflow">return</span> h * S_h_ + w * S_w_ + c * S_c_;</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;  }</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;};</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> T_h_, <span class="keywordtype">int</span> T_w_, <span class="keywordtype">int</span> S_h_, <span class="keywordtype">int</span> S_w_&gt;</div><div class="line"><a name="l00288"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html">  288</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">ComputeThreadOffsetFromStrides</a>&lt;<a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, T_h_, T_w_, 1&gt;, <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, S_h_, S_w_, 1&gt; &gt; {</div><div class="line"><a name="l00289"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html#a6e621f5fae2ba29277fde46be1cede24">  289</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>() {</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;    <span class="comment">// Decompose the thread index.</span></div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;    <span class="keywordtype">int</span> w = threadIdx.x % T_w_;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;    <span class="keywordtype">int</span> h = threadIdx.x / T_w_;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;    <span class="comment">// Compute the offset.</span></div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;    <span class="keywordflow">return</span> h * S_h_ + w * S_w_;</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;  }</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;};</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1ComputeThreadOffsetFromStrides_html"><div class="ttname"><a href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">cutlass::ComputeThreadOffsetFromStrides</a></div><div class="ttdoc">Decompose threadId.x into coordinate of a cube whose dimensions are specified by Threads_. Afterwards compute the offset of those coordinates using Strides_. </div><div class="ttdef"><b>Definition:</b> shape.h:252</div></div>
+<a href="shape_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kD_ = 1, <span class="keywordtype">int</span> kH_ = 1, <span class="keywordtype">int</span> kW_ = 1, <span class="keywordtype">int</span> kC_ = 1&gt;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1Shape.html">   64</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Shape.html">Shape</a> {</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">   66</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">kD</a> = kD_;</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">   68</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">kH</a> = kH_;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">   70</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">kW</a> = kW_;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">   72</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">kC</a> = kC_;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;};</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Shape&gt;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html">   79</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount</a> {</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#aac5c49469aa80d119c2006291b431276">   81</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#aac5c49469aa80d119c2006291b431276">kWc</a> = <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Shape::kW</a> * <a class="code" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">Shape::kC</a>;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f">   83</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f">kHw</a> = <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Shape::kH</a> * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Shape::kW</a>;</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#a75324e2c9d31a0787343fc994586b742">   85</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#a75324e2c9d31a0787343fc994586b742">kHwc</a> = <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Shape::kH</a> * <a class="code" href="structcutlass_1_1ShapeCount.html#aac5c49469aa80d119c2006291b431276">kWc</a>;</div><div class="line"><a name="l00087"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#af7d7ccd42de2c49fe57f03cf0e657fe8">   87</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#af7d7ccd42de2c49fe57f03cf0e657fe8">kDhw</a> = <a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Shape::kD</a> * <a class="code" href="structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f">kHw</a>;</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#a5a274564d6b8607a0be621b2664fba18">   89</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#a5a274564d6b8607a0be621b2664fba18">kDhwc</a> = <a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Shape::kD</a> * <a class="code" href="structcutlass_1_1ShapeCount.html#a75324e2c9d31a0787343fc994586b742">kHwc</a>;</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">   91</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">kCount</a> = <a class="code" href="structcutlass_1_1ShapeCount.html#a5a274564d6b8607a0be621b2664fba18">kDhwc</a>;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;};</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keywordtype">int</span> kScale_&gt;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeScale.html">   97</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeScale.html">ShapeScale</a> {</div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29">   98</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29">Shape&lt;A_::kD * kScale_, A_::kH * kScale_, A_::kW * kScale_, A_::kC * kScale_&gt;</a> <a class="code" href="structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29">Shape</a>;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;};</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeAdd.html">  104</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeAdd.html">ShapeAdd</a> {</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71">  105</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71">Shape&lt;A_::kD + B_::kD, A_::kH + B_::kH, A_::kW + B_::kW, A_::kC + B_::kC&gt;</a> <a class="code" href="structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71">Shape</a>;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;};</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeSub.html">  111</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeSub.html">ShapeSub</a> {</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9">  112</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9">Shape</a>&lt;A_::kD - B_::kD, A_::kH - B_::kH, A_::kW - B_::kW, A_::kC - B_::kC&gt; <a class="code" href="structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9">Shape</a>;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;};</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00118"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMul.html">  118</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeMul.html">ShapeMul</a> {</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">  119</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">Shape&lt;A_::kD * B_::kD, A_::kH * B_::kH, A_::kW * B_::kW, A_::kC * B_::kC&gt;</a> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">Shape</a>;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;};</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeDiv.html">  125</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a> {</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">  126</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">Shape</a>&lt;A_::kD / B_::kD, A_::kH / B_::kH, A_::kW / B_::kW, A_::kC / B_::kC&gt; <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">Shape</a>;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;};</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00132"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeDivCeiling.html">  132</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeDivCeiling.html">ShapeDivCeiling</a> {</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">Shape</a>&lt;(A_::kD + B_::kD - 1) / B_::kD,</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;                (A_::kH + B_::kH - 1) / B_::kH,</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;                (A_::kW + B_::kW - 1) / B_::kW,</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;                (A_::kC + B_::kC - 1) / B_::kC&gt;</div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">  137</a></span>&#160;      <a class="code" href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">Shape</a>;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;};</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMax.html">  143</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeMax.html">ShapeMax</a> {</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961">Shape&lt;(A_::kD &gt;</a> B_::kD ? A_::kD : B_::kD),</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;                (A_::kH &gt; B_::kH ? A_::kH : B_::kH),</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;                (A_::kW &gt; B_::kW ? A_::kW : B_::kW),</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;                (A_::kC &gt; B_::kC ? A_::kC : B_::kC)&gt;</div><div class="line"><a name="l00148"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961">  148</a></span>&#160;      <a class="code" href="structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961">Shape</a>;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;};</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> A_, <span class="keyword">typename</span> B_&gt;</div><div class="line"><a name="l00154"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMin.html">  154</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeMin.html">ShapeMin</a> {</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">Shape</a>&lt;(A_::kD &lt; B_::kD ? A_::kD : B_::kD),</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;                (A_::kH &lt; B_::kH ? A_::kH : B_::kH),</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;                (A_::kW &lt; B_::kW ? A_::kW : B_::kW),</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;                (A_::kC &lt; B_::kC ? A_::kC : B_::kC)&gt;</div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">  159</a></span>&#160;      <a class="code" href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">Shape</a>;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;};</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Shape_, <span class="keywordtype">int</span> elementsPerAccess&gt;</div><div class="line"><a name="l00165"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeStrides.html">  165</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a> {</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">Shape</a>&lt;Shape_::kH * Shape_::kW * Shape_::kC,</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;                Shape_::kW * Shape_::kC,</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;                Shape_::kC,</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;                elementsPerAccess&gt;</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">  170</a></span>&#160;      <a class="code" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">Shape</a>;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;};</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Shape_&gt;</div><div class="line"><a name="l00180"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromShape.html">  180</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeOffsetFromShape.html">ComputeOffsetFromShape</a> {</div><div class="line"><a name="l00181"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">  181</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <span class="keyword">get</span>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) {</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    <span class="comment">// clang-format off</span></div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    <span class="keywordflow">return</span> d * Shape_::kH * Shape_::kW * Shape_::kC +</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;           h * Shape_::kW * Shape_::kC +</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;           w * Shape_::kC +</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;           c;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    <span class="comment">// clang-format on</span></div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;  }</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;};</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Str<span class="keywordtype">id</span>es_&gt;</div><div class="line"><a name="l00198"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromStrides.html">  198</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html">ComputeOffsetFromStrides</a> {</div><div class="line"><a name="l00199"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">  199</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <span class="keyword">get</span>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) {</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;    <span class="keywordflow">return</span> d * Strides_::kD + h * Strides_::kH + w * Strides_::kW + c * Strides_::kC;</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;  }</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;};</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Threads_, <span class="keyword">typename</span> Str<span class="keywordtype">id</span>es_&gt;</div><div class="line"><a name="l00213"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">  213</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">ComputeThreadOffsetFromStrides</a> {</div><div class="line"><a name="l00214"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">  214</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>() {</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;    <span class="comment">// Decompose the thread index.</span></div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;    <span class="keywordtype">int</span> c = threadIdx.x % Threads_::kC;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;    <span class="keywordtype">int</span> w = threadIdx.x / Threads_::kC % Threads_::kW;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;    <span class="keywordtype">int</span> h = threadIdx.x / Threads_::kC / Threads_::kW % Threads_::kH;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;    <span class="keywordtype">int</span> d = threadIdx.x / Threads_::kC / Threads_::kW / Threads_::kH;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;    <span class="comment">// Compute the offset.</span></div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;    <span class="keywordflow">return</span> d * Strides_::kD + h * Strides_::kH + w * Strides_::kW + c * Strides_::kC;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;  }</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;};</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> T_h_, <span class="keywordtype">int</span> T_w_, <span class="keywordtype">int</span> T_c_, <span class="keywordtype">int</span> S_h_, <span class="keywordtype">int</span> S_w_, <span class="keywordtype">int</span> S_c_&gt;</div><div class="line"><a name="l00231"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html">  231</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">ComputeThreadOffsetFromStrides</a>&lt;<a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, T_h_, T_w_, T_c_&gt;, <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, S_h_, S_w_, S_c_&gt; &gt; {</div><div class="line"><a name="l00232"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html#a5d446b2663c01362361e09435a726996">  232</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>() {</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;    <span class="comment">// Decompose the thread index.</span></div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;    <span class="keywordtype">int</span> c = threadIdx.x % T_c_;</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;    <span class="keywordtype">int</span> w = threadIdx.x / T_c_ % T_w_;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;    <span class="keywordtype">int</span> h = threadIdx.x / T_c_ / T_w_ % T_h_;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <span class="comment">// Compute the offset.</span></div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;    <span class="keywordflow">return</span> h * S_h_ + w * S_w_ + c * S_c_;</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;  }</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;};</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> T_h_, <span class="keywordtype">int</span> T_w_, <span class="keywordtype">int</span> S_h_, <span class="keywordtype">int</span> S_w_&gt;</div><div class="line"><a name="l00249"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html">  249</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">ComputeThreadOffsetFromStrides</a>&lt;<a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, T_h_, T_w_, 1&gt;, <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, S_h_, S_w_, 1&gt; &gt; {</div><div class="line"><a name="l00250"></a><span class="lineno"><a class="line" href="structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html#a6e621f5fae2ba29277fde46be1cede24">  250</a></span>&#160;  <span class="keyword">static</span> CUTLASS_DEVICE <span class="keywordtype">int</span> <span class="keyword">get</span>() {</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;    <span class="comment">// Decompose the thread index.</span></div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;    <span class="keywordtype">int</span> w = threadIdx.x % T_w_;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;    <span class="keywordtype">int</span> h = threadIdx.x / T_w_;</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;    <span class="comment">// Compute the offset.</span></div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;    <span class="keywordflow">return</span> h * S_h_ + w * S_w_;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;  }</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;};</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1ComputeThreadOffsetFromStrides_html"><div class="ttname"><a href="structcutlass_1_1ComputeThreadOffsetFromStrides.html">cutlass::ComputeThreadOffsetFromStrides</a></div><div class="ttdoc">Decompose threadId.x into coordinate of a cube whose dimensions are specified by Threads_. Afterwards compute the offset of those coordinates using Strides_. </div><div class="ttdef"><b>Definition:</b> shape.h:213</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html_aac5c49469aa80d119c2006291b431276"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html#aac5c49469aa80d119c2006291b431276">cutlass::ShapeCount::kWc</a></div><div class="ttdeci">static int const kWc</div><div class="ttdoc">The number of elements per row. </div><div class="ttdef"><b>Definition:</b> shape.h:81</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeStrides_html_a76cde4c3ebd1d191e0191826b2663be4"><div class="ttname"><a href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">cutlass::ShapeStrides::Shape</a></div><div class="ttdeci">Shape&lt; Shape_::kH *Shape_::kW *Shape_::kC, Shape_::kW *Shape_::kC, Shape_::kC, elementsPerAccess &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:170</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeAdd_html_ad4712a1339445038949445de1dd74e71"><div class="ttname"><a href="structcutlass_1_1ShapeAdd.html#ad4712a1339445038949445de1dd74e71">cutlass::ShapeAdd::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD+B_::kD, A_::kH+B_::kH, A_::kW+B_::kW, A_::kC+B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:105</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeDivCeiling_html_a0e3b032e241a8ead89e1d9ffb472d799"><div class="ttname"><a href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">cutlass::ShapeDivCeiling::Shape</a></div><div class="ttdeci">Shape&lt;(A_::kD+B_::kD - 1)/B_::kD,(A_::kH+B_::kH - 1)/B_::kH,(A_::kW+B_::kW - 1)/B_::kW,(A_::kC+B_::kC - 1)/B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:137</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeScale_html_aae9cfc35c517cd89018e4f914acbac29"><div class="ttname"><a href="structcutlass_1_1ShapeScale.html#aae9cfc35c517cd89018e4f914acbac29">cutlass::ShapeScale::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD *kScale_, A_::kH *kScale_, A_::kW *kScale_, A_::kC *kScale_ &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:98</div></div>
-<div class="ttc" id="structcutlass_1_1ShapeStrides_html_ac6fcda9b8e1782f24c1e6d67cd880a6a"><div class="ttname"><a href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">cutlass::ShapeStrides::Shape</a></div><div class="ttdeci">Shape&lt; Shape_::kH *Shape_::kW *Shape_::kC, Shape_::kW *Shape_::kC, Shape_::kC, 1 &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:155</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeMul_html_a8875fc5e861339f981360ed774e8cc94"><div class="ttname"><a href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">cutlass::ShapeMul::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD *B_::kD, A_::kH *B_::kH, A_::kW *B_::kW, A_::kC *B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:119</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeSub_html_a24b6dd8cb6171b85c4e2f37407f9a5c9"><div class="ttname"><a href="structcutlass_1_1ShapeSub.html#a24b6dd8cb6171b85c4e2f37407f9a5c9">cutlass::ShapeSub::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD - B_::kD, A_::kH - B_::kH, A_::kW - B_::kW, A_::kC - B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:112</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeSub_html"><div class="ttname"><a href="structcutlass_1_1ShapeSub.html">cutlass::ShapeSub</a></div><div class="ttdef"><b>Definition:</b> shape.h:111</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a3a20d9062bba613c160bb2cd14f80a5e"><div class="ttname"><a href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">cutlass::Shape::kH</a></div><div class="ttdeci">static int const kH</div><div class="ttdoc">The height of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:68</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a3f2433fd6401dd28f1130499f9fd340c"><div class="ttname"><a href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">cutlass::Shape::kC</a></div><div class="ttdeci">static int const kC</div><div class="ttdoc">The number of scalars per element. </div><div class="ttdef"><b>Definition:</b> shape.h:72</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeScale_html"><div class="ttname"><a href="structcutlass_1_1ShapeScale.html">cutlass::ShapeScale</a></div><div class="ttdef"><b>Definition:</b> shape.h:97</div></div>
-<div class="ttc" id="structcutlass_1_1ComputeOffsetFromShape_html"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromShape.html">cutlass::ComputeOffsetFromShape</a></div><div class="ttdoc">Compute the offset for the given coordinates in a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:165</div></div>
+<div class="ttc" id="structcutlass_1_1ComputeOffsetFromShape_html"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromShape.html">cutlass::ComputeOffsetFromShape</a></div><div class="ttdoc">Compute the offset for the given coordinates in a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:180</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeDiv_html_a108ded386ef6708afc6fe769a77a234b"><div class="ttname"><a href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">cutlass::ShapeDiv::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD/B_::kD, A_::kH/B_::kH, A_::kW/B_::kW, A_::kC/B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:126</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html_af7d7ccd42de2c49fe57f03cf0e657fe8"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html#af7d7ccd42de2c49fe57f03cf0e657fe8">cutlass::ShapeCount::kDhw</a></div><div class="ttdeci">static int const kDhw</div><div class="ttdoc">The number of pixels per cube. </div><div class="ttdef"><b>Definition:</b> shape.h:87</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeMul_html"><div class="ttname"><a href="structcutlass_1_1ShapeMul.html">cutlass::ShapeMul</a></div><div class="ttdef"><b>Definition:</b> shape.h:118</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeDiv_html"><div class="ttname"><a href="structcutlass_1_1ShapeDiv.html">cutlass::ShapeDiv</a></div><div class="ttdef"><b>Definition:</b> shape.h:125</div></div>
-<div class="ttc" id="structcutlass_1_1ComputeOffsetFromStrides_html"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromStrides.html">cutlass::ComputeOffsetFromStrides</a></div><div class="ttdoc">Compute the offset for the given coordinates in a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:210</div></div>
+<div class="ttc" id="structcutlass_1_1ComputeOffsetFromStrides_html"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromStrides.html">cutlass::ComputeOffsetFromStrides</a></div><div class="ttdoc">Compute the offset for the given coordinates in a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:198</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeDivCeiling_html"><div class="ttname"><a href="structcutlass_1_1ShapeDivCeiling.html">cutlass::ShapeDivCeiling</a></div><div class="ttdef"><b>Definition:</b> shape.h:132</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1ShapeMax_html"><div class="ttname"><a href="structcutlass_1_1ShapeMax.html">cutlass::ShapeMax</a></div><div class="ttdef"><b>Definition:</b> shape.h:132</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeMax_html"><div class="ttname"><a href="structcutlass_1_1ShapeMax.html">cutlass::ShapeMax</a></div><div class="ttdef"><b>Definition:</b> shape.h:143</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeAdd_html"><div class="ttname"><a href="structcutlass_1_1ShapeAdd.html">cutlass::ShapeAdd</a></div><div class="ttdef"><b>Definition:</b> shape.h:104</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html_a8d25b48b3294b5563f89c62a6e6d00e5"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">cutlass::ShapeCount::kCount</a></div><div class="ttdeci">static int const kCount</div><div class="ttdoc">The number of elements in the 4D space. </div><div class="ttdef"><b>Definition:</b> shape.h:91</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html_a5a274564d6b8607a0be621b2664fba18"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html#a5a274564d6b8607a0be621b2664fba18">cutlass::ShapeCount::kDhwc</a></div><div class="ttdeci">static int const kDhwc</div><div class="ttdoc">The number of elements in the 4D space. </div><div class="ttdef"><b>Definition:</b> shape.h:89</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a78836a20250ff24c25a6622ad818b421"><div class="ttname"><a href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">cutlass::Shape::kW</a></div><div class="ttdeci">static int const kW</div><div class="ttdoc">The width of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1ShapeMin_html"><div class="ttname"><a href="structcutlass_1_1ShapeMin.html">cutlass::ShapeMin</a></div><div class="ttdef"><b>Definition:</b> shape.h:143</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeMin_html"><div class="ttname"><a href="structcutlass_1_1ShapeMin.html">cutlass::ShapeMin</a></div><div class="ttdef"><b>Definition:</b> shape.h:154</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html_afc957be69eb78e4849ba8ab3cc66583f"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html#afc957be69eb78e4849ba8ab3cc66583f">cutlass::ShapeCount::kHw</a></div><div class="ttdeci">static int const kHw</div><div class="ttdoc">The number of pixels per image. </div><div class="ttdef"><b>Definition:</b> shape.h:83</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a19086a5567d6c710ec853e35a7f29c25"><div class="ttname"><a href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">cutlass::Shape::kD</a></div><div class="ttdeci">static int const kD</div><div class="ttdoc">The depth of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:66</div></div>
-<div class="ttc" id="structcutlass_1_1ShapeStrides_html"><div class="ttname"><a href="structcutlass_1_1ShapeStrides.html">cutlass::ShapeStrides</a></div><div class="ttdef"><b>Definition:</b> shape.h:154</div></div>
-<div class="ttc" id="structcutlass_1_1ShapeMax_html_ad566aceac2563024982eeabb78c6c961"><div class="ttname"><a href="structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961">cutlass::ShapeMax::Shape</a></div><div class="ttdeci">Shape&lt;(A_::kD &gt; B_::kD ? A_::kD :B_::kD),(A_::kH &gt; B_::kH ? A_::kH :B_::kH),(A_::kW &gt; B_::kW ? A_::kW :B_::kW),(A_::kC &gt; B_::kC ? A_::kC :B_::kC)&gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:137</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeStrides_html"><div class="ttname"><a href="structcutlass_1_1ShapeStrides.html">cutlass::ShapeStrides</a></div><div class="ttdef"><b>Definition:</b> shape.h:165</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeMax_html_ad566aceac2563024982eeabb78c6c961"><div class="ttname"><a href="structcutlass_1_1ShapeMax.html#ad566aceac2563024982eeabb78c6c961">cutlass::ShapeMax::Shape</a></div><div class="ttdeci">Shape&lt;(A_::kD &gt; B_::kD ? A_::kD :B_::kD),(A_::kH &gt; B_::kH ? A_::kH :B_::kH),(A_::kW &gt; B_::kW ? A_::kW :B_::kW),(A_::kC &gt; B_::kC ? A_::kC :B_::kC)&gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:148</div></div>
 <div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
-<div class="ttc" id="structcutlass_1_1ShapeMin_html_a5c813e4c34ea612431d31b36120f8549"><div class="ttname"><a href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">cutlass::ShapeMin::Shape</a></div><div class="ttdeci">Shape&lt;(A_::kD&lt; B_::kD ? A_::kD :B_::kD),(A_::kH&lt; B_::kH ? A_::kH :B_::kH),(A_::kW&lt; B_::kW ? A_::kW :B_::kW),(A_::kC&lt; B_::kC ? A_::kC :B_::kC)&gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:148</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeMin_html_a5c813e4c34ea612431d31b36120f8549"><div class="ttname"><a href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">cutlass::ShapeMin::Shape</a></div><div class="ttdeci">Shape&lt;(A_::kD&lt; B_::kD ? A_::kD :B_::kD),(A_::kH&lt; B_::kH ? A_::kH :B_::kH),(A_::kW&lt; B_::kW ? A_::kW :B_::kW),(A_::kC&lt; B_::kC ? A_::kC :B_::kC)&gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:159</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html">cutlass::ShapeCount</a></div><div class="ttdoc">Compute derived counted of a Layout Concept based class. </div><div class="ttdef"><b>Definition:</b> shape.h:79</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html_a75324e2c9d31a0787343fc994586b742"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html#a75324e2c9d31a0787343fc994586b742">cutlass::ShapeCount::kHwc</a></div><div class="ttdeci">static int const kHwc</div><div class="ttdoc">The number of elements per image. </div><div class="ttdef"><b>Definition:</b> shape.h:85</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structDebugType.html b/docs/structDebugType.html
new file mode 100644
index 0000000000..20491d0eda
--- /dev/null
+++ b/docs/structDebugType.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: DebugType&lt; T &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">DebugType&lt; T &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="cutlass_8h_source.html">cutlass.h</a>&gt;</code></p>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="cutlass_8h_source.html">cutlass.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structDebugValue.html b/docs/structDebugValue.html
new file mode 100644
index 0000000000..1d8cedbfc2
--- /dev/null
+++ b/docs/structDebugValue.html
@@ -0,0 +1,88 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: DebugValue&lt; Value &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">DebugValue&lt; Value &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="cutlass_8h_source.html">cutlass.h</a>&gt;</code></p>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="cutlass_8h_source.html">cutlass.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1AlignedStruct.html b/docs/structcutlass_1_1AlignedStruct.html
index b7df247dea..44eed3488e 100644
--- a/docs/structcutlass_1_1AlignedStruct.html
+++ b/docs/structcutlass_1_1AlignedStruct.html
@@ -93,7 +93,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ComputeOffsetFromShape-members.html b/docs/structcutlass_1_1ComputeOffsetFromShape-members.html
index c31427b5d7..831824c107 100644
--- a/docs/structcutlass_1_1ComputeOffsetFromShape-members.html
+++ b/docs/structcutlass_1_1ComputeOffsetFromShape-members.html
@@ -79,11 +79,11 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html">cutlass::ComputeOffsetFromShape&lt; Shape_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">get</a>(int d, int h, int w, int c)</td><td class="entry"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html">cutlass::ComputeOffsetFromShape&lt; Shape_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">get</a>(int d, int h, int w, int c)</td><td class="entry"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html">cutlass::ComputeOffsetFromShape&lt; Shape_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ComputeOffsetFromShape.html b/docs/structcutlass_1_1ComputeOffsetFromShape.html
index 709f76ee48..0bc8b42383 100644
--- a/docs/structcutlass_1_1ComputeOffsetFromShape.html
+++ b/docs/structcutlass_1_1ComputeOffsetFromShape.html
@@ -87,8 +87,8 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
 Static Public Member Functions</h2></td></tr>
-<tr class="memitem:a3c6f60a59178ffb84899aa449bd51d38"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html#a3c6f60a59178ffb84899aa449bd51d38">get</a> (int d, int h, int w, int c)</td></tr>
-<tr class="separator:a3c6f60a59178ffb84899aa449bd51d38"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7bc0bc7e03cd974a05d00e98a72ee78b"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html#a7bc0bc7e03cd974a05d00e98a72ee78b">get</a> (int d, int h, int w, int c)</td></tr>
+<tr class="separator:a7bc0bc7e03cd974a05d00e98a72ee78b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
 <div class="textblock"><h3>template&lt;typename Shape_&gt;<br />
@@ -101,8 +101,8 @@
   </dd>
 </dl>
 </div><h2 class="groupheader">Member Function Documentation</h2>
-<a id="a3c6f60a59178ffb84899aa449bd51d38"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3c6f60a59178ffb84899aa449bd51d38">&#9670;&nbsp;</a></span>get()</h2>
+<a id="a7bc0bc7e03cd974a05d00e98a72ee78b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7bc0bc7e03cd974a05d00e98a72ee78b">&#9670;&nbsp;</a></span>get()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3c6f60a59178ffb84899aa44
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">static CUTLASS_DEVICE int <a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html">cutlass::ComputeOffsetFromShape</a>&lt; Shape_ &gt;::get </td>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1ComputeOffsetFromShape.html">cutlass::ComputeOffsetFromShape</a>&lt; Shape_ &gt;::get </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
@@ -157,7 +157,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3c6f60a59178ffb84899aa44
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ComputeOffsetFromStrides-members.html b/docs/structcutlass_1_1ComputeOffsetFromStrides-members.html
index 369de9ff61..ea6eabbb30 100644
--- a/docs/structcutlass_1_1ComputeOffsetFromStrides-members.html
+++ b/docs/structcutlass_1_1ComputeOffsetFromStrides-members.html
@@ -79,11 +79,11 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html">cutlass::ComputeOffsetFromStrides&lt; Strides_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">get</a>(int d, int h, int w, int c)</td><td class="entry"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html">cutlass::ComputeOffsetFromStrides&lt; Strides_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">get</a>(int d, int h, int w, int c)</td><td class="entry"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html">cutlass::ComputeOffsetFromStrides&lt; Strides_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ComputeOffsetFromStrides.html b/docs/structcutlass_1_1ComputeOffsetFromStrides.html
index 5c3254d1f4..4ab5b8c8b7 100644
--- a/docs/structcutlass_1_1ComputeOffsetFromStrides.html
+++ b/docs/structcutlass_1_1ComputeOffsetFromStrides.html
@@ -87,8 +87,8 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
 Static Public Member Functions</h2></td></tr>
-<tr class="memitem:af5e46bc2b325cb6952d2d68c8aca1409"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html#af5e46bc2b325cb6952d2d68c8aca1409">get</a> (int d, int h, int w, int c)</td></tr>
-<tr class="separator:af5e46bc2b325cb6952d2d68c8aca1409"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa28231590bfa0ced0f317e6a4d52dc1e"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">get</a> (int d, int h, int w, int c)</td></tr>
+<tr class="separator:aa28231590bfa0ced0f317e6a4d52dc1e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
 <div class="textblock"><h3>template&lt;typename Strides_&gt;<br />
@@ -101,8 +101,8 @@
   </dd>
 </dl>
 </div><h2 class="groupheader">Member Function Documentation</h2>
-<a id="af5e46bc2b325cb6952d2d68c8aca1409"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af5e46bc2b325cb6952d2d68c8aca1409">&#9670;&nbsp;</a></span>get()</h2>
+<a id="aa28231590bfa0ced0f317e6a4d52dc1e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa28231590bfa0ced0f317e6a4d52dc1e">&#9670;&nbsp;</a></span>get()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af5e46bc2b325cb6952d2d68c
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">static CUTLASS_DEVICE int <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html">cutlass::ComputeOffsetFromStrides</a>&lt; Strides_ &gt;::get </td>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1ComputeOffsetFromStrides.html">cutlass::ComputeOffsetFromStrides</a>&lt; Strides_ &gt;::get </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
@@ -157,7 +157,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af5e46bc2b325cb6952d2d68c
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides-members.html b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides-members.html
index 104116b7dc..935079e981 100644
--- a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides-members.html
+++ b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides.html b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides.html
index d434e920fc..783481f49e 100644
--- a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides.html
+++ b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides.html
@@ -135,7 +135,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1744bfe277cbe0c642cce4a4
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_03ed682791cf043da79a7cc93228a8c85.html b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_03ed682791cf043da79a7cc93228a8c85.html
index be0dd1975f..eda304dfeb 100644
--- a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_03ed682791cf043da79a7cc93228a8c85.html
+++ b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_03ed682791cf043da79a7cc93228a8c85.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html
index 55392ee2d8..1f99dd6fdc 100644
--- a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html
+++ b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_011_0e75281d7e02fa191f5d498e10e25dc1b.html
@@ -124,7 +124,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6e621f5fae2ba29277fde46b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html
index 7a2a0294f5..60bbf6ae2e 100644
--- a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html
+++ b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__dd54c41f6edb97d3c208cb7c6fe4ab9b.html
@@ -124,7 +124,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5d446b2663c01362361e0943
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__f2e6d84a53db391977c787a65ed62aca.html b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__f2e6d84a53db391977c787a65ed62aca.html
index 80afb2f90c..6ed4a5e971 100644
--- a/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__f2e6d84a53db391977c787a65ed62aca.html
+++ b/docs/structcutlass_1_1ComputeThreadOffsetFromStrides_3_01Shape_3_011_00_01T__h___00_01T__w___00_01T__f2e6d84a53db391977c787a65ed62aca.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ConstPredicateTileAdapter-members.html b/docs/structcutlass_1_1ConstPredicateTileAdapter-members.html
index 12404785c2..95313d92c2 100644
--- a/docs/structcutlass_1_1ConstPredicateTileAdapter-members.html
+++ b/docs/structcutlass_1_1ConstPredicateTileAdapter-members.html
@@ -86,7 +86,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ConstPredicateTileAdapter.html b/docs/structcutlass_1_1ConstPredicateTileAdapter.html
index 6e00d30bee..80e8be3eed 100644
--- a/docs/structcutlass_1_1ConstPredicateTileAdapter.html
+++ b/docs/structcutlass_1_1ConstPredicateTileAdapter.html
@@ -223,7 +223,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9e5651009a7b8df9960527c1
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Convert.html b/docs/structcutlass_1_1Convert.html
index 5b2e67b918..da9ae6fd61 100644
--- a/docs/structcutlass_1_1Convert.html
+++ b/docs/structcutlass_1_1Convert.html
@@ -84,7 +84,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ob568b5e19b6f78a5fa50d1f821f0bc2a.html b/docs/structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ob568b5e19b6f78a5fa50d1f821f0bc2a.html
index 559a16fc54..a1f22df50c 100644
--- a/docs/structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ob568b5e19b6f78a5fa50d1f821f0bc2a.html
+++ b/docs/structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ob568b5e19b6f78a5fa50d1f821f0bc2a.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html b/docs/structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html
index daf9a756fb..b86bde6617 100644
--- a/docs/structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html
+++ b/docs/structcutlass_1_1Convert_3_01Fragment_3_01InputScalar___00_01kScalars___01_4_00_01Fragment_3_01Ofca5985d18bcb54bc1f49355f3cee121.html
@@ -257,7 +257,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa9fe67c947bf461ba3e3ca48
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Coord-members.html b/docs/structcutlass_1_1Coord-members.html
index a8348bb187..095b79b9d4 100644
--- a/docs/structcutlass_1_1Coord-members.html
+++ b/docs/structcutlass_1_1Coord-members.html
@@ -73,40 +73,48 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::Coord&lt; N_ &gt; Member List</div>  </div>
+<div class="title">cutlass::Coord&lt; Rank_, Index_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">at</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ab511a16210d1b94449f5bc6476f6a266">at</a>(int dim)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#af9cc7ab2088544d1240ac51c4c6e685d">at</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#aed4f4d1c7c0749fe72736d7a1213b6e9">at</a>(int dim) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e">clamp</a>(Coord&lt; N &gt; const &amp;max, Coord&lt; N &gt; const &amp;min=Coord&lt; N &gt;())</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9cbfff91f0b0d0a149534c97e3d6e69b">Coord</a>(int value=0)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a53a3d88a884f6cb7fda8aedfe2cec2c5">Coord</a>(int _idx[])</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a40429a9154f7a142ad7e9eb35282d196">count</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ad4b3704d14057c043f972827671115cf">dot</a>(Coord const &amp;b, T sum) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ae023c0c664c22a978e9b9ce5e063aae4">dot</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a7fb46873e8f3cf38212703d35bd36995">operator!=</a>(Coord&lt; N &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a8e4f7df55a75d040cf50cf9984c04c8a">operator*</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a282b6cc9ac8b2f72720c252791155aad">operator*=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a3dfc4ce4191097b6c3268696f2a45ef5">operator+</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#aeb209486943fa9d42911325b16e49e09">operator+=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#acc510511ffb52bed7f6a52f14b99750d">operator-</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac1795ec2a5890d8a39840567a4bea88e">operator-=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a87f485be079fa68bcf576da4d56f0ece">operator/</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#abe91e59962ef0d73aec9c14824f64ecc">operator/=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#acfa94aabd0c9a71ee994ca479d5f515f">operator==</a>(Coord&lt; N &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ab7fc89de3ccd7096ab275fb5dd40104c">operator[]</a>(int dim)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6eeab0a1686ee25389e1bd017c5f03ae">operator[]</a>(int dim) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; N_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">at</a>(int dim)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">at</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">at</a>(int dim) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">clamp</a>(Coord&lt; kRank &gt; const &amp;max, Coord&lt; kRank &gt; const &amp;min=Coord&lt; kRank &gt;())</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">Coord</a>(Index value=0)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">Coord</a>(Index _idx[])</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">Coord</a>(Coord&lt; kRank &gt; const &amp;coord)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">count</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">dot</a>(Coord const &amp;b, T sum) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">dot</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">N</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">operator bool</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">operator!</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">operator!=</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">operator*</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">operator*=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">operator+</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">operator+=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">operator-</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">operator-=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">operator/</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">operator/=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">operator&lt;</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">operator&lt;=</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">operator==</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">operator[]</a>(int dim)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">operator[]</a>(int dim) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a>(int start=0, Index identity=0) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Coord.html b/docs/structcutlass_1_1Coord.html
index 18094b37b5..63fa2f7195 100644
--- a/docs/structcutlass_1_1Coord.html
+++ b/docs/structcutlass_1_1Coord.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::Coord&lt; N_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::Coord&lt; Rank_, Index_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -73,12 +73,13 @@
 </div><!-- top -->
 <div class="header">
   <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
 <a href="#pub-methods">Public Member Functions</a> &#124;
 <a href="#pub-attribs">Public Attributes</a> &#124;
 <a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="structcutlass_1_1Coord-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::Coord&lt; N_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::Coord&lt; Rank_, Index_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -87,106 +88,151 @@
 
 <p><code>#include &lt;<a class="el" href="coord_8h_source.html">coord.h</a>&gt;</code></p>
 <table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a7c73966e94b4f45854f16e33683bc02c"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a></td></tr>
+<tr class="memdesc:a7c73966e94b4f45854f16e33683bc02c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type used to store elements.  <a href="#a7c73966e94b4f45854f16e33683bc02c">More...</a><br /></td></tr>
+<tr class="separator:a7c73966e94b4f45854f16e33683bc02c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a9cbfff91f0b0d0a149534c97e3d6e69b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9cbfff91f0b0d0a149534c97e3d6e69b">Coord</a> (int value=0)</td></tr>
-<tr class="memdesc:a9cbfff91f0b0d0a149534c97e3d6e69b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor initializes uniformly.  <a href="#a9cbfff91f0b0d0a149534c97e3d6e69b">More...</a><br /></td></tr>
-<tr class="separator:a9cbfff91f0b0d0a149534c97e3d6e69b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a53a3d88a884f6cb7fda8aedfe2cec2c5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a53a3d88a884f6cb7fda8aedfe2cec2c5">Coord</a> (int _idx[])</td></tr>
-<tr class="memdesc:a53a3d88a884f6cb7fda8aedfe2cec2c5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of integers.  <a href="#a53a3d88a884f6cb7fda8aedfe2cec2c5">More...</a><br /></td></tr>
-<tr class="separator:a53a3d88a884f6cb7fda8aedfe2cec2c5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3dfc4ce4191097b6c3268696f2a45ef5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a3dfc4ce4191097b6c3268696f2a45ef5">operator+</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
-<tr class="memdesc:a3dfc4ce4191097b6c3268696f2a45ef5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise addition.  <a href="#a3dfc4ce4191097b6c3268696f2a45ef5">More...</a><br /></td></tr>
-<tr class="separator:a3dfc4ce4191097b6c3268696f2a45ef5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:acc510511ffb52bed7f6a52f14b99750d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#acc510511ffb52bed7f6a52f14b99750d">operator-</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
-<tr class="memdesc:acc510511ffb52bed7f6a52f14b99750d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise subtraction.  <a href="#acc510511ffb52bed7f6a52f14b99750d">More...</a><br /></td></tr>
-<tr class="separator:acc510511ffb52bed7f6a52f14b99750d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8e4f7df55a75d040cf50cf9984c04c8a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a8e4f7df55a75d040cf50cf9984c04c8a">operator*</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
-<tr class="memdesc:a8e4f7df55a75d040cf50cf9984c04c8a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise multiplication.  <a href="#a8e4f7df55a75d040cf50cf9984c04c8a">More...</a><br /></td></tr>
-<tr class="separator:a8e4f7df55a75d040cf50cf9984c04c8a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a87f485be079fa68bcf576da4d56f0ece"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a87f485be079fa68bcf576da4d56f0ece">operator/</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
-<tr class="memdesc:a87f485be079fa68bcf576da4d56f0ece"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise division.  <a href="#a87f485be079fa68bcf576da4d56f0ece">More...</a><br /></td></tr>
-<tr class="separator:a87f485be079fa68bcf576da4d56f0ece"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aeb209486943fa9d42911325b16e49e09"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#aeb209486943fa9d42911325b16e49e09">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
-<tr class="memdesc:aeb209486943fa9d42911325b16e49e09"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place addition.  <a href="#aeb209486943fa9d42911325b16e49e09">More...</a><br /></td></tr>
-<tr class="separator:aeb209486943fa9d42911325b16e49e09"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac1795ec2a5890d8a39840567a4bea88e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac1795ec2a5890d8a39840567a4bea88e">operator-=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
-<tr class="memdesc:ac1795ec2a5890d8a39840567a4bea88e"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place subtraction.  <a href="#ac1795ec2a5890d8a39840567a4bea88e">More...</a><br /></td></tr>
-<tr class="separator:ac1795ec2a5890d8a39840567a4bea88e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a282b6cc9ac8b2f72720c252791155aad"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a282b6cc9ac8b2f72720c252791155aad">operator*=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
-<tr class="memdesc:a282b6cc9ac8b2f72720c252791155aad"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place multiplication.  <a href="#a282b6cc9ac8b2f72720c252791155aad">More...</a><br /></td></tr>
-<tr class="separator:a282b6cc9ac8b2f72720c252791155aad"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abe91e59962ef0d73aec9c14824f64ecc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#abe91e59962ef0d73aec9c14824f64ecc">operator/=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
-<tr class="memdesc:abe91e59962ef0d73aec9c14824f64ecc"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place division.  <a href="#abe91e59962ef0d73aec9c14824f64ecc">More...</a><br /></td></tr>
-<tr class="separator:abe91e59962ef0d73aec9c14824f64ecc"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab7fc89de3ccd7096ab275fb5dd40104c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ab7fc89de3ccd7096ab275fb5dd40104c">operator[]</a> (int dim)</td></tr>
-<tr class="memdesc:ab7fc89de3ccd7096ab275fb5dd40104c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Member access operator.  <a href="#ab7fc89de3ccd7096ab275fb5dd40104c">More...</a><br /></td></tr>
-<tr class="separator:ab7fc89de3ccd7096ab275fb5dd40104c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6eeab0a1686ee25389e1bd017c5f03ae"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6eeab0a1686ee25389e1bd017c5f03ae">operator[]</a> (int dim) const</td></tr>
-<tr class="memdesc:a6eeab0a1686ee25389e1bd017c5f03ae"><td class="mdescLeft">&#160;</td><td class="mdescRight">Member access operator.  <a href="#a6eeab0a1686ee25389e1bd017c5f03ae">More...</a><br /></td></tr>
-<tr class="separator:a6eeab0a1686ee25389e1bd017c5f03ae"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad4b3704d14057c043f972827671115cf"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
-<tr class="memitem:ad4b3704d14057c043f972827671115cf"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ad4b3704d14057c043f972827671115cf">dot</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b, T sum) const</td></tr>
-<tr class="memdesc:ad4b3704d14057c043f972827671115cf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the dot product of two <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> instances.  <a href="#ad4b3704d14057c043f972827671115cf">More...</a><br /></td></tr>
-<tr class="separator:ad4b3704d14057c043f972827671115cf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae023c0c664c22a978e9b9ce5e063aae4"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
-<tr class="memitem:ae023c0c664c22a978e9b9ce5e063aae4"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ae023c0c664c22a978e9b9ce5e063aae4">dot</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
-<tr class="memdesc:ae023c0c664c22a978e9b9ce5e063aae4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the dot product of two <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> instances.  <a href="#ae023c0c664c22a978e9b9ce5e063aae4">More...</a><br /></td></tr>
-<tr class="separator:ae023c0c664c22a978e9b9ce5e063aae4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad10b59430927a354fcd874d2d32f1bd8"><td class="memTemplParams" colspan="2">template&lt;int Dim&gt; </td></tr>
-<tr class="memitem:ad10b59430927a354fcd874d2d32f1bd8"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">at</a> ()</td></tr>
-<tr class="memdesc:ad10b59430927a354fcd874d2d32f1bd8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the index of a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> element.  <a href="#ad10b59430927a354fcd874d2d32f1bd8">More...</a><br /></td></tr>
-<tr class="separator:ad10b59430927a354fcd874d2d32f1bd8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab511a16210d1b94449f5bc6476f6a266"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ab511a16210d1b94449f5bc6476f6a266">at</a> (int dim)</td></tr>
-<tr class="memdesc:ab511a16210d1b94449f5bc6476f6a266"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access via index; may limit unrolling potential.  <a href="#ab511a16210d1b94449f5bc6476f6a266">More...</a><br /></td></tr>
-<tr class="separator:ab511a16210d1b94449f5bc6476f6a266"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af9cc7ab2088544d1240ac51c4c6e685d"><td class="memTemplParams" colspan="2">template&lt;int Dim&gt; </td></tr>
-<tr class="memitem:af9cc7ab2088544d1240ac51c4c6e685d"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const  &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#af9cc7ab2088544d1240ac51c4c6e685d">at</a> () const</td></tr>
-<tr class="memdesc:af9cc7ab2088544d1240ac51c4c6e685d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the index of a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> element.  <a href="#af9cc7ab2088544d1240ac51c4c6e685d">More...</a><br /></td></tr>
-<tr class="separator:af9cc7ab2088544d1240ac51c4c6e685d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aed4f4d1c7c0749fe72736d7a1213b6e9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#aed4f4d1c7c0749fe72736d7a1213b6e9">at</a> (int dim) const</td></tr>
-<tr class="memdesc:aed4f4d1c7c0749fe72736d7a1213b6e9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access via index; may limit unrolling potential.  <a href="#aed4f4d1c7c0749fe72736d7a1213b6e9">More...</a><br /></td></tr>
-<tr class="separator:aed4f4d1c7c0749fe72736d7a1213b6e9"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:acfa94aabd0c9a71ee994ca479d5f515f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#acfa94aabd0c9a71ee994ca479d5f515f">operator==</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> &gt; const &amp;b) const</td></tr>
-<tr class="memdesc:acfa94aabd0c9a71ee994ca479d5f515f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Determines if two Coord&lt;&gt; objects are equal.  <a href="#acfa94aabd0c9a71ee994ca479d5f515f">More...</a><br /></td></tr>
-<tr class="separator:acfa94aabd0c9a71ee994ca479d5f515f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7fb46873e8f3cf38212703d35bd36995"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a7fb46873e8f3cf38212703d35bd36995">operator!=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> &gt; const &amp;b) const</td></tr>
-<tr class="memdesc:a7fb46873e8f3cf38212703d35bd36995"><td class="mdescLeft">&#160;</td><td class="mdescRight">Not equal.  <a href="#a7fb46873e8f3cf38212703d35bd36995">More...</a><br /></td></tr>
-<tr class="separator:a7fb46873e8f3cf38212703d35bd36995"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a482ada6da62f427987c22098796fcf7e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e">clamp</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> &gt; const &amp;max, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> &gt; const &amp;min=<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> &gt;())</td></tr>
-<tr class="memdesc:a482ada6da62f427987c22098796fcf7e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clamps a coordinate to a range specified by maximum and minimum values.  <a href="#a482ada6da62f427987c22098796fcf7e">More...</a><br /></td></tr>
-<tr class="separator:a482ada6da62f427987c22098796fcf7e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a40429a9154f7a142ad7e9eb35282d196"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a40429a9154f7a142ad7e9eb35282d196">count</a> () const</td></tr>
-<tr class="memdesc:a40429a9154f7a142ad7e9eb35282d196"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the product of all elements.  <a href="#a40429a9154f7a142ad7e9eb35282d196">More...</a><br /></td></tr>
-<tr class="separator:a40429a9154f7a142ad7e9eb35282d196"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a422aa7e2d2bf5dd3a60f65427bc0d7c0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> value=0)</td></tr>
+<tr class="memdesc:a422aa7e2d2bf5dd3a60f65427bc0d7c0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor initializes uniformly.  <a href="#a422aa7e2d2bf5dd3a60f65427bc0d7c0">More...</a><br /></td></tr>
+<tr class="separator:a422aa7e2d2bf5dd3a60f65427bc0d7c0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a63ad1225ab2c51a68add731e994526b4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> _idx[])</td></tr>
+<tr class="memdesc:a63ad1225ab2c51a68add731e994526b4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of integers.  <a href="#a63ad1225ab2c51a68add731e994526b4">More...</a><br /></td></tr>
+<tr class="separator:a63ad1225ab2c51a68add731e994526b4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6110e4cfd090561696a81a8a4068a573"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;coord)</td></tr>
+<tr class="memdesc:a6110e4cfd090561696a81a8a4068a573"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of integers.  <a href="#a6110e4cfd090561696a81a8a4068a573">More...</a><br /></td></tr>
+<tr class="separator:a6110e4cfd090561696a81a8a4068a573"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac8f7a9b0835efc34fd28894b2b45342c"><td class="memTemplParams" colspan="2">template&lt;int Slice&gt; </td></tr>
+<tr class="memitem:ac8f7a9b0835efc34fd28894b2b45342c"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Slice &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a> (int start=0, <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> identity=0) const</td></tr>
+<tr class="separator:ac8f7a9b0835efc34fd28894b2b45342c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1781b3c5a2d653b0c1718ec3154ae48f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">operator bool</a> () const</td></tr>
+<tr class="memdesc:a1781b3c5a2d653b0c1718ec3154ae48f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> is non-zero.  <a href="#a1781b3c5a2d653b0c1718ec3154ae48f">More...</a><br /></td></tr>
+<tr class="separator:a1781b3c5a2d653b0c1718ec3154ae48f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a232095edae2f74c01a3c8abf68166e02"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">operator!</a> () const</td></tr>
+<tr class="memdesc:a232095edae2f74c01a3c8abf68166e02"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> is uniformly zero.  <a href="#a232095edae2f74c01a3c8abf68166e02">More...</a><br /></td></tr>
+<tr class="separator:a232095edae2f74c01a3c8abf68166e02"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37672637771a70910df9aa1a0cffddc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">operator+</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:ab37672637771a70910df9aa1a0cffddc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise addition.  <a href="#ab37672637771a70910df9aa1a0cffddc">More...</a><br /></td></tr>
+<tr class="separator:ab37672637771a70910df9aa1a0cffddc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6b876f61a85a4a4ef3763b6742bfaa6b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">operator-</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a6b876f61a85a4a4ef3763b6742bfaa6b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise subtraction.  <a href="#a6b876f61a85a4a4ef3763b6742bfaa6b">More...</a><br /></td></tr>
+<tr class="separator:a6b876f61a85a4a4ef3763b6742bfaa6b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e94c093f82908ff3dba4f23b5d10033"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">operator*</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a2e94c093f82908ff3dba4f23b5d10033"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise multiplication.  <a href="#a2e94c093f82908ff3dba4f23b5d10033">More...</a><br /></td></tr>
+<tr class="separator:a2e94c093f82908ff3dba4f23b5d10033"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9bb07631f09efc80219413ac8309f568"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">operator/</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a9bb07631f09efc80219413ac8309f568"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise division.  <a href="#a9bb07631f09efc80219413ac8309f568">More...</a><br /></td></tr>
+<tr class="separator:a9bb07631f09efc80219413ac8309f568"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae4f2cb12b84411118cb93e7c4cb88b20"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ae4f2cb12b84411118cb93e7c4cb88b20"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place addition.  <a href="#ae4f2cb12b84411118cb93e7c4cb88b20">More...</a><br /></td></tr>
+<tr class="separator:ae4f2cb12b84411118cb93e7c4cb88b20"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a304334cbcad636d7b058fdc6310f0e6b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">operator-=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a304334cbcad636d7b058fdc6310f0e6b"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place subtraction.  <a href="#a304334cbcad636d7b058fdc6310f0e6b">More...</a><br /></td></tr>
+<tr class="separator:a304334cbcad636d7b058fdc6310f0e6b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad4303b578b72b5cb2a0198375290e168"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">operator*=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ad4303b578b72b5cb2a0198375290e168"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place multiplication.  <a href="#ad4303b578b72b5cb2a0198375290e168">More...</a><br /></td></tr>
+<tr class="separator:ad4303b578b72b5cb2a0198375290e168"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac87199c4c9a4e20aac4eb6e3b9a68f28"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">operator/=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ac87199c4c9a4e20aac4eb6e3b9a68f28"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place division.  <a href="#ac87199c4c9a4e20aac4eb6e3b9a68f28">More...</a><br /></td></tr>
+<tr class="separator:ac87199c4c9a4e20aac4eb6e3b9a68f28"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6e0967541a1d74edeb93897ea6069e24"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">operator[]</a> (int dim)</td></tr>
+<tr class="memdesc:a6e0967541a1d74edeb93897ea6069e24"><td class="mdescLeft">&#160;</td><td class="mdescRight">Member access operator.  <a href="#a6e0967541a1d74edeb93897ea6069e24">More...</a><br /></td></tr>
+<tr class="separator:a6e0967541a1d74edeb93897ea6069e24"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a882e7ac07bbd6983659ef2e574b46454"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">operator[]</a> (int dim) const</td></tr>
+<tr class="memdesc:a882e7ac07bbd6983659ef2e574b46454"><td class="mdescLeft">&#160;</td><td class="mdescRight">Member access operator.  <a href="#a882e7ac07bbd6983659ef2e574b46454">More...</a><br /></td></tr>
+<tr class="separator:a882e7ac07bbd6983659ef2e574b46454"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac8ec94703830ab2c62ee055533ea2184"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:ac8ec94703830ab2c62ee055533ea2184"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">dot</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b, T sum) const</td></tr>
+<tr class="memdesc:ac8ec94703830ab2c62ee055533ea2184"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the dot product of two <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> instances.  <a href="#ac8ec94703830ab2c62ee055533ea2184">More...</a><br /></td></tr>
+<tr class="separator:ac8ec94703830ab2c62ee055533ea2184"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0acc37908acb6b879c37f54ff7ffc93d"><td class="memTemplParams" colspan="2">template&lt;typename T &gt; </td></tr>
+<tr class="memitem:a0acc37908acb6b879c37f54ff7ffc93d"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">dot</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a0acc37908acb6b879c37f54ff7ffc93d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the dot product of two <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> instances.  <a href="#a0acc37908acb6b879c37f54ff7ffc93d">More...</a><br /></td></tr>
+<tr class="separator:a0acc37908acb6b879c37f54ff7ffc93d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9eff24a3b74b68d11839b92324613c93"><td class="memTemplParams" colspan="2">template&lt;int Dim&gt; </td></tr>
+<tr class="memitem:a9eff24a3b74b68d11839b92324613c93"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a> ()</td></tr>
+<tr class="memdesc:a9eff24a3b74b68d11839b92324613c93"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the index of a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> element.  <a href="#a9eff24a3b74b68d11839b92324613c93">More...</a><br /></td></tr>
+<tr class="separator:a9eff24a3b74b68d11839b92324613c93"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa253bf69fc819876a7c7770305f1a694"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">at</a> (int dim)</td></tr>
+<tr class="memdesc:aa253bf69fc819876a7c7770305f1a694"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access via index; may limit unrolling potential.  <a href="#aa253bf69fc819876a7c7770305f1a694">More...</a><br /></td></tr>
+<tr class="separator:aa253bf69fc819876a7c7770305f1a694"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a177adcc2d0fb5e72ebcb523edd24e6fe"><td class="memTemplParams" colspan="2">template&lt;int Dim&gt; </td></tr>
+<tr class="memitem:a177adcc2d0fb5e72ebcb523edd24e6fe"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const  &amp;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">at</a> () const</td></tr>
+<tr class="memdesc:a177adcc2d0fb5e72ebcb523edd24e6fe"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the index of a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> element.  <a href="#a177adcc2d0fb5e72ebcb523edd24e6fe">More...</a><br /></td></tr>
+<tr class="separator:a177adcc2d0fb5e72ebcb523edd24e6fe"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b47b1521820c898b03868627c3f8e46"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">at</a> (int dim) const</td></tr>
+<tr class="memdesc:a9b47b1521820c898b03868627c3f8e46"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access via index; may limit unrolling potential.  <a href="#a9b47b1521820c898b03868627c3f8e46">More...</a><br /></td></tr>
+<tr class="separator:a9b47b1521820c898b03868627c3f8e46"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f919aeb2a895bc040599971400dec8d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">operator==</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a7f919aeb2a895bc040599971400dec8d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Determines if two Coord&lt;&gt; objects are equal.  <a href="#a7f919aeb2a895bc040599971400dec8d">More...</a><br /></td></tr>
+<tr class="separator:a7f919aeb2a895bc040599971400dec8d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a353d847675e5ba2402c407dcd4ae4de3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">operator!=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a353d847675e5ba2402c407dcd4ae4de3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Not equal.  <a href="#a353d847675e5ba2402c407dcd4ae4de3">More...</a><br /></td></tr>
+<tr class="separator:a353d847675e5ba2402c407dcd4ae4de3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a404a3b4e00f59cac71d41fb1bbba38ba"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">clamp</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;max, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;min=<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt;())</td></tr>
+<tr class="memdesc:a404a3b4e00f59cac71d41fb1bbba38ba"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clamps a coordinate to a range specified by maximum and minimum values.  <a href="#a404a3b4e00f59cac71d41fb1bbba38ba">More...</a><br /></td></tr>
+<tr class="separator:a404a3b4e00f59cac71d41fb1bbba38ba"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac0ac5f2aa2cbea3887d126645025e017"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">count</a> () const</td></tr>
+<tr class="memdesc:ac0ac5f2aa2cbea3887d126645025e017"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the product of all elements.  <a href="#ac0ac5f2aa2cbea3887d126645025e017">More...</a><br /></td></tr>
+<tr class="separator:ac0ac5f2aa2cbea3887d126645025e017"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a148851df63840ac63e23b2f170bd1308"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">operator&lt;</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a148851df63840ac63e23b2f170bd1308"><td class="mdescLeft">&#160;</td><td class="mdescRight">Less than operator.  <a href="#a148851df63840ac63e23b2f170bd1308">More...</a><br /></td></tr>
+<tr class="separator:a148851df63840ac63e23b2f170bd1308"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dc9f063be329d475f040afd449d304c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">operator&lt;=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a9dc9f063be329d475f040afd449d304c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Less than or equals operator.  <a href="#a9dc9f063be329d475f040afd449d304c">More...</a><br /></td></tr>
+<tr class="separator:a9dc9f063be329d475f040afd449d304c"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:a50de265129f1db7bdf2f0aefbc6a46bc"><td class="memItemLeft" align="right" valign="top">int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a50de265129f1db7bdf2f0aefbc6a46bc">idx</a> [<a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>]</td></tr>
-<tr class="memdesc:a50de265129f1db7bdf2f0aefbc6a46bc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Indices.  <a href="#a50de265129f1db7bdf2f0aefbc6a46bc">More...</a><br /></td></tr>
-<tr class="separator:a50de265129f1db7bdf2f0aefbc6a46bc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a872e1e0d9cc255fa438c04daaf10ad68"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a> [<a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>]</td></tr>
+<tr class="memdesc:a872e1e0d9cc255fa438c04daaf10ad68"><td class="mdescLeft">&#160;</td><td class="mdescRight">Indices.  <a href="#a872e1e0d9cc255fa438c04daaf10ad68">More...</a><br /></td></tr>
+<tr class="separator:a872e1e0d9cc255fa438c04daaf10ad68"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
-<tr class="memitem:a3f2f5a9d7ef2063456c4d9f7e57e71ca"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> = N_</td></tr>
-<tr class="separator:a3f2f5a9d7ef2063456c4d9f7e57e71ca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a23e1b9a7f5fa8fd4afeadfb85de7c5c3"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> = Rank_</td></tr>
+<tr class="memdesc:a23e1b9a7f5fa8fd4afeadfb85de7c5c3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of elements in <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">More...</a><br /></td></tr>
+<tr class="separator:a23e1b9a7f5fa8fd4afeadfb85de7c5c3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acfd416eafec51e47b42b8b713ba76030"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">N</a> = Rank_</td></tr>
+<tr class="memdesc:acfd416eafec51e47b42b8b713ba76030"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of elements in <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>, aliased for compatibility.  <a href="#acfd416eafec51e47b42b8b713ba76030">More...</a><br /></td></tr>
+<tr class="separator:acfd416eafec51e47b42b8b713ba76030"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a7c73966e94b4f45854f16e33683bc02c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7c73966e94b4f45854f16e33683bc02c">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Rank_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::<a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="a9cbfff91f0b0d0a149534c97e3d6e69b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9cbfff91f0b0d0a149534c97e3d6e69b">&#9670;&nbsp;</a></span>Coord() <span class="overload">[1/2]</span></h2>
+<a id="a422aa7e2d2bf5dd3a60f65427bc0d7c0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a422aa7e2d2bf5dd3a60f65427bc0d7c0">&#9670;&nbsp;</a></span>Coord() <span class="overload">[1/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::<a class="el" href="structcutlass_1_1Coord.html">Coord</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::<a class="el" href="structcutlass_1_1Coord.html">Coord</a> </td>
           <td>(</td>
-          <td class="paramtype">int&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td>
           <td class="paramname"><em>value</em> = <code>0</code></td><td>)</td>
           <td></td>
         </tr>
@@ -200,21 +246,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9cbfff91f0b0d0a149534c97
 
 </div>
 </div>
-<a id="a53a3d88a884f6cb7fda8aedfe2cec2c5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a53a3d88a884f6cb7fda8aedfe2cec2c5">&#9670;&nbsp;</a></span>Coord() <span class="overload">[2/2]</span></h2>
+<a id="a63ad1225ab2c51a68add731e994526b4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a63ad1225ab2c51a68add731e994526b4">&#9670;&nbsp;</a></span>Coord() <span class="overload">[2/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::<a class="el" href="structcutlass_1_1Coord.html">Coord</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::<a class="el" href="structcutlass_1_1Coord.html">Coord</a> </td>
           <td>(</td>
-          <td class="paramtype">int&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td>
           <td class="paramname"><em>_idx</em>[]</td><td>)</td>
           <td></td>
         </tr>
@@ -226,16 +272,44 @@ <h2 class="memtitle"><span class="permalink"><a href="#a53a3d88a884f6cb7fda8aedf
 </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a6110e4cfd090561696a81a8a4068a573"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6110e4cfd090561696a81a8a4068a573">&#9670;&nbsp;</a></span>Coord() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Rank_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::<a class="el" href="structcutlass_1_1Coord.html">Coord</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="ad10b59430927a354fcd874d2d32f1bd8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad10b59430927a354fcd874d2d32f1bd8">&#9670;&nbsp;</a></span>at() <span class="overload">[1/4]</span></h2>
+<a id="a9eff24a3b74b68d11839b92324613c93"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9eff24a3b74b68d11839b92324613c93">&#9670;&nbsp;</a></span>at() <span class="overload">[1/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <div class="memtemplate">
 template&lt;int Dim&gt; </div>
 <table class="mlabels">
@@ -243,7 +317,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad10b59430927a354fcd874d2
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::at </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -258,19 +332,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad10b59430927a354fcd874d2
 
 </div>
 </div>
-<a id="ab511a16210d1b94449f5bc6476f6a266"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab511a16210d1b94449f5bc6476f6a266">&#9670;&nbsp;</a></span>at() <span class="overload">[2/4]</span></h2>
+<a id="aa253bf69fc819876a7c7770305f1a694"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa253bf69fc819876a7c7770305f1a694">&#9670;&nbsp;</a></span>at() <span class="overload">[2/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::at </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>dim</em></td><td>)</td>
@@ -286,13 +360,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab511a16210d1b94449f5bc64
 
 </div>
 </div>
-<a id="af9cc7ab2088544d1240ac51c4c6e685d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af9cc7ab2088544d1240ac51c4c6e685d">&#9670;&nbsp;</a></span>at() <span class="overload">[3/4]</span></h2>
+<a id="a177adcc2d0fb5e72ebcb523edd24e6fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a177adcc2d0fb5e72ebcb523edd24e6fe">&#9670;&nbsp;</a></span>at() <span class="overload">[3/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <div class="memtemplate">
 template&lt;int Dim&gt; </div>
 <table class="mlabels">
@@ -300,7 +374,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af9cc7ab2088544d1240ac51c
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::at </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td> const</td>
@@ -315,19 +389,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#af9cc7ab2088544d1240ac51c
 
 </div>
 </div>
-<a id="aed4f4d1c7c0749fe72736d7a1213b6e9"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aed4f4d1c7c0749fe72736d7a1213b6e9">&#9670;&nbsp;</a></span>at() <span class="overload">[4/4]</span></h2>
+<a id="a9b47b1521820c898b03868627c3f8e46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9b47b1521820c898b03868627c3f8e46">&#9670;&nbsp;</a></span>at() <span class="overload">[4/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::at </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>dim</em></td><td>)</td>
@@ -343,28 +417,28 @@ <h2 class="memtitle"><span class="permalink"><a href="#aed4f4d1c7c0749fe72736d7a
 
 </div>
 </div>
-<a id="a482ada6da62f427987c22098796fcf7e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a482ada6da62f427987c22098796fcf7e">&#9670;&nbsp;</a></span>clamp()</h2>
+<a id="a404a3b4e00f59cac71d41fb1bbba38ba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a404a3b4e00f59cac71d41fb1bbba38ba">&#9670;&nbsp;</a></span>clamp()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::clamp </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::clamp </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;&#160;</td>
           <td class="paramname"><em>max</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>min</em> = <code><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>&gt;()</code>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>min</em> = <code><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>&gt;()</code>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -381,19 +455,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a482ada6da62f427987c22098
 
 </div>
 </div>
-<a id="a40429a9154f7a142ad7e9eb35282d196"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a40429a9154f7a142ad7e9eb35282d196">&#9670;&nbsp;</a></span>count()</h2>
+<a id="ac0ac5f2aa2cbea3887d126645025e017"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac0ac5f2aa2cbea3887d126645025e017">&#9670;&nbsp;</a></span>count()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::count </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::count </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td> const</td>
@@ -408,13 +482,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#a40429a9154f7a142ad7e9eb3
 
 </div>
 </div>
-<a id="ad4b3704d14057c043f972827671115cf"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad4b3704d14057c043f972827671115cf">&#9670;&nbsp;</a></span>dot() <span class="overload">[1/2]</span></h2>
+<a id="ac8ec94703830ab2c62ee055533ea2184"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac8ec94703830ab2c62ee055533ea2184">&#9670;&nbsp;</a></span>dot() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <div class="memtemplate">
 template&lt;typename T &gt; </div>
 <table class="mlabels">
@@ -422,9 +496,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad4b3704d14057c043f972827
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::dot </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::dot </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; N_ &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank_, Index_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em>, </td>
         </tr>
         <tr>
@@ -448,13 +522,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad4b3704d14057c043f972827
 
 </div>
 </div>
-<a id="ae023c0c664c22a978e9b9ce5e063aae4"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae023c0c664c22a978e9b9ce5e063aae4">&#9670;&nbsp;</a></span>dot() <span class="overload">[2/2]</span></h2>
+<a id="a0acc37908acb6b879c37f54ff7ffc93d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0acc37908acb6b879c37f54ff7ffc93d">&#9670;&nbsp;</a></span>dot() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <div class="memtemplate">
 template&lt;typename T &gt; </div>
 <table class="mlabels">
@@ -462,9 +536,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae023c0c664c22a978e9b9ce5
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::dot </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::dot </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; N_ &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank_, Index_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -478,21 +552,75 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae023c0c664c22a978e9b9ce5
 
 </div>
 </div>
-<a id="a7fb46873e8f3cf38212703d35bd36995"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7fb46873e8f3cf38212703d35bd36995">&#9670;&nbsp;</a></span>operator!=()</h2>
+<a id="a1781b3c5a2d653b0c1718ec3154ae48f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1781b3c5a2d653b0c1718ec3154ae48f">&#9670;&nbsp;</a></span>operator bool()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator!= </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator bool </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a232095edae2f74c01a3c8abf68166e02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a232095edae2f74c01a3c8abf68166e02">&#9670;&nbsp;</a></span>operator!()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Rank_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator! </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a353d847675e5ba2402c407dcd4ae4de3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a353d847675e5ba2402c407dcd4ae4de3">&#9670;&nbsp;</a></span>operator!=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Rank_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::<a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">operator!</a>= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -506,21 +634,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7fb46873e8f3cf38212703d3
 
 </div>
 </div>
-<a id="a8e4f7df55a75d040cf50cf9984c04c8a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8e4f7df55a75d040cf50cf9984c04c8a">&#9670;&nbsp;</a></span>operator*()</h2>
+<a id="a2e94c093f82908ff3dba4f23b5d10033"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2e94c093f82908ff3dba4f23b5d10033">&#9670;&nbsp;</a></span>operator*()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator* </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator* </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; N_ &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank_, Index_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -534,21 +662,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8e4f7df55a75d040cf50cf99
 
 </div>
 </div>
-<a id="a282b6cc9ac8b2f72720c252791155aad"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a282b6cc9ac8b2f72720c252791155aad">&#9670;&nbsp;</a></span>operator*=()</h2>
+<a id="ad4303b578b72b5cb2a0198375290e168"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad4303b578b72b5cb2a0198375290e168">&#9670;&nbsp;</a></span>operator*=()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator*= </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator*= </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; N_ &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank_, Index_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td></td>
         </tr>
@@ -562,21 +690,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a282b6cc9ac8b2f72720c2527
 
 </div>
 </div>
-<a id="a3dfc4ce4191097b6c3268696f2a45ef5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3dfc4ce4191097b6c3268696f2a45ef5">&#9670;&nbsp;</a></span>operator+()</h2>
+<a id="ab37672637771a70910df9aa1a0cffddc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab37672637771a70910df9aa1a0cffddc">&#9670;&nbsp;</a></span>operator+()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator+ </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator+ </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; N_ &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank_, Index_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -590,21 +718,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3dfc4ce4191097b6c3268696
 
 </div>
 </div>
-<a id="aeb209486943fa9d42911325b16e49e09"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aeb209486943fa9d42911325b16e49e09">&#9670;&nbsp;</a></span>operator+=()</h2>
+<a id="ae4f2cb12b84411118cb93e7c4cb88b20"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae4f2cb12b84411118cb93e7c4cb88b20">&#9670;&nbsp;</a></span>operator+=()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator+= </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator+= </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; N_ &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank_, Index_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td></td>
         </tr>
@@ -618,21 +746,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#aeb209486943fa9d42911325b
 
 </div>
 </div>
-<a id="acc510511ffb52bed7f6a52f14b99750d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#acc510511ffb52bed7f6a52f14b99750d">&#9670;&nbsp;</a></span>operator-()</h2>
+<a id="a6b876f61a85a4a4ef3763b6742bfaa6b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b876f61a85a4a4ef3763b6742bfaa6b">&#9670;&nbsp;</a></span>operator-()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator- </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator- </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; N_ &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank_, Index_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -646,21 +774,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#acc510511ffb52bed7f6a52f1
 
 </div>
 </div>
-<a id="ac1795ec2a5890d8a39840567a4bea88e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac1795ec2a5890d8a39840567a4bea88e">&#9670;&nbsp;</a></span>operator-=()</h2>
+<a id="a304334cbcad636d7b058fdc6310f0e6b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a304334cbcad636d7b058fdc6310f0e6b">&#9670;&nbsp;</a></span>operator-=()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator-= </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator-= </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; N_ &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank_, Index_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td></td>
         </tr>
@@ -674,21 +802,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac1795ec2a5890d8a39840567
 
 </div>
 </div>
-<a id="a87f485be079fa68bcf576da4d56f0ece"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a87f485be079fa68bcf576da4d56f0ece">&#9670;&nbsp;</a></span>operator/()</h2>
+<a id="a9bb07631f09efc80219413ac8309f568"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9bb07631f09efc80219413ac8309f568">&#9670;&nbsp;</a></span>operator/()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator/ </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator/ </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; N_ &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank_, Index_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -702,21 +830,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a87f485be079fa68bcf576da4
 
 </div>
 </div>
-<a id="abe91e59962ef0d73aec9c14824f64ecc"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abe91e59962ef0d73aec9c14824f64ecc">&#9670;&nbsp;</a></span>operator/=()</h2>
+<a id="ac87199c4c9a4e20aac4eb6e3b9a68f28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac87199c4c9a4e20aac4eb6e3b9a68f28">&#9670;&nbsp;</a></span>operator/=()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator/= </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator/= </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; N_ &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank_, Index_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td></td>
         </tr>
@@ -730,21 +858,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#abe91e59962ef0d73aec9c148
 
 </div>
 </div>
-<a id="acfa94aabd0c9a71ee994ca479d5f515f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#acfa94aabd0c9a71ee994ca479d5f515f">&#9670;&nbsp;</a></span>operator==()</h2>
+<a id="a148851df63840ac63e23b2f170bd1308"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a148851df63840ac63e23b2f170bd1308">&#9670;&nbsp;</a></span>operator&lt;()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator== </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator&lt; </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a> &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;&#160;</td>
           <td class="paramname"><em>b</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -758,19 +886,75 @@ <h2 class="memtitle"><span class="permalink"><a href="#acfa94aabd0c9a71ee994ca47
 
 </div>
 </div>
-<a id="ab7fc89de3ccd7096ab275fb5dd40104c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab7fc89de3ccd7096ab275fb5dd40104c">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+<a id="a9dc9f063be329d475f040afd449d304c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9dc9f063be329d475f040afd449d304c">&#9670;&nbsp;</a></span>operator&lt;=()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator&lt;= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7f919aeb2a895bc040599971400dec8d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f919aeb2a895bc040599971400dec8d">&#9670;&nbsp;</a></span>operator==()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Rank_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator== </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6e0967541a1d74edeb93897ea6069e24"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6e0967541a1d74edeb93897ea6069e24">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Rank_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>dim</em></td><td>)</td>
@@ -786,19 +970,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab7fc89de3ccd7096ab275fb5
 
 </div>
 </div>
-<a id="a6eeab0a1686ee25389e1bd017c5f03ae"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6eeab0a1686ee25389e1bd017c5f03ae">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+<a id="a882e7ac07bbd6983659ef2e574b46454"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a882e7ac07bbd6983659ef2e574b46454">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int const&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const&amp; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>dim</em></td><td>)</td>
@@ -812,38 +996,103 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6eeab0a1686ee25389e1bd01
 </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="ac8f7a9b0835efc34fd28894b2b45342c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac8f7a9b0835efc34fd28894b2b45342c">&#9670;&nbsp;</a></span>slice()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Rank_, typename Index_ = int&gt; </div>
+<div class="memtemplate">
+template&lt;int Slice&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;Slice&gt; <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::slice </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>start</em> = <code>0</code>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td>
+          <td class="paramname"><em>identity</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<p>Returns a slice of the <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> which may be larger or smaller in rank than this. </p>
+
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="a50de265129f1db7bdf2f0aefbc6a46bc"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a50de265129f1db7bdf2f0aefbc6a46bc">&#9670;&nbsp;</a></span>idx</h2>
+<a id="a872e1e0d9cc255fa438c04daaf10ad68"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a872e1e0d9cc255fa438c04daaf10ad68">&#9670;&nbsp;</a></span>idx</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Rank_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::idx[<a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a23e1b9a7f5fa8fd4afeadfb85de7c5c3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">&#9670;&nbsp;</a></span>kRank</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::idx[<a class="el" href="structcutlass_1_1Coord.html#a3f2f5a9d7ef2063456c4d9f7e57e71ca">N</a>]</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::kRank = Rank_</td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a3f2f5a9d7ef2063456c4d9f7e57e71ca"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3f2f5a9d7ef2063456c4d9f7e57e71ca">&#9670;&nbsp;</a></span>N</h2>
+<a id="acfd416eafec51e47b42b8b713ba76030"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acfd416eafec51e47b42b8b713ba76030">&#9670;&nbsp;</a></span>N</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int N_&gt; </div>
+template&lt;int Rank_, typename Index_ = int&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; N_ &gt;::N = N_</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord</a>&lt; Rank_, Index_ &gt;::N = Rank_</td>
         </tr>
       </table>
   </td>
@@ -861,7 +1110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3f2f5a9d7ef2063456c4d9f7
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Copy-members.html b/docs/structcutlass_1_1Copy-members.html
index 42d212fc59..b05b6d6f85 100644
--- a/docs/structcutlass_1_1Copy-members.html
+++ b/docs/structcutlass_1_1Copy-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Copy.html b/docs/structcutlass_1_1Copy.html
index 65da8b81f5..379c65ac01 100644
--- a/docs/structcutlass_1_1Copy.html
+++ b/docs/structcutlass_1_1Copy.html
@@ -257,7 +257,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a171f9a44c05b6fb432b03399
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1DumpType.html b/docs/structcutlass_1_1DumpType.html
new file mode 100644
index 0000000000..1a89100e74
--- /dev/null
+++ b/docs/structcutlass_1_1DumpType.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::DumpType&lt; T &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1DumpType.html">DumpType</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::DumpType&lt; T &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">tile_iterator.h</a>&gt;</code></p>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__iterator_8h_source.html">tile_iterator.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Extent-members.html b/docs/structcutlass_1_1Extent-members.html
index f0a499a6b1..1d4b289980 100644
--- a/docs/structcutlass_1_1Extent-members.html
+++ b/docs/structcutlass_1_1Extent-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Extent.html b/docs/structcutlass_1_1Extent.html
index 0efd6f8398..6ea17e3783 100644
--- a/docs/structcutlass_1_1Extent.html
+++ b/docs/structcutlass_1_1Extent.html
@@ -121,7 +121,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2cb62986b9a7c168bf79b083
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4-members.html b/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4-members.html
index f9f4108b0a..3a80e40206 100644
--- a/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4-members.html
+++ b/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html b/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html
index 705991660e..48cb9f01da 100644
--- a/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html
+++ b/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html
@@ -121,7 +121,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a10f7184a9a50de0268efa45d
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4-members.html b/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4-members.html
index 7c95798ee8..2d22e08c75 100644
--- a/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4-members.html
+++ b/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html b/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html
index 6afa4a192b..ffb5903caa 100644
--- a/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html
+++ b/docs/structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html
@@ -121,7 +121,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a87917a6dfbb1662416c4ea48
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Fragment-members.html b/docs/structcutlass_1_1Fragment-members.html
index b6b050c04b..614cc97fa9 100644
--- a/docs/structcutlass_1_1Fragment-members.html
+++ b/docs/structcutlass_1_1Fragment-members.html
@@ -79,16 +79,17 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a29e7408fcde8cdf9de5e3a10eaa46391">clear</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#acf28266500b87484530b2395925fca51">clear</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a></td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a99fef5f3093b2df50905ab13819b67a0">operator[]</a>(int i)</td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a75f51bb6ca84615076aab42ac9d42592">operator[]</a>(int i) const</td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a84b6d68a5a24dbd04d842e0755b42bda">kAlignment</a></td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a></td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a77ba7cddf7822d64534b019c4ad9732e">operator[]</a>(int i)</td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a7795c5cf4d5626ff125abd5e8f156e9b">operator[]</a>(int i) const</td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment&lt; Element_, kElements_, kAlignment_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Fragment.html b/docs/structcutlass_1_1Fragment.html
index 640994f862..98573fcccd 100644
--- a/docs/structcutlass_1_1Fragment.html
+++ b/docs/structcutlass_1_1Fragment.html
@@ -107,21 +107,24 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a29e7408fcde8cdf9de5e3a10eaa46391"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Fragment.html#a29e7408fcde8cdf9de5e3a10eaa46391">clear</a> ()</td></tr>
-<tr class="memdesc:a29e7408fcde8cdf9de5e3a10eaa46391"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear a fragment.  <a href="#a29e7408fcde8cdf9de5e3a10eaa46391">More...</a><br /></td></tr>
-<tr class="separator:a29e7408fcde8cdf9de5e3a10eaa46391"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a99fef5f3093b2df50905ab13819b67a0"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Fragment.html#a99fef5f3093b2df50905ab13819b67a0">operator[]</a> (int i)</td></tr>
-<tr class="memdesc:a99fef5f3093b2df50905ab13819b67a0"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a99fef5f3093b2df50905ab13819b67a0">More...</a><br /></td></tr>
-<tr class="separator:a99fef5f3093b2df50905ab13819b67a0"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a75f51bb6ca84615076aab42ac9d42592"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Fragment.html#a75f51bb6ca84615076aab42ac9d42592">operator[]</a> (int i) const</td></tr>
-<tr class="memdesc:a75f51bb6ca84615076aab42ac9d42592"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a75f51bb6ca84615076aab42ac9d42592">More...</a><br /></td></tr>
-<tr class="separator:a75f51bb6ca84615076aab42ac9d42592"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acf28266500b87484530b2395925fca51"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Fragment.html#acf28266500b87484530b2395925fca51">clear</a> ()</td></tr>
+<tr class="memdesc:acf28266500b87484530b2395925fca51"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear a fragment.  <a href="#acf28266500b87484530b2395925fca51">More...</a><br /></td></tr>
+<tr class="separator:acf28266500b87484530b2395925fca51"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a77ba7cddf7822d64534b019c4ad9732e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Fragment.html#a77ba7cddf7822d64534b019c4ad9732e">operator[]</a> (int i)</td></tr>
+<tr class="memdesc:a77ba7cddf7822d64534b019c4ad9732e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a77ba7cddf7822d64534b019c4ad9732e">More...</a><br /></td></tr>
+<tr class="separator:a77ba7cddf7822d64534b019c4ad9732e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7795c5cf4d5626ff125abd5e8f156e9b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Fragment.html#a7795c5cf4d5626ff125abd5e8f156e9b">operator[]</a> (int i) const</td></tr>
+<tr class="memdesc:a7795c5cf4d5626ff125abd5e8f156e9b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a7795c5cf4d5626ff125abd5e8f156e9b">More...</a><br /></td></tr>
+<tr class="separator:a7795c5cf4d5626ff125abd5e8f156e9b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
 <tr class="memitem:a2b9a64391d00ef23dd8d456c2337fa60"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Fragment.html#a2b9a64391d00ef23dd8d456c2337fa60">kElements</a> = kElements_</td></tr>
 <tr class="memdesc:a2b9a64391d00ef23dd8d456c2337fa60"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of elements.  <a href="#a2b9a64391d00ef23dd8d456c2337fa60">More...</a><br /></td></tr>
 <tr class="separator:a2b9a64391d00ef23dd8d456c2337fa60"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a84b6d68a5a24dbd04d842e0755b42bda"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Fragment.html#a84b6d68a5a24dbd04d842e0755b42bda">kAlignment</a> = kAlignment_</td></tr>
+<tr class="memdesc:a84b6d68a5a24dbd04d842e0755b42bda"><td class="mdescLeft">&#160;</td><td class="mdescRight">Alignment.  <a href="#a84b6d68a5a24dbd04d842e0755b42bda">More...</a><br /></td></tr>
+<tr class="separator:a84b6d68a5a24dbd04d842e0755b42bda"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="a9c67fa5bbd0b8b49bd6ec002dee3cbab"></a>
@@ -130,7 +133,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9c67fa5bbd0b8b49bd6ec002
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Element_ , int kElements_, size_t kAlignment_ = 16&gt; </div>
+template&lt;typename Element_, int kElements_, size_t kAlignment_ = 16&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef Element_ <a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment</a>&lt; Element_, kElements_, kAlignment_ &gt;::<a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a></td>
@@ -146,7 +149,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a32f7ff86b73576a15c5ddaa4
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Element_ , int kElements_, size_t kAlignment_ = 16&gt; </div>
+template&lt;typename Element_, int kElements_, size_t kAlignment_ = 16&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;Element_, kElements_&gt; <a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment</a>&lt; Element_, kElements_, kAlignment_ &gt;::<a class="el" href="structcutlass_1_1Fragment.html#a32f7ff86b73576a15c5ddaa40c4e0a95">This_</a></td>
@@ -158,19 +161,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a32f7ff86b73576a15c5ddaa4
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a29e7408fcde8cdf9de5e3a10eaa46391"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a29e7408fcde8cdf9de5e3a10eaa46391">&#9670;&nbsp;</a></span>clear()</h2>
+<a id="acf28266500b87484530b2395925fca51"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acf28266500b87484530b2395925fca51">&#9670;&nbsp;</a></span>clear()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Element_ , int kElements_, size_t kAlignment_ = 16&gt; </div>
+template&lt;typename Element_, int kElements_, size_t kAlignment_ = 16&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment</a>&lt; Element_, kElements_, kAlignment_ &gt;::clear </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment</a>&lt; Element_, kElements_, kAlignment_ &gt;::clear </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -185,19 +188,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a29e7408fcde8cdf9de5e3a10
 
 </div>
 </div>
-<a id="a99fef5f3093b2df50905ab13819b67a0"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a99fef5f3093b2df50905ab13819b67a0">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+<a id="a77ba7cddf7822d64534b019c4ad9732e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a77ba7cddf7822d64534b019c4ad9732e">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Element_ , int kElements_, size_t kAlignment_ = 16&gt; </div>
+template&lt;typename Element_, int kElements_, size_t kAlignment_ = 16&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>&amp; <a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment</a>&lt; Element_, kElements_, kAlignment_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a>&amp; <a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment</a>&lt; Element_, kElements_, kAlignment_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>i</em></td><td>)</td>
@@ -213,19 +216,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a99fef5f3093b2df50905ab13
 
 </div>
 </div>
-<a id="a75f51bb6ca84615076aab42ac9d42592"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a75f51bb6ca84615076aab42ac9d42592">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+<a id="a7795c5cf4d5626ff125abd5e8f156e9b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7795c5cf4d5626ff125abd5e8f156e9b">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Element_ , int kElements_, size_t kAlignment_ = 16&gt; </div>
+template&lt;typename Element_, int kElements_, size_t kAlignment_ = 16&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> const&amp; <a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment</a>&lt; Element_, kElements_, kAlignment_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">Element</a> const&amp; <a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment</a>&lt; Element_, kElements_, kAlignment_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>i</em></td><td>)</td>
@@ -242,13 +245,37 @@ <h2 class="memtitle"><span class="permalink"><a href="#a75f51bb6ca84615076aab42a
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
+<a id="a84b6d68a5a24dbd04d842e0755b42bda"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84b6d68a5a24dbd04d842e0755b42bda">&#9670;&nbsp;</a></span>kAlignment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Element_, int kElements_, size_t kAlignment_ = 16&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1Fragment.html">cutlass::Fragment</a>&lt; Element_, kElements_, kAlignment_ &gt;::kAlignment = kAlignment_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <a id="a2b9a64391d00ef23dd8d456c2337fa60"></a>
 <h2 class="memtitle"><span class="permalink"><a href="#a2b9a64391d00ef23dd8d456c2337fa60">&#9670;&nbsp;</a></span>kElements</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Element_ , int kElements_, size_t kAlignment_ = 16&gt; </div>
+template&lt;typename Element_, int kElements_, size_t kAlignment_ = 16&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
@@ -272,7 +299,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2b9a64391d00ef23dd8d456c
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1FragmentConstIterator-members.html b/docs/structcutlass_1_1FragmentConstIterator-members.html
index 0de6feda55..d92eb94310 100644
--- a/docs/structcutlass_1_1FragmentConstIterator-members.html
+++ b/docs/structcutlass_1_1FragmentConstIterator-members.html
@@ -80,23 +80,23 @@
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a8b957150545becacab1b8ead1be29424">at</a>(int d, int h, int w, int c=0) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a14f2ad2f9b90aea092ff1836e8fb159d">at</a>(int d, int h, int w, int c=0) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#ae98ab2a88342e7dbf9631cfb5cf5e706">Element</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#acac5b62b365f36f370adb0fee11cea05">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#ac4b6f351e6e72bed37e425f02a10c81e">FragmentConstIterator</a>(OtherFragment_ &amp;fragment, int offset=0)</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a3a8fd8f13c157ed13dc93fd78036c59e">FragmentConstIterator</a>(FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;rhs_)</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#ad3e99cd7f56d4aec0a28cfcbde66f5af">FragmentConstIterator</a>(OtherFragment_ &amp;fragment, int offset=0)</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a18f926c9c877e15a279f16637bd24e83">FragmentConstIterator</a>(FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;rhs_)</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#ab683796885f3bae3765efd96883f311b">IterationsStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a14ef0a0095e391503a19067e146c584a">IterationsStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">kElementsPerAccess</a></td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#af16f2aa14ff424b038a393b683c4783e">operator[]</a>(int i) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a6216b58ffe6322f037f1e0a3ffa714c8">operator[]</a>(int i) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#aee37f8ea06127b94a304bb776945509b">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#add14f695231c2bdd6284bf22b1e66f8f">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a01571b2fc566793fd50a10fa82441951">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#ac4d601998a84a3eac23e3b7a7c8a935b">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1FragmentConstIterator.html b/docs/structcutlass_1_1FragmentConstIterator.html
index 6a02e2f1eb..3b68172286 100644
--- a/docs/structcutlass_1_1FragmentConstIterator.html
+++ b/docs/structcutlass_1_1FragmentConstIterator.html
@@ -105,28 +105,28 @@
 <tr class="memitem:a880f12d0cd42cdae7ce6009d2233f577"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt; <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a527100e34ed700787b1419157710dbb2">Iterations</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, 1, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">kElementsPerAccess</a> &gt; &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">FragmentShape</a></td></tr>
 <tr class="memdesc:a880f12d0cd42cdae7ce6009d2233f577"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the the fragment.  <a href="#a880f12d0cd42cdae7ce6009d2233f577">More...</a><br /></td></tr>
 <tr class="separator:a880f12d0cd42cdae7ce6009d2233f577"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab683796885f3bae3765efd96883f311b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a>&lt; <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">FragmentShape</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#ab683796885f3bae3765efd96883f311b">IterationsStrides</a></td></tr>
-<tr class="memdesc:ab683796885f3bae3765efd96883f311b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The linear strides for iterations.  <a href="#ab683796885f3bae3765efd96883f311b">More...</a><br /></td></tr>
-<tr class="separator:ab683796885f3bae3765efd96883f311b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a14ef0a0095e391503a19067e146c584a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a>&lt; <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">FragmentShape</a>, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">kElementsPerAccess</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a14ef0a0095e391503a19067e146c584a">IterationsStrides</a></td></tr>
+<tr class="memdesc:a14ef0a0095e391503a19067e146c584a"><td class="mdescLeft">&#160;</td><td class="mdescRight">The linear strides for iterations.  <a href="#a14ef0a0095e391503a19067e146c584a">More...</a><br /></td></tr>
+<tr class="separator:a14ef0a0095e391503a19067e146c584a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:ac4b6f351e6e72bed37e425f02a10c81e"><td class="memTemplParams" colspan="2">template&lt;typename OtherFragment_ &gt; </td></tr>
-<tr class="memitem:ac4b6f351e6e72bed37e425f02a10c81e"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#ac4b6f351e6e72bed37e425f02a10c81e">FragmentConstIterator</a> (OtherFragment_ &amp;fragment, int offset=0)</td></tr>
-<tr class="memdesc:ac4b6f351e6e72bed37e425f02a10c81e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ac4b6f351e6e72bed37e425f02a10c81e">More...</a><br /></td></tr>
-<tr class="separator:ac4b6f351e6e72bed37e425f02a10c81e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3a8fd8f13c157ed13dc93fd78036c59e"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a3a8fd8f13c157ed13dc93fd78036c59e">FragmentConstIterator</a> (<a class="el" href="structcutlass_1_1FragmentIterator.html">FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;rhs_)</td></tr>
-<tr class="memdesc:a3a8fd8f13c157ed13dc93fd78036c59e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Create from non-constant <a class="el" href="structcutlass_1_1FragmentIterator.html" title="A template defining Fragment Iterator Concept. ">FragmentIterator</a>.  <a href="#a3a8fd8f13c157ed13dc93fd78036c59e">More...</a><br /></td></tr>
-<tr class="separator:a3a8fd8f13c157ed13dc93fd78036c59e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8b957150545becacab1b8ead1be29424"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a8b957150545becacab1b8ead1be29424">at</a> (int d, int h, int w, int c=0) const</td></tr>
-<tr class="memdesc:a8b957150545becacab1b8ead1be29424"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a8b957150545becacab1b8ead1be29424">More...</a><br /></td></tr>
-<tr class="separator:a8b957150545becacab1b8ead1be29424"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af16f2aa14ff424b038a393b683c4783e"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#af16f2aa14ff424b038a393b683c4783e">operator[]</a> (int i) const</td></tr>
-<tr class="memdesc:af16f2aa14ff424b038a393b683c4783e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#af16f2aa14ff424b038a393b683c4783e">More...</a><br /></td></tr>
-<tr class="separator:af16f2aa14ff424b038a393b683c4783e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a01571b2fc566793fd50a10fa82441951"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a01571b2fc566793fd50a10fa82441951">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:a01571b2fc566793fd50a10fa82441951"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="#a01571b2fc566793fd50a10fa82441951">More...</a><br /></td></tr>
-<tr class="separator:a01571b2fc566793fd50a10fa82441951"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad3e99cd7f56d4aec0a28cfcbde66f5af"><td class="memTemplParams" colspan="2">template&lt;typename OtherFragment_ &gt; </td></tr>
+<tr class="memitem:ad3e99cd7f56d4aec0a28cfcbde66f5af"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#ad3e99cd7f56d4aec0a28cfcbde66f5af">FragmentConstIterator</a> (OtherFragment_ &amp;fragment, int offset=0)</td></tr>
+<tr class="memdesc:ad3e99cd7f56d4aec0a28cfcbde66f5af"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ad3e99cd7f56d4aec0a28cfcbde66f5af">More...</a><br /></td></tr>
+<tr class="separator:ad3e99cd7f56d4aec0a28cfcbde66f5af"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a18f926c9c877e15a279f16637bd24e83"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a18f926c9c877e15a279f16637bd24e83">FragmentConstIterator</a> (<a class="el" href="structcutlass_1_1FragmentIterator.html">FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;rhs_)</td></tr>
+<tr class="memdesc:a18f926c9c877e15a279f16637bd24e83"><td class="mdescLeft">&#160;</td><td class="mdescRight">Create from non-constant <a class="el" href="structcutlass_1_1FragmentIterator.html" title="A template defining Fragment Iterator Concept. ">FragmentIterator</a>.  <a href="#a18f926c9c877e15a279f16637bd24e83">More...</a><br /></td></tr>
+<tr class="separator:a18f926c9c877e15a279f16637bd24e83"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a14f2ad2f9b90aea092ff1836e8fb159d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a14f2ad2f9b90aea092ff1836e8fb159d">at</a> (int d, int h, int w, int c=0) const</td></tr>
+<tr class="memdesc:a14f2ad2f9b90aea092ff1836e8fb159d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a14f2ad2f9b90aea092ff1836e8fb159d">More...</a><br /></td></tr>
+<tr class="separator:a14f2ad2f9b90aea092ff1836e8fb159d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6216b58ffe6322f037f1e0a3ffa714c8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#a6216b58ffe6322f037f1e0a3ffa714c8">operator[]</a> (int i) const</td></tr>
+<tr class="memdesc:a6216b58ffe6322f037f1e0a3ffa714c8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a6216b58ffe6322f037f1e0a3ffa714c8">More...</a><br /></td></tr>
+<tr class="separator:a6216b58ffe6322f037f1e0a3ffa714c8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac4d601998a84a3eac23e3b7a7c8a935b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentConstIterator.html#ac4d601998a84a3eac23e3b7a7c8a935b">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:ac4d601998a84a3eac23e3b7a7c8a935b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="#ac4d601998a84a3eac23e3b7a7c8a935b">More...</a><br /></td></tr>
+<tr class="separator:ac4d601998a84a3eac23e3b7a7c8a935b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
@@ -221,8 +221,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a527100e34ed700787b141915
 
 </div>
 </div>
-<a id="ab683796885f3bae3765efd96883f311b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab683796885f3bae3765efd96883f311b">&#9670;&nbsp;</a></span>IterationsStrides</h2>
+<a id="a14ef0a0095e391503a19067e146c584a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a14ef0a0095e391503a19067e146c584a">&#9670;&nbsp;</a></span>IterationsStrides</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -230,7 +230,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab683796885f3bae3765efd96
 template&lt;typename Fragment_ , typename Iterations_ , typename AccessType_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a>&lt;<a class="el" href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">FragmentShape</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::<a class="el" href="structcutlass_1_1FragmentConstIterator.html#ab683796885f3bae3765efd96883f311b">IterationsStrides</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a>&lt;<a class="el" href="structcutlass_1_1FragmentConstIterator.html#a880f12d0cd42cdae7ce6009d2233f577">FragmentShape</a>, <a class="el" href="structcutlass_1_1FragmentConstIterator.html#a004fabc9caa6924f3fb4badcbb19e88f">kElementsPerAccess</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::<a class="el" href="structcutlass_1_1FragmentConstIterator.html#a14ef0a0095e391503a19067e146c584a">IterationsStrides</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -254,8 +254,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#add14f695231c2bdd6284bf22
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="ac4b6f351e6e72bed37e425f02a10c81e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac4b6f351e6e72bed37e425f02a10c81e">&#9670;&nbsp;</a></span>FragmentConstIterator() <span class="overload">[1/2]</span></h2>
+<a id="ad3e99cd7f56d4aec0a28cfcbde66f5af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad3e99cd7f56d4aec0a28cfcbde66f5af">&#9670;&nbsp;</a></span>FragmentConstIterator() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -268,7 +268,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac4b6f351e6e72bed37e425f0
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::<a class="el" href="structcutlass_1_1FragmentConstIterator.html">FragmentConstIterator</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::<a class="el" href="structcutlass_1_1FragmentConstIterator.html">FragmentConstIterator</a> </td>
           <td>(</td>
           <td class="paramtype">OtherFragment_ &amp;&#160;</td>
           <td class="paramname"><em>fragment</em>, </td>
@@ -294,8 +294,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac4b6f351e6e72bed37e425f0
 
 </div>
 </div>
-<a id="a3a8fd8f13c157ed13dc93fd78036c59e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3a8fd8f13c157ed13dc93fd78036c59e">&#9670;&nbsp;</a></span>FragmentConstIterator() <span class="overload">[2/2]</span></h2>
+<a id="a18f926c9c877e15a279f16637bd24e83"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a18f926c9c877e15a279f16637bd24e83">&#9670;&nbsp;</a></span>FragmentConstIterator() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -306,7 +306,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3a8fd8f13c157ed13dc93fd7
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::<a class="el" href="structcutlass_1_1FragmentConstIterator.html">FragmentConstIterator</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::<a class="el" href="structcutlass_1_1FragmentConstIterator.html">FragmentConstIterator</a> </td>
           <td>(</td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1FragmentIterator.html">FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt; const &amp;&#160;</td>
           <td class="paramname"><em>rhs_</em></td><td>)</td>
@@ -323,8 +323,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3a8fd8f13c157ed13dc93fd7
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a8b957150545becacab1b8ead1be29424"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8b957150545becacab1b8ead1be29424">&#9670;&nbsp;</a></span>at()</h2>
+<a id="a14f2ad2f9b90aea092ff1836e8fb159d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a14f2ad2f9b90aea092ff1836e8fb159d">&#9670;&nbsp;</a></span>at()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -335,7 +335,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8b957150545becacab1b8ead
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const&amp; <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const&amp; <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::at </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
@@ -373,8 +373,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8b957150545becacab1b8ead
 
 </div>
 </div>
-<a id="af16f2aa14ff424b038a393b683c4783e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af16f2aa14ff424b038a393b683c4783e">&#9670;&nbsp;</a></span>operator[]()</h2>
+<a id="a6216b58ffe6322f037f1e0a3ffa714c8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6216b58ffe6322f037f1e0a3ffa714c8">&#9670;&nbsp;</a></span>operator[]()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -385,7 +385,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af16f2aa14ff424b038a393b6
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const&amp; <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentConstIterator.html#addf5c21444f129211eefe7cdca6dfa1b">AccessType</a> const&amp; <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>i</em></td><td>)</td>
@@ -401,8 +401,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#af16f2aa14ff424b038a393b6
 
 </div>
 </div>
-<a id="a01571b2fc566793fd50a10fa82441951"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a01571b2fc566793fd50a10fa82441951">&#9670;&nbsp;</a></span>valid()</h2>
+<a id="ac4d601998a84a3eac23e3b7a7c8a935b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4d601998a84a3eac23e3b7a7c8a935b">&#9670;&nbsp;</a></span>valid()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -413,7 +413,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a01571b2fc566793fd50a10fa
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE bool <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::valid </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1FragmentConstIterator.html">cutlass::FragmentConstIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::valid </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
@@ -498,7 +498,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aee37f8ea06127b94a304bb77
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1FragmentElementType-members.html b/docs/structcutlass_1_1FragmentElementType-members.html
new file mode 100644
index 0000000000..44c05c2381
--- /dev/null
+++ b/docs/structcutlass_1_1FragmentElementType-members.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::FragmentElementType Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1FragmentElementType.html">cutlass::FragmentElementType</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">Kind</a> enum name</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentElementType.html">cutlass::FragmentElementType</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">kScalar</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentElementType.html">cutlass::FragmentElementType</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">kWmmaMatrix</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentElementType.html">cutlass::FragmentElementType</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1FragmentElementType.html b/docs/structcutlass_1_1FragmentElementType.html
new file mode 100644
index 0000000000..ba54663285
--- /dev/null
+++ b/docs/structcutlass_1_1FragmentElementType.html
@@ -0,0 +1,125 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::FragmentElementType Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1FragmentElementType.html">FragmentElementType</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="structcutlass_1_1FragmentElementType-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::FragmentElementType Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a62883b0695dc3a7ff82916ff9d75df0b"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">Kind</a> { <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">kScalar</a>, 
+<a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">kWmmaMatrix</a>
+ }</td></tr>
+<tr class="separator:a62883b0695dc3a7ff82916ff9d75df0b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Enumeration Documentation</h2>
+<a id="a62883b0695dc3a7ff82916ff9d75df0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a62883b0695dc3a7ff82916ff9d75df0b">&#9670;&nbsp;</a></span>Kind</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">enum <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">cutlass::FragmentElementType::Kind</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b"></a>kScalar&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd"></a>kWmmaMatrix&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1FragmentIterator-members.html b/docs/structcutlass_1_1FragmentIterator-members.html
index eba645feb4..e2f03aa960 100644
--- a/docs/structcutlass_1_1FragmentIterator-members.html
+++ b/docs/structcutlass_1_1FragmentIterator-members.html
@@ -80,24 +80,24 @@
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a9cf31df06ff035705a1341810fcdcbf2">at</a>(int d, int h, int w, int c=0) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a7bdc407aae8d7360e089af347b585a53">at</a>(int d, int h, int w, int c=0)</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a35b721563536ab2c5dbab0f5de1c2b43">at</a>(int d, int h, int w, int c=0) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#adb863b44dfbc1fa923625e767f6dd7cd">at</a>(int d, int h, int w, int c=0)</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#ab4ef3c5a6b5e13224e45bbbcb9f1bc5d">Element</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#afd15cbe1c9a0fd7871b12f3f3042c808">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#ae1825fe3e138e2aa62d27dab2b5227b4">FragmentIterator</a>(OtherFragment_ &amp;fragment, int offset=0)</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a638e4e1d84b4ae84e758288c7f37548b">FragmentIterator</a>(OtherFragment_ &amp;fragment, int offset=0)</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">kElementsPerAccess</a></td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a83bb6a3ed588e2d890bf986665d2b7bb">operator[]</a>(int i) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a3bd2a9d8467f8db02ca3a01ae0c11ad7">operator[]</a>(int i)</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a21877944988f34eb69cb6eefb00c6575">operator[]</a>(int i) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#ad665745f3d6a3a88d7894fe0fc1bbd3e">operator[]</a>(int i)</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#af667793926cdb24d701eb75e0345bbd6">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a2858ba9a8a9bbaef1de73415cff9b3c1">Strides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a2e93985d759d904ac858054eeaa9e50e">Strides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#ae320d9672450f5341abcdb24a8b09369">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#ab18f8ea676b45831f939715212167a99">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html#a8608dd815ed4906d8c82c41a10df23e2">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator&lt; Fragment_, Iterations_, AccessType_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1FragmentIterator.html b/docs/structcutlass_1_1FragmentIterator.html
index 3bd495f67a..4c35909394 100644
--- a/docs/structcutlass_1_1FragmentIterator.html
+++ b/docs/structcutlass_1_1FragmentIterator.html
@@ -108,31 +108,31 @@
 <tr class="memitem:a63ff1767c4923b0a2b6b64487306ed76"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt; <a class="el" href="structcutlass_1_1FragmentIterator.html#a4324ae522c6463e66a64f05d2e58b5f0">Iterations</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, 1, <a class="el" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">kElementsPerAccess</a> &gt; &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentShape</a></td></tr>
 <tr class="memdesc:a63ff1767c4923b0a2b6b64487306ed76"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the the fragment.  <a href="#a63ff1767c4923b0a2b6b64487306ed76">More...</a><br /></td></tr>
 <tr class="separator:a63ff1767c4923b0a2b6b64487306ed76"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2858ba9a8a9bbaef1de73415cff9b3c1"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a>&lt; <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentShape</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a2858ba9a8a9bbaef1de73415cff9b3c1">Strides</a></td></tr>
-<tr class="memdesc:a2858ba9a8a9bbaef1de73415cff9b3c1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The linear strides for iterations.  <a href="#a2858ba9a8a9bbaef1de73415cff9b3c1">More...</a><br /></td></tr>
-<tr class="separator:a2858ba9a8a9bbaef1de73415cff9b3c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e93985d759d904ac858054eeaa9e50e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a>&lt; <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentShape</a>, <a class="el" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">kElementsPerAccess</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a2e93985d759d904ac858054eeaa9e50e">Strides</a></td></tr>
+<tr class="memdesc:a2e93985d759d904ac858054eeaa9e50e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The linear strides for iterations.  <a href="#a2e93985d759d904ac858054eeaa9e50e">More...</a><br /></td></tr>
+<tr class="separator:a2e93985d759d904ac858054eeaa9e50e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:ae1825fe3e138e2aa62d27dab2b5227b4"><td class="memTemplParams" colspan="2">template&lt;typename OtherFragment_ &gt; </td></tr>
-<tr class="memitem:ae1825fe3e138e2aa62d27dab2b5227b4"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#ae1825fe3e138e2aa62d27dab2b5227b4">FragmentIterator</a> (OtherFragment_ &amp;fragment, int offset=0)</td></tr>
-<tr class="memdesc:ae1825fe3e138e2aa62d27dab2b5227b4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ae1825fe3e138e2aa62d27dab2b5227b4">More...</a><br /></td></tr>
-<tr class="separator:ae1825fe3e138e2aa62d27dab2b5227b4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9cf31df06ff035705a1341810fcdcbf2"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a9cf31df06ff035705a1341810fcdcbf2">at</a> (int d, int h, int w, int c=0) const</td></tr>
-<tr class="memdesc:a9cf31df06ff035705a1341810fcdcbf2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a9cf31df06ff035705a1341810fcdcbf2">More...</a><br /></td></tr>
-<tr class="separator:a9cf31df06ff035705a1341810fcdcbf2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7bdc407aae8d7360e089af347b585a53"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a7bdc407aae8d7360e089af347b585a53">at</a> (int d, int h, int w, int c=0)</td></tr>
-<tr class="memdesc:a7bdc407aae8d7360e089af347b585a53"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a7bdc407aae8d7360e089af347b585a53">More...</a><br /></td></tr>
-<tr class="separator:a7bdc407aae8d7360e089af347b585a53"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a83bb6a3ed588e2d890bf986665d2b7bb"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a83bb6a3ed588e2d890bf986665d2b7bb">operator[]</a> (int i) const</td></tr>
-<tr class="memdesc:a83bb6a3ed588e2d890bf986665d2b7bb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a83bb6a3ed588e2d890bf986665d2b7bb">More...</a><br /></td></tr>
-<tr class="separator:a83bb6a3ed588e2d890bf986665d2b7bb"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3bd2a9d8467f8db02ca3a01ae0c11ad7"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a3bd2a9d8467f8db02ca3a01ae0c11ad7">operator[]</a> (int i)</td></tr>
-<tr class="memdesc:a3bd2a9d8467f8db02ca3a01ae0c11ad7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a3bd2a9d8467f8db02ca3a01ae0c11ad7">More...</a><br /></td></tr>
-<tr class="separator:a3bd2a9d8467f8db02ca3a01ae0c11ad7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab18f8ea676b45831f939715212167a99"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#ab18f8ea676b45831f939715212167a99">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:ab18f8ea676b45831f939715212167a99"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="#ab18f8ea676b45831f939715212167a99">More...</a><br /></td></tr>
-<tr class="separator:ab18f8ea676b45831f939715212167a99"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a638e4e1d84b4ae84e758288c7f37548b"><td class="memTemplParams" colspan="2">template&lt;typename OtherFragment_ &gt; </td></tr>
+<tr class="memitem:a638e4e1d84b4ae84e758288c7f37548b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a638e4e1d84b4ae84e758288c7f37548b">FragmentIterator</a> (OtherFragment_ &amp;fragment, int offset=0)</td></tr>
+<tr class="memdesc:a638e4e1d84b4ae84e758288c7f37548b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a638e4e1d84b4ae84e758288c7f37548b">More...</a><br /></td></tr>
+<tr class="separator:a638e4e1d84b4ae84e758288c7f37548b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a35b721563536ab2c5dbab0f5de1c2b43"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a35b721563536ab2c5dbab0f5de1c2b43">at</a> (int d, int h, int w, int c=0) const</td></tr>
+<tr class="memdesc:a35b721563536ab2c5dbab0f5de1c2b43"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a35b721563536ab2c5dbab0f5de1c2b43">More...</a><br /></td></tr>
+<tr class="separator:a35b721563536ab2c5dbab0f5de1c2b43"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adb863b44dfbc1fa923625e767f6dd7cd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#adb863b44dfbc1fa923625e767f6dd7cd">at</a> (int d, int h, int w, int c=0)</td></tr>
+<tr class="memdesc:adb863b44dfbc1fa923625e767f6dd7cd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#adb863b44dfbc1fa923625e767f6dd7cd">More...</a><br /></td></tr>
+<tr class="separator:adb863b44dfbc1fa923625e767f6dd7cd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a21877944988f34eb69cb6eefb00c6575"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a21877944988f34eb69cb6eefb00c6575">operator[]</a> (int i) const</td></tr>
+<tr class="memdesc:a21877944988f34eb69cb6eefb00c6575"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#a21877944988f34eb69cb6eefb00c6575">More...</a><br /></td></tr>
+<tr class="separator:a21877944988f34eb69cb6eefb00c6575"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad665745f3d6a3a88d7894fe0fc1bbd3e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#ad665745f3d6a3a88d7894fe0fc1bbd3e">operator[]</a> (int i)</td></tr>
+<tr class="memdesc:ad665745f3d6a3a88d7894fe0fc1bbd3e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accessor.  <a href="#ad665745f3d6a3a88d7894fe0fc1bbd3e">More...</a><br /></td></tr>
+<tr class="separator:ad665745f3d6a3a88d7894fe0fc1bbd3e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8608dd815ed4906d8c82c41a10df23e2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1FragmentIterator.html#a8608dd815ed4906d8c82c41a10df23e2">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a8608dd815ed4906d8c82c41a10df23e2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="#a8608dd815ed4906d8c82c41a10df23e2">More...</a><br /></td></tr>
+<tr class="separator:a8608dd815ed4906d8c82c41a10df23e2"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
@@ -227,8 +227,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4324ae522c6463e66a64f05d
 
 </div>
 </div>
-<a id="a2858ba9a8a9bbaef1de73415cff9b3c1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2858ba9a8a9bbaef1de73415cff9b3c1">&#9670;&nbsp;</a></span>Strides</h2>
+<a id="a2e93985d759d904ac858054eeaa9e50e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2e93985d759d904ac858054eeaa9e50e">&#9670;&nbsp;</a></span>Strides</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -236,7 +236,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2858ba9a8a9bbaef1de73415
 template&lt;typename Fragment_, typename Iterations_, typename AccessType_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a>&lt;<a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentShape</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::<a class="el" href="structcutlass_1_1FragmentIterator.html#a2858ba9a8a9bbaef1de73415cff9b3c1">Strides</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a>&lt;<a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentShape</a>, <a class="el" href="structcutlass_1_1FragmentIterator.html#ad2c43e30e78e8799df7cb02ac08cee9a">kElementsPerAccess</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::<a class="el" href="structcutlass_1_1FragmentIterator.html#a2e93985d759d904ac858054eeaa9e50e">Strides</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -260,8 +260,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae320d9672450f5341abcdb24
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="ae1825fe3e138e2aa62d27dab2b5227b4"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae1825fe3e138e2aa62d27dab2b5227b4">&#9670;&nbsp;</a></span>FragmentIterator()</h2>
+<a id="a638e4e1d84b4ae84e758288c7f37548b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a638e4e1d84b4ae84e758288c7f37548b">&#9670;&nbsp;</a></span>FragmentIterator()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -274,7 +274,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae1825fe3e138e2aa62d27dab
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::<a class="el" href="structcutlass_1_1FragmentIterator.html">FragmentIterator</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::<a class="el" href="structcutlass_1_1FragmentIterator.html">FragmentIterator</a> </td>
           <td>(</td>
           <td class="paramtype">OtherFragment_ &amp;&#160;</td>
           <td class="paramname"><em>fragment</em>, </td>
@@ -301,8 +301,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae1825fe3e138e2aa62d27dab
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a9cf31df06ff035705a1341810fcdcbf2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9cf31df06ff035705a1341810fcdcbf2">&#9670;&nbsp;</a></span>at() <span class="overload">[1/2]</span></h2>
+<a id="a35b721563536ab2c5dbab0f5de1c2b43"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a35b721563536ab2c5dbab0f5de1c2b43">&#9670;&nbsp;</a></span>at() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -313,7 +313,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9cf31df06ff035705a134181
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const&amp; <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const&amp; <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::at </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
@@ -351,8 +351,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9cf31df06ff035705a134181
 
 </div>
 </div>
-<a id="a7bdc407aae8d7360e089af347b585a53"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7bdc407aae8d7360e089af347b585a53">&#9670;&nbsp;</a></span>at() <span class="overload">[2/2]</span></h2>
+<a id="adb863b44dfbc1fa923625e767f6dd7cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adb863b44dfbc1fa923625e767f6dd7cd">&#9670;&nbsp;</a></span>at() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -363,7 +363,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7bdc407aae8d7360e089af34
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp; <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::at </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp; <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::at </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
@@ -401,8 +401,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7bdc407aae8d7360e089af34
 
 </div>
 </div>
-<a id="a83bb6a3ed588e2d890bf986665d2b7bb"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a83bb6a3ed588e2d890bf986665d2b7bb">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+<a id="a21877944988f34eb69cb6eefb00c6575"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a21877944988f34eb69cb6eefb00c6575">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -413,7 +413,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a83bb6a3ed588e2d890bf9866
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const&amp; <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a> const&amp; <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>i</em></td><td>)</td>
@@ -429,8 +429,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a83bb6a3ed588e2d890bf9866
 
 </div>
 </div>
-<a id="a3bd2a9d8467f8db02ca3a01ae0c11ad7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3bd2a9d8467f8db02ca3a01ae0c11ad7">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+<a id="ad665745f3d6a3a88d7894fe0fc1bbd3e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad665745f3d6a3a88d7894fe0fc1bbd3e">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -441,7 +441,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3bd2a9d8467f8db02ca3a01a
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp; <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1FragmentIterator.html#a012c5af3a8a40843c576c55ecbc663e7">AccessType</a>&amp; <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>i</em></td><td>)</td>
@@ -457,8 +457,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3bd2a9d8467f8db02ca3a01a
 
 </div>
 </div>
-<a id="ab18f8ea676b45831f939715212167a99"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab18f8ea676b45831f939715212167a99">&#9670;&nbsp;</a></span>valid()</h2>
+<a id="a8608dd815ed4906d8c82c41a10df23e2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8608dd815ed4906d8c82c41a10df23e2">&#9670;&nbsp;</a></span>valid()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -469,7 +469,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab18f8ea676b45831f9397152
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE bool <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::valid </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1FragmentIterator.html">cutlass::FragmentIterator</a>&lt; Fragment_, Iterations_, AccessType_ &gt;::valid </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
@@ -554,7 +554,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af667793926cdb24d701eb75e
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1GemmOperand-members.html b/docs/structcutlass_1_1GemmOperand-members.html
index 1f0d6f4825..4086172cdd 100644
--- a/docs/structcutlass_1_1GemmOperand-members.html
+++ b/docs/structcutlass_1_1GemmOperand-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1GemmOperand.html b/docs/structcutlass_1_1GemmOperand.html
index b97ab4795a..54e028a2c2 100644
--- a/docs/structcutlass_1_1GemmOperand.html
+++ b/docs/structcutlass_1_1GemmOperand.html
@@ -121,7 +121,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab209ea3de198efabe8e8707d
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Identity-members.html b/docs/structcutlass_1_1Identity-members.html
index 7d06d43203..04e63064f9 100644
--- a/docs/structcutlass_1_1Identity-members.html
+++ b/docs/structcutlass_1_1Identity-members.html
@@ -85,7 +85,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Identity.html b/docs/structcutlass_1_1Identity.html
index 1629a334c7..d4b8d62719 100644
--- a/docs/structcutlass_1_1Identity.html
+++ b/docs/structcutlass_1_1Identity.html
@@ -118,7 +118,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a37966282c824c6d0e32b4322
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1IdentityTensorMapFunc-members.html b/docs/structcutlass_1_1IdentityTensorMapFunc-members.html
new file mode 100644
index 0000000000..d087859606
--- /dev/null
+++ b/docs/structcutlass_1_1IdentityTensorMapFunc-members.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html">IdentityTensorMapFunc</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::IdentityTensorMapFunc&lt; Rank &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html">cutlass::IdentityTensorMapFunc&lt; Rank &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html#ac609498e7fe858b4fb3791d1039438f4">kStorageRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html">cutlass::IdentityTensorMapFunc&lt; Rank &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html#a3922130841c34d3ce8c112ee6fae4ca1">operator()</a>(Coord&lt; Rank &gt; const &amp;coord) const</td><td class="entry"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html">cutlass::IdentityTensorMapFunc&lt; Rank &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1IdentityTensorMapFunc.html b/docs/structcutlass_1_1IdentityTensorMapFunc.html
new file mode 100644
index 0000000000..9c350a380b
--- /dev/null
+++ b/docs/structcutlass_1_1IdentityTensorMapFunc.html
@@ -0,0 +1,166 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::IdentityTensorMapFunc&lt; Rank &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html">IdentityTensorMapFunc</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1IdentityTensorMapFunc-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::IdentityTensorMapFunc&lt; Rank &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="tensor__ref_8h_source.html">tensor_ref.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a3922130841c34d3ce8c112ee6fae4ca1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html#a3922130841c34d3ce8c112ee6fae4ca1">operator()</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank &gt; const &amp;coord) const</td></tr>
+<tr class="separator:a3922130841c34d3ce8c112ee6fae4ca1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:ac609498e7fe858b4fb3791d1039438f4"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html#ac609498e7fe858b4fb3791d1039438f4">kStorageRank</a> = Rank</td></tr>
+<tr class="separator:ac609498e7fe858b4fb3791d1039438f4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;int Rank&gt;<br />
+struct cutlass::IdentityTensorMapFunc&lt; Rank &gt;</h3>
+
+<p>Default mapping function from coordinates in a tensor's index space into the n-D array held in memory. Assumes StorageRank = Rank </p>
+</div><h2 class="groupheader">Member Function Documentation</h2>
+<a id="a3922130841c34d3ce8c112ee6fae4ca1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3922130841c34d3ce8c112ee6fae4ca1">&#9670;&nbsp;</a></span>operator()()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Rank&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;Rank&gt; <a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html">cutlass::IdentityTensorMapFunc</a>&lt; Rank &gt;::operator() </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Rank &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="ac609498e7fe858b4fb3791d1039438f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac609498e7fe858b4fb3791d1039438f4">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Rank&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html">cutlass::IdentityTensorMapFunc</a>&lt; Rank &gt;::kStorageRank = Rank</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tensor__ref_8h_source.html">tensor_ref.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1IteratorAdvance-members.html b/docs/structcutlass_1_1IteratorAdvance-members.html
index b7e004e469..b012bd9111 100644
--- a/docs/structcutlass_1_1IteratorAdvance-members.html
+++ b/docs/structcutlass_1_1IteratorAdvance-members.html
@@ -86,7 +86,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1IteratorAdvance.html b/docs/structcutlass_1_1IteratorAdvance.html
index 91a9d3bccb..a4a49940a0 100644
--- a/docs/structcutlass_1_1IteratorAdvance.html
+++ b/docs/structcutlass_1_1IteratorAdvance.html
@@ -119,7 +119,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9ad9c2302ddffa148d47cdcf
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1KernelLaunchConfiguration-members.html b/docs/structcutlass_1_1KernelLaunchConfiguration-members.html
new file mode 100644
index 0000000000..f93f3de0fd
--- /dev/null
+++ b/docs/structcutlass_1_1KernelLaunchConfiguration-members.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">KernelLaunchConfiguration</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::KernelLaunchConfiguration Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">block</a></td><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">dynamic_smem</a></td><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">grid</a></td><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa">KernelLaunchConfiguration</a>(dim3 _grid=dim3(1, 1, 1), dim3 _block=dim3(1, 1, 1), size_t _dynamic_smem=0)</td><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1KernelLaunchConfiguration.html b/docs/structcutlass_1_1KernelLaunchConfiguration.html
new file mode 100644
index 0000000000..305f68ec06
--- /dev/null
+++ b/docs/structcutlass_1_1KernelLaunchConfiguration.html
@@ -0,0 +1,213 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::KernelLaunchConfiguration Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">KernelLaunchConfiguration</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1KernelLaunchConfiguration-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::KernelLaunchConfiguration Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Structure containing the basic launch configuration of a CUDA kernel.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="kernel__launch_8h_source.html">kernel_launch.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::KernelLaunchConfiguration:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1KernelLaunchConfiguration.png" usemap="#cutlass::KernelLaunchConfiguration_map" alt=""/>
+  <map id="cutlass::KernelLaunchConfiguration_map" name="cutlass::KernelLaunchConfiguration_map">
+<area href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html" title="Parameters object constructable on the host. " alt="cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params" shape="rect" coords="0,56,1154,80"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a726db328ccc8f5e186ff8e7cef568eaa"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa">KernelLaunchConfiguration</a> (dim3 _grid=dim3(1, 1, 1), dim3 _block=dim3(1, 1, 1), size_t _dynamic_smem=0)</td></tr>
+<tr class="memdesc:a726db328ccc8f5e186ff8e7cef568eaa"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a KernellaunchConfiguration object.  <a href="#a726db328ccc8f5e186ff8e7cef568eaa">More...</a><br /></td></tr>
+<tr class="separator:a726db328ccc8f5e186ff8e7cef568eaa"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:ab86ba1464dd9c6cd15ae0de4a552201b"><td class="memItemLeft" align="right" valign="top">dim3&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">grid</a></td></tr>
+<tr class="memdesc:ab86ba1464dd9c6cd15ae0de4a552201b"><td class="mdescLeft">&#160;</td><td class="mdescRight">CUDA grid dimensions.  <a href="#ab86ba1464dd9c6cd15ae0de4a552201b">More...</a><br /></td></tr>
+<tr class="separator:ab86ba1464dd9c6cd15ae0de4a552201b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a09535026bf08f94c6940c358d95d1edd"><td class="memItemLeft" align="right" valign="top">dim3&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">block</a></td></tr>
+<tr class="memdesc:a09535026bf08f94c6940c358d95d1edd"><td class="mdescLeft">&#160;</td><td class="mdescRight">CUDA threablock dimensions.  <a href="#a09535026bf08f94c6940c358d95d1edd">More...</a><br /></td></tr>
+<tr class="separator:a09535026bf08f94c6940c358d95d1edd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4a6ac693d4284c84301279219623e2bc"><td class="memItemLeft" align="right" valign="top">size_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">dynamic_smem</a></td></tr>
+<tr class="memdesc:a4a6ac693d4284c84301279219623e2bc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Bytes of dynamically allocated SMEM in addition to static SMEM.  <a href="#a4a6ac693d4284c84301279219623e2bc">More...</a><br /></td></tr>
+<tr class="separator:a4a6ac693d4284c84301279219623e2bc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a726db328ccc8f5e186ff8e7cef568eaa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a726db328ccc8f5e186ff8e7cef568eaa">&#9670;&nbsp;</a></span>KernelLaunchConfiguration()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> cutlass::KernelLaunchConfiguration::KernelLaunchConfiguration </td>
+          <td>(</td>
+          <td class="paramtype">dim3&#160;</td>
+          <td class="paramname"><em>_grid</em> = <code>dim3(1,1,1)</code>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">dim3&#160;</td>
+          <td class="paramname"><em>_block</em> = <code>dim3(1,1,1)</code>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">size_t&#160;</td>
+          <td class="paramname"><em>_dynamic_smem</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a09535026bf08f94c6940c358d95d1edd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a09535026bf08f94c6940c358d95d1edd">&#9670;&nbsp;</a></span>block</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">dim3 cutlass::KernelLaunchConfiguration::block</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4a6ac693d4284c84301279219623e2bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4a6ac693d4284c84301279219623e2bc">&#9670;&nbsp;</a></span>dynamic_smem</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">size_t cutlass::KernelLaunchConfiguration::dynamic_smem</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab86ba1464dd9c6cd15ae0de4a552201b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab86ba1464dd9c6cd15ae0de4a552201b">&#9670;&nbsp;</a></span>grid</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">dim3 cutlass::KernelLaunchConfiguration::grid</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="kernel__launch_8h_source.html">kernel_launch.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1KernelLaunchConfiguration.png b/docs/structcutlass_1_1KernelLaunchConfiguration.png
new file mode 100644
index 0000000000..a5b5f63f56
Binary files /dev/null and b/docs/structcutlass_1_1KernelLaunchConfiguration.png differ
diff --git a/docs/structcutlass_1_1Load-members.html b/docs/structcutlass_1_1Load-members.html
index f977a3854f..894aba6c7d 100644
--- a/docs/structcutlass_1_1Load-members.html
+++ b/docs/structcutlass_1_1Load-members.html
@@ -73,18 +73,18 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt; Member List</div>  </div>
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load.html">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load.html">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">load</a>(AccessType &amp;dst, Scalar_ const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load.html">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load.html#a0d13c39fdb813c3f043cdfaf0f1221a7">load</a>(AccessType &amp;dst, Scalar_ const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Load.html b/docs/structcutlass_1_1Load.html
index e3640b2547..856358b45a 100644
--- a/docs/structcutlass_1_1Load.html
+++ b/docs/structcutlass_1_1Load.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -77,7 +77,7 @@
 <a href="#pub-static-methods">Static Public Member Functions</a> &#124;
 <a href="structcutlass_1_1Load-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::Load&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -85,27 +85,27 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:ad0bf2da0c240f3a2a3f4c92162d347ae"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, Lanes_ &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae">AccessType</a></td></tr>
-<tr class="memdesc:ad0bf2da0c240f3a2a3f4c92162d347ae"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#ad0bf2da0c240f3a2a3f4c92162d347ae">More...</a><br /></td></tr>
-<tr class="separator:ad0bf2da0c240f3a2a3f4c92162d347ae"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad34e83ea01c482100c0557e23bc688f8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, kAccessSize &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">AccessType</a></td></tr>
+<tr class="memdesc:ad34e83ea01c482100c0557e23bc688f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#ad34e83ea01c482100c0557e23bc688f8">More...</a><br /></td></tr>
+<tr class="separator:ad34e83ea01c482100c0557e23bc688f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
 Static Public Member Functions</h2></td></tr>
-<tr class="memitem:ad033ebc1452d96b18913333bf7068140"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">load</a> (<a class="el" href="structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae">AccessType</a> &amp;dst, Scalar_ const *pointer, int offset)</td></tr>
-<tr class="memdesc:ad033ebc1452d96b18913333bf7068140"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#ad033ebc1452d96b18913333bf7068140">More...</a><br /></td></tr>
-<tr class="separator:ad033ebc1452d96b18913333bf7068140"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0d13c39fdb813c3f043cdfaf0f1221a7"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load.html#a0d13c39fdb813c3f043cdfaf0f1221a7">load</a> (<a class="el" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">AccessType</a> &amp;dst, Scalar_ const *pointer, int offset)</td></tr>
+<tr class="memdesc:a0d13c39fdb813c3f043cdfaf0f1221a7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#a0d13c39fdb813c3f043cdfaf0f1221a7">More...</a><br /></td></tr>
+<tr class="separator:a0d13c39fdb813c3f043cdfaf0f1221a7"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="ad0bf2da0c240f3a2a3f4c92162d347ae"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad0bf2da0c240f3a2a3f4c92162d347ae">&#9670;&nbsp;</a></span>AccessType</h2>
+<a id="ad34e83ea01c482100c0557e23bc688f8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad34e83ea01c482100c0557e23bc688f8">&#9670;&nbsp;</a></span>AccessType</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_ , int Lanes_, MemorySpace::Kind Memory_, bool  = (Lanes_ &gt; 1), size_t  = (sizeof(Scalar_) * Lanes_)&gt; </div>
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, FragmentElementType::Kind kFragmentElementType = FragmentElementType::kScalar, typename FragmentElement_  = Scalar_, int kStride = 1, size_t size = (sizeof(Scalar_) * kAccessSize)&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, Lanes_&gt;::Type <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;::<a class="el" href="structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae">AccessType</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, kAccessSize&gt;::Type <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;::<a class="el" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">AccessType</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -113,21 +113,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad0bf2da0c240f3a2a3f4c921
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="ad033ebc1452d96b18913333bf7068140"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad033ebc1452d96b18913333bf7068140">&#9670;&nbsp;</a></span>load()</h2>
+<a id="a0d13c39fdb813c3f043cdfaf0f1221a7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d13c39fdb813c3f043cdfaf0f1221a7">&#9670;&nbsp;</a></span>load()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_ , int Lanes_, MemorySpace::Kind Memory_, bool  = (Lanes_ &gt; 1), size_t  = (sizeof(Scalar_) * Lanes_)&gt; </div>
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, FragmentElementType::Kind kFragmentElementType = FragmentElementType::kScalar, typename FragmentElement_  = Scalar_, int kStride = 1, size_t size = (sizeof(Scalar_) * kAccessSize)&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">static CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;::load </td>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;::load </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Load.html#ad0bf2da0c240f3a2a3f4c92162d347ae">AccessType</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Load.html#ad34e83ea01c482100c0557e23bc688f8">AccessType</a> &amp;&#160;</td>
           <td class="paramname"><em>dst</em>, </td>
         </tr>
         <tr>
@@ -163,7 +163,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad033ebc1452d96b18913333b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html
new file mode 100644
index 0000000000..78072035e0
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf2952bcb62d20c76c595eac4c59f7239.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ab3f1d2f24c3aaec7690aae184b57bc59"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, kAccessSize &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59">AccessType</a></td></tr>
+<tr class="memdesc:ab3f1d2f24c3aaec7690aae184b57bc59"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#ab3f1d2f24c3aaec7690aae184b57bc59">More...</a><br /></td></tr>
+<tr class="separator:ab3f1d2f24c3aaec7690aae184b57bc59"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a2e906364a0631c2c9f97acd0ae4a1873"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#a2e906364a0631c2c9f97acd0ae4a1873">load</a> (<a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59">AccessType</a> &amp;dst, Scalar_ const *pointer, int offset)</td></tr>
+<tr class="memdesc:a2e906364a0631c2c9f97acd0ae4a1873"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#a2e906364a0631c2c9f97acd0ae4a1873">More...</a><br /></td></tr>
+<tr class="separator:a2e906364a0631c2c9f97acd0ae4a1873"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ab3f1d2f24c3aaec7690aae184b57bc59"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab3f1d2f24c3aaec7690aae184b57bc59">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, kAccessSize&gt;::Type <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 4 &gt;::<a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a2e906364a0631c2c9f97acd0ae4a1873"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2e906364a0631c2c9f97acd0ae4a1873">&#9670;&nbsp;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 4 &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>dst</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Scalar_ const *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html
new file mode 100644
index 0000000000..11d0071699
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS966cdf9ba449f056a92458bf87878053.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a379269fb6baf7f5e5a1c3173ed048064"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, kAccessSize &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064">AccessType</a></td></tr>
+<tr class="memdesc:a379269fb6baf7f5e5a1c3173ed048064"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a379269fb6baf7f5e5a1c3173ed048064">More...</a><br /></td></tr>
+<tr class="separator:a379269fb6baf7f5e5a1c3173ed048064"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a7d3d3e156dc527f9c00acc7a66d21326"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a7d3d3e156dc527f9c00acc7a66d21326">load</a> (<a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064">AccessType</a> &amp;dst, Scalar_ const *pointer, int offset)</td></tr>
+<tr class="memdesc:a7d3d3e156dc527f9c00acc7a66d21326"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#a7d3d3e156dc527f9c00acc7a66d21326">More...</a><br /></td></tr>
+<tr class="separator:a7d3d3e156dc527f9c00acc7a66d21326"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a379269fb6baf7f5e5a1c3173ed048064"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a379269fb6baf7f5e5a1c3173ed048064">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, kAccessSize&gt;::Type <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 16 &gt;::<a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a7d3d3e156dc527f9c00acc7a66d21326"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d3d3e156dc527f9c00acc7a66d21326">&#9670;&nbsp;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 16 &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>dst</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Scalar_ const *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS840de374cd1e3ee3a4aa6a70a9fa83d1.html b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS840de374cd1e3ee3a4aa6a70a9fa83d1.html
new file mode 100644
index 0000000000..37f16cddf7
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS840de374cd1e3ee3a4aa6a70a9fa83d1.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#afee69b86f070e3badc75ab00bcc5996b">load</a>(AccessType &amp;dst, Scalar_ const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html
new file mode 100644
index 0000000000..ea576ee8b4
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS840de374cd1e3ee3a4aa6a70a9fa83d1.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a7eab78b09f87ca0ee3646eec4fd91b78"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, kAccessSize &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78">AccessType</a></td></tr>
+<tr class="memdesc:a7eab78b09f87ca0ee3646eec4fd91b78"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a7eab78b09f87ca0ee3646eec4fd91b78">More...</a><br /></td></tr>
+<tr class="separator:a7eab78b09f87ca0ee3646eec4fd91b78"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:afee69b86f070e3badc75ab00bcc5996b"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#afee69b86f070e3badc75ab00bcc5996b">load</a> (<a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78">AccessType</a> &amp;dst, Scalar_ const *pointer, int offset)</td></tr>
+<tr class="memdesc:afee69b86f070e3badc75ab00bcc5996b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#afee69b86f070e3badc75ab00bcc5996b">More...</a><br /></td></tr>
+<tr class="separator:afee69b86f070e3badc75ab00bcc5996b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a7eab78b09f87ca0ee3646eec4fd91b78"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7eab78b09f87ca0ee3646eec4fd91b78">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, kAccessSize&gt;::Type <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 8 &gt;::<a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="afee69b86f070e3badc75ab00bcc5996b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afee69b86f070e3badc75ab00bcc5996b">&#9670;&nbsp;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 8 &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS91ff65dd36f118bca4542df6128d6d99.html#a7eab78b09f87ca0ee3646eec4fd91b78">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>dst</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Scalar_ const *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS966cdf9ba449f056a92458bf87878053.html b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS966cdf9ba449f056a92458bf87878053.html
new file mode 100644
index 0000000000..e147efbb5d
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS966cdf9ba449f056a92458bf87878053.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a379269fb6baf7f5e5a1c3173ed048064">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html#a7d3d3e156dc527f9c00acc7a66d21326">load</a>(AccessType &amp;dst, Scalar_ const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS3de71ba9ef724a37fb1cf315da8bf9b5.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSc8e65d97c8f615e98ac2e03f0bcd236e.html b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSc8e65d97c8f615e98ac2e03f0bcd236e.html
new file mode 100644
index 0000000000..8976795638
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSc8e65d97c8f615e98ac2e03f0bcd236e.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a4bab8959d29ee868fb6b3e1f9abc04fc">load</a>(AccessType &amp;dst, Scalar_ const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html
new file mode 100644
index 0000000000..b40fdf8366
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html
@@ -0,0 +1,174 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSc8e65d97c8f615e98ac2e03f0bcd236e.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Partial specialization for 16b loads.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a33f5160c8c038680ba2fe4c98cf036b0"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, kAccessSize &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0">AccessType</a></td></tr>
+<tr class="memdesc:a33f5160c8c038680ba2fe4c98cf036b0"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a33f5160c8c038680ba2fe4c98cf036b0">More...</a><br /></td></tr>
+<tr class="separator:a33f5160c8c038680ba2fe4c98cf036b0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a4bab8959d29ee868fb6b3e1f9abc04fc"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a4bab8959d29ee868fb6b3e1f9abc04fc">load</a> (<a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0">AccessType</a> &amp;dst, Scalar_ const *pointer, int offset)</td></tr>
+<tr class="memdesc:a4bab8959d29ee868fb6b3e1f9abc04fc"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#a4bab8959d29ee868fb6b3e1f9abc04fc">More...</a><br /></td></tr>
+<tr class="separator:a4bab8959d29ee868fb6b3e1f9abc04fc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a33f5160c8c038680ba2fe4c98cf036b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33f5160c8c038680ba2fe4c98cf036b0">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, kAccessSize&gt;::Type <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, 1, 2 &gt;::<a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a4bab8959d29ee868fb6b3e1f9abc04fc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4bab8959d29ee868fb6b3e1f9abc04fc">&#9670;&nbsp;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, 1, 2 &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf1f63874ddc1302ed9e60e0478e1a8ad.html#a33f5160c8c038680ba2fe4c98cf036b0">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>dst</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Scalar_ const *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf2952bcb62d20c76c595eac4c59f7239.html b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf2952bcb62d20c76c595eac4c59f7239.html
new file mode 100644
index 0000000000..4f69e6d527
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kSf2952bcb62d20c76c595eac4c59f7239.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#ab3f1d2f24c3aaec7690aae184b57bc59">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html#a2e906364a0631c2c9f97acd0ae4a1873">load</a>(AccessType &amp;dst, Scalar_ const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kS1b28106546bd22002cd52e60197548ce.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kW847237836867f08e1121b00b7e44d8ae.html b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kW847237836867f08e1121b00b7e44d8ae.html
new file mode 100644
index 0000000000..9436b3d55c
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kW847237836867f08e1121b00b7e44d8ae.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a854c684b3f6c1a10b6e8fcf7967f6642">load</a>(AccessType &amp;value, Scalar_ const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html
new file mode 100644
index 0000000000..9d5dad43c8
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html">Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kW847237836867f08e1121b00b7e44d8ae.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a1aa08c9c7424ba4f998d7445ba83eaab"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">AccessType</a></td></tr>
+<tr class="memdesc:a1aa08c9c7424ba4f998d7445ba83eaab"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a1aa08c9c7424ba4f998d7445ba83eaab">More...</a><br /></td></tr>
+<tr class="separator:a1aa08c9c7424ba4f998d7445ba83eaab"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a854c684b3f6c1a10b6e8fcf7967f6642"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a854c684b3f6c1a10b6e8fcf7967f6642">load</a> (<a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">AccessType</a> &amp;value, Scalar_ const *pointer, int offset)</td></tr>
+<tr class="memdesc:a854c684b3f6c1a10b6e8fcf7967f6642"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#a854c684b3f6c1a10b6e8fcf7967f6642">More...</a><br /></td></tr>
+<tr class="separator:a854c684b3f6c1a10b6e8fcf7967f6642"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a1aa08c9c7424ba4f998d7445ba83eaab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1aa08c9c7424ba4f998d7445ba83eaab">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, typename FragmentElement_ , int kStride, size_t size&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef FragmentElement_ <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>, FragmentElement_, kStride, size &gt;::<a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a854c684b3f6c1a10b6e8fcf7967f6642"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a854c684b3f6c1a10b6e8fcf7967f6642">&#9670;&nbsp;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, typename FragmentElement_ , int kStride, size_t size&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>, FragmentElement_, kStride, size &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Load_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kWe58d0048e24352beeec002fd483c53b2.html#a1aa08c9c7424ba4f998d7445ba83eaab">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Scalar_ const *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fr16ad55dd7bca84e6a7fc608c26eee889.html b/docs/structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fr16ad55dd7bca84e6a7fc608c26eee889.html
new file mode 100644
index 0000000000..8765614184
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fr16ad55dd7bca84e6a7fc608c26eee889.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html">Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#a619f643794f51b35f3c0a1011ba00bbd">load</a>(AccessType &amp;value, Vector&lt; bin1_t, 32 &gt; const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html b/docs/structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html
new file mode 100644
index 0000000000..e44efecea3
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html">Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fr16ad55dd7bca84e6a7fc608c26eee889.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Vector&lt; bin1_t, 32 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ae5df4a17f7f946534cfe7cdbd325e301"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">AccessType</a></td></tr>
+<tr class="memdesc:ae5df4a17f7f946534cfe7cdbd325e301"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#ae5df4a17f7f946534cfe7cdbd325e301">More...</a><br /></td></tr>
+<tr class="separator:ae5df4a17f7f946534cfe7cdbd325e301"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a619f643794f51b35f3c0a1011ba00bbd"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#a619f643794f51b35f3c0a1011ba00bbd">load</a> (<a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">AccessType</a> &amp;value, <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, 32 &gt; const *pointer, int offset)</td></tr>
+<tr class="memdesc:a619f643794f51b35f3c0a1011ba00bbd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#a619f643794f51b35f3c0a1011ba00bbd">More...</a><br /></td></tr>
+<tr class="separator:a619f643794f51b35f3c0a1011ba00bbd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ae5df4a17f7f946534cfe7cdbd325e301"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae5df4a17f7f946534cfe7cdbd325e301">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kAccessSize, MemorySpace::Kind Memory_, typename FragmentElement_ , int kStride, size_t size&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef FragmentElement_ <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, 32 &gt;, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>, FragmentElement_, kStride, size &gt;::<a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a619f643794f51b35f3c0a1011ba00bbd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a619f643794f51b35f3c0a1011ba00bbd">&#9670;&nbsp;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kAccessSize, MemorySpace::Kind Memory_, typename FragmentElement_ , int kStride, size_t size&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, 32 &gt;, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>, FragmentElement_, kStride, size &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kAccessSize_00_01Memory___00_01Fra240d9c28383cd3945277ec3a927c538.html#ae5df4a17f7f946534cfe7cdbd325e301">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, 32 &gt; const *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra03475418f27732d726d18feb23feeed2.html b/docs/structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra03475418f27732d726d18feb23feeed2.html
new file mode 100644
index 0000000000..4ddb71a67f
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra03475418f27732d726d18feb23feeed2.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html">Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#abc4f879290c847a6e73dc9e68a340f74">load</a>(AccessType &amp;value, Vector&lt; int4_t, 8 &gt; const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html b/docs/structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html
new file mode 100644
index 0000000000..6ff5e6eacb
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html">Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra03475418f27732d726d18feb23feeed2.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Vector&lt; int4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a2265e1ad87bc6fd227f0a83e7043c87a"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">AccessType</a></td></tr>
+<tr class="memdesc:a2265e1ad87bc6fd227f0a83e7043c87a"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a2265e1ad87bc6fd227f0a83e7043c87a">More...</a><br /></td></tr>
+<tr class="separator:a2265e1ad87bc6fd227f0a83e7043c87a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:abc4f879290c847a6e73dc9e68a340f74"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#abc4f879290c847a6e73dc9e68a340f74">load</a> (<a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">AccessType</a> &amp;value, <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, 8 &gt; const *pointer, int offset)</td></tr>
+<tr class="memdesc:abc4f879290c847a6e73dc9e68a340f74"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#abc4f879290c847a6e73dc9e68a340f74">More...</a><br /></td></tr>
+<tr class="separator:abc4f879290c847a6e73dc9e68a340f74"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a2265e1ad87bc6fd227f0a83e7043c87a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2265e1ad87bc6fd227f0a83e7043c87a">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kAccessSize, MemorySpace::Kind Memory_, typename FragmentElement_ , int kStride, size_t size&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef FragmentElement_ <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, 8 &gt;, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>, FragmentElement_, kStride, size &gt;::<a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="abc4f879290c847a6e73dc9e68a340f74"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc4f879290c847a6e73dc9e68a340f74">&#9670;&nbsp;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kAccessSize, MemorySpace::Kind Memory_, typename FragmentElement_ , int kStride, size_t size&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, 8 &gt;, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>, FragmentElement_, kStride, size &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01int4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fra934529165fa8fecdd392b5302d25ef26.html#a2265e1ad87bc6fd227f0a83e7043c87a">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, 8 &gt; const *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html b/docs/structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html
new file mode 100644
index 0000000000..f6e7b108ab
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html">Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Frc8b0aa6ddd9b4317158c26574a6881de.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ae82bca88b6dcca352bfb45d5789d9ce9"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">AccessType</a></td></tr>
+<tr class="memdesc:ae82bca88b6dcca352bfb45d5789d9ce9"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#ae82bca88b6dcca352bfb45d5789d9ce9">More...</a><br /></td></tr>
+<tr class="separator:ae82bca88b6dcca352bfb45d5789d9ce9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:af587adae1103b4242e0d56eb902f9302"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#af587adae1103b4242e0d56eb902f9302">load</a> (<a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">AccessType</a> &amp;value, <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, 8 &gt; const *pointer, int offset)</td></tr>
+<tr class="memdesc:af587adae1103b4242e0d56eb902f9302"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#af587adae1103b4242e0d56eb902f9302">More...</a><br /></td></tr>
+<tr class="separator:af587adae1103b4242e0d56eb902f9302"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ae82bca88b6dcca352bfb45d5789d9ce9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae82bca88b6dcca352bfb45d5789d9ce9">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kAccessSize, MemorySpace::Kind Memory_, typename FragmentElement_ , int kStride, size_t size&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef FragmentElement_ <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, 8 &gt;, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>, FragmentElement_, kStride, size &gt;::<a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="af587adae1103b4242e0d56eb902f9302"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af587adae1103b4242e0d56eb902f9302">&#9670;&nbsp;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kAccessSize, MemorySpace::Kind Memory_, typename FragmentElement_ , int kStride, size_t size&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, 8 &gt;, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>, FragmentElement_, kStride, size &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, 8 &gt; const *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Frc8b0aa6ddd9b4317158c26574a6881de.html b/docs/structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Frc8b0aa6ddd9b4317158c26574a6881de.html
new file mode 100644
index 0000000000..b5f9c24ace
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Frc8b0aa6ddd9b4317158c26574a6881de.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html">Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#ae82bca88b6dcca352bfb45d5789d9ce9">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html#af587adae1103b4242e0d56eb902f9302">load</a>(AccessType &amp;value, Vector&lt; uint4_t, 8 &gt; const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01Vector_3_01uint4__t_00_018_01_4_00_01kAccessSize_00_01Memory___00_01Fr23088b868c6eeec9377c46892553686f.html">cutlass::Load&lt; Vector&lt; uint4_t, 8 &gt;, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01d9e675253ca19588f1ae4bd898579523f.html b/docs/structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01d9e675253ca19588f1ae4bd898579523f.html
new file mode 100644
index 0000000000..c89be5a6fa
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01d9e675253ca19588f1ae4bd898579523f.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html">Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a7d9027453aa78d4448d70dc44307791e">load</a>(AccessType &amp;dst, double const *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html b/docs/structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html
new file mode 100644
index 0000000000..1e361ce51f
--- /dev/null
+++ b/docs/structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html">Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01d9e675253ca19588f1ae4bd898579523f.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Load&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a925ca73bca88c8a1835061cc1391ae57"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; double, 2 &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57">AccessType</a></td></tr>
+<tr class="memdesc:a925ca73bca88c8a1835061cc1391ae57"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a925ca73bca88c8a1835061cc1391ae57">More...</a><br /></td></tr>
+<tr class="separator:a925ca73bca88c8a1835061cc1391ae57"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a7d9027453aa78d4448d70dc44307791e"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a7d9027453aa78d4448d70dc44307791e">load</a> (<a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57">AccessType</a> &amp;dst, double const *pointer, int offset)</td></tr>
+<tr class="memdesc:a7d9027453aa78d4448d70dc44307791e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load function.  <a href="#a7d9027453aa78d4448d70dc44307791e">More...</a><br /></td></tr>
+<tr class="separator:a7d9027453aa78d4448d70dc44307791e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a925ca73bca88c8a1835061cc1391ae57"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a925ca73bca88c8a1835061cc1391ae57">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;MemorySpace::Kind Memory_, int kStride&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;double, 2&gt;::Type <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; double, 2, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, double, kStride, 16 &gt;::<a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a7d9027453aa78d4448d70dc44307791e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d9027453aa78d4448d70dc44307791e">&#9670;&nbsp;</a></span>load()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;MemorySpace::Kind Memory_, int kStride&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Load.html">cutlass::Load</a>&lt; double, 2, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, double, kStride, 16 &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Load_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_01double_00_01kStride_00_0116_01_4.html#a925ca73bca88c8a1835061cc1391ae57">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>dst</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double const *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixCoord-members.html b/docs/structcutlass_1_1MatrixCoord-members.html
new file mode 100644
index 0000000000..c1e6739036
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixCoord-members.html
@@ -0,0 +1,140 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::MatrixCoord Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">at</a>(int dim)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">at</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">at</a>(int dim) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">clamp</a>(Coord&lt; kRank &gt; const &amp;max, Coord&lt; kRank &gt; const &amp;min=Coord&lt; kRank &gt;())</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a093f5e568a81c6464dbf4aef996c32ba">column</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">Coord</a>(Index value=0)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">Coord</a>(Index _idx[])</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">Coord</a>(Coord&lt; kRank &gt; const &amp;coord)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">count</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">dot</a>(Coord const &amp;b, T sum) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">dot</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a1e096b25138e027c31ea8624729ec433">kColumn</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a5149f4a37407746407251efc0779bb53">kRow</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">MatrixCoord</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a64bddbf8238dc937a01a140722f7f39c">MatrixCoord</a>(Coord&lt; 2, Index &gt; const &amp;coord)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#ac77b18e67be18cfdfe1935939e7f2017">MatrixCoord</a>(Index row, Index column)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">N</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">operator bool</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">operator!</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">operator!=</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#ac68a57c17811b0a04dc6fb21423ab226">operator*</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">Coord&lt; 2, int &gt;::operator*</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a5fd3c3b58af1147a5c73657c05a16f5b">operator*=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">Coord&lt; 2, int &gt;::operator*=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a25236953237f965965b1c9b7a04ba26e">operator+</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">Coord&lt; 2, int &gt;::operator+</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#ad105615dbf7ede75caa0e778c873bd06">operator+=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">Coord&lt; 2, int &gt;::operator+=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#aa462303d75a5d98b680b6e20080ce877">operator-</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">Coord&lt; 2, int &gt;::operator-</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a6feef48cf24733d22ca53a27cbc33ac0">operator-=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">Coord&lt; 2, int &gt;::operator-=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#aa89b196410d25d8c9ed3746fb6833374">operator/</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">Coord&lt; 2, int &gt;::operator/</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#aab345c8ddb8048bfe3d667bc7ce6522f">operator/=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">Coord&lt; 2, int &gt;::operator/=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">operator&lt;</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">operator&lt;=</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">operator==</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">operator[]</a>(int dim)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">operator[]</a>(int dim) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html#a67f3102e51abad1205e8a3450e7a6c7e">row</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixCoord.html">cutlass::MatrixCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a>(int start=0, Index identity=0) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixCoord.html b/docs/structcutlass_1_1MatrixCoord.html
new file mode 100644
index 0000000000..ca323c47b6
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixCoord.html
@@ -0,0 +1,748 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::MatrixCoord Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1MatrixCoord-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::MatrixCoord Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::MatrixCoord:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1MatrixCoord.png" usemap="#cutlass::MatrixCoord_map" alt=""/>
+  <map id="cutlass::MatrixCoord_map" name="cutlass::MatrixCoord_map">
+<area href="structcutlass_1_1Coord.html" alt="cutlass::Coord&lt; 2, int &gt;" shape="rect" coords="0,0,145,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a33eea222c3dcaf22cf62502e41afb24f"><td class="memItemLeft" align="right" valign="top">typedef int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a></td></tr>
+<tr class="memdesc:a33eea222c3dcaf22cf62502e41afb24f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Integer-valued index.  <a href="#a33eea222c3dcaf22cf62502e41afb24f">More...</a><br /></td></tr>
+<tr class="separator:a33eea222c3dcaf22cf62502e41afb24f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07f7e0ff4347aa6d75a5b3a63676d51d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 2, <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a></td></tr>
+<tr class="memdesc:a07f7e0ff4347aa6d75a5b3a63676d51d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base type is a <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> of rank=2.  <a href="#a07f7e0ff4347aa6d75a5b3a63676d51d">More...</a><br /></td></tr>
+<tr class="separator:a07f7e0ff4347aa6d75a5b3a63676d51d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td></tr>
+<tr class="memitem:a7c73966e94b4f45854f16e33683bc02c inherit pub_types_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top">typedef int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a></td></tr>
+<tr class="memdesc:a7c73966e94b4f45854f16e33683bc02c inherit pub_types_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type used to store elements.  <a href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">More...</a><br /></td></tr>
+<tr class="separator:a7c73966e94b4f45854f16e33683bc02c inherit pub_types_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a36a8a680a466b55325eb0c0cb9fc29c6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a36a8a680a466b55325eb0c0cb9fc29c6">MatrixCoord</a> ()</td></tr>
+<tr class="memdesc:a36a8a680a466b55325eb0c0cb9fc29c6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor.  <a href="#a36a8a680a466b55325eb0c0cb9fc29c6">More...</a><br /></td></tr>
+<tr class="separator:a36a8a680a466b55325eb0c0cb9fc29c6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64bddbf8238dc937a01a140722f7f39c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a64bddbf8238dc937a01a140722f7f39c">MatrixCoord</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 2, <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> &gt; const &amp;coord)</td></tr>
+<tr class="memdesc:a64bddbf8238dc937a01a140722f7f39c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from Coord&lt;2&gt;  <a href="#a64bddbf8238dc937a01a140722f7f39c">More...</a><br /></td></tr>
+<tr class="separator:a64bddbf8238dc937a01a140722f7f39c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac77b18e67be18cfdfe1935939e7f2017"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#ac77b18e67be18cfdfe1935939e7f2017">MatrixCoord</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> <a class="el" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a>, <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> <a class="el" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a>)</td></tr>
+<tr class="memdesc:ac77b18e67be18cfdfe1935939e7f2017"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct from a row and column.  <a href="#ac77b18e67be18cfdfe1935939e7f2017">More...</a><br /></td></tr>
+<tr class="separator:ac77b18e67be18cfdfe1935939e7f2017"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a525949dd8a6b631e755511764848e546"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a525949dd8a6b631e755511764848e546">row</a> () const</td></tr>
+<tr class="memdesc:a525949dd8a6b631e755511764848e546"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the row of the coordinate.  <a href="#a525949dd8a6b631e755511764848e546">More...</a><br /></td></tr>
+<tr class="separator:a525949dd8a6b631e755511764848e546"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a67f3102e51abad1205e8a3450e7a6c7e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a67f3102e51abad1205e8a3450e7a6c7e">row</a> ()</td></tr>
+<tr class="memdesc:a67f3102e51abad1205e8a3450e7a6c7e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the row of the coordinate.  <a href="#a67f3102e51abad1205e8a3450e7a6c7e">More...</a><br /></td></tr>
+<tr class="separator:a67f3102e51abad1205e8a3450e7a6c7e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6a34cc85c9816263982e6253fe02abf9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a6a34cc85c9816263982e6253fe02abf9">column</a> () const</td></tr>
+<tr class="memdesc:a6a34cc85c9816263982e6253fe02abf9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the column of the coordinate.  <a href="#a6a34cc85c9816263982e6253fe02abf9">More...</a><br /></td></tr>
+<tr class="separator:a6a34cc85c9816263982e6253fe02abf9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a093f5e568a81c6464dbf4aef996c32ba"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a093f5e568a81c6464dbf4aef996c32ba">column</a> ()</td></tr>
+<tr class="memdesc:a093f5e568a81c6464dbf4aef996c32ba"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the column of the coordinate.  <a href="#a093f5e568a81c6464dbf4aef996c32ba">More...</a><br /></td></tr>
+<tr class="separator:a093f5e568a81c6464dbf4aef996c32ba"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a25236953237f965965b1c9b7a04ba26e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a25236953237f965965b1c9b7a04ba26e">operator+</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a25236953237f965965b1c9b7a04ba26e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise addition.  <a href="#a25236953237f965965b1c9b7a04ba26e">More...</a><br /></td></tr>
+<tr class="separator:a25236953237f965965b1c9b7a04ba26e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa462303d75a5d98b680b6e20080ce877"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#aa462303d75a5d98b680b6e20080ce877">operator-</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:aa462303d75a5d98b680b6e20080ce877"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise subtraction.  <a href="#aa462303d75a5d98b680b6e20080ce877">More...</a><br /></td></tr>
+<tr class="separator:aa462303d75a5d98b680b6e20080ce877"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac68a57c17811b0a04dc6fb21423ab226"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#ac68a57c17811b0a04dc6fb21423ab226">operator*</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:ac68a57c17811b0a04dc6fb21423ab226"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise multiplication.  <a href="#ac68a57c17811b0a04dc6fb21423ab226">More...</a><br /></td></tr>
+<tr class="separator:ac68a57c17811b0a04dc6fb21423ab226"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa89b196410d25d8c9ed3746fb6833374"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#aa89b196410d25d8c9ed3746fb6833374">operator/</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:aa89b196410d25d8c9ed3746fb6833374"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise division.  <a href="#aa89b196410d25d8c9ed3746fb6833374">More...</a><br /></td></tr>
+<tr class="separator:aa89b196410d25d8c9ed3746fb6833374"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad105615dbf7ede75caa0e778c873bd06"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#ad105615dbf7ede75caa0e778c873bd06">operator+=</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:ad105615dbf7ede75caa0e778c873bd06"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place addition.  <a href="#ad105615dbf7ede75caa0e778c873bd06">More...</a><br /></td></tr>
+<tr class="separator:ad105615dbf7ede75caa0e778c873bd06"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6feef48cf24733d22ca53a27cbc33ac0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a6feef48cf24733d22ca53a27cbc33ac0">operator-=</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:a6feef48cf24733d22ca53a27cbc33ac0"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place subtraction.  <a href="#a6feef48cf24733d22ca53a27cbc33ac0">More...</a><br /></td></tr>
+<tr class="separator:a6feef48cf24733d22ca53a27cbc33ac0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5fd3c3b58af1147a5c73657c05a16f5b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a5fd3c3b58af1147a5c73657c05a16f5b">operator*=</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:a5fd3c3b58af1147a5c73657c05a16f5b"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place multiplication.  <a href="#a5fd3c3b58af1147a5c73657c05a16f5b">More...</a><br /></td></tr>
+<tr class="separator:a5fd3c3b58af1147a5c73657c05a16f5b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aab345c8ddb8048bfe3d667bc7ce6522f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#aab345c8ddb8048bfe3d667bc7ce6522f">operator/=</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:aab345c8ddb8048bfe3d667bc7ce6522f"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place division.  <a href="#aab345c8ddb8048bfe3d667bc7ce6522f">More...</a><br /></td></tr>
+<tr class="separator:aab345c8ddb8048bfe3d667bc7ce6522f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td></tr>
+<tr class="memitem:a422aa7e2d2bf5dd3a60f65427bc0d7c0 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> value=0)</td></tr>
+<tr class="memdesc:a422aa7e2d2bf5dd3a60f65427bc0d7c0 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor initializes uniformly.  <a href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">More...</a><br /></td></tr>
+<tr class="separator:a422aa7e2d2bf5dd3a60f65427bc0d7c0 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a63ad1225ab2c51a68add731e994526b4 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> _idx[])</td></tr>
+<tr class="memdesc:a63ad1225ab2c51a68add731e994526b4 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of integers.  <a href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">More...</a><br /></td></tr>
+<tr class="separator:a63ad1225ab2c51a68add731e994526b4 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6110e4cfd090561696a81a8a4068a573 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;coord)</td></tr>
+<tr class="memdesc:a6110e4cfd090561696a81a8a4068a573 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of integers.  <a href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">More...</a><br /></td></tr>
+<tr class="separator:a6110e4cfd090561696a81a8a4068a573 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac8f7a9b0835efc34fd28894b2b45342c inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Slice &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a> (int start=0, <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> identity=0) const</td></tr>
+<tr class="separator:ac8f7a9b0835efc34fd28894b2b45342c inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1781b3c5a2d653b0c1718ec3154ae48f inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">operator bool</a> () const</td></tr>
+<tr class="memdesc:a1781b3c5a2d653b0c1718ec3154ae48f inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if Coord is non-zero.  <a href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">More...</a><br /></td></tr>
+<tr class="separator:a1781b3c5a2d653b0c1718ec3154ae48f inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a232095edae2f74c01a3c8abf68166e02 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">operator!</a> () const</td></tr>
+<tr class="memdesc:a232095edae2f74c01a3c8abf68166e02 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if Coord is uniformly zero.  <a href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">More...</a><br /></td></tr>
+<tr class="separator:a232095edae2f74c01a3c8abf68166e02 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37672637771a70910df9aa1a0cffddc inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">operator+</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:ab37672637771a70910df9aa1a0cffddc inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise addition.  <a href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">More...</a><br /></td></tr>
+<tr class="separator:ab37672637771a70910df9aa1a0cffddc inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6b876f61a85a4a4ef3763b6742bfaa6b inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">operator-</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a6b876f61a85a4a4ef3763b6742bfaa6b inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise subtraction.  <a href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">More...</a><br /></td></tr>
+<tr class="separator:a6b876f61a85a4a4ef3763b6742bfaa6b inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e94c093f82908ff3dba4f23b5d10033 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">operator*</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a2e94c093f82908ff3dba4f23b5d10033 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise multiplication.  <a href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">More...</a><br /></td></tr>
+<tr class="separator:a2e94c093f82908ff3dba4f23b5d10033 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9bb07631f09efc80219413ac8309f568 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">operator/</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a9bb07631f09efc80219413ac8309f568 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise division.  <a href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">More...</a><br /></td></tr>
+<tr class="separator:a9bb07631f09efc80219413ac8309f568 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae4f2cb12b84411118cb93e7c4cb88b20 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ae4f2cb12b84411118cb93e7c4cb88b20 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place addition.  <a href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">More...</a><br /></td></tr>
+<tr class="separator:ae4f2cb12b84411118cb93e7c4cb88b20 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a304334cbcad636d7b058fdc6310f0e6b inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">operator-=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a304334cbcad636d7b058fdc6310f0e6b inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place subtraction.  <a href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">More...</a><br /></td></tr>
+<tr class="separator:a304334cbcad636d7b058fdc6310f0e6b inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad4303b578b72b5cb2a0198375290e168 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">operator*=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ad4303b578b72b5cb2a0198375290e168 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place multiplication.  <a href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">More...</a><br /></td></tr>
+<tr class="separator:ad4303b578b72b5cb2a0198375290e168 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac87199c4c9a4e20aac4eb6e3b9a68f28 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">operator/=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ac87199c4c9a4e20aac4eb6e3b9a68f28 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place division.  <a href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">More...</a><br /></td></tr>
+<tr class="separator:ac87199c4c9a4e20aac4eb6e3b9a68f28 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6e0967541a1d74edeb93897ea6069e24 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">operator[]</a> (int dim)</td></tr>
+<tr class="memdesc:a6e0967541a1d74edeb93897ea6069e24 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Member access operator.  <a href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">More...</a><br /></td></tr>
+<tr class="separator:a6e0967541a1d74edeb93897ea6069e24 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a882e7ac07bbd6983659ef2e574b46454 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">operator[]</a> (int dim) const</td></tr>
+<tr class="memdesc:a882e7ac07bbd6983659ef2e574b46454 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Member access operator.  <a href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">More...</a><br /></td></tr>
+<tr class="separator:a882e7ac07bbd6983659ef2e574b46454 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac8ec94703830ab2c62ee055533ea2184 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">dot</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b, T sum) const</td></tr>
+<tr class="memdesc:ac8ec94703830ab2c62ee055533ea2184 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the dot product of two Coord instances.  <a href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">More...</a><br /></td></tr>
+<tr class="separator:ac8ec94703830ab2c62ee055533ea2184 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0acc37908acb6b879c37f54ff7ffc93d inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">dot</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a0acc37908acb6b879c37f54ff7ffc93d inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the dot product of two Coord instances.  <a href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">More...</a><br /></td></tr>
+<tr class="separator:a0acc37908acb6b879c37f54ff7ffc93d inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9eff24a3b74b68d11839b92324613c93 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a> ()</td></tr>
+<tr class="memdesc:a9eff24a3b74b68d11839b92324613c93 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the index of a given Coord element.  <a href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">More...</a><br /></td></tr>
+<tr class="separator:a9eff24a3b74b68d11839b92324613c93 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa253bf69fc819876a7c7770305f1a694 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">at</a> (int dim)</td></tr>
+<tr class="memdesc:aa253bf69fc819876a7c7770305f1a694 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access via index; may limit unrolling potential.  <a href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">More...</a><br /></td></tr>
+<tr class="separator:aa253bf69fc819876a7c7770305f1a694 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a177adcc2d0fb5e72ebcb523edd24e6fe inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">at</a> () const</td></tr>
+<tr class="memdesc:a177adcc2d0fb5e72ebcb523edd24e6fe inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the index of a given Coord element.  <a href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">More...</a><br /></td></tr>
+<tr class="separator:a177adcc2d0fb5e72ebcb523edd24e6fe inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b47b1521820c898b03868627c3f8e46 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">at</a> (int dim) const</td></tr>
+<tr class="memdesc:a9b47b1521820c898b03868627c3f8e46 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access via index; may limit unrolling potential.  <a href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">More...</a><br /></td></tr>
+<tr class="separator:a9b47b1521820c898b03868627c3f8e46 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f919aeb2a895bc040599971400dec8d inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">operator==</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a7f919aeb2a895bc040599971400dec8d inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Determines if two Coord&lt;&gt; objects are equal.  <a href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">More...</a><br /></td></tr>
+<tr class="separator:a7f919aeb2a895bc040599971400dec8d inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a353d847675e5ba2402c407dcd4ae4de3 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">operator!=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a353d847675e5ba2402c407dcd4ae4de3 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Not equal.  <a href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">More...</a><br /></td></tr>
+<tr class="separator:a353d847675e5ba2402c407dcd4ae4de3 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a404a3b4e00f59cac71d41fb1bbba38ba inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">clamp</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;max, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;min=<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt;())</td></tr>
+<tr class="memdesc:a404a3b4e00f59cac71d41fb1bbba38ba inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clamps a coordinate to a range specified by maximum and minimum values.  <a href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">More...</a><br /></td></tr>
+<tr class="separator:a404a3b4e00f59cac71d41fb1bbba38ba inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac0ac5f2aa2cbea3887d126645025e017 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">count</a> () const</td></tr>
+<tr class="memdesc:ac0ac5f2aa2cbea3887d126645025e017 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the product of all elements.  <a href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">More...</a><br /></td></tr>
+<tr class="separator:ac0ac5f2aa2cbea3887d126645025e017 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a148851df63840ac63e23b2f170bd1308 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">operator&lt;</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a148851df63840ac63e23b2f170bd1308 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Less than operator.  <a href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">More...</a><br /></td></tr>
+<tr class="separator:a148851df63840ac63e23b2f170bd1308 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dc9f063be329d475f040afd449d304c inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">operator&lt;=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a9dc9f063be329d475f040afd449d304c inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Less than or equals operator.  <a href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">More...</a><br /></td></tr>
+<tr class="separator:a9dc9f063be329d475f040afd449d304c inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a5149f4a37407746407251efc0779bb53"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a5149f4a37407746407251efc0779bb53">kRow</a> = 0</td></tr>
+<tr class="memdesc:a5149f4a37407746407251efc0779bb53"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rows dimension.  <a href="#a5149f4a37407746407251efc0779bb53">More...</a><br /></td></tr>
+<tr class="separator:a5149f4a37407746407251efc0779bb53"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e096b25138e027c31ea8624729ec433"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixCoord.html#a1e096b25138e027c31ea8624729ec433">kColumn</a> = 1</td></tr>
+<tr class="memdesc:a1e096b25138e027c31ea8624729ec433"><td class="mdescLeft">&#160;</td><td class="mdescRight">Columns dimension.  <a href="#a1e096b25138e027c31ea8624729ec433">More...</a><br /></td></tr>
+<tr class="separator:a1e096b25138e027c31ea8624729ec433"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td></tr>
+<tr class="memitem:a23e1b9a7f5fa8fd4afeadfb85de7c5c3 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a></td></tr>
+<tr class="memdesc:a23e1b9a7f5fa8fd4afeadfb85de7c5c3 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of elements in Coord.  <a href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">More...</a><br /></td></tr>
+<tr class="separator:a23e1b9a7f5fa8fd4afeadfb85de7c5c3 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acfd416eafec51e47b42b8b713ba76030 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">N</a></td></tr>
+<tr class="memdesc:acfd416eafec51e47b42b8b713ba76030 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of elements in Coord, aliased for compatibility.  <a href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">More...</a><br /></td></tr>
+<tr class="separator:acfd416eafec51e47b42b8b713ba76030 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 2, int &gt;</a></td></tr>
+<tr class="memitem:a872e1e0d9cc255fa438c04daaf10ad68 inherit pub_attribs_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a> [<a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>]</td></tr>
+<tr class="memdesc:a872e1e0d9cc255fa438c04daaf10ad68 inherit pub_attribs_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Indices.  <a href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">More...</a><br /></td></tr>
+<tr class="separator:a872e1e0d9cc255fa438c04daaf10ad68 inherit pub_attribs_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><p><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> wraps <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;2, int&gt;</a> to provide a helper for accessing named dimensions. Classes expecting a coordinate in the rank=2 index space of a matrix should use <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>. </p>
+</div><h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a07f7e0ff4347aa6d75a5b3a63676d51d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07f7e0ff4347aa6d75a5b3a63676d51d">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;2, <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a>&gt; <a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">cutlass::MatrixCoord::Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a33eea222c3dcaf22cf62502e41afb24f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33eea222c3dcaf22cf62502e41afb24f">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef int <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">cutlass::MatrixCoord::Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a36a8a680a466b55325eb0c0cb9fc29c6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a36a8a680a466b55325eb0c0cb9fc29c6">&#9670;&nbsp;</a></span>MatrixCoord() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> cutlass::MatrixCoord::MatrixCoord </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a64bddbf8238dc937a01a140722f7f39c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64bddbf8238dc937a01a140722f7f39c">&#9670;&nbsp;</a></span>MatrixCoord() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> cutlass::MatrixCoord::MatrixCoord </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 2, <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac77b18e67be18cfdfe1935939e7f2017"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac77b18e67be18cfdfe1935939e7f2017">&#9670;&nbsp;</a></span>MatrixCoord() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> cutlass::MatrixCoord::MatrixCoord </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a>&#160;</td>
+          <td class="paramname"><em>row</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a>&#160;</td>
+          <td class="paramname"><em>column</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a6a34cc85c9816263982e6253fe02abf9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a34cc85c9816263982e6253fe02abf9">&#9670;&nbsp;</a></span>column() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> const&amp; cutlass::MatrixCoord::column </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a093f5e568a81c6464dbf4aef996c32ba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a093f5e568a81c6464dbf4aef996c32ba">&#9670;&nbsp;</a></span>column() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a>&amp; cutlass::MatrixCoord::column </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac68a57c17811b0a04dc6fb21423ab226"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac68a57c17811b0a04dc6fb21423ab226">&#9670;&nbsp;</a></span>operator*()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> cutlass::MatrixCoord::operator* </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5fd3c3b58af1147a5c73657c05a16f5b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5fd3c3b58af1147a5c73657c05a16f5b">&#9670;&nbsp;</a></span>operator*=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&amp; cutlass::MatrixCoord::operator*= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a25236953237f965965b1c9b7a04ba26e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a25236953237f965965b1c9b7a04ba26e">&#9670;&nbsp;</a></span>operator+()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> cutlass::MatrixCoord::operator+ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad105615dbf7ede75caa0e778c873bd06"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad105615dbf7ede75caa0e778c873bd06">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&amp; cutlass::MatrixCoord::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa462303d75a5d98b680b6e20080ce877"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa462303d75a5d98b680b6e20080ce877">&#9670;&nbsp;</a></span>operator-()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> cutlass::MatrixCoord::operator- </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6feef48cf24733d22ca53a27cbc33ac0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6feef48cf24733d22ca53a27cbc33ac0">&#9670;&nbsp;</a></span>operator-=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&amp; cutlass::MatrixCoord::operator-= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa89b196410d25d8c9ed3746fb6833374"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa89b196410d25d8c9ed3746fb6833374">&#9670;&nbsp;</a></span>operator/()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> cutlass::MatrixCoord::operator/ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aab345c8ddb8048bfe3d667bc7ce6522f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aab345c8ddb8048bfe3d667bc7ce6522f">&#9670;&nbsp;</a></span>operator/=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a>&amp; cutlass::MatrixCoord::operator/= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html#a07f7e0ff4347aa6d75a5b3a63676d51d">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a525949dd8a6b631e755511764848e546"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a525949dd8a6b631e755511764848e546">&#9670;&nbsp;</a></span>row() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a> const&amp; cutlass::MatrixCoord::row </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a67f3102e51abad1205e8a3450e7a6c7e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a67f3102e51abad1205e8a3450e7a6c7e">&#9670;&nbsp;</a></span>row() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1MatrixCoord.html#a33eea222c3dcaf22cf62502e41afb24f">Index</a>&amp; cutlass::MatrixCoord::row </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a1e096b25138e027c31ea8624729ec433"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e096b25138e027c31ea8624729ec433">&#9670;&nbsp;</a></span>kColumn</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::MatrixCoord::kColumn = 1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5149f4a37407746407251efc0779bb53"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5149f4a37407746407251efc0779bb53">&#9670;&nbsp;</a></span>kRow</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::MatrixCoord::kRow = 0</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixCoord.png b/docs/structcutlass_1_1MatrixCoord.png
new file mode 100644
index 0000000000..24fcf6f167
Binary files /dev/null and b/docs/structcutlass_1_1MatrixCoord.png differ
diff --git a/docs/structcutlass_1_1MatrixLayout-members.html b/docs/structcutlass_1_1MatrixLayout-members.html
index 9a6cfd7451..ec3c8cd6a7 100644
--- a/docs/structcutlass_1_1MatrixLayout-members.html
+++ b/docs/structcutlass_1_1MatrixLayout-members.html
@@ -85,7 +85,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1MatrixLayout.html b/docs/structcutlass_1_1MatrixLayout.html
index 1a79f4d144..2e0a59834a 100644
--- a/docs/structcutlass_1_1MatrixLayout.html
+++ b/docs/structcutlass_1_1MatrixLayout.html
@@ -73,6 +73,7 @@
 </div><!-- top -->
 <div class="header">
   <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
 <a href="#pub-types">Public Types</a> &#124;
 <a href="structcutlass_1_1MatrixLayout-members.html">List of all members</a>  </div>
   <div class="headertitle">
@@ -80,16 +81,36 @@
 </div><!--header-->
 <div class="contents">
 
-<p>Describes layouts of matrices.  
+<p>Defines data layouts of various matrix formats usable by <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> and other classes.  
 </p>
 
 <p><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a>&gt;</code></p>
 <table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">ColumnMajor</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Mapping function for column-major matrices.  <a href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">ColumnMajorBlockLinear</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">ColumnMajorInterleaved</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">ContiguousLayout</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">RowMajor</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Mapping function for row-major matrices.  <a href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">RowMajorBlockLinear</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">RowMajorInterleaved</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
 <tr class="memitem:a97ef07af21b122c1804245b0c7784d2b"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">Kind</a> { <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">kRowMajor</a>, 
 <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">kColumnMajor</a>
  }</td></tr>
+<tr class="memdesc:a97ef07af21b122c1804245b0c7784d2b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Enumeration defining fundamental contiguous layouts.  <a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">More...</a><br /></td></tr>
 <tr class="separator:a97ef07af21b122c1804245b0c7784d2b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Enumeration Documentation</h2>
@@ -117,7 +138,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a97ef07af21b122c1804245b0
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajor-members.html b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajor-members.html
new file mode 100644
index 0000000000..99d2c3e364
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajor-members.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">ColumnMajor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::ColumnMajor Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">cutlass::MatrixLayout::ColumnMajor</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70">kStorageRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">cutlass::MatrixLayout::ColumnMajor</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#af51e07c6605524581e5d27d290c8b8d2">operator()</a>(MatrixCoord const &amp;coord) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">cutlass::MatrixLayout::ColumnMajor</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajor.html b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajor.html
new file mode 100644
index 0000000000..87d058e938
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajor.html
@@ -0,0 +1,161 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::MatrixLayout::ColumnMajor Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html">ColumnMajor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1MatrixLayout_1_1ColumnMajor-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::ColumnMajor Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Mapping function for column-major matrices.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:af51e07c6605524581e5d27d290c8b8d2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#af51e07c6605524581e5d27d290c8b8d2">operator()</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:af51e07c6605524581e5d27d290c8b8d2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps (i, j) to (j, i)  <a href="#af51e07c6605524581e5d27d290c8b8d2">More...</a><br /></td></tr>
+<tr class="separator:af51e07c6605524581e5d27d290c8b8d2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:ab6be000553d79c0a6e39ccabe1f38c70"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70">kStorageRank</a> = 2</td></tr>
+<tr class="separator:ab6be000553d79c0a6e39ccabe1f38c70"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="af51e07c6605524581e5d27d290c8b8d2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af51e07c6605524581e5d27d290c8b8d2">&#9670;&nbsp;</a></span>operator()()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajor.html#ab6be000553d79c0a6e39ccabe1f38c70">kStorageRank</a>&gt; cutlass::MatrixLayout::ColumnMajor::operator() </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="ab6be000553d79c0a6e39ccabe1f38c70"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6be000553d79c0a6e39ccabe1f38c70">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::MatrixLayout::ColumnMajor::kStorageRank = 2</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear-members.html b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear-members.html
new file mode 100644
index 0000000000..21c856dcf0
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear-members.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">ColumnMajorBlockLinear</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">kBlockColumns</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">kBlockRows</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">kStorageRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a24c06bb7e64a8015ac528b3ae954a689">operator()</a>(MatrixCoord const &amp;coord) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#abb88bd43e5493682d1132c550b734a36">stride</a>(int ldm)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html
new file mode 100644
index 0000000000..d1d738721b
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html
@@ -0,0 +1,257 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">ColumnMajorBlockLinear</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a24c06bb7e64a8015ac528b3ae954a689"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a24c06bb7e64a8015ac528b3ae954a689">operator()</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a24c06bb7e64a8015ac528b3ae954a689"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps (row, col) to (col, row, col, row)  <a href="#a24c06bb7e64a8015ac528b3ae954a689">More...</a><br /></td></tr>
+<tr class="separator:a24c06bb7e64a8015ac528b3ae954a689"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:abb88bd43e5493682d1132c550b734a36"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#abb88bd43e5493682d1132c550b734a36">stride</a> (int ldm)</td></tr>
+<tr class="memdesc:abb88bd43e5493682d1132c550b734a36"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to compute stride vector from leading dimension.  <a href="#abb88bd43e5493682d1132c550b734a36">More...</a><br /></td></tr>
+<tr class="separator:abb88bd43e5493682d1132c550b734a36"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a626305f3e11ad87e8185e028095a91d3"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">kStorageRank</a> = 4</td></tr>
+<tr class="memdesc:a626305f3e11ad87e8185e028095a91d3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of storage n-D array.  <a href="#a626305f3e11ad87e8185e028095a91d3">More...</a><br /></td></tr>
+<tr class="separator:a626305f3e11ad87e8185e028095a91d3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada7a9316475bb6b2f4e7a70bc654ef5b"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#ada7a9316475bb6b2f4e7a70bc654ef5b">kBlockRows</a> = BlockRows</td></tr>
+<tr class="memdesc:ada7a9316475bb6b2f4e7a70bc654ef5b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Interleaving size in rows dimension.  <a href="#ada7a9316475bb6b2f4e7a70bc654ef5b">More...</a><br /></td></tr>
+<tr class="separator:ada7a9316475bb6b2f4e7a70bc654ef5b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0c2fe4bc9ffbc347f14dad8ffb4f7b21"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">kBlockColumns</a> = BlockColumns</td></tr>
+<tr class="memdesc:a0c2fe4bc9ffbc347f14dad8ffb4f7b21"><td class="mdescLeft">&#160;</td><td class="mdescRight">Interleaving size in columns dimension.  <a href="#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">More...</a><br /></td></tr>
+<tr class="separator:a0c2fe4bc9ffbc347f14dad8ffb4f7b21"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;int BlockRows, int BlockColumns&gt;<br />
+struct cutlass::MatrixLayout::ColumnMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</h3>
+
+<p>Mapping function for block-linear matrices. Matrix is structured as column-major arrangement of 2D tiles (that are column-major). </p>
+</div><h2 class="groupheader">Member Function Documentation</h2>
+<a id="a24c06bb7e64a8015ac528b3ae954a689"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a24c06bb7e64a8015ac528b3ae954a689">&#9670;&nbsp;</a></span>operator()()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int BlockRows, int BlockColumns&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">kStorageRank</a>&gt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear</a>&lt; BlockRows, BlockColumns &gt;::operator() </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abb88bd43e5493682d1132c550b734a36"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb88bd43e5493682d1132c550b734a36">&#9670;&nbsp;</a></span>stride()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int BlockRows, int BlockColumns&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html#a626305f3e11ad87e8185e028095a91d3">kStorageRank</a>&gt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear</a>&lt; BlockRows, BlockColumns &gt;::stride </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>ldm</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a0c2fe4bc9ffbc347f14dad8ffb4f7b21"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c2fe4bc9ffbc347f14dad8ffb4f7b21">&#9670;&nbsp;</a></span>kBlockColumns</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int BlockRows, int BlockColumns&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear</a>&lt; BlockRows, BlockColumns &gt;::kBlockColumns = BlockColumns</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ada7a9316475bb6b2f4e7a70bc654ef5b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada7a9316475bb6b2f4e7a70bc654ef5b">&#9670;&nbsp;</a></span>kBlockRows</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int BlockRows, int BlockColumns&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear</a>&lt; BlockRows, BlockColumns &gt;::kBlockRows = BlockRows</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a626305f3e11ad87e8185e028095a91d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a626305f3e11ad87e8185e028095a91d3">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int BlockRows, int BlockColumns&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorBlockLinear.html">cutlass::MatrixLayout::ColumnMajorBlockLinear</a>&lt; BlockRows, BlockColumns &gt;::kStorageRank = 4</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved-members.html b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved-members.html
new file mode 100644
index 0000000000..6282ce9570
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved-members.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">ColumnMajorInterleaved</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">kInterleave</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">kStorageRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dbf79e5df5bcf52d54a699d2587319d">operator()</a>(MatrixCoord const &amp;coord) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dab2c5aee6958c9d99109183401f41f">stride</a>(int ldm)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html
new file mode 100644
index 0000000000..dfdb2a483a
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html
@@ -0,0 +1,230 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">ColumnMajorInterleaved</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a9dbf79e5df5bcf52d54a699d2587319d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dbf79e5df5bcf52d54a699d2587319d">operator()</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a9dbf79e5df5bcf52d54a699d2587319d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps (row, col) to (col, row, col)  <a href="#a9dbf79e5df5bcf52d54a699d2587319d">More...</a><br /></td></tr>
+<tr class="separator:a9dbf79e5df5bcf52d54a699d2587319d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a9dab2c5aee6958c9d99109183401f41f"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#a9dab2c5aee6958c9d99109183401f41f">stride</a> (int ldm)</td></tr>
+<tr class="memdesc:a9dab2c5aee6958c9d99109183401f41f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to compute stride vector from leading dimension.  <a href="#a9dab2c5aee6958c9d99109183401f41f">More...</a><br /></td></tr>
+<tr class="separator:a9dab2c5aee6958c9d99109183401f41f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:af32144a5875e5db43cf395307a4ab00f"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">kStorageRank</a> = 3</td></tr>
+<tr class="memdesc:af32144a5875e5db43cf395307a4ab00f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of storage n-D array.  <a href="#af32144a5875e5db43cf395307a4ab00f">More...</a><br /></td></tr>
+<tr class="separator:af32144a5875e5db43cf395307a4ab00f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae0ff392e62f2af6614ab502df0cdbab7"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#ae0ff392e62f2af6614ab502df0cdbab7">kInterleave</a> = Interleave</td></tr>
+<tr class="memdesc:ae0ff392e62f2af6614ab502df0cdbab7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Interleaving size.  <a href="#ae0ff392e62f2af6614ab502df0cdbab7">More...</a><br /></td></tr>
+<tr class="separator:ae0ff392e62f2af6614ab502df0cdbab7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;int Interleave&gt;<br />
+struct cutlass::MatrixLayout::ColumnMajorInterleaved&lt; Interleave &gt;</h3>
+
+<p>Mapping function for interleaved matrices. Matrix is structured as column-major arrangement of fixed-size rows. </p>
+</div><h2 class="groupheader">Member Function Documentation</h2>
+<a id="a9dbf79e5df5bcf52d54a699d2587319d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9dbf79e5df5bcf52d54a699d2587319d">&#9670;&nbsp;</a></span>operator()()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Interleave&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">kStorageRank</a>&gt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved</a>&lt; Interleave &gt;::operator() </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9dab2c5aee6958c9d99109183401f41f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9dab2c5aee6958c9d99109183401f41f">&#9670;&nbsp;</a></span>stride()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Interleave&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html#af32144a5875e5db43cf395307a4ab00f">kStorageRank</a>&gt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved</a>&lt; Interleave &gt;::stride </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>ldm</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="ae0ff392e62f2af6614ab502df0cdbab7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0ff392e62f2af6614ab502df0cdbab7">&#9670;&nbsp;</a></span>kInterleave</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Interleave&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved</a>&lt; Interleave &gt;::kInterleave = Interleave</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af32144a5875e5db43cf395307a4ab00f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af32144a5875e5db43cf395307a4ab00f">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Interleave&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1MatrixLayout_1_1ColumnMajorInterleaved.html">cutlass::MatrixLayout::ColumnMajorInterleaved</a>&lt; Interleave &gt;::kStorageRank = 3</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1ContiguousLayout-members.html b/docs/structcutlass_1_1MatrixLayout_1_1ContiguousLayout-members.html
new file mode 100644
index 0000000000..bd9e4cfee0
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1ContiguousLayout-members.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">ContiguousLayout</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::ContiguousLayout Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">cutlass::MatrixLayout::ContiguousLayout</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#adb3b8cccf1ac91265fff998a3d48f5e7">kColumn</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">cutlass::MatrixLayout::ContiguousLayout</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#ae97a9ba9d5045bef258d8994eb732256">kRow</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">cutlass::MatrixLayout::ContiguousLayout</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">kStorageRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">cutlass::MatrixLayout::ContiguousLayout</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a512248a443c5914fab6aeabc4a73978e">operator()</a>(MatrixCoord const &amp;coord) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">cutlass::MatrixLayout::ContiguousLayout</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#aa3c5b8d44216fdeeee9cce5e38ce418b">stride</a>(MatrixLayout::Kind layout, int ldm)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">cutlass::MatrixLayout::ContiguousLayout</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html b/docs/structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html
new file mode 100644
index 0000000000..b37188023b
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html
@@ -0,0 +1,254 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::MatrixLayout::ContiguousLayout Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html">ContiguousLayout</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::ContiguousLayout Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a512248a443c5914fab6aeabc4a73978e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a512248a443c5914fab6aeabc4a73978e">operator()</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;coord) const</td></tr>
+<tr class="separator:a512248a443c5914fab6aeabc4a73978e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:aa3c5b8d44216fdeeee9cce5e38ce418b"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#aa3c5b8d44216fdeeee9cce5e38ce418b">stride</a> (<a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> layout, int ldm)</td></tr>
+<tr class="memdesc:aa3c5b8d44216fdeeee9cce5e38ce418b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct a stride vector based on contiguous matrix layout and leading dimension.  <a href="#aa3c5b8d44216fdeeee9cce5e38ce418b">More...</a><br /></td></tr>
+<tr class="separator:aa3c5b8d44216fdeeee9cce5e38ce418b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a68bde445429b6b3a5156460eaff6a8a7"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">kStorageRank</a> = 3</td></tr>
+<tr class="memdesc:a68bde445429b6b3a5156460eaff6a8a7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Arbitrary storage rank.  <a href="#a68bde445429b6b3a5156460eaff6a8a7">More...</a><br /></td></tr>
+<tr class="separator:a68bde445429b6b3a5156460eaff6a8a7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae97a9ba9d5045bef258d8994eb732256"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#ae97a9ba9d5045bef258d8994eb732256">kRow</a> = 0</td></tr>
+<tr class="memdesc:ae97a9ba9d5045bef258d8994eb732256"><td class="mdescLeft">&#160;</td><td class="mdescRight">Dimension of rows.  <a href="#ae97a9ba9d5045bef258d8994eb732256">More...</a><br /></td></tr>
+<tr class="separator:ae97a9ba9d5045bef258d8994eb732256"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adb3b8cccf1ac91265fff998a3d48f5e7"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#adb3b8cccf1ac91265fff998a3d48f5e7">kColumn</a> = 1</td></tr>
+<tr class="memdesc:adb3b8cccf1ac91265fff998a3d48f5e7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Dimension of columns.  <a href="#adb3b8cccf1ac91265fff998a3d48f5e7">More...</a><br /></td></tr>
+<tr class="separator:adb3b8cccf1ac91265fff998a3d48f5e7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><p>Mapping function for scenario in which layout is row-major or column-major but this information is only available at runtime. </p>
+</div><h2 class="groupheader">Member Function Documentation</h2>
+<a id="a512248a443c5914fab6aeabc4a73978e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a512248a443c5914fab6aeabc4a73978e">&#9670;&nbsp;</a></span>operator()()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">kStorageRank</a>&gt; cutlass::MatrixLayout::ContiguousLayout::operator() </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<p>Mapping function defined by runtime variable. Returns coordinates in n-D storage array as (matrix row, matrix colum, 0) </p>
+
+</div>
+</div>
+<a id="aa3c5b8d44216fdeeee9cce5e38ce418b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa3c5b8d44216fdeeee9cce5e38ce418b">&#9670;&nbsp;</a></span>stride()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1ContiguousLayout.html#a68bde445429b6b3a5156460eaff6a8a7">kStorageRank</a>&gt; cutlass::MatrixLayout::ContiguousLayout::stride </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a>&#160;</td>
+          <td class="paramname"><em>layout</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>ldm</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="adb3b8cccf1ac91265fff998a3d48f5e7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adb3b8cccf1ac91265fff998a3d48f5e7">&#9670;&nbsp;</a></span>kColumn</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::MatrixLayout::ContiguousLayout::kColumn = 1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae97a9ba9d5045bef258d8994eb732256"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae97a9ba9d5045bef258d8994eb732256">&#9670;&nbsp;</a></span>kRow</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::MatrixLayout::ContiguousLayout::kRow = 0</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a68bde445429b6b3a5156460eaff6a8a7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a68bde445429b6b3a5156460eaff6a8a7">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::MatrixLayout::ContiguousLayout::kStorageRank = 3</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1RowMajor-members.html b/docs/structcutlass_1_1MatrixLayout_1_1RowMajor-members.html
new file mode 100644
index 0000000000..c985ea4a46
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1RowMajor-members.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">RowMajor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::RowMajor Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">cutlass::MatrixLayout::RowMajor</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30">kStorageRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">cutlass::MatrixLayout::RowMajor</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a736620aef395e4224d7aae098573aa34">operator()</a>(MatrixCoord const &amp;coord) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">cutlass::MatrixLayout::RowMajor</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1RowMajor.html b/docs/structcutlass_1_1MatrixLayout_1_1RowMajor.html
new file mode 100644
index 0000000000..a264edfc8a
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1RowMajor.html
@@ -0,0 +1,161 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::MatrixLayout::RowMajor Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html">RowMajor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1MatrixLayout_1_1RowMajor-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::RowMajor Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Mapping function for row-major matrices.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a736620aef395e4224d7aae098573aa34"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a736620aef395e4224d7aae098573aa34">operator()</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a736620aef395e4224d7aae098573aa34"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps (i, j) to (i, j)  <a href="#a736620aef395e4224d7aae098573aa34">More...</a><br /></td></tr>
+<tr class="separator:a736620aef395e4224d7aae098573aa34"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a87fe43681c95afc9ef46818fd84d9f30"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30">kStorageRank</a> = 2</td></tr>
+<tr class="separator:a87fe43681c95afc9ef46818fd84d9f30"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a736620aef395e4224d7aae098573aa34"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a736620aef395e4224d7aae098573aa34">&#9670;&nbsp;</a></span>operator()()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajor.html#a87fe43681c95afc9ef46818fd84d9f30">kStorageRank</a>&gt; cutlass::MatrixLayout::RowMajor::operator() </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a87fe43681c95afc9ef46818fd84d9f30"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a87fe43681c95afc9ef46818fd84d9f30">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::MatrixLayout::RowMajor::kStorageRank = 2</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear-members.html b/docs/structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear-members.html
new file mode 100644
index 0000000000..390121d6c2
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear-members.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">RowMajorBlockLinear</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">kBlockColumns</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">kBlockRows</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">kStorageRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#abde0a4a7c487da0c78ea2519323c04af">operator()</a>(MatrixCoord const &amp;coord) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a1b25b4a7061d81041a8e2a548128ca71">stride</a>(int ldm)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html b/docs/structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html
new file mode 100644
index 0000000000..9db6c0f74a
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html
@@ -0,0 +1,257 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">RowMajorBlockLinear</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:abde0a4a7c487da0c78ea2519323c04af"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#abde0a4a7c487da0c78ea2519323c04af">operator()</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:abde0a4a7c487da0c78ea2519323c04af"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps (row, col) to (row, col, row, col)  <a href="#abde0a4a7c487da0c78ea2519323c04af">More...</a><br /></td></tr>
+<tr class="separator:abde0a4a7c487da0c78ea2519323c04af"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a1b25b4a7061d81041a8e2a548128ca71"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a1b25b4a7061d81041a8e2a548128ca71">stride</a> (int ldm)</td></tr>
+<tr class="memdesc:a1b25b4a7061d81041a8e2a548128ca71"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to compute stride vector from leading dimension.  <a href="#a1b25b4a7061d81041a8e2a548128ca71">More...</a><br /></td></tr>
+<tr class="separator:a1b25b4a7061d81041a8e2a548128ca71"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:ab1ef1db408fd1e4bda8d6ef203d50c3d"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">kStorageRank</a> = 4</td></tr>
+<tr class="memdesc:ab1ef1db408fd1e4bda8d6ef203d50c3d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of storage n-D array.  <a href="#ab1ef1db408fd1e4bda8d6ef203d50c3d">More...</a><br /></td></tr>
+<tr class="separator:ab1ef1db408fd1e4bda8d6ef203d50c3d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64cf7313c507bb13e010850d6a2ff922"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a64cf7313c507bb13e010850d6a2ff922">kBlockRows</a> = BlockRows</td></tr>
+<tr class="memdesc:a64cf7313c507bb13e010850d6a2ff922"><td class="mdescLeft">&#160;</td><td class="mdescRight">Interleaving size in rows dimension.  <a href="#a64cf7313c507bb13e010850d6a2ff922">More...</a><br /></td></tr>
+<tr class="separator:a64cf7313c507bb13e010850d6a2ff922"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8ee57a9b5364f20890c5d3ace21c4b4e"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#a8ee57a9b5364f20890c5d3ace21c4b4e">kBlockColumns</a> = BlockColumns</td></tr>
+<tr class="memdesc:a8ee57a9b5364f20890c5d3ace21c4b4e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Interleaving size in columns dimension.  <a href="#a8ee57a9b5364f20890c5d3ace21c4b4e">More...</a><br /></td></tr>
+<tr class="separator:a8ee57a9b5364f20890c5d3ace21c4b4e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;int BlockRows, int BlockColumns&gt;<br />
+struct cutlass::MatrixLayout::RowMajorBlockLinear&lt; BlockRows, BlockColumns &gt;</h3>
+
+<p>Mapping function for block-linear matrices. Matrix is structured as row-major arrangement of 2D tiles (that are row-major) </p>
+</div><h2 class="groupheader">Member Function Documentation</h2>
+<a id="abde0a4a7c487da0c78ea2519323c04af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abde0a4a7c487da0c78ea2519323c04af">&#9670;&nbsp;</a></span>operator()()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int BlockRows, int BlockColumns&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">kStorageRank</a>&gt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear</a>&lt; BlockRows, BlockColumns &gt;::operator() </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1b25b4a7061d81041a8e2a548128ca71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1b25b4a7061d81041a8e2a548128ca71">&#9670;&nbsp;</a></span>stride()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int BlockRows, int BlockColumns&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html#ab1ef1db408fd1e4bda8d6ef203d50c3d">kStorageRank</a>&gt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear</a>&lt; BlockRows, BlockColumns &gt;::stride </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>ldm</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a8ee57a9b5364f20890c5d3ace21c4b4e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ee57a9b5364f20890c5d3ace21c4b4e">&#9670;&nbsp;</a></span>kBlockColumns</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int BlockRows, int BlockColumns&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear</a>&lt; BlockRows, BlockColumns &gt;::kBlockColumns = BlockColumns</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a64cf7313c507bb13e010850d6a2ff922"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64cf7313c507bb13e010850d6a2ff922">&#9670;&nbsp;</a></span>kBlockRows</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int BlockRows, int BlockColumns&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear</a>&lt; BlockRows, BlockColumns &gt;::kBlockRows = BlockRows</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab1ef1db408fd1e4bda8d6ef203d50c3d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab1ef1db408fd1e4bda8d6ef203d50c3d">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int BlockRows, int BlockColumns&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorBlockLinear.html">cutlass::MatrixLayout::RowMajorBlockLinear</a>&lt; BlockRows, BlockColumns &gt;::kStorageRank = 4</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved-members.html b/docs/structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved-members.html
new file mode 100644
index 0000000000..49463c33c8
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved-members.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">RowMajorInterleaved</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">kInterleave</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">kStorageRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a5199cb7f7c10f6123c63703453b7937c">operator()</a>(MatrixCoord const &amp;coord) const</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a56f728be8b1a3e71f4f322e1dbfb3495">stride</a>(int ldm)</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html b/docs/structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html
new file mode 100644
index 0000000000..1a596c6e87
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html
@@ -0,0 +1,230 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout.html">MatrixLayout</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">RowMajorInterleaved</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a5199cb7f7c10f6123c63703453b7937c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a5199cb7f7c10f6123c63703453b7937c">operator()</a> (<a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a5199cb7f7c10f6123c63703453b7937c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps (row, col) to (row, col, row)  <a href="#a5199cb7f7c10f6123c63703453b7937c">More...</a><br /></td></tr>
+<tr class="separator:a5199cb7f7c10f6123c63703453b7937c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a56f728be8b1a3e71f4f322e1dbfb3495"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a56f728be8b1a3e71f4f322e1dbfb3495">stride</a> (int ldm)</td></tr>
+<tr class="memdesc:a56f728be8b1a3e71f4f322e1dbfb3495"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to compute stride vector from leading dimension.  <a href="#a56f728be8b1a3e71f4f322e1dbfb3495">More...</a><br /></td></tr>
+<tr class="separator:a56f728be8b1a3e71f4f322e1dbfb3495"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a7be6d445e879f042a0b8aa2c9a378800"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">kStorageRank</a> = 3</td></tr>
+<tr class="memdesc:a7be6d445e879f042a0b8aa2c9a378800"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of storage n-D array.  <a href="#a7be6d445e879f042a0b8aa2c9a378800">More...</a><br /></td></tr>
+<tr class="separator:a7be6d445e879f042a0b8aa2c9a378800"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea33a554c0b02e455fba76c945527143"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#aea33a554c0b02e455fba76c945527143">kInterleave</a> = Interleave</td></tr>
+<tr class="memdesc:aea33a554c0b02e455fba76c945527143"><td class="mdescLeft">&#160;</td><td class="mdescRight">Interleaving size.  <a href="#aea33a554c0b02e455fba76c945527143">More...</a><br /></td></tr>
+<tr class="separator:aea33a554c0b02e455fba76c945527143"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;int Interleave&gt;<br />
+struct cutlass::MatrixLayout::RowMajorInterleaved&lt; Interleave &gt;</h3>
+
+<p>Mapping function for interleaved matrices. Matrix is structured as row-major arrangement of fixed-size columns. </p>
+</div><h2 class="groupheader">Member Function Documentation</h2>
+<a id="a5199cb7f7c10f6123c63703453b7937c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5199cb7f7c10f6123c63703453b7937c">&#9670;&nbsp;</a></span>operator()()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Interleave&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">kStorageRank</a>&gt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved</a>&lt; Interleave &gt;::operator() </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1MatrixCoord.html">MatrixCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a56f728be8b1a3e71f4f322e1dbfb3495"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a56f728be8b1a3e71f4f322e1dbfb3495">&#9670;&nbsp;</a></span>stride()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Interleave&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html#a7be6d445e879f042a0b8aa2c9a378800">kStorageRank</a>&gt; <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved</a>&lt; Interleave &gt;::stride </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>ldm</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="aea33a554c0b02e455fba76c945527143"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea33a554c0b02e455fba76c945527143">&#9670;&nbsp;</a></span>kInterleave</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Interleave&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved</a>&lt; Interleave &gt;::kInterleave = Interleave</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7be6d445e879f042a0b8aa2c9a378800"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7be6d445e879f042a0b8aa2c9a378800">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int Interleave&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1MatrixLayout_1_1RowMajorInterleaved.html">cutlass::MatrixLayout::RowMajorInterleaved</a>&lt; Interleave &gt;::kStorageRank = 3</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixTransform-members.html b/docs/structcutlass_1_1MatrixTransform-members.html
new file mode 100644
index 0000000000..b662a473e2
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixTransform-members.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixTransform.html">MatrixTransform</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::MatrixTransform Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1MatrixTransform.html">cutlass::MatrixTransform</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683">kConjugate</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixTransform.html">cutlass::MatrixTransform</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48">Kind</a> enum name</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixTransform.html">cutlass::MatrixTransform</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5">kNone</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1MatrixTransform.html">cutlass::MatrixTransform</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MatrixTransform.html b/docs/structcutlass_1_1MatrixTransform.html
new file mode 100644
index 0000000000..32a41d6848
--- /dev/null
+++ b/docs/structcutlass_1_1MatrixTransform.html
@@ -0,0 +1,126 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::MatrixTransform Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1MatrixTransform.html">MatrixTransform</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="structcutlass_1_1MatrixTransform-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::MatrixTransform Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Transformation applied to matrix operands.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:abf79785f7ae47385d0bbc38d0c431f48"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48">Kind</a> { <a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5">kNone</a>, 
+<a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683">kConjugate</a>
+ }</td></tr>
+<tr class="separator:abf79785f7ae47385d0bbc38d0c431f48"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Enumeration Documentation</h2>
+<a id="abf79785f7ae47385d0bbc38d0c431f48"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abf79785f7ae47385d0bbc38d0c431f48">&#9670;&nbsp;</a></span>Kind</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">enum <a class="el" href="structcutlass_1_1MatrixTransform.html#abf79785f7ae47385d0bbc38d0c431f48">cutlass::MatrixTransform::Kind</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="abf79785f7ae47385d0bbc38d0c431f48a67f5e7ba395d17d2c4808b7d524cbfa5"></a>kNone&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="abf79785f7ae47385d0bbc38d0c431f48aead07a43bea51d6b4d728cda844cd683"></a>kConjugate&#160;</td><td class="fielddoc"><p>no operation </p>
+</td></tr>
+</table>
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="matrix__traits_8h_source.html">matrix_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Max-members.html b/docs/structcutlass_1_1Max-members.html
new file mode 100644
index 0000000000..d35dbc07fe
--- /dev/null
+++ b/docs/structcutlass_1_1Max-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Max.html">Max</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Max&lt; A, B &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Max.html">cutlass::Max&lt; A, B &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Max.html#a6ed8be7ed855eea8f8d08921f7b5d763">kValue</a></td><td class="entry"><a class="el" href="structcutlass_1_1Max.html">cutlass::Max&lt; A, B &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Max.html b/docs/structcutlass_1_1Max.html
new file mode 100644
index 0000000000..a100e616f2
--- /dev/null
+++ b/docs/structcutlass_1_1Max.html
@@ -0,0 +1,126 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Max&lt; A, B &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Max.html">Max</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1Max-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Max&lt; A, B &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="cutlass__math_8h_source.html">cutlass_math.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a6ed8be7ed855eea8f8d08921f7b5d763"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Max.html#a6ed8be7ed855eea8f8d08921f7b5d763">kValue</a> = (A &gt; B) ? A : B</td></tr>
+<tr class="separator:a6ed8be7ed855eea8f8d08921f7b5d763"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a6ed8be7ed855eea8f8d08921f7b5d763"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6ed8be7ed855eea8f8d08921f7b5d763">&#9670;&nbsp;</a></span>kValue</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int A, int B&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1Max.html">cutlass::Max</a>&lt; A, B &gt;::kValue = (A &gt; B) ? A : B</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="cutlass__math_8h_source.html">cutlass_math.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1MemorySpace-members.html b/docs/structcutlass_1_1MemorySpace-members.html
index 22af2209a1..a14b4d6f30 100644
--- a/docs/structcutlass_1_1MemorySpace-members.html
+++ b/docs/structcutlass_1_1MemorySpace-members.html
@@ -86,7 +86,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1MemorySpace.html b/docs/structcutlass_1_1MemorySpace.html
index 410826bf33..4d8eb1d72d 100644
--- a/docs/structcutlass_1_1MemorySpace.html
+++ b/docs/structcutlass_1_1MemorySpace.html
@@ -119,7 +119,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1e031ec41668015a8fe4ba2c
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Min-members.html b/docs/structcutlass_1_1Min-members.html
new file mode 100644
index 0000000000..39e0939a76
--- /dev/null
+++ b/docs/structcutlass_1_1Min-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Min.html">Min</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Min&lt; A, B &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Min.html">cutlass::Min&lt; A, B &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Min.html#a97e6dd3ff6fb5404e8a6e6109f73f429">kValue</a></td><td class="entry"><a class="el" href="structcutlass_1_1Min.html">cutlass::Min&lt; A, B &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Min.html b/docs/structcutlass_1_1Min.html
new file mode 100644
index 0000000000..47933e87f3
--- /dev/null
+++ b/docs/structcutlass_1_1Min.html
@@ -0,0 +1,126 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Min&lt; A, B &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Min.html">Min</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1Min-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Min&lt; A, B &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="cutlass__math_8h_source.html">cutlass_math.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a97e6dd3ff6fb5404e8a6e6109f73f429"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Min.html#a97e6dd3ff6fb5404e8a6e6109f73f429">kValue</a> = (A &lt; B) ? A : B</td></tr>
+<tr class="separator:a97e6dd3ff6fb5404e8a6e6109f73f429"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a97e6dd3ff6fb5404e8a6e6109f73f429"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a97e6dd3ff6fb5404e8a6e6109f73f429">&#9670;&nbsp;</a></span>kValue</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int A, int B&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1Min.html">cutlass::Min</a>&lt; A, B &gt;::kValue = (A &lt; B) ? A : B</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="cutlass__math_8h_source.html">cutlass_math.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1PredicateTileAdapter-members.html b/docs/structcutlass_1_1PredicateTileAdapter-members.html
index f064207c5a..d035ab60d1 100644
--- a/docs/structcutlass_1_1PredicateTileAdapter-members.html
+++ b/docs/structcutlass_1_1PredicateTileAdapter-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1PredicateTileAdapter.html b/docs/structcutlass_1_1PredicateTileAdapter.html
index 0dd3d00ad8..db7b19a80f 100644
--- a/docs/structcutlass_1_1PredicateTileAdapter.html
+++ b/docs/structcutlass_1_1PredicateTileAdapter.html
@@ -282,7 +282,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aeda47efdda0387f9c3c7b31f
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1PredicateVector-members.html b/docs/structcutlass_1_1PredicateVector-members.html
index b4475cc1e5..26cf69c577 100644
--- a/docs/structcutlass_1_1PredicateVector-members.html
+++ b/docs/structcutlass_1_1PredicateVector-members.html
@@ -100,7 +100,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1PredicateVector.html b/docs/structcutlass_1_1PredicateVector.html
index 43645c578d..66be2023fa 100644
--- a/docs/structcutlass_1_1PredicateVector.html
+++ b/docs/structcutlass_1_1PredicateVector.html
@@ -650,7 +650,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a734bbfaf3829f73ef0b44fa7
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1PredicateVector_1_1TrivialIterator-members.html b/docs/structcutlass_1_1PredicateVector_1_1TrivialIterator-members.html
index d2f4a9c332..aa56770e28 100644
--- a/docs/structcutlass_1_1PredicateVector_1_1TrivialIterator-members.html
+++ b/docs/structcutlass_1_1PredicateVector_1_1TrivialIterator-members.html
@@ -88,7 +88,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1PredicateVector_1_1TrivialIterator.html b/docs/structcutlass_1_1PredicateVector_1_1TrivialIterator.html
index 4e008feb5b..e4dd10155d 100644
--- a/docs/structcutlass_1_1PredicateVector_1_1TrivialIterator.html
+++ b/docs/structcutlass_1_1PredicateVector_1_1TrivialIterator.html
@@ -279,7 +279,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa35b9165920b83b9a5a888df
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1PredicatedTileLoadStream-members.html b/docs/structcutlass_1_1PredicatedTileLoadStream-members.html
new file mode 100644
index 0000000000..338c0d3abf
--- /dev/null
+++ b/docs/structcutlass_1_1PredicatedTileLoadStream-members.html
@@ -0,0 +1,111 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">PredicatedTileLoadStream</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#ac7f57248d3e10c9309f042e5d41440c1">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627">commit</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a60a03c95452fe627477933d60815f7cb">copy</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">fetched_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a7f802c4c733375d0a63f91c58196e6a0">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be">fragment</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093">intermediate_fragment</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a1f2314aa062360b249b7c57c39af5430">Iterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6">Params</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a672a8883d16eff4ecc90dc79162084d3">PredicatedTileLoadStream</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5">PredicateFunctor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f">predicates</a></td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3">TileLoadStream</a>(Params const &amp;_params, TensorRef const &amp;_ref)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7">TileLoadStream</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">transformed_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#adeb35451885c1c4fb930ae8c914ceb20">TransformedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">transformer</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a9f79fd30231825b38694bf7c1d12ec2a">Transformer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1PredicatedTileLoadStream.html b/docs/structcutlass_1_1PredicatedTileLoadStream.html
new file mode 100644
index 0000000000..6873775d61
--- /dev/null
+++ b/docs/structcutlass_1_1PredicatedTileLoadStream.html
@@ -0,0 +1,402 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">PredicatedTileLoadStream</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1PredicatedTileLoadStream-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Generic stream for loading and transforming fragments.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__stream_8h_source.html">tile_stream.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1PredicatedTileLoadStream.png" usemap="#cutlass::PredicatedTileLoadStream_3C_20Iterator_5F_2C_20PredicateFunctor_5F_2C_20Transformer_5F_20_3E_map" alt=""/>
+  <map id="cutlass::PredicatedTileLoadStream_3C_20Iterator_5F_2C_20PredicateFunctor_5F_2C_20Transformer_5F_20_3E_map" name="cutlass::PredicatedTileLoadStream_3C_20Iterator_5F_2C_20PredicateFunctor_5F_2C_20Transformer_5F_20_3E_map">
+<area href="structcutlass_1_1TileLoadStream.html" title="Generic stream for loading and transforming fragments. " alt="cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;" shape="rect" coords="0,0,475,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ac7f57248d3e10c9309f042e5d41440c1"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#ac7f57248d3e10c9309f042e5d41440c1">Base</a></td></tr>
+<tr class="separator:ac7f57248d3e10c9309f042e5d41440c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1f2314aa062360b249b7c57c39af5430"><td class="memItemLeft" align="right" valign="top">typedef Iterator_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a1f2314aa062360b249b7c57c39af5430">Iterator</a></td></tr>
+<tr class="memdesc:a1f2314aa062360b249b7c57c39af5430"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1TileLoadIterator.html" title="An iterator implementing Tile Load Iterator Concept for loading a tile from memory. ">TileLoadIterator</a>.  <a href="#a1f2314aa062360b249b7c57c39af5430">More...</a><br /></td></tr>
+<tr class="separator:a1f2314aa062360b249b7c57c39af5430"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aedafb6329f8c484071e04ffd8949edc5"><td class="memItemLeft" align="right" valign="top">typedef PredicateFunctor_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5">PredicateFunctor</a></td></tr>
+<tr class="memdesc:aedafb6329f8c484071e04ffd8949edc5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Predicate functor.  <a href="#aedafb6329f8c484071e04ffd8949edc5">More...</a><br /></td></tr>
+<tr class="separator:aedafb6329f8c484071e04ffd8949edc5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f79fd30231825b38694bf7c1d12ec2a"><td class="memItemLeft" align="right" valign="top">typedef Transformer_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a9f79fd30231825b38694bf7c1d12ec2a">Transformer</a></td></tr>
+<tr class="memdesc:a9f79fd30231825b38694bf7c1d12ec2a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformer.  <a href="#a9f79fd30231825b38694bf7c1d12ec2a">More...</a><br /></td></tr>
+<tr class="separator:a9f79fd30231825b38694bf7c1d12ec2a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f802c4c733375d0a63f91c58196e6a0"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a7f802c4c733375d0a63f91c58196e6a0">Fragment</a></td></tr>
+<tr class="memdesc:a7f802c4c733375d0a63f91c58196e6a0"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> fetched from source memory.  <a href="#a7f802c4c733375d0a63f91c58196e6a0">More...</a><br /></td></tr>
+<tr class="separator:a7f802c4c733375d0a63f91c58196e6a0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adeb35451885c1c4fb930ae8c914ceb20"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">Base::TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#adeb35451885c1c4fb930ae8c914ceb20">TransformedFragment</a></td></tr>
+<tr class="memdesc:adeb35451885c1c4fb930ae8c914ceb20"><td class="mdescLeft">&#160;</td><td class="mdescRight">Output fragment from transformer.  <a href="#adeb35451885c1c4fb930ae8c914ceb20">More...</a><br /></td></tr>
+<tr class="separator:adeb35451885c1c4fb930ae8c914ceb20"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3af1a02201f53d4d09adc483fdcc23a6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Base::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6">Params</a></td></tr>
+<tr class="memdesc:a3af1a02201f53d4d09adc483fdcc23a6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object used to construct generic load stream.  <a href="#a3af1a02201f53d4d09adc483fdcc23a6">More...</a><br /></td></tr>
+<tr class="separator:a3af1a02201f53d4d09adc483fdcc23a6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1TileLoadStream"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileLoadStream')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td></tr>
+<tr class="memitem:a21234ea1d4e0ff5cd599c763035b967b inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">typedef Iterator_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">Iterator</a></td></tr>
+<tr class="memdesc:a21234ea1d4e0ff5cd599c763035b967b inherit pub_types_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1TileLoadIterator.html" title="An iterator implementing Tile Load Iterator Concept for loading a tile from memory. ">TileLoadIterator</a>.  <a href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">More...</a><br /></td></tr>
+<tr class="separator:a21234ea1d4e0ff5cd599c763035b967b inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad531770d336b2541c303c19148ef5cd7 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">typedef Transformer_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">Transformer</a></td></tr>
+<tr class="memdesc:ad531770d336b2541c303c19148ef5cd7 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformer.  <a href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">More...</a><br /></td></tr>
+<tr class="separator:ad531770d336b2541c303c19148ef5cd7 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea86cbd64781caabeee293cfa2070e81 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">typedef Iterator::Fragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a></td></tr>
+<tr class="memdesc:aea86cbd64781caabeee293cfa2070e81 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> fetched from source memory.  <a href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">More...</a><br /></td></tr>
+<tr class="separator:aea86cbd64781caabeee293cfa2070e81 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a94cde8bcdcedc934cc14de19e43375d1 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">typedef Transformer::OutputFragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a></td></tr>
+<tr class="memdesc:a94cde8bcdcedc934cc14de19e43375d1 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Output fragment from transformer.  <a href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">More...</a><br /></td></tr>
+<tr class="separator:a94cde8bcdcedc934cc14de19e43375d1 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8c9256c5cdd1fd129dbcc6536375aca7 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">typedef Iterator::TensorRef&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">TensorRef</a></td></tr>
+<tr class="memdesc:a8c9256c5cdd1fd129dbcc6536375aca7 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference expected by the stream.  <a href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">More...</a><br /></td></tr>
+<tr class="separator:a8c9256c5cdd1fd129dbcc6536375aca7 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a90ca6bbd882e39b5624ee0cd17e0d652 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">typedef Iterator::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">Index</a></td></tr>
+<tr class="memdesc:a90ca6bbd882e39b5624ee0cd17e0d652 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">More...</a><br /></td></tr>
+<tr class="separator:a90ca6bbd882e39b5624ee0cd17e0d652 inherit pub_types_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a672a8883d16eff4ecc90dc79162084d3"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a672a8883d16eff4ecc90dc79162084d3">PredicatedTileLoadStream</a> (<a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;threadblock_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:a672a8883d16eff4ecc90dc79162084d3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a672a8883d16eff4ecc90dc79162084d3">More...</a><br /></td></tr>
+<tr class="separator:a672a8883d16eff4ecc90dc79162084d3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60a03c95452fe627477933d60815f7cb"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a60a03c95452fe627477933d60815f7cb">copy</a> ()</td></tr>
+<tr class="memdesc:a60a03c95452fe627477933d60815f7cb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a tile and increments the iterator.  <a href="#a60a03c95452fe627477933d60815f7cb">More...</a><br /></td></tr>
+<tr class="separator:a60a03c95452fe627477933d60815f7cb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileLoadStream"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileLoadStream')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td></tr>
+<tr class="memitem:a40a9b1a87cda0f3eb6f4b3e73a4fade3 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3">TileLoadStream</a> (<a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">TensorRef</a> const &amp;_ref)</td></tr>
+<tr class="memdesc:a40a9b1a87cda0f3eb6f4b3e73a4fade3 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3">More...</a><br /></td></tr>
+<tr class="separator:a40a9b1a87cda0f3eb6f4b3e73a4fade3 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6b8b65772d95c30d29e7833348d06ba7 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7">TileLoadStream</a> (<a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;threadblock_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:a6b8b65772d95c30d29e7833348d06ba7 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7">More...</a><br /></td></tr>
+<tr class="separator:a6b8b65772d95c30d29e7833348d06ba7 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aed4e6a6f1bc125ea40ae04fb120d6a23 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23">copy</a> ()</td></tr>
+<tr class="memdesc:aed4e6a6f1bc125ea40ae04fb120d6a23 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a tile and increments the iterator.  <a href="structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23">More...</a><br /></td></tr>
+<tr class="separator:aed4e6a6f1bc125ea40ae04fb120d6a23 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac004fc2e078591ced5d4e5521dfd8627 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627">commit</a> ()</td></tr>
+<tr class="memdesc:ac004fc2e078591ced5d4e5521dfd8627 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commits the fetched fragment and applies a transformation.  <a href="structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627">More...</a><br /></td></tr>
+<tr class="separator:ac004fc2e078591ced5d4e5521dfd8627 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af2727fc0ddeffd1cdaef751140aa6093 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093">intermediate_fragment</a> ()</td></tr>
+<tr class="memdesc:af2727fc0ddeffd1cdaef751140aa6093 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the loaded, transformed fragment.  <a href="structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093">More...</a><br /></td></tr>
+<tr class="separator:af2727fc0ddeffd1cdaef751140aa6093 inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5b7161b2b97100c13c2c5009edd2a6be inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be">fragment</a> ()</td></tr>
+<tr class="memdesc:a5b7161b2b97100c13c2c5009edd2a6be inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the loaded, transformed fragment.  <a href="structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be">More...</a><br /></td></tr>
+<tr class="separator:a5b7161b2b97100c13c2c5009edd2a6be inherit pub_methods_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a8f8c7c54dba8a0c8cd0799b89130564f"><td class="memItemLeft" align="right" valign="top">Iterator::PredicateVector&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f">predicates</a></td></tr>
+<tr class="memdesc:a8f8c7c54dba8a0c8cd0799b89130564f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Predicates.  <a href="#a8f8c7c54dba8a0c8cd0799b89130564f">More...</a><br /></td></tr>
+<tr class="separator:a8f8c7c54dba8a0c8cd0799b89130564f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1TileLoadStream"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileLoadStream')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td></tr>
+<tr class="memitem:ab6d8716c166d071615f4e78d9ac6efb8 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">Iterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">iterator</a></td></tr>
+<tr class="memdesc:ab6d8716c166d071615f4e78d9ac6efb8 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterator to load tiles.  <a href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">More...</a><br /></td></tr>
+<tr class="separator:ab6d8716c166d071615f4e78d9ac6efb8 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a89b0f92764b5492a8d1de2c1ada60869 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">fetched_fragment</a></td></tr>
+<tr class="memdesc:a89b0f92764b5492a8d1de2c1ada60869 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> loaded via iterator.  <a href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">More...</a><br /></td></tr>
+<tr class="separator:a89b0f92764b5492a8d1de2c1ada60869 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54399d7a42c1330ef0e756949483c552 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">Transformer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">transformer</a></td></tr>
+<tr class="memdesc:a54399d7a42c1330ef0e756949483c552 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformation applied to fragments.  <a href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">More...</a><br /></td></tr>
+<tr class="separator:a54399d7a42c1330ef0e756949483c552 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac61d45d91faf9d060509cf1e5c34fe01 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">transformed_fragment</a></td></tr>
+<tr class="memdesc:ac61d45d91faf9d060509cf1e5c34fe01 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformed fragment from transformer.  <a href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">More...</a><br /></td></tr>
+<tr class="separator:ac61d45d91faf9d060509cf1e5c34fe01 inherit pub_attribs_structcutlass_1_1TileLoadStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ac7f57248d3e10c9309f042e5d41440c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac7f57248d3e10c9309f042e5d41440c1">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a>&lt;Iterator_, Transformer_&gt; <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#ac7f57248d3e10c9309f042e5d41440c1">Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7f802c4c733375d0a63f91c58196e6a0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f802c4c733375d0a63f91c58196e6a0">&#9670;&nbsp;</a></span>Fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Base::Fragment</a> <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f2314aa062360b249b7c57c39af5430"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f2314aa062360b249b7c57c39af5430">&#9670;&nbsp;</a></span>Iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Iterator_ <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">Iterator</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3af1a02201f53d4d09adc483fdcc23a6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3af1a02201f53d4d09adc483fdcc23a6">&#9670;&nbsp;</a></span>Params</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Base::Params</a> <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6">Params</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aedafb6329f8c484071e04ffd8949edc5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aedafb6329f8c484071e04ffd8949edc5">&#9670;&nbsp;</a></span>PredicateFunctor</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef PredicateFunctor_ <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5">PredicateFunctor</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adeb35451885c1c4fb930ae8c914ceb20"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adeb35451885c1c4fb930ae8c914ceb20">&#9670;&nbsp;</a></span>TransformedFragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">Base::TransformedFragment</a> <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9f79fd30231825b38694bf7c1d12ec2a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f79fd30231825b38694bf7c1d12ec2a">&#9670;&nbsp;</a></span>Transformer</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Transformer_ <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">Transformer</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a672a8883d16eff4ecc90dc79162084d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a672a8883d16eff4ecc90dc79162084d3">&#9670;&nbsp;</a></span>PredicatedTileLoadStream()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">PredicatedTileLoadStream</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>bounds</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>threadblock_offset</em> = <code><a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,&#160;0,&#160;0)</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a60a03c95452fe627477933d60815f7cb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60a03c95452fe627477933d60815f7cb">&#9670;&nbsp;</a></span>copy()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::copy </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a8f8c7c54dba8a0c8cd0799b89130564f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f8c7c54dba8a0c8cd0799b89130564f">&#9670;&nbsp;</a></span>predicates</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">Iterator::PredicateVector <a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::predicates</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__stream_8h_source.html">tile_stream.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1PredicatedTileLoadStream.png b/docs/structcutlass_1_1PredicatedTileLoadStream.png
new file mode 100644
index 0000000000..10a0c90441
Binary files /dev/null and b/docs/structcutlass_1_1PredicatedTileLoadStream.png differ
diff --git a/docs/structcutlass_1_1PredicatedTileStoreStream-members.html b/docs/structcutlass_1_1PredicatedTileStoreStream-members.html
new file mode 100644
index 0000000000..647f8fa75f
--- /dev/null
+++ b/docs/structcutlass_1_1PredicatedTileStoreStream-members.html
@@ -0,0 +1,112 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">PredicatedTileStoreStream</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#afc320f4d29f05102e9de0064ca31e49b">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a165a0d486f53fb2315d4e555c9f59891">commit</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ae84437a66097189406c2090d88a79350">copy</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a1d33da4593ae68e6301df54b310a70a0">copy</a>(Fragment const &amp;frag)</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5">fragment</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a6c9737f5b09e7eb1aa7daabb00ae2e69">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71">intermediate_fragment</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a0ba9097d54f3ba7b7dab12012631fa76">Iterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba">Params</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ac4aafc6bcc6cf3bff5b31b9cd60fd667">PredicatedTileStoreStream</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f">PredicateFunctor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe">predicates</a></td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">source_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b">TileStoreStream</a>(Params const &amp;_params, TensorRef const &amp;_ref)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a08e7e7bf74e1e0d670dd6a4e65d14084">TileStoreStream</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">transformed_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#af349831b19bb91d414a83c67d14f6927">TransformedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">transformer</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a0f91f328ed2b6bd65ef4eeafe18f9afd">Transformer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1PredicatedTileStoreStream.html b/docs/structcutlass_1_1PredicatedTileStoreStream.html
new file mode 100644
index 0000000000..b2c31fd871
--- /dev/null
+++ b/docs/structcutlass_1_1PredicatedTileStoreStream.html
@@ -0,0 +1,466 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">PredicatedTileStoreStream</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1PredicatedTileStoreStream-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Generic stream for transforming and storing fragments.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__stream_8h_source.html">tile_stream.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1PredicatedTileStoreStream.png" usemap="#cutlass::PredicatedTileStoreStream_3C_20Iterator_5F_2C_20PredicateFunctor_5F_2C_20Transformer_5F_20_3E_map" alt=""/>
+  <map id="cutlass::PredicatedTileStoreStream_3C_20Iterator_5F_2C_20PredicateFunctor_5F_2C_20Transformer_5F_20_3E_map" name="cutlass::PredicatedTileStoreStream_3C_20Iterator_5F_2C_20PredicateFunctor_5F_2C_20Transformer_5F_20_3E_map">
+<area href="structcutlass_1_1TileStoreStream.html" title="Generic stream for transforming and storing fragments. " alt="cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;" shape="rect" coords="0,0,477,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:afc320f4d29f05102e9de0064ca31e49b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#afc320f4d29f05102e9de0064ca31e49b">Base</a></td></tr>
+<tr class="separator:afc320f4d29f05102e9de0064ca31e49b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0ba9097d54f3ba7b7dab12012631fa76"><td class="memItemLeft" align="right" valign="top">typedef Iterator_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a0ba9097d54f3ba7b7dab12012631fa76">Iterator</a></td></tr>
+<tr class="memdesc:a0ba9097d54f3ba7b7dab12012631fa76"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1TileLoadIterator.html" title="An iterator implementing Tile Load Iterator Concept for loading a tile from memory. ">TileLoadIterator</a>.  <a href="#a0ba9097d54f3ba7b7dab12012631fa76">More...</a><br /></td></tr>
+<tr class="separator:a0ba9097d54f3ba7b7dab12012631fa76"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa6d4c263e057678b9f1b8ba6a9feb59f"><td class="memItemLeft" align="right" valign="top">typedef PredicateFunctor_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f">PredicateFunctor</a></td></tr>
+<tr class="memdesc:aa6d4c263e057678b9f1b8ba6a9feb59f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Predicate functor.  <a href="#aa6d4c263e057678b9f1b8ba6a9feb59f">More...</a><br /></td></tr>
+<tr class="separator:aa6d4c263e057678b9f1b8ba6a9feb59f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0f91f328ed2b6bd65ef4eeafe18f9afd"><td class="memItemLeft" align="right" valign="top">typedef Transformer_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a0f91f328ed2b6bd65ef4eeafe18f9afd">Transformer</a></td></tr>
+<tr class="memdesc:a0f91f328ed2b6bd65ef4eeafe18f9afd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformer.  <a href="#a0f91f328ed2b6bd65ef4eeafe18f9afd">More...</a><br /></td></tr>
+<tr class="separator:a0f91f328ed2b6bd65ef4eeafe18f9afd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6c9737f5b09e7eb1aa7daabb00ae2e69"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a6c9737f5b09e7eb1aa7daabb00ae2e69">Fragment</a></td></tr>
+<tr class="memdesc:a6c9737f5b09e7eb1aa7daabb00ae2e69"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> fetched from source memory.  <a href="#a6c9737f5b09e7eb1aa7daabb00ae2e69">More...</a><br /></td></tr>
+<tr class="separator:a6c9737f5b09e7eb1aa7daabb00ae2e69"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af349831b19bb91d414a83c67d14f6927"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">Base::TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#af349831b19bb91d414a83c67d14f6927">TransformedFragment</a></td></tr>
+<tr class="memdesc:af349831b19bb91d414a83c67d14f6927"><td class="mdescLeft">&#160;</td><td class="mdescRight">Output fragment from transformer.  <a href="#af349831b19bb91d414a83c67d14f6927">More...</a><br /></td></tr>
+<tr class="separator:af349831b19bb91d414a83c67d14f6927"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad0c7a51f1b98111ce332ed906601a4ba"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Base::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba">Params</a></td></tr>
+<tr class="memdesc:ad0c7a51f1b98111ce332ed906601a4ba"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object used to construct generic load stream.  <a href="#ad0c7a51f1b98111ce332ed906601a4ba">More...</a><br /></td></tr>
+<tr class="separator:ad0c7a51f1b98111ce332ed906601a4ba"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1TileStoreStream"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileStoreStream')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td></tr>
+<tr class="memitem:a35009c9a697f20fd5a7ee634de4d6c97 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">typedef Iterator_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">Iterator</a></td></tr>
+<tr class="memdesc:a35009c9a697f20fd5a7ee634de4d6c97 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1TileLoadIterator.html" title="An iterator implementing Tile Load Iterator Concept for loading a tile from memory. ">TileLoadIterator</a>.  <a href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">More...</a><br /></td></tr>
+<tr class="separator:a35009c9a697f20fd5a7ee634de4d6c97 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa8c192da812ec83329350e5838838f5e inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">typedef Transformer_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">Transformer</a></td></tr>
+<tr class="memdesc:aa8c192da812ec83329350e5838838f5e inherit pub_types_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformer.  <a href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">More...</a><br /></td></tr>
+<tr class="separator:aa8c192da812ec83329350e5838838f5e inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea4357a67b8abef10f91a45e64840878 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">typedef Transformer::InputFragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a></td></tr>
+<tr class="memdesc:aea4357a67b8abef10f91a45e64840878 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source fragment.  <a href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">More...</a><br /></td></tr>
+<tr class="separator:aea4357a67b8abef10f91a45e64840878 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae14c71f6bb331030429d346f0140c993 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">typedef Transformer::OutputFragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a></td></tr>
+<tr class="memdesc:ae14c71f6bb331030429d346f0140c993 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformed fragment, compatible with Iterator::Fragment.  <a href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">More...</a><br /></td></tr>
+<tr class="separator:ae14c71f6bb331030429d346f0140c993 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2255d760e812cfe8e31f114cdb5793fe inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">typedef Iterator::TensorRef&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">TensorRef</a></td></tr>
+<tr class="memdesc:a2255d760e812cfe8e31f114cdb5793fe inherit pub_types_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference expected by the underlying iterator.  <a href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">More...</a><br /></td></tr>
+<tr class="separator:a2255d760e812cfe8e31f114cdb5793fe inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa0e894a30d3a979ac56e5134360a08f4 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">typedef Iterator::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">Index</a></td></tr>
+<tr class="memdesc:aa0e894a30d3a979ac56e5134360a08f4 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">More...</a><br /></td></tr>
+<tr class="separator:aa0e894a30d3a979ac56e5134360a08f4 inherit pub_types_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:ac4aafc6bcc6cf3bff5b31b9cd60fd667"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ac4aafc6bcc6cf3bff5b31b9cd60fd667">PredicatedTileStoreStream</a> (<a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;threadblock_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:ac4aafc6bcc6cf3bff5b31b9cd60fd667"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ac4aafc6bcc6cf3bff5b31b9cd60fd667">More...</a><br /></td></tr>
+<tr class="separator:ac4aafc6bcc6cf3bff5b31b9cd60fd667"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae84437a66097189406c2090d88a79350"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ae84437a66097189406c2090d88a79350">copy</a> ()</td></tr>
+<tr class="memdesc:ae84437a66097189406c2090d88a79350"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores the fragment and increments the iterator.  <a href="#ae84437a66097189406c2090d88a79350">More...</a><br /></td></tr>
+<tr class="separator:ae84437a66097189406c2090d88a79350"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1d33da4593ae68e6301df54b310a70a0"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a1d33da4593ae68e6301df54b310a70a0">copy</a> (<a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> const &amp;frag)</td></tr>
+<tr class="memdesc:a1d33da4593ae68e6301df54b310a70a0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores the fragment and increments the iterator.  <a href="#a1d33da4593ae68e6301df54b310a70a0">More...</a><br /></td></tr>
+<tr class="separator:a1d33da4593ae68e6301df54b310a70a0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a165a0d486f53fb2315d4e555c9f59891"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a165a0d486f53fb2315d4e555c9f59891">commit</a> ()</td></tr>
+<tr class="memdesc:a165a0d486f53fb2315d4e555c9f59891"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commits the store operation.  <a href="#a165a0d486f53fb2315d4e555c9f59891">More...</a><br /></td></tr>
+<tr class="separator:a165a0d486f53fb2315d4e555c9f59891"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileStoreStream"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileStoreStream')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td></tr>
+<tr class="memitem:af85b3acfc29e41ee605df64b09698a8b inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b">TileStoreStream</a> (<a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">TensorRef</a> const &amp;_ref)</td></tr>
+<tr class="memdesc:af85b3acfc29e41ee605df64b09698a8b inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b">More...</a><br /></td></tr>
+<tr class="separator:af85b3acfc29e41ee605df64b09698a8b inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a08e7e7bf74e1e0d670dd6a4e65d14084 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a08e7e7bf74e1e0d670dd6a4e65d14084">TileStoreStream</a> (<a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;threadblock_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:a08e7e7bf74e1e0d670dd6a4e65d14084 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1TileStoreStream.html#a08e7e7bf74e1e0d670dd6a4e65d14084">More...</a><br /></td></tr>
+<tr class="separator:a08e7e7bf74e1e0d670dd6a4e65d14084 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a50b6b5bd08fd83baa36c3dc4461ca009 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009">copy</a> ()</td></tr>
+<tr class="memdesc:a50b6b5bd08fd83baa36c3dc4461ca009 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment and increments the iterator.  <a href="structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009">More...</a><br /></td></tr>
+<tr class="separator:a50b6b5bd08fd83baa36c3dc4461ca009 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa0f3c75e59054d6229de159474c9c978 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa0f3c75e59054d6229de159474c9c978">copy</a> (<a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> const &amp;frag)</td></tr>
+<tr class="memdesc:aa0f3c75e59054d6229de159474c9c978 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment and increments the iterator.  <a href="structcutlass_1_1TileStoreStream.html#aa0f3c75e59054d6229de159474c9c978">More...</a><br /></td></tr>
+<tr class="separator:aa0f3c75e59054d6229de159474c9c978 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab5176fc539364fdf63647dc33020f579 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579">commit</a> ()</td></tr>
+<tr class="memdesc:ab5176fc539364fdf63647dc33020f579 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commits the store operation.  <a href="structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579">More...</a><br /></td></tr>
+<tr class="separator:ab5176fc539364fdf63647dc33020f579 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad6ff1786f85d64053ece0ac8ae9a92b5 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5">fragment</a> ()</td></tr>
+<tr class="memdesc:ad6ff1786f85d64053ece0ac8ae9a92b5 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the transformed fragment.  <a href="structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5">More...</a><br /></td></tr>
+<tr class="separator:ad6ff1786f85d64053ece0ac8ae9a92b5 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff77aed0f1b1583b01a427fc935c5d71 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71">intermediate_fragment</a> ()</td></tr>
+<tr class="memdesc:aff77aed0f1b1583b01a427fc935c5d71 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the fragment after trasnforming.  <a href="structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71">More...</a><br /></td></tr>
+<tr class="separator:aff77aed0f1b1583b01a427fc935c5d71 inherit pub_methods_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a2ecdfa152dcf7b3acaf8767f3e69cfbe"><td class="memItemLeft" align="right" valign="top">Iterator::PredicateVector&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe">predicates</a></td></tr>
+<tr class="memdesc:a2ecdfa152dcf7b3acaf8767f3e69cfbe"><td class="mdescLeft">&#160;</td><td class="mdescRight">Predicates.  <a href="#a2ecdfa152dcf7b3acaf8767f3e69cfbe">More...</a><br /></td></tr>
+<tr class="separator:a2ecdfa152dcf7b3acaf8767f3e69cfbe"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1TileStoreStream"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileStoreStream')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td></tr>
+<tr class="memitem:a601a296ec830e9b98aca9d5cf4b4010c inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">Iterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">iterator</a></td></tr>
+<tr class="memdesc:a601a296ec830e9b98aca9d5cf4b4010c inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterator to store tiles.  <a href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">More...</a><br /></td></tr>
+<tr class="separator:a601a296ec830e9b98aca9d5cf4b4010c inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a61d57147150bffda0c1662d6131a3934 inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">Transformer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">transformer</a></td></tr>
+<tr class="memdesc:a61d57147150bffda0c1662d6131a3934 inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformation applied to inputs.  <a href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">More...</a><br /></td></tr>
+<tr class="separator:a61d57147150bffda0c1662d6131a3934 inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0880c28b3ec82d38571ed332451c8d6a inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">source_fragment</a></td></tr>
+<tr class="memdesc:a0880c28b3ec82d38571ed332451c8d6a inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source fragment.  <a href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">More...</a><br /></td></tr>
+<tr class="separator:a0880c28b3ec82d38571ed332451c8d6a inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb5be2edcc35c7876abe5234663f9c48 inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">transformed_fragment</a></td></tr>
+<tr class="memdesc:aeb5be2edcc35c7876abe5234663f9c48 inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformed fragment from transformer.  <a href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">More...</a><br /></td></tr>
+<tr class="separator:aeb5be2edcc35c7876abe5234663f9c48 inherit pub_attribs_structcutlass_1_1TileStoreStream"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="afc320f4d29f05102e9de0064ca31e49b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afc320f4d29f05102e9de0064ca31e49b">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a>&lt;Iterator_, Transformer_&gt; <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#afc320f4d29f05102e9de0064ca31e49b">Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6c9737f5b09e7eb1aa7daabb00ae2e69"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c9737f5b09e7eb1aa7daabb00ae2e69">&#9670;&nbsp;</a></span>Fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Base::Fragment</a> <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0ba9097d54f3ba7b7dab12012631fa76"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ba9097d54f3ba7b7dab12012631fa76">&#9670;&nbsp;</a></span>Iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Iterator_ <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">Iterator</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad0c7a51f1b98111ce332ed906601a4ba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0c7a51f1b98111ce332ed906601a4ba">&#9670;&nbsp;</a></span>Params</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Base::Params</a> <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba">Params</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa6d4c263e057678b9f1b8ba6a9feb59f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6d4c263e057678b9f1b8ba6a9feb59f">&#9670;&nbsp;</a></span>PredicateFunctor</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef PredicateFunctor_ <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f">PredicateFunctor</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af349831b19bb91d414a83c67d14f6927"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af349831b19bb91d414a83c67d14f6927">&#9670;&nbsp;</a></span>TransformedFragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">Base::TransformedFragment</a> <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0f91f328ed2b6bd65ef4eeafe18f9afd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0f91f328ed2b6bd65ef4eeafe18f9afd">&#9670;&nbsp;</a></span>Transformer</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Transformer_ <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">Transformer</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ac4aafc6bcc6cf3bff5b31b9cd60fd667"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4aafc6bcc6cf3bff5b31b9cd60fd667">&#9670;&nbsp;</a></span>PredicatedTileStoreStream()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">PredicatedTileStoreStream</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>bounds</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>threadblock_offset</em> = <code><a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,&#160;0,&#160;0)</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a165a0d486f53fb2315d4e555c9f59891"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a165a0d486f53fb2315d4e555c9f59891">&#9670;&nbsp;</a></span>commit()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::commit </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae84437a66097189406c2090d88a79350"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae84437a66097189406c2090d88a79350">&#9670;&nbsp;</a></span>copy() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::copy </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1d33da4593ae68e6301df54b310a70a0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1d33da4593ae68e6301df54b310a70a0">&#9670;&nbsp;</a></span>copy() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::copy </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>frag</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a2ecdfa152dcf7b3acaf8767f3e69cfbe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ecdfa152dcf7b3acaf8767f3e69cfbe">&#9670;&nbsp;</a></span>predicates</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename PredicateFunctor_  = RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;, typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">Iterator::PredicateVector <a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a>&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;::predicates</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__stream_8h_source.html">tile_stream.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1PredicatedTileStoreStream.png b/docs/structcutlass_1_1PredicatedTileStoreStream.png
new file mode 100644
index 0000000000..8563ea0bad
Binary files /dev/null and b/docs/structcutlass_1_1PredicatedTileStoreStream.png differ
diff --git a/docs/structcutlass_1_1RegularTilePredicateFunctor-members.html b/docs/structcutlass_1_1RegularTilePredicateFunctor-members.html
new file mode 100644
index 0000000000..327913ca55
--- /dev/null
+++ b/docs/structcutlass_1_1RegularTilePredicateFunctor-members.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">RegularTilePredicateFunctor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">bounds</a></td><td class="entry"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#acd32282ce7852c4669098c06bcd9a360">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#a084c0a2732827a74f7a30873c5883827">operator()</a>(Coord&lt; 3 &gt; iteration, Coord&lt; 3 &gt; offset) const</td><td class="entry"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#a0e0b728d3685097a9280fbca6a47a2af">RegularTilePredicateFunctor</a>(Coord&lt; 3 &gt; _bounds)</td><td class="entry"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1RegularTilePredicateFunctor.html b/docs/structcutlass_1_1RegularTilePredicateFunctor.html
new file mode 100644
index 0000000000..2ea8c91ff4
--- /dev/null
+++ b/docs/structcutlass_1_1RegularTilePredicateFunctor.html
@@ -0,0 +1,223 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">RegularTilePredicateFunctor</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1RegularTilePredicateFunctor-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Functor computing a predicate given the logical position of an access.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">tile_iterator.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:acd32282ce7852c4669098c06bcd9a360"><td class="memItemLeft" align="right" valign="top">typedef Delta_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#acd32282ce7852c4669098c06bcd9a360">Delta</a></td></tr>
+<tr class="separator:acd32282ce7852c4669098c06bcd9a360"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a0e0b728d3685097a9280fbca6a47a2af"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#a0e0b728d3685097a9280fbca6a47a2af">RegularTilePredicateFunctor</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; _bounds)</td></tr>
+<tr class="memdesc:a0e0b728d3685097a9280fbca6a47a2af"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a predicate functor given the bounds of a tensor.  <a href="#a0e0b728d3685097a9280fbca6a47a2af">More...</a><br /></td></tr>
+<tr class="separator:a0e0b728d3685097a9280fbca6a47a2af"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a084c0a2732827a74f7a30873c5883827"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#a084c0a2732827a74f7a30873c5883827">operator()</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; iteration, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; offset) const</td></tr>
+<tr class="memdesc:a084c0a2732827a74f7a30873c5883827"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the predicate given the logical position of an access.  <a href="#a084c0a2732827a74f7a30873c5883827">More...</a><br /></td></tr>
+<tr class="separator:a084c0a2732827a74f7a30873c5883827"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:ac2f49374e6f0a27ad2daffcb1f74708a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">bounds</a></td></tr>
+<tr class="memdesc:ac2f49374e6f0a27ad2daffcb1f74708a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Dimensions of the bounding volume.  <a href="#ac2f49374e6f0a27ad2daffcb1f74708a">More...</a><br /></td></tr>
+<tr class="separator:ac2f49374e6f0a27ad2daffcb1f74708a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="acd32282ce7852c4669098c06bcd9a360"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acd32282ce7852c4669098c06bcd9a360">&#9670;&nbsp;</a></span>Delta</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Delta_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Delta_ <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor</a>&lt; Delta_ &gt;::<a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html#acd32282ce7852c4669098c06bcd9a360">Delta</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a0e0b728d3685097a9280fbca6a47a2af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e0b728d3685097a9280fbca6a47a2af">&#9670;&nbsp;</a></span>RegularTilePredicateFunctor()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Delta_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor</a>&lt; Delta_ &gt;::<a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">RegularTilePredicateFunctor</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td>
+          <td class="paramname"><em>_bounds</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a084c0a2732827a74f7a30873c5883827"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a084c0a2732827a74f7a30873c5883827">&#9670;&nbsp;</a></span>operator()()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Delta_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor</a>&lt; Delta_ &gt;::operator() </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td>
+          <td class="paramname"><em>iteration</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="ac2f49374e6f0a27ad2daffcb1f74708a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac2f49374e6f0a27ad2daffcb1f74708a">&#9670;&nbsp;</a></span>bounds</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Delta_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor</a>&lt; Delta_ &gt;::bounds</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__iterator_8h_source.html">tile_iterator.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ReshapeTile-members.html b/docs/structcutlass_1_1ReshapeTile-members.html
index 03567994b1..29ee1fde5a 100644
--- a/docs/structcutlass_1_1ReshapeTile-members.html
+++ b/docs/structcutlass_1_1ReshapeTile-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ReshapeTile.html b/docs/structcutlass_1_1ReshapeTile.html
index 936510b309..5c4a6c3b3f 100644
--- a/docs/structcutlass_1_1ReshapeTile.html
+++ b/docs/structcutlass_1_1ReshapeTile.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8d57fe6422aa920d9815a66e
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4-members.html b/docs/structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4-members.html
index 649f85d412..579c1fd684 100644
--- a/docs/structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4-members.html
+++ b/docs/structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html b/docs/structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html
index e7acf274de..3d2b1724f8 100644
--- a/docs/structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html
+++ b/docs/structcutlass_1_1ReshapeTile_3_01Tile___00_01kAccessSize___00_01true_01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a966a9432cf42dfdff8ad6b89
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ScalarIO-members.html b/docs/structcutlass_1_1ScalarIO-members.html
new file mode 100644
index 0000000000..4828a33bae
--- /dev/null
+++ b/docs/structcutlass_1_1ScalarIO-members.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::ScalarIO&lt; T &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1ScalarIO.html">cutlass::ScalarIO&lt; T &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ScalarIO.html#ad4166575521254088bf6c6300c351714">ScalarIO</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1ScalarIO.html">cutlass::ScalarIO&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ScalarIO.html#a5227e1e9ed24326ad4f8dc94d186186f">ScalarIO</a>(T value)</td><td class="entry"><a class="el" href="structcutlass_1_1ScalarIO.html">cutlass::ScalarIO&lt; T &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">value</a></td><td class="entry"><a class="el" href="structcutlass_1_1ScalarIO.html">cutlass::ScalarIO&lt; T &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ScalarIO.html b/docs/structcutlass_1_1ScalarIO.html
new file mode 100644
index 0000000000..cb186c3979
--- /dev/null
+++ b/docs/structcutlass_1_1ScalarIO.html
@@ -0,0 +1,188 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::ScalarIO&lt; T &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1ScalarIO-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::ScalarIO&lt; T &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Helper to enable formatted printing of CUTLASS scalar types to an ostream.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="core__io_8h_source.html">core_io.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:ad4166575521254088bf6c6300c351714"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ScalarIO.html#ad4166575521254088bf6c6300c351714">ScalarIO</a> ()</td></tr>
+<tr class="memdesc:ad4166575521254088bf6c6300c351714"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor.  <a href="#ad4166575521254088bf6c6300c351714">More...</a><br /></td></tr>
+<tr class="separator:ad4166575521254088bf6c6300c351714"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5227e1e9ed24326ad4f8dc94d186186f"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ScalarIO.html#a5227e1e9ed24326ad4f8dc94d186186f">ScalarIO</a> (T <a class="el" href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">value</a>)</td></tr>
+<tr class="memdesc:a5227e1e9ed24326ad4f8dc94d186186f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from a value.  <a href="#a5227e1e9ed24326ad4f8dc94d186186f">More...</a><br /></td></tr>
+<tr class="separator:a5227e1e9ed24326ad4f8dc94d186186f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a76d2822161aef20f85c3798b855ca9dd"><td class="memItemLeft" align="right" valign="top">T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ScalarIO.html#a76d2822161aef20f85c3798b855ca9dd">value</a></td></tr>
+<tr class="memdesc:a76d2822161aef20f85c3798b855ca9dd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Value to print.  <a href="#a76d2822161aef20f85c3798b855ca9dd">More...</a><br /></td></tr>
+<tr class="separator:a76d2822161aef20f85c3798b855ca9dd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ad4166575521254088bf6c6300c351714"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad4166575521254088bf6c6300c351714">&#9670;&nbsp;</a></span>ScalarIO() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1ScalarIO.html">cutlass::ScalarIO</a>&lt; T &gt;::<a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5227e1e9ed24326ad4f8dc94d186186f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5227e1e9ed24326ad4f8dc94d186186f">&#9670;&nbsp;</a></span>ScalarIO() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1ScalarIO.html">cutlass::ScalarIO</a>&lt; T &gt;::<a class="el" href="structcutlass_1_1ScalarIO.html">ScalarIO</a> </td>
+          <td>(</td>
+          <td class="paramtype">T&#160;</td>
+          <td class="paramname"><em>value</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a76d2822161aef20f85c3798b855ca9dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a76d2822161aef20f85c3798b855ca9dd">&#9670;&nbsp;</a></span>value</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename T &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">T <a class="el" href="structcutlass_1_1ScalarIO.html">cutlass::ScalarIO</a>&lt; T &gt;::value</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="core__io_8h_source.html">core_io.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Shape-members.html b/docs/structcutlass_1_1Shape-members.html
index 629b6d0de2..ccbdefb65b 100644
--- a/docs/structcutlass_1_1Shape-members.html
+++ b/docs/structcutlass_1_1Shape-members.html
@@ -86,7 +86,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Shape.html b/docs/structcutlass_1_1Shape.html
index e0d5b53fe5..d6df8f9f20 100644
--- a/docs/structcutlass_1_1Shape.html
+++ b/docs/structcutlass_1_1Shape.html
@@ -203,7 +203,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a78836a20250ff24c25a6622a
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeAdd-members.html b/docs/structcutlass_1_1ShapeAdd-members.html
index a7c0d6c423..35d9ac7718 100644
--- a/docs/structcutlass_1_1ShapeAdd-members.html
+++ b/docs/structcutlass_1_1ShapeAdd-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeAdd.html b/docs/structcutlass_1_1ShapeAdd.html
index 438ecfcffd..eea44133db 100644
--- a/docs/structcutlass_1_1ShapeAdd.html
+++ b/docs/structcutlass_1_1ShapeAdd.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad4712a1339445038949445de
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeCount-members.html b/docs/structcutlass_1_1ShapeCount-members.html
index 18ff7b21f3..4daed24e86 100644
--- a/docs/structcutlass_1_1ShapeCount-members.html
+++ b/docs/structcutlass_1_1ShapeCount-members.html
@@ -88,7 +88,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeCount.html b/docs/structcutlass_1_1ShapeCount.html
index 52f180e35c..f0f1662398 100644
--- a/docs/structcutlass_1_1ShapeCount.html
+++ b/docs/structcutlass_1_1ShapeCount.html
@@ -257,7 +257,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aac5c49469aa80d119c200629
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeDiv-members.html b/docs/structcutlass_1_1ShapeDiv-members.html
index 45aa632954..7deb95925e 100644
--- a/docs/structcutlass_1_1ShapeDiv-members.html
+++ b/docs/structcutlass_1_1ShapeDiv-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeDiv.html b/docs/structcutlass_1_1ShapeDiv.html
index 46eb5608e7..7e6fa73e1e 100644
--- a/docs/structcutlass_1_1ShapeDiv.html
+++ b/docs/structcutlass_1_1ShapeDiv.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a108ded386ef6708afc6fe769
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeDivCeiling-members.html b/docs/structcutlass_1_1ShapeDivCeiling-members.html
new file mode 100644
index 0000000000..e520eb28f0
--- /dev/null
+++ b/docs/structcutlass_1_1ShapeDivCeiling-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ShapeDivCeiling.html">ShapeDivCeiling</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::ShapeDivCeiling&lt; A_, B_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1ShapeDivCeiling.html">cutlass::ShapeDivCeiling&lt; A_, B_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">Shape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ShapeDivCeiling.html">cutlass::ShapeDivCeiling&lt; A_, B_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ShapeDivCeiling.html b/docs/structcutlass_1_1ShapeDivCeiling.html
new file mode 100644
index 0000000000..84faee307e
--- /dev/null
+++ b/docs/structcutlass_1_1ShapeDivCeiling.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::ShapeDivCeiling&lt; A_, B_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ShapeDivCeiling.html">ShapeDivCeiling</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="structcutlass_1_1ShapeDivCeiling-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::ShapeDivCeiling&lt; A_, B_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="shape_8h_source.html">shape.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a0e3b032e241a8ead89e1d9ffb472d799"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">Shape</a>&lt;(A_::kD+B_::kD - 1)/B_::kD,(A_::kH+B_::kH - 1)/B_::kH,(A_::kW+B_::kW - 1)/B_::kW,(A_::kC+B_::kC - 1)/B_::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">Shape</a></td></tr>
+<tr class="separator:a0e3b032e241a8ead89e1d9ffb472d799"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a0e3b032e241a8ead89e1d9ffb472d799"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e3b032e241a8ead89e1d9ffb472d799">&#9670;&nbsp;</a></span>Shape</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename A_ , typename B_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">Shape</a>&lt;(A_::kD + B_::kD - 1) / B_::kD, (A_::kH + B_::kH - 1) / B_::kH, (A_::kW + B_::kW - 1) / B_::kW, (A_::kC + B_::kC - 1) / B_::kC&gt; <a class="el" href="structcutlass_1_1ShapeDivCeiling.html">cutlass::ShapeDivCeiling</a>&lt; A_, B_ &gt;::<a class="el" href="structcutlass_1_1ShapeDivCeiling.html#a0e3b032e241a8ead89e1d9ffb472d799">Shape</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="shape_8h_source.html">shape.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ShapeMax-members.html b/docs/structcutlass_1_1ShapeMax-members.html
index 6c7119c7eb..09ddca9eb5 100644
--- a/docs/structcutlass_1_1ShapeMax-members.html
+++ b/docs/structcutlass_1_1ShapeMax-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeMax.html b/docs/structcutlass_1_1ShapeMax.html
index f2f81b900b..096a05a657 100644
--- a/docs/structcutlass_1_1ShapeMax.html
+++ b/docs/structcutlass_1_1ShapeMax.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad566aceac2563024982eeabb
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeMin-members.html b/docs/structcutlass_1_1ShapeMin-members.html
index ce2f15bb97..44c120214e 100644
--- a/docs/structcutlass_1_1ShapeMin-members.html
+++ b/docs/structcutlass_1_1ShapeMin-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeMin.html b/docs/structcutlass_1_1ShapeMin.html
index 8cd3b4cf8f..3a1e8fb0b7 100644
--- a/docs/structcutlass_1_1ShapeMin.html
+++ b/docs/structcutlass_1_1ShapeMin.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5c813e4c34ea612431d31b36
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeMul-members.html b/docs/structcutlass_1_1ShapeMul-members.html
index 75cf214caf..70cb98979a 100644
--- a/docs/structcutlass_1_1ShapeMul-members.html
+++ b/docs/structcutlass_1_1ShapeMul-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeMul.html b/docs/structcutlass_1_1ShapeMul.html
index 93d28b06de..2a7aea61dd 100644
--- a/docs/structcutlass_1_1ShapeMul.html
+++ b/docs/structcutlass_1_1ShapeMul.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8875fc5e861339f981360ed7
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeScale-members.html b/docs/structcutlass_1_1ShapeScale-members.html
index 1ba06a848e..ef9472502f 100644
--- a/docs/structcutlass_1_1ShapeScale-members.html
+++ b/docs/structcutlass_1_1ShapeScale-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeScale.html b/docs/structcutlass_1_1ShapeScale.html
index 5056a89d49..6873a996ea 100644
--- a/docs/structcutlass_1_1ShapeScale.html
+++ b/docs/structcutlass_1_1ShapeScale.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aae9cfc35c517cd89018e4f91
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeStrides-members.html b/docs/structcutlass_1_1ShapeStrides-members.html
index 0ca76c50b6..7ab0936362 100644
--- a/docs/structcutlass_1_1ShapeStrides-members.html
+++ b/docs/structcutlass_1_1ShapeStrides-members.html
@@ -73,17 +73,17 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::ShapeStrides&lt; Shape_ &gt; Member List</div>  </div>
+<div class="title">cutlass::ShapeStrides&lt; Shape_, elementsPerAccess &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1ShapeStrides.html">cutlass::ShapeStrides&lt; Shape_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1ShapeStrides.html">cutlass::ShapeStrides&lt; Shape_, elementsPerAccess &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">Shape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ShapeStrides.html">cutlass::ShapeStrides&lt; Shape_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">Shape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ShapeStrides.html">cutlass::ShapeStrides&lt; Shape_, elementsPerAccess &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeStrides.html b/docs/structcutlass_1_1ShapeStrides.html
index 4328a35277..9d3882b4be 100644
--- a/docs/structcutlass_1_1ShapeStrides.html
+++ b/docs/structcutlass_1_1ShapeStrides.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::ShapeStrides&lt; Shape_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::ShapeStrides&lt; Shape_, elementsPerAccess &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -76,7 +76,7 @@
 <a href="#pub-types">Public Types</a> &#124;
 <a href="structcutlass_1_1ShapeStrides-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::ShapeStrides&lt; Shape_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::ShapeStrides&lt; Shape_, elementsPerAccess &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -84,20 +84,20 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:ac6fcda9b8e1782f24c1e6d67cd880a6a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">Shape</a>&lt; Shape_::kH *Shape_::kW *Shape_::kC, Shape_::kW *Shape_::kC, Shape_::kC, 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">Shape</a></td></tr>
-<tr class="separator:ac6fcda9b8e1782f24c1e6d67cd880a6a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a76cde4c3ebd1d191e0191826b2663be4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">Shape</a>&lt; Shape_::kH *Shape_::kW *Shape_::kC, Shape_::kW *Shape_::kC, Shape_::kC, elementsPerAccess &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">Shape</a></td></tr>
+<tr class="separator:a76cde4c3ebd1d191e0191826b2663be4"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="ac6fcda9b8e1782f24c1e6d67cd880a6a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac6fcda9b8e1782f24c1e6d67cd880a6a">&#9670;&nbsp;</a></span>Shape</h2>
+<a id="a76cde4c3ebd1d191e0191826b2663be4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a76cde4c3ebd1d191e0191826b2663be4">&#9670;&nbsp;</a></span>Shape</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Shape_&gt; </div>
+template&lt;typename Shape_, int elementsPerAccess&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">Shape</a>&lt;Shape_::kH * Shape_::kW * Shape_::kC, Shape_::kW * Shape_::kC, Shape_::kC, 1&gt; <a class="el" href="structcutlass_1_1ShapeStrides.html">cutlass::ShapeStrides</a>&lt; Shape_ &gt;::<a class="el" href="structcutlass_1_1ShapeStrides.html#ac6fcda9b8e1782f24c1e6d67cd880a6a">Shape</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">Shape</a>&lt;Shape_::kH * Shape_::kW * Shape_::kC, Shape_::kW * Shape_::kC, Shape_::kC, elementsPerAccess&gt; <a class="el" href="structcutlass_1_1ShapeStrides.html">cutlass::ShapeStrides</a>&lt; Shape_, elementsPerAccess &gt;::<a class="el" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">Shape</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac6fcda9b8e1782f24c1e6d67
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeSub-members.html b/docs/structcutlass_1_1ShapeSub-members.html
index 666b9cf09f..d5b1f97f90 100644
--- a/docs/structcutlass_1_1ShapeSub-members.html
+++ b/docs/structcutlass_1_1ShapeSub-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1ShapeSub.html b/docs/structcutlass_1_1ShapeSub.html
index 81064ec152..8b5589b5fb 100644
--- a/docs/structcutlass_1_1ShapeSub.html
+++ b/docs/structcutlass_1_1ShapeSub.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a24b6dd8cb6171b85c4e2f374
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1StorageType-members.html b/docs/structcutlass_1_1StorageType-members.html
index 69e4ddfd04..8672a7be5c 100644
--- a/docs/structcutlass_1_1StorageType-members.html
+++ b/docs/structcutlass_1_1StorageType-members.html
@@ -73,17 +73,17 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::StorageType&lt; kAlignment_ &gt; Member List</div>  </div>
+<div class="title">cutlass::StorageType&lt; alignment &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1StorageType.html">cutlass::StorageType&lt; kAlignment_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1StorageType.html">cutlass::StorageType&lt; alignment &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06">Type</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1StorageType.html">cutlass::StorageType&lt; kAlignment_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1StorageType.html#abb0d270cdf38d46347261cac36dc619b">Type</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1StorageType.html">cutlass::StorageType&lt; alignment &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1StorageType.html b/docs/structcutlass_1_1StorageType.html
index 9205f95cc2..7b30d252f8 100644
--- a/docs/structcutlass_1_1StorageType.html
+++ b/docs/structcutlass_1_1StorageType.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::StorageType&lt; kAlignment_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::StorageType&lt; alignment &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -76,7 +76,7 @@
 <a href="#pub-types">Public Types</a> &#124;
 <a href="structcutlass_1_1StorageType-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::StorageType&lt; kAlignment_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::StorageType&lt; alignment &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -84,20 +84,20 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:a2b9c99ae52eb4962428f776efc1e7f06"><td class="memItemLeft" align="right" valign="top">typedef uint64_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06">Type</a></td></tr>
-<tr class="separator:a2b9c99ae52eb4962428f776efc1e7f06"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abb0d270cdf38d46347261cac36dc619b"><td class="memItemLeft" align="right" valign="top">typedef uint64_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1StorageType.html#abb0d270cdf38d46347261cac36dc619b">Type</a></td></tr>
+<tr class="separator:abb0d270cdf38d46347261cac36dc619b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a2b9c99ae52eb4962428f776efc1e7f06"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2b9c99ae52eb4962428f776efc1e7f06">&#9670;&nbsp;</a></span>Type</h2>
+<a id="abb0d270cdf38d46347261cac36dc619b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb0d270cdf38d46347261cac36dc619b">&#9670;&nbsp;</a></span>Type</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;int kAlignment_&gt; </div>
+template&lt;int alignment&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef uint64_t <a class="el" href="structcutlass_1_1StorageType.html">cutlass::StorageType</a>&lt; kAlignment_ &gt;::<a class="el" href="structcutlass_1_1StorageType.html#a2b9c99ae52eb4962428f776efc1e7f06">Type</a></td>
+          <td class="memname">typedef uint64_t <a class="el" href="structcutlass_1_1StorageType.html">cutlass::StorageType</a>&lt; alignment &gt;::<a class="el" href="structcutlass_1_1StorageType.html#abb0d270cdf38d46347261cac36dc619b">Type</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2b9c99ae52eb4962428f776e
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1StorageType_3_011_01_4-members.html b/docs/structcutlass_1_1StorageType_3_011_01_4-members.html
index 401d5fc0c1..3839816835 100644
--- a/docs/structcutlass_1_1StorageType_3_011_01_4-members.html
+++ b/docs/structcutlass_1_1StorageType_3_011_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1StorageType_3_011_01_4.html b/docs/structcutlass_1_1StorageType_3_011_01_4.html
index ceab6b0323..ecef1bc2a2 100644
--- a/docs/structcutlass_1_1StorageType_3_011_01_4.html
+++ b/docs/structcutlass_1_1StorageType_3_011_01_4.html
@@ -108,7 +108,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4a70002785c378c1f180800f
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1StorageType_3_012_01_4-members.html b/docs/structcutlass_1_1StorageType_3_012_01_4-members.html
index ac8127c9b3..ae4e0451ca 100644
--- a/docs/structcutlass_1_1StorageType_3_012_01_4-members.html
+++ b/docs/structcutlass_1_1StorageType_3_012_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1StorageType_3_012_01_4.html b/docs/structcutlass_1_1StorageType_3_012_01_4.html
index 8464872574..3c9d5b3d22 100644
--- a/docs/structcutlass_1_1StorageType_3_012_01_4.html
+++ b/docs/structcutlass_1_1StorageType_3_012_01_4.html
@@ -108,7 +108,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a66c52fe770774ea01c511aea
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1StorageType_3_014_01_4-members.html b/docs/structcutlass_1_1StorageType_3_014_01_4-members.html
index bf78873c4f..4a6a49f38d 100644
--- a/docs/structcutlass_1_1StorageType_3_014_01_4-members.html
+++ b/docs/structcutlass_1_1StorageType_3_014_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1StorageType_3_014_01_4.html b/docs/structcutlass_1_1StorageType_3_014_01_4.html
index 74751e5779..3640ba5ffc 100644
--- a/docs/structcutlass_1_1StorageType_3_014_01_4.html
+++ b/docs/structcutlass_1_1StorageType_3_014_01_4.html
@@ -108,7 +108,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa6754c0eb530544a1457afe1
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Store-members.html b/docs/structcutlass_1_1Store-members.html
index f942adf611..909907277c 100644
--- a/docs/structcutlass_1_1Store-members.html
+++ b/docs/structcutlass_1_1Store-members.html
@@ -73,18 +73,18 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt; Member List</div>  </div>
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Store.html">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Store.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Store.html">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf">store</a>(AccessType const &amp;src, Scalar_ *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Store.html">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Store.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Store.html#a187b63f682f7f00f8bf9ed3ee59d602f">store</a>(AccessType const &amp;src, Scalar_ *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Store.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Store.html b/docs/structcutlass_1_1Store.html
index 057010d126..893444c286 100644
--- a/docs/structcutlass_1_1Store.html
+++ b/docs/structcutlass_1_1Store.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -77,7 +77,7 @@
 <a href="#pub-static-methods">Static Public Member Functions</a> &#124;
 <a href="structcutlass_1_1Store-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::Store&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -85,27 +85,27 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:a8d2f927b2b61987dcea40e84f4575942"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, Lanes_ &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942">AccessType</a></td></tr>
-<tr class="memdesc:a8d2f927b2b61987dcea40e84f4575942"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a8d2f927b2b61987dcea40e84f4575942">More...</a><br /></td></tr>
-<tr class="separator:a8d2f927b2b61987dcea40e84f4575942"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a82acff2a97f8e08d040b4e603419c2c7"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; FragmentElement_, kAccessSize &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7">AccessType</a></td></tr>
+<tr class="memdesc:a82acff2a97f8e08d040b4e603419c2c7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a82acff2a97f8e08d040b4e603419c2c7">More...</a><br /></td></tr>
+<tr class="separator:a82acff2a97f8e08d040b4e603419c2c7"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
 Static Public Member Functions</h2></td></tr>
-<tr class="memitem:a1117fa7b7bdeeb3a7f2d647a1d340aaf"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf">store</a> (<a class="el" href="structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942">AccessType</a> const &amp;src, Scalar_ *pointer, int offset)</td></tr>
-<tr class="memdesc:a1117fa7b7bdeeb3a7f2d647a1d340aaf"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store function.  <a href="#a1117fa7b7bdeeb3a7f2d647a1d340aaf">More...</a><br /></td></tr>
-<tr class="separator:a1117fa7b7bdeeb3a7f2d647a1d340aaf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a187b63f682f7f00f8bf9ed3ee59d602f"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store.html#a187b63f682f7f00f8bf9ed3ee59d602f">store</a> (<a class="el" href="structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7">AccessType</a> const &amp;src, Scalar_ *pointer, int offset)</td></tr>
+<tr class="memdesc:a187b63f682f7f00f8bf9ed3ee59d602f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store function.  <a href="#a187b63f682f7f00f8bf9ed3ee59d602f">More...</a><br /></td></tr>
+<tr class="separator:a187b63f682f7f00f8bf9ed3ee59d602f"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a8d2f927b2b61987dcea40e84f4575942"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8d2f927b2b61987dcea40e84f4575942">&#9670;&nbsp;</a></span>AccessType</h2>
+<a id="a82acff2a97f8e08d040b4e603419c2c7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a82acff2a97f8e08d040b4e603419c2c7">&#9670;&nbsp;</a></span>AccessType</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_ , int Lanes_, MemorySpace::Kind Memory_, bool  = (Lanes_ &gt; 1), size_t  = (sizeof(Scalar_) * Lanes_)&gt; </div>
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, FragmentElementType::Kind kFragmentElementType = FragmentElementType::kScalar, typename FragmentElement_  = Scalar_, int kStride = 1, size_t size = (sizeof(Scalar_) * kAccessSize)&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, Lanes_&gt;::Type <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;::<a class="el" href="structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942">AccessType</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;FragmentElement_, kAccessSize&gt;::Type <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;::<a class="el" href="structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7">AccessType</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -113,21 +113,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8d2f927b2b61987dcea40e84
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a1117fa7b7bdeeb3a7f2d647a1d340aaf"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1117fa7b7bdeeb3a7f2d647a1d340aaf">&#9670;&nbsp;</a></span>store()</h2>
+<a id="a187b63f682f7f00f8bf9ed3ee59d602f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a187b63f682f7f00f8bf9ed3ee59d602f">&#9670;&nbsp;</a></span>store()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_ , int Lanes_, MemorySpace::Kind Memory_, bool  = (Lanes_ &gt; 1), size_t  = (sizeof(Scalar_) * Lanes_)&gt; </div>
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, FragmentElementType::Kind kFragmentElementType = FragmentElementType::kScalar, typename FragmentElement_  = Scalar_, int kStride = 1, size_t size = (sizeof(Scalar_) * kAccessSize)&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">static CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, Lanes_, Memory_, bool, size_t &gt;::store </td>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, kFragmentElementType, FragmentElement_, kStride, size &gt;::store </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Store.html#a8d2f927b2b61987dcea40e84f4575942">AccessType</a> const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Store.html#a82acff2a97f8e08d040b4e603419c2c7">AccessType</a> const &amp;&#160;</td>
           <td class="paramname"><em>src</em>, </td>
         </tr>
         <tr>
@@ -163,7 +163,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1117fa7b7bdeeb3a7f2d647a
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k004b304998a534d76357f834068909f8.html b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k004b304998a534d76357f834068909f8.html
new file mode 100644
index 0000000000..469365a9f3
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k004b304998a534d76357f834068909f8.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a1fcdc328d4b2deb1c50be5d31ef9e55f">store</a>(AccessType const &amp;src, Scalar_ *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k12f5c8a016a307e76de374322fc00a66.html b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k12f5c8a016a307e76de374322fc00a66.html
new file mode 100644
index 0000000000..b9b3985d54
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k12f5c8a016a307e76de374322fc00a66.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a298a08c8c4c1ea871e92e2491b2cb549">store</a>(AccessType const &amp;value, Scalar_ *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html
new file mode 100644
index 0000000000..14e6874159
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k60eedca420c41e94fd40b41299967ef2.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:affe0bee9dcc3d88c169472b421449900"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, kAccessSize &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900">AccessType</a></td></tr>
+<tr class="memdesc:affe0bee9dcc3d88c169472b421449900"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#affe0bee9dcc3d88c169472b421449900">More...</a><br /></td></tr>
+<tr class="separator:affe0bee9dcc3d88c169472b421449900"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:ae16a5d6d7a42ffeba0f0ebe2d252ec28"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#ae16a5d6d7a42ffeba0f0ebe2d252ec28">store</a> (<a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900">AccessType</a> const &amp;src, Scalar_ *pointer, int offset)</td></tr>
+<tr class="memdesc:ae16a5d6d7a42ffeba0f0ebe2d252ec28"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store function.  <a href="#ae16a5d6d7a42ffeba0f0ebe2d252ec28">More...</a><br /></td></tr>
+<tr class="separator:ae16a5d6d7a42ffeba0f0ebe2d252ec28"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="affe0bee9dcc3d88c169472b421449900"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#affe0bee9dcc3d88c169472b421449900">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, kAccessSize&gt;::Type <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 16 &gt;::<a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ae16a5d6d7a42ffeba0f0ebe2d252ec28"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae16a5d6d7a42ffeba0f0ebe2d252ec28">&#9670;&nbsp;</a></span>store()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 16 &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900">AccessType</a> const &amp;&#160;</td>
+          <td class="paramname"><em>src</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Scalar_ *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html
new file mode 100644
index 0000000000..b5f8d29d05
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k775a1d27affec5236489735ed4503c92.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ab4e4ac8a34b08fe38676f9fe7efe4c4f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, kAccessSize &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f">AccessType</a></td></tr>
+<tr class="memdesc:ab4e4ac8a34b08fe38676f9fe7efe4c4f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#ab4e4ac8a34b08fe38676f9fe7efe4c4f">More...</a><br /></td></tr>
+<tr class="separator:ab4e4ac8a34b08fe38676f9fe7efe4c4f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a535b4356c9bc21352fc2459b3c2246d1"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#a535b4356c9bc21352fc2459b3c2246d1">store</a> (<a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f">AccessType</a> const &amp;src, Scalar_ *pointer, int offset)</td></tr>
+<tr class="memdesc:a535b4356c9bc21352fc2459b3c2246d1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store function.  <a href="#a535b4356c9bc21352fc2459b3c2246d1">More...</a><br /></td></tr>
+<tr class="separator:a535b4356c9bc21352fc2459b3c2246d1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ab4e4ac8a34b08fe38676f9fe7efe4c4f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab4e4ac8a34b08fe38676f9fe7efe4c4f">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, kAccessSize&gt;::Type <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, 1, 2 &gt;::<a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a535b4356c9bc21352fc2459b3c2246d1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a535b4356c9bc21352fc2459b3c2246d1">&#9670;&nbsp;</a></span>store()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, 1, 2 &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f">AccessType</a> const &amp;&#160;</td>
+          <td class="paramname"><em>src</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Scalar_ *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html
new file mode 100644
index 0000000000..2e3d711850
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k84da7dcd68ee74b8d2bdb67885b0ca56.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a996c9a38e018d250ce8f0a7a474bc6e6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, kAccessSize &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6">AccessType</a></td></tr>
+<tr class="memdesc:a996c9a38e018d250ce8f0a7a474bc6e6"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a996c9a38e018d250ce8f0a7a474bc6e6">More...</a><br /></td></tr>
+<tr class="separator:a996c9a38e018d250ce8f0a7a474bc6e6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a453a2eed81a86d6637778a50bed06b59"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a453a2eed81a86d6637778a50bed06b59">store</a> (<a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6">AccessType</a> const &amp;src, Scalar_ *pointer, int offset)</td></tr>
+<tr class="memdesc:a453a2eed81a86d6637778a50bed06b59"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store function.  <a href="#a453a2eed81a86d6637778a50bed06b59">More...</a><br /></td></tr>
+<tr class="separator:a453a2eed81a86d6637778a50bed06b59"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a996c9a38e018d250ce8f0a7a474bc6e6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a996c9a38e018d250ce8f0a7a474bc6e6">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, kAccessSize&gt;::Type <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 4 &gt;::<a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a453a2eed81a86d6637778a50bed06b59"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a453a2eed81a86d6637778a50bed06b59">&#9670;&nbsp;</a></span>store()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 4 &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6">AccessType</a> const &amp;&#160;</td>
+          <td class="paramname"><em>src</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Scalar_ *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k60eedca420c41e94fd40b41299967ef2.html b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k60eedca420c41e94fd40b41299967ef2.html
new file mode 100644
index 0000000000..7b902f52b1
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k60eedca420c41e94fd40b41299967ef2.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#affe0bee9dcc3d88c169472b421449900">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html#ae16a5d6d7a42ffeba0f0ebe2d252ec28">store</a>(AccessType const &amp;src, Scalar_ *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k220d5790f803f10840e2a92fb9a51dac.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k775a1d27affec5236489735ed4503c92.html b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k775a1d27affec5236489735ed4503c92.html
new file mode 100644
index 0000000000..4d1705582d
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k775a1d27affec5236489735ed4503c92.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#ab4e4ac8a34b08fe38676f9fe7efe4c4f">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html#a535b4356c9bc21352fc2459b3c2246d1">store</a>(AccessType const &amp;src, Scalar_ *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k28cc0b88a16efca73d258128312d2a7e.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k84da7dcd68ee74b8d2bdb67885b0ca56.html b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k84da7dcd68ee74b8d2bdb67885b0ca56.html
new file mode 100644
index 0000000000..1f1c686d41
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k84da7dcd68ee74b8d2bdb67885b0ca56.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a996c9a38e018d250ce8f0a7a474bc6e6">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html#a453a2eed81a86d6637778a50bed06b59">store</a>(AccessType const &amp;src, Scalar_ *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k40d038d4bce377843c21a56ebf97d011.html">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 4 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html
new file mode 100644
index 0000000000..41a456e7c6
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k12f5c8a016a307e76de374322fc00a66.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kWmmaMatrix, FragmentElement_, kStride, size &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a5ca5fcd2d6d2ca350d4470b4a3e65385"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">AccessType</a></td></tr>
+<tr class="memdesc:a5ca5fcd2d6d2ca350d4470b4a3e65385"><td class="mdescLeft">&#160;</td><td class="mdescRight">The input type.  <a href="#a5ca5fcd2d6d2ca350d4470b4a3e65385">More...</a><br /></td></tr>
+<tr class="separator:a5ca5fcd2d6d2ca350d4470b4a3e65385"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a298a08c8c4c1ea871e92e2491b2cb549"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a298a08c8c4c1ea871e92e2491b2cb549">store</a> (<a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">AccessType</a> const &amp;value, Scalar_ *pointer, int offset)</td></tr>
+<tr class="memdesc:a298a08c8c4c1ea871e92e2491b2cb549"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store function.  <a href="#a298a08c8c4c1ea871e92e2491b2cb549">More...</a><br /></td></tr>
+<tr class="separator:a298a08c8c4c1ea871e92e2491b2cb549"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a5ca5fcd2d6d2ca350d4470b4a3e65385"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5ca5fcd2d6d2ca350d4470b4a3e65385">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, typename FragmentElement_ , int kStride, size_t size&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef FragmentElement_ <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>, FragmentElement_, kStride, size &gt;::<a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a298a08c8c4c1ea871e92e2491b2cb549"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a298a08c8c4c1ea871e92e2491b2cb549">&#9670;&nbsp;</a></span>store()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, typename FragmentElement_ , int kStride, size_t size&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>, FragmentElement_, kStride, size &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1kd9a7e85f80a21c504388612a60462417.html#a5ca5fcd2d6d2ca350d4470b4a3e65385">AccessType</a> const &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Scalar_ *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html
new file mode 100644
index 0000000000..46c9d9b447
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html">Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1k004b304998a534d76357f834068909f8.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; Scalar_, kAccessSize, Memory_, FragmentElementType::kScalar, Scalar_, kStride, 8 &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a3fe2c0be6113ecb0ae4535cccb87680b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; Scalar_, kAccessSize &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b">AccessType</a></td></tr>
+<tr class="memdesc:a3fe2c0be6113ecb0ae4535cccb87680b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a3fe2c0be6113ecb0ae4535cccb87680b">More...</a><br /></td></tr>
+<tr class="separator:a3fe2c0be6113ecb0ae4535cccb87680b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a1fcdc328d4b2deb1c50be5d31ef9e55f"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a1fcdc328d4b2deb1c50be5d31ef9e55f">store</a> (<a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b">AccessType</a> const &amp;src, Scalar_ *pointer, int offset)</td></tr>
+<tr class="memdesc:a1fcdc328d4b2deb1c50be5d31ef9e55f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store function.  <a href="#a1fcdc328d4b2deb1c50be5d31ef9e55f">More...</a><br /></td></tr>
+<tr class="separator:a1fcdc328d4b2deb1c50be5d31ef9e55f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a3fe2c0be6113ecb0ae4535cccb87680b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3fe2c0be6113ecb0ae4535cccb87680b">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Scalar_, kAccessSize&gt;::Type <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 8 &gt;::<a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a1fcdc328d4b2deb1c50be5d31ef9e55f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1fcdc328d4b2deb1c50be5d31ef9e55f">&#9670;&nbsp;</a></span>store()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kAccessSize, MemorySpace::Kind Memory_, int kStride&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; Scalar_, kAccessSize, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, Scalar_, kStride, 8 &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Store_3_01Scalar___00_01kAccessSize_00_01Memory___00_01FragmentElementType_1_1ke6d73d34fa7b5254cf828804a19842e1.html#a3fe2c0be6113ecb0ae4535cccb87680b">AccessType</a> const &amp;&#160;</td>
+          <td class="paramname"><em>src</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">Scalar_ *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_013d38935f41bf709e067932b9e042255a.html b/docs/structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_013d38935f41bf709e067932b9e042255a.html
new file mode 100644
index 0000000000..70da9ff685
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_013d38935f41bf709e067932b9e042255a.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html">Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a174ed368f1c702b4c958887f0b895eee">store</a>(AccessType const &amp;src, double *pointer, int offset)</td><td class="entry"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html b/docs/structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html
new file mode 100644
index 0000000000..2bbfac9824
--- /dev/null
+++ b/docs/structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html
@@ -0,0 +1,171 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html">Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_013d38935f41bf709e067932b9e042255a.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Store&lt; double, 2, Memory_, FragmentElementType::kScalar, double, kStride, 16 &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="load__store_8h_source.html">load_store.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a6c7ee589e65cf77578402a5ae01afe44"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; double, 2 &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44">AccessType</a></td></tr>
+<tr class="memdesc:a6c7ee589e65cf77578402a5ae01afe44"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output type.  <a href="#a6c7ee589e65cf77578402a5ae01afe44">More...</a><br /></td></tr>
+<tr class="separator:a6c7ee589e65cf77578402a5ae01afe44"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:a174ed368f1c702b4c958887f0b895eee"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a174ed368f1c702b4c958887f0b895eee">store</a> (<a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44">AccessType</a> const &amp;src, double *pointer, int offset)</td></tr>
+<tr class="memdesc:a174ed368f1c702b4c958887f0b895eee"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store function.  <a href="#a174ed368f1c702b4c958887f0b895eee">More...</a><br /></td></tr>
+<tr class="separator:a174ed368f1c702b4c958887f0b895eee"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a6c7ee589e65cf77578402a5ae01afe44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c7ee589e65cf77578402a5ae01afe44">&#9670;&nbsp;</a></span>AccessType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;MemorySpace::Kind Memory_, int kStride&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;double, 2&gt;::Type <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; double, 2, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, double, kStride, 16 &gt;::<a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44">AccessType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a174ed368f1c702b4c958887f0b895eee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a174ed368f1c702b4c958887f0b895eee">&#9670;&nbsp;</a></span>store()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;MemorySpace::Kind Memory_, int kStride&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1Store.html">cutlass::Store</a>&lt; double, 2, Memory_, <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>, double, kStride, 16 &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Store_3_01double_00_012_00_01Memory___00_01FragmentElementType_1_1kScalar_00_0160391c6be5cb1d3f99e012a6a18e486d.html#a6c7ee589e65cf77578402a5ae01afe44">AccessType</a> const &amp;&#160;</td>
+          <td class="paramname"><em>src</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">double *&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="load__store_8h_source.html">load_store.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TensorRefArray-members.html b/docs/structcutlass_1_1TensorRefArray-members.html
new file mode 100644
index 0000000000..1a0ae6f7b5
--- /dev/null
+++ b/docs/structcutlass_1_1TensorRefArray-members.html
@@ -0,0 +1,101 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#a2a95fd42d48c550a45f340b04f9dfe3d">at</a>(Index idx) const</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#a6b0f0d9cef4a2f3f4a8bf6c192a282db">begin</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#a6220549b72ed8451dbf76466b50a96c0">LongIndex</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e">pointers</a></td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#a76228819a72b8ed341e680ba84a960be">strides</a></td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109">TensorArrayRef</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#aea35239326dcb23c3c6a18e7b3f92091">TensorArrayRef</a>(Storage **_pointers, Index _strides[kStorageRank - 1])</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TensorRefArray.html b/docs/structcutlass_1_1TensorRefArray.html
new file mode 100644
index 0000000000..6aa5adbe83
--- /dev/null
+++ b/docs/structcutlass_1_1TensorRefArray.html
@@ -0,0 +1,398 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1TensorRefArray-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="tensor__ref__collection_8h_source.html">tensor_ref_collection.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">TensorRefIterator over <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> objects in <a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a>.  <a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a066d684240f8a24e1ba621ae3904ec75"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef</a></td></tr>
+<tr class="memdesc:a066d684240f8a24e1ba621ae3904ec75"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> type obtained from the <a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a>.  <a href="#a066d684240f8a24e1ba621ae3904ec75">More...</a><br /></td></tr>
+<tr class="separator:a066d684240f8a24e1ba621ae3904ec75"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab6a6ed8af1a4b3da33e840409c0a72d8"><td class="memItemLeft" align="right" valign="top">typedef Storage_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">Storage</a></td></tr>
+<tr class="memdesc:ab6a6ed8af1a4b3da33e840409c0a72d8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element pointed to by the <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>.  <a href="#ab6a6ed8af1a4b3da33e840409c0a72d8">More...</a><br /></td></tr>
+<tr class="separator:ab6a6ed8af1a4b3da33e840409c0a72d8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f4658dd194b305ae4f150cf371869d9"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a></td></tr>
+<tr class="memdesc:a8f4658dd194b305ae4f150cf371869d9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#a8f4658dd194b305ae4f150cf371869d9">More...</a><br /></td></tr>
+<tr class="separator:a8f4658dd194b305ae4f150cf371869d9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6220549b72ed8451dbf76466b50a96c0"><td class="memItemLeft" align="right" valign="top">typedef LongIndex_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#a6220549b72ed8451dbf76466b50a96c0">LongIndex</a></td></tr>
+<tr class="memdesc:a6220549b72ed8451dbf76466b50a96c0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Typically, strides in memory can be very large.  <a href="#a6220549b72ed8451dbf76466b50a96c0">More...</a><br /></td></tr>
+<tr class="separator:a6220549b72ed8451dbf76466b50a96c0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a771ede5f73ec18729cc9a5946cf86109"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109">TensorArrayRef</a> ()</td></tr>
+<tr class="separator:a771ede5f73ec18729cc9a5946cf86109"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea35239326dcb23c3c6a18e7b3f92091"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#aea35239326dcb23c3c6a18e7b3f92091">TensorArrayRef</a> (<a class="el" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">Storage</a> **_pointers, <a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> _strides[<a class="el" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a> - 1])</td></tr>
+<tr class="separator:aea35239326dcb23c3c6a18e7b3f92091"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2a95fd42d48c550a45f340b04f9dfe3d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#a2a95fd42d48c550a45f340b04f9dfe3d">at</a> (<a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> idx) const</td></tr>
+<tr class="separator:a2a95fd42d48c550a45f340b04f9dfe3d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6b0f0d9cef4a2f3f4a8bf6c192a282db"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#a6b0f0d9cef4a2f3f4a8bf6c192a282db">begin</a> ()</td></tr>
+<tr class="memdesc:a6b0f0d9cef4a2f3f4a8bf6c192a282db"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns an TesnorRefIterator over the <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> objects in this collection.  <a href="#a6b0f0d9cef4a2f3f4a8bf6c192a282db">More...</a><br /></td></tr>
+<tr class="separator:a6b0f0d9cef4a2f3f4a8bf6c192a282db"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:ae322501a04b0008e5db4f7fccb6e903e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">Storage</a> **&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e">pointers</a></td></tr>
+<tr class="memdesc:ae322501a04b0008e5db4f7fccb6e903e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base addresses.  <a href="#ae322501a04b0008e5db4f7fccb6e903e">More...</a><br /></td></tr>
+<tr class="separator:ae322501a04b0008e5db4f7fccb6e903e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a76228819a72b8ed341e680ba84a960be"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#a76228819a72b8ed341e680ba84a960be">strides</a> [<a class="el" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a> - 1]</td></tr>
+<tr class="memdesc:a76228819a72b8ed341e680ba84a960be"><td class="mdescLeft">&#160;</td><td class="mdescRight">Array of strides.  <a href="#a76228819a72b8ed341e680ba84a960be">More...</a><br /></td></tr>
+<tr class="separator:a76228819a72b8ed341e680ba84a960be"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a131bdcf213e3d46672c9b3b34d6bf243"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a> = TensorRef::kStorageRank</td></tr>
+<tr class="memdesc:a131bdcf213e3d46672c9b3b34d6bf243"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of the stride vector.  <a href="#a131bdcf213e3d46672c9b3b34d6bf243">More...</a><br /></td></tr>
+<tr class="separator:a131bdcf213e3d46672c9b3b34d6bf243"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt;<br />
+struct cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</h3>
+
+<p>This satisfies TensorRefCollection and stores a collection of <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> objects. This is a structure of arrays in that the individual members of the <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> are held in distinct arrays.</p>
+<p>Note, <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> maps a logical coordinate space to an n-D array with rank kStorageRank. It maintains a stride vector of similar rank, but the least significant rank is defined to be 1.</p>
+<p>The least significant stride of 1 is not stored, and therefore the number of stride arrays is kStorageRank - 1. </p>
+</div><h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a8f4658dd194b305ae4f150cf371869d9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f4658dd194b305ae4f150cf371869d9">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6220549b72ed8451dbf76466b50a96c0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6220549b72ed8451dbf76466b50a96c0">&#9670;&nbsp;</a></span>LongIndex</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef LongIndex_ <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="structcutlass_1_1TensorRefArray.html#a6220549b72ed8451dbf76466b50a96c0">LongIndex</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab6a6ed8af1a4b3da33e840409c0a72d8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6a6ed8af1a4b3da33e840409c0a72d8">&#9670;&nbsp;</a></span>Storage</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Storage_ <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">Storage</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a066d684240f8a24e1ba621ae3904ec75"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a066d684240f8a24e1ba621ae3904ec75">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef</a>&lt;Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt; <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a2a95fd42d48c550a45f340b04f9dfe3d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2a95fd42d48c550a45f340b04f9dfe3d">&#9670;&nbsp;</a></span>at()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef</a> <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::at </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6b0f0d9cef4a2f3f4a8bf6c192a282db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b0f0d9cef4a2f3f4a8bf6c192a282db">&#9670;&nbsp;</a></span>begin()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::begin </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a771ede5f73ec18729cc9a5946cf86109"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a771ede5f73ec18729cc9a5946cf86109">&#9670;&nbsp;</a></span>TensorArrayRef() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::TensorArrayRef </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea35239326dcb23c3c6a18e7b3f92091"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea35239326dcb23c3c6a18e7b3f92091">&#9670;&nbsp;</a></span>TensorArrayRef() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::TensorArrayRef </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">Storage</a> **&#160;</td>
+          <td class="paramname"><em>_pointers</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a>&#160;</td>
+          <td class="paramname"><em>_strides</em>[kStorageRank - 1]&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a131bdcf213e3d46672c9b3b34d6bf243"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a131bdcf213e3d46672c9b3b34d6bf243">&#9670;&nbsp;</a></span>kStorageRank</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::kStorageRank = TensorRef::kStorageRank</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae322501a04b0008e5db4f7fccb6e903e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae322501a04b0008e5db4f7fccb6e903e">&#9670;&nbsp;</a></span>pointers</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">Storage</a>** <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::pointers</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a76228819a72b8ed341e680ba84a960be"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a76228819a72b8ed341e680ba84a960be">&#9670;&nbsp;</a></span>strides</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a>* <a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::strides[<a class="el" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a> - 1]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tensor__ref__collection_8h_source.html">tensor_ref_collection.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TensorRefBatchStrided-members.html b/docs/structcutlass_1_1TensorRefBatchStrided-members.html
new file mode 100644
index 0000000000..0319ad8276
--- /dev/null
+++ b/docs/structcutlass_1_1TensorRefBatchStrided-members.html
@@ -0,0 +1,134 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(LongIndex delta)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aac4b013050925c1e2db4019140e82602">at</a>(Index idx) const</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">cutlass::TensorRef::at</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">cutlass::TensorRef::at</a>(LongIndex idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a4f4a2f860cc10688ee27cc9ce1df1015">begin</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">const_ref</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">Coord_t</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">data</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a3d1922402bba34d0bc865fcc3e1a9a5c">get_pointer_offset</a>(Index idx) const</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">good</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ab12d9d196122dc3075185ab239a27fb4">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">leading_dim</a>(int idx=0) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa3df5b7337d41d8f96717ea73bf3e24e">LongIndex</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">map</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">operator+</a>(TensorCoord const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">operator+=</a>(TensorCoord const &amp;b)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">operator-</a>(TensorCoord const &amp;b) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">operator-=</a>(TensorCoord const &amp;b)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">operator[]</a>(TensorCoord const &amp;coord) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">operator[]</a>(LongIndex idx) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">Rank</a></td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">reset</a>(Storage *ptr=nullptr)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">reset</a>(Storage *ptr, StorageCoord const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa86a59779c0830e8cf82066853dc1089">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>() const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">stride</a>(int dim) const</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a> typedef</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a></td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a9d07d96c2eccba10c3a9e4bef58d4e01">TensorCoord</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">cutlass::TensorRef::TensorRef</a>(Storage *ptr=nullptr)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">cutlass::TensorRef::TensorRef</a>(Storage *ptr, Index ldm)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">cutlass::TensorRef::TensorRef</a>(Storage *ptr, StrideVector const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0">cutlass::TensorRef::TensorRef</a>(Storage *ptr, StorageCoord const &amp;stride)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">cutlass::TensorRef::TensorRef</a>(TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type, kRank, MapFunc, kStorageRank, Index, LongIndex &gt; const &amp;ref)</td><td class="entry"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa5d7e9a4589d7dacc5d69ca3c70ecc2b">TensorRefBatchStrided</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#abc2ddccdb742f95438b214e0a3a14620">TensorRefBatchStrided</a>(TensorRef const &amp;ref, LongIndex _tensor_stride=0)</td><td class="entry"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TensorRefBatchStrided.html b/docs/structcutlass_1_1TensorRefBatchStrided.html
new file mode 100644
index 0000000000..b1c9693102
--- /dev/null
+++ b/docs/structcutlass_1_1TensorRefBatchStrided.html
@@ -0,0 +1,537 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1TensorRefBatchStrided-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="tensor__ref__collection_8h_source.html">tensor_ref_collection.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1TensorRefBatchStrided.png" usemap="#cutlass::TensorRefBatchStrided_3C_20Storage_5F_2C_20Rank_5F_2C_20MapFunc_5F_2C_20StorageRank_5F_2C_20Index_5F_2C_20LongIndex_5F_20_3E_map" alt=""/>
+  <map id="cutlass::TensorRefBatchStrided_3C_20Storage_5F_2C_20Rank_5F_2C_20MapFunc_5F_2C_20StorageRank_5F_2C_20Index_5F_2C_20LongIndex_5F_20_3E_map" name="cutlass::TensorRefBatchStrided_3C_20Storage_5F_2C_20Rank_5F_2C_20MapFunc_5F_2C_20StorageRank_5F_2C_20Index_5F_2C_20LongIndex_5F_20_3E_map">
+<area href="classcutlass_1_1TensorRef.html" alt="cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;" shape="rect" coords="0,0,584,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constant iterator over tensors implied by <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a>.  <a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ac92b0cbb46cea7a04ee4660c2603b000"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">Base</a></td></tr>
+<tr class="memdesc:ac92b0cbb46cea7a04ee4660c2603b000"><td class="mdescLeft">&#160;</td><td class="mdescRight">Underlying <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> type.  <a href="#ac92b0cbb46cea7a04ee4660c2603b000">More...</a><br /></td></tr>
+<tr class="separator:ac92b0cbb46cea7a04ee4660c2603b000"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa86a59779c0830e8cf82066853dc1089"><td class="memItemLeft" align="right" valign="top">typedef Base::Storage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa86a59779c0830e8cf82066853dc1089">Storage</a></td></tr>
+<tr class="memdesc:aa86a59779c0830e8cf82066853dc1089"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage type.  <a href="#aa86a59779c0830e8cf82066853dc1089">More...</a><br /></td></tr>
+<tr class="separator:aa86a59779c0830e8cf82066853dc1089"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab12d9d196122dc3075185ab239a27fb4"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ab12d9d196122dc3075185ab239a27fb4">Index</a></td></tr>
+<tr class="memdesc:ab12d9d196122dc3075185ab239a27fb4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#ab12d9d196122dc3075185ab239a27fb4">More...</a><br /></td></tr>
+<tr class="separator:ab12d9d196122dc3075185ab239a27fb4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa3df5b7337d41d8f96717ea73bf3e24e"><td class="memItemLeft" align="right" valign="top">typedef LongIndex_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa3df5b7337d41d8f96717ea73bf3e24e">LongIndex</a></td></tr>
+<tr class="memdesc:aa3df5b7337d41d8f96717ea73bf3e24e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Typically, strides in memory can be very large.  <a href="#aa3df5b7337d41d8f96717ea73bf3e24e">More...</a><br /></td></tr>
+<tr class="separator:aa3df5b7337d41d8f96717ea73bf3e24e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9d07d96c2eccba10c3a9e4bef58d4e01"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a9d07d96c2eccba10c3a9e4bef58d4e01">TensorCoord</a></td></tr>
+<tr class="memdesc:a9d07d96c2eccba10c3a9e4bef58d4e01"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="#a9d07d96c2eccba10c3a9e4bef58d4e01">More...</a><br /></td></tr>
+<tr class="separator:a9d07d96c2eccba10c3a9e4bef58d4e01"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0d5f100b9b87f881e7ecaced63bce9dd"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">Base</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a></td></tr>
+<tr class="memdesc:a0d5f100b9b87f881e7ecaced63bce9dd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference implied by the <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a>.  <a href="#a0d5f100b9b87f881e7ecaced63bce9dd">More...</a><br /></td></tr>
+<tr class="separator:a0d5f100b9b87f881e7ecaced63bce9dd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_classcutlass_1_1TensorRef"><td colspan="2" onclick="javascript:toggleInherit('pub_types_classcutlass_1_1TensorRef')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="memitem:ad327edfe1f8085632ff682d354922009 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef Storage_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a></td></tr>
+<tr class="memdesc:ad327edfe1f8085632ff682d354922009 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Data type of individual access.  <a href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">More...</a><br /></td></tr>
+<tr class="separator:ad327edfe1f8085632ff682d354922009 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad0273300d26125278b6930b1e463ff29 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef MapFunc_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a></td></tr>
+<tr class="memdesc:ad0273300d26125278b6930b1e463ff29 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Mapping function from logical coordinate to internal n-D array.  <a href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">More...</a><br /></td></tr>
+<tr class="separator:ad0273300d26125278b6930b1e463ff29 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2beda7a1946bde2858e730bece21b890 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a></td></tr>
+<tr class="memdesc:a2beda7a1946bde2858e730bece21b890 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">More...</a><br /></td></tr>
+<tr class="separator:a2beda7a1946bde2858e730bece21b890 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a42ca6a39ab0e44296fed71a77c57b7b1 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef LongIndex_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a></td></tr>
+<tr class="memdesc:a42ca6a39ab0e44296fed71a77c57b7b1 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Typically, strides in memory can be very large.  <a href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">More...</a><br /></td></tr>
+<tr class="separator:a42ca6a39ab0e44296fed71a77c57b7b1 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a35b7e1fc59298e0f06f484652d62fd65 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a></td></tr>
+<tr class="memdesc:a35b7e1fc59298e0f06f484652d62fd65 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">More...</a><br /></td></tr>
+<tr class="separator:a35b7e1fc59298e0f06f484652d62fd65 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a455a2df539b53086699c210d06df1c5d inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a></td></tr>
+<tr class="memdesc:a455a2df539b53086699c210d06df1c5d inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in storage n-D array.  <a href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">More...</a><br /></td></tr>
+<tr class="separator:a455a2df539b53086699c210d06df1c5d inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07c4b1ace7c8799537553b54cfe0a059 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a></td></tr>
+<tr class="separator:a07c4b1ace7c8799537553b54cfe0a059 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8281d11677512d6e229504ab4babad17 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a></td></tr>
+<tr class="memdesc:a8281d11677512d6e229504ab4babad17 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference to of constant value.  <a href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">More...</a><br /></td></tr>
+<tr class="separator:a8281d11677512d6e229504ab4babad17 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a758f24783e36ffc393b360d0b8640bc6 inherit pub_types_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">Coord_t</a></td></tr>
+<tr class="memdesc:a758f24783e36ffc393b360d0b8640bc6 inherit pub_types_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Coordinate in logical tensor space.  <a href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">More...</a><br /></td></tr>
+<tr class="separator:a758f24783e36ffc393b360d0b8640bc6 inherit pub_types_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:aa5d7e9a4589d7dacc5d69ca3c70ecc2b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aa5d7e9a4589d7dacc5d69ca3c70ecc2b">TensorRefBatchStrided</a> ()</td></tr>
+<tr class="separator:aa5d7e9a4589d7dacc5d69ca3c70ecc2b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abc2ddccdb742f95438b214e0a3a14620"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#abc2ddccdb742f95438b214e0a3a14620">TensorRefBatchStrided</a> (<a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a> const &amp;ref, <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> _tensor_stride=0)</td></tr>
+<tr class="separator:abc2ddccdb742f95438b214e0a3a14620"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3d1922402bba34d0bc865fcc3e1a9a5c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a3d1922402bba34d0bc865fcc3e1a9a5c">get_pointer_offset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx) const</td></tr>
+<tr class="memdesc:a3d1922402bba34d0bc865fcc3e1a9a5c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the pointer offset.  <a href="#a3d1922402bba34d0bc865fcc3e1a9a5c">More...</a><br /></td></tr>
+<tr class="separator:a3d1922402bba34d0bc865fcc3e1a9a5c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aac4b013050925c1e2db4019140e82602"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#aac4b013050925c1e2db4019140e82602">at</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx) const</td></tr>
+<tr class="separator:aac4b013050925c1e2db4019140e82602"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4f4a2f860cc10688ee27cc9ce1df1015"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a4f4a2f860cc10688ee27cc9ce1df1015">begin</a> ()</td></tr>
+<tr class="memdesc:a4f4a2f860cc10688ee27cc9ce1df1015"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns an iterator.  <a href="#a4f4a2f860cc10688ee27cc9ce1df1015">More...</a><br /></td></tr>
+<tr class="separator:a4f4a2f860cc10688ee27cc9ce1df1015"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_classcutlass_1_1TensorRef"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_classcutlass_1_1TensorRef')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="memitem:a5a667a48c64fb916c31802b73b769765 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr=<a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>)</td></tr>
+<tr class="memdesc:a5a667a48c64fb916c31802b73b769765 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper for 1-D memory. All higher ranks are projected onto the fastest changing rank.  <a href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">More...</a><br /></td></tr>
+<tr class="separator:a5a667a48c64fb916c31802b73b769765 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a48b9b4ad9034f6cf2b7c2ee479aea135 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> ldm)</td></tr>
+<tr class="memdesc:a48b9b4ad9034f6cf2b7c2ee479aea135 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct from a pointer and single stride element for 2-D pitch linear memory.  <a href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">More...</a><br /></td></tr>
+<tr class="separator:a48b9b4ad9034f6cf2b7c2ee479aea135 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afe4fc6fa539f36b2764707d50351905c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>)</td></tr>
+<tr class="memdesc:afe4fc6fa539f36b2764707d50351905c inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from a single pointer and stride vector.  <a href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">More...</a><br /></td></tr>
+<tr class="separator:afe4fc6fa539f36b2764707d50351905c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeca439296c8446741ba84b78f5a601e0 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>)</td></tr>
+<tr class="separator:aeca439296c8446741ba84b78f5a601e0 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afe92be0a61fb8fc84426f4907faca6c1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">TensorRef</a> (<a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; typename <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &gt;::type, <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a>, <a class="el" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>, <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> &gt; const &amp;ref)</td></tr>
+<tr class="memdesc:afe92be0a61fb8fc84426f4907faca6c1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Enables conversion from <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> of non-const type.  <a href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">More...</a><br /></td></tr>
+<tr class="separator:afe92be0a61fb8fc84426f4907faca6c1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6ab468e38773f5a971a8428673fb5e47 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">const_ref</a> () const</td></tr>
+<tr class="memdesc:a6ab468e38773f5a971a8428673fb5e47 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to constant-valued tensor.  <a href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">More...</a><br /></td></tr>
+<tr class="separator:a6ab468e38773f5a971a8428673fb5e47 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ec815838aed4e02dd96acb1000614c0 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">reset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr=<a class="el" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>)</td></tr>
+<tr class="memdesc:a7ec815838aed4e02dd96acb1000614c0 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates only the pointer.  <a href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">More...</a><br /></td></tr>
+<tr class="separator:a7ec815838aed4e02dd96acb1000614c0 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7a1da27a46883eb68e3f8983670b784b inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">reset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr, <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a> const &amp;<a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>)</td></tr>
+<tr class="memdesc:a7a1da27a46883eb68e3f8983670b784b inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Updates the pointer, stride, and location within a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>.  <a href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">More...</a><br /></td></tr>
+<tr class="separator:a7a1da27a46883eb68e3f8983670b784b inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2dbee889626b4764d30e9058ef3a7ae8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">good</a> () const</td></tr>
+<tr class="memdesc:a2dbee889626b4764d30e9058ef3a7ae8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if the <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> may be safely accessed.  <a href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">More...</a><br /></td></tr>
+<tr class="separator:a2dbee889626b4764d30e9058ef3a7ae8 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae1c80b524cd9491e2d499d703e1459f7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">data</a> () const</td></tr>
+<tr class="memdesc:ae1c80b524cd9491e2d499d703e1459f7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the pointer to referenced data.  <a href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">More...</a><br /></td></tr>
+<tr class="separator:ae1c80b524cd9491e2d499d703e1459f7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adb52dd6f9f68e7b8b67b8ddfb5c0021c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a> () const</td></tr>
+<tr class="memdesc:adb52dd6f9f68e7b8b67b8ddfb5c0021c inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor.  <a href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">More...</a><br /></td></tr>
+<tr class="separator:adb52dd6f9f68e7b8b67b8ddfb5c0021c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa6956072f1231b79fe8925a78c4760b7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">stride</a> (int dim) const</td></tr>
+<tr class="memdesc:aa6956072f1231b79fe8925a78c4760b7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the stride of the tensor in the given dimension.  <a href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">More...</a><br /></td></tr>
+<tr class="separator:aa6956072f1231b79fe8925a78c4760b7 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa60b92372db1da1d2aa997d6a03e01ca inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">leading_dim</a> (int idx=0) const</td></tr>
+<tr class="memdesc:aa60b92372db1da1d2aa997d6a03e01ca inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the maximum stride element as the 'leading dimension'.  <a href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">More...</a><br /></td></tr>
+<tr class="separator:aa60b92372db1da1d2aa997d6a03e01ca inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07dfe328d4a8316e79e9acde50582360 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">map</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a07dfe328d4a8316e79e9acde50582360 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps a logical coordinate to an n-D array in memory.  <a href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">More...</a><br /></td></tr>
+<tr class="separator:a07dfe328d4a8316e79e9acde50582360 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4da903ecbeaaf80c35084e8779e920a1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a4da903ecbeaaf80c35084e8779e920a1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the offset of an index from the origin of the tensor.  <a href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">More...</a><br /></td></tr>
+<tr class="separator:a4da903ecbeaaf80c35084e8779e920a1 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4169a1344897c2c87822ee49d5e0002f inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">at</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:a4169a1344897c2c87822ee49d5e0002f inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">More...</a><br /></td></tr>
+<tr class="separator:a4169a1344897c2c87822ee49d5e0002f inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab0cf071be50423dece4e931878573a1c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">at</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> idx) const</td></tr>
+<tr class="memdesc:ab0cf071be50423dece4e931878573a1c inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given linear index.  <a href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">More...</a><br /></td></tr>
+<tr class="separator:ab0cf071be50423dece4e931878573a1c inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada832ce3a57aaf4919b1ed89192f1fa6 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">operator[]</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;coord) const</td></tr>
+<tr class="memdesc:ada832ce3a57aaf4919b1ed89192f1fa6 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a>.  <a href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">More...</a><br /></td></tr>
+<tr class="separator:ada832ce3a57aaf4919b1ed89192f1fa6 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a207a0dabf6c368fa1edcb32baa2110e3 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">operator[]</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> idx) const</td></tr>
+<tr class="memdesc:a207a0dabf6c368fa1edcb32baa2110e3 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a reference to the element at a given linear index.  <a href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">More...</a><br /></td></tr>
+<tr class="separator:a207a0dabf6c368fa1edcb32baa2110e3 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5f0363da1e0544f256438e066d3cc143 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> delta)</td></tr>
+<tr class="memdesc:a5f0363da1e0544f256438e066d3cc143 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds an offset to each pointer.  <a href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">More...</a><br /></td></tr>
+<tr class="separator:a5f0363da1e0544f256438e066d3cc143 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0a4fd9ace579b46bc9d575b8adc6882f inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">operator+</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a0a4fd9ace579b46bc9d575b8adc6882f inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">More...</a><br /></td></tr>
+<tr class="separator:a0a4fd9ace579b46bc9d575b8adc6882f inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a727d9c25d6df0aa9e795123b638b9306 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">operator+=</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a727d9c25d6df0aa9e795123b638b9306 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">More...</a><br /></td></tr>
+<tr class="separator:a727d9c25d6df0aa9e795123b638b9306 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4a56b323aed2a3b2c843c276b68378fa inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">operator-</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a4a56b323aed2a3b2c843c276b68378fa inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">More...</a><br /></td></tr>
+<tr class="separator:a4a56b323aed2a3b2c843c276b68378fa inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5b5af26da32278d19c27c0d5a4a18890 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">operator-=</a> (<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a5b5af26da32278d19c27c0d5a4a18890 inherit pub_methods_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> offset by a given amount.  <a href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">More...</a><br /></td></tr>
+<tr class="separator:a5b5af26da32278d19c27c0d5a4a18890 inherit pub_methods_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a27a1e93508bb9c602028cabc3431815f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a></td></tr>
+<tr class="memdesc:a27a1e93508bb9c602028cabc3431815f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stride between tensors.  <a href="#a27a1e93508bb9c602028cabc3431815f">More...</a><br /></td></tr>
+<tr class="separator:a27a1e93508bb9c602028cabc3431815f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_static_attribs_classcutlass_1_1TensorRef"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_classcutlass_1_1TensorRef')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="memitem:a429692d4ac03a3427fbd8fdfaac4ae31 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a> = Rank_</td></tr>
+<tr class="memdesc:a429692d4ac03a3427fbd8fdfaac4ae31 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Logical rank of tensor index space.  <a href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">More...</a><br /></td></tr>
+<tr class="separator:a429692d4ac03a3427fbd8fdfaac4ae31 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a425ff3d894ed1153eee79b1944fa5ed2 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> = StorageRank_</td></tr>
+<tr class="memdesc:a425ff3d894ed1153eee79b1944fa5ed2 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rank of internal storage.  <a href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">More...</a><br /></td></tr>
+<tr class="separator:a425ff3d894ed1153eee79b1944fa5ed2 inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2088b39881deef375af08511bca1e90a inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">Rank</a> = <a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a></td></tr>
+<tr class="memdesc:a2088b39881deef375af08511bca1e90a inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Logical rank of tensor index space.  <a href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">More...</a><br /></td></tr>
+<tr class="separator:a2088b39881deef375af08511bca1e90a inherit pub_static_attribs_classcutlass_1_1TensorRef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;typename Storage_, int Rank_, typename MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_ = int, typename LongIndex_ = long long&gt;<br />
+struct cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</h3>
+
+<p>This satisfies TensorRefCollection and stores a collection of <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> objects that have identical strides. <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> objects are separated by a linear stride. </p>
+</div><h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ac92b0cbb46cea7a04ee4660c2603b000"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac92b0cbb46cea7a04ee4660c2603b000">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a>&lt;Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt; <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab12d9d196122dc3075185ab239a27fb4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab12d9d196122dc3075185ab239a27fb4">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa3df5b7337d41d8f96717ea73bf3e24e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa3df5b7337d41d8f96717ea73bf3e24e">&#9670;&nbsp;</a></span>LongIndex</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef LongIndex_ <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa86a59779c0830e8cf82066853dc1089"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa86a59779c0830e8cf82066853dc1089">&#9670;&nbsp;</a></span>Storage</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Base::Storage <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9d07d96c2eccba10c3a9e4bef58d4e01"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9d07d96c2eccba10c3a9e4bef58d4e01">&#9670;&nbsp;</a></span>TensorCoord</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="el" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a>&gt; <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0d5f100b9b87f881e7ecaced63bce9dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d5f100b9b87f881e7ecaced63bce9dd">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">Base</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="aa5d7e9a4589d7dacc5d69ca3c70ecc2b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa5d7e9a4589d7dacc5d69ca3c70ecc2b">&#9670;&nbsp;</a></span>TensorRefBatchStrided() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abc2ddccdb742f95438b214e0a3a14620"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abc2ddccdb742f95438b214e0a3a14620">&#9670;&nbsp;</a></span>TensorRefBatchStrided() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::<a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&#160;</td>
+          <td class="paramname"><em>_tensor_stride</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="aac4b013050925c1e2db4019140e82602"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac4b013050925c1e2db4019140e82602">&#9670;&nbsp;</a></span>at()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::at </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4f4a2f860cc10688ee27cc9ce1df1015"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f4a2f860cc10688ee27cc9ce1df1015">&#9670;&nbsp;</a></span>begin()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::begin </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3d1922402bba34d0bc865fcc3e1a9a5c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3d1922402bba34d0bc865fcc3e1a9a5c">&#9670;&nbsp;</a></span>get_pointer_offset()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::get_pointer_offset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>&#160;</td>
+          <td class="paramname"><em>idx</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a27a1e93508bb9c602028cabc3431815f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a27a1e93508bb9c602028cabc3431815f">&#9670;&nbsp;</a></span>tensor_stride</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Storage_ , int Rank_, typename MapFunc_  = IdentityTensorMapFunc&lt;Rank_&gt;, int StorageRank_ = MapFunc_::kStorageRank, typename Index_  = int, typename LongIndex_  = long long&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a>&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::tensor_stride</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tensor__ref__collection_8h_source.html">tensor_ref_collection.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TensorRefBatchStrided.png b/docs/structcutlass_1_1TensorRefBatchStrided.png
new file mode 100644
index 0000000000..9a21bce92c
Binary files /dev/null and b/docs/structcutlass_1_1TensorRefBatchStrided.png differ
diff --git a/docs/structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html b/docs/structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html
new file mode 100644
index 0000000000..76d7a9ec85
--- /dev/null
+++ b/docs/structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html
@@ -0,0 +1,97 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::StrideVector Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html">StrideVector</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::StrideVector Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="tensor__ref_8h_source.html">tensor_ref.h</a>&gt;</code></p>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;typename Storage_, int Rank_, typename MapFunc_, typename Index_, typename LongIndex_&gt;<br />
+struct cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::StrideVector</h3>
+
+<p>Stride vector in storage coordinage space - assumes least significant stride is 1 and does not store it. </p>
+</div><hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tensor__ref_8h_source.html">tensor_ref.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileAllocation-members.html b/docs/structcutlass_1_1TileAllocation-members.html
new file mode 100644
index 0000000000..11af96977b
--- /dev/null
+++ b/docs/structcutlass_1_1TileAllocation-members.html
@@ -0,0 +1,101 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileAllocation.html">TileAllocation</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">ConstTensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#a69c43b27939e9ecebd23edb18ed3a9dc">data</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#acc3f2c29fe21316091a1405613083000">data</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#a3466ef2b478e4617aa1ff261217cfd05">reference</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#afcdc0be82acf0b4ae66468e2170c5a0d">reference</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">Shape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604">storage</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#aba9164abe2fd7a091a858b23c0d3ac9c">Strides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileAllocation.html b/docs/structcutlass_1_1TileAllocation.html
new file mode 100644
index 0000000000..7f5ad2df03
--- /dev/null
+++ b/docs/structcutlass_1_1TileAllocation.html
@@ -0,0 +1,366 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TileAllocation&lt; Scalar_, Shape_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileAllocation.html">TileAllocation</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1TileAllocation-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Class for storing a tile in memory and accessing it through a tensor ref.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__allocation_8h_source.html">tile_allocation.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a98f1243dc279999e3ff083ef45dee3f6"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a></td></tr>
+<tr class="memdesc:a98f1243dc279999e3ff083ef45dee3f6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="#a98f1243dc279999e3ff083ef45dee3f6">More...</a><br /></td></tr>
+<tr class="separator:a98f1243dc279999e3ff083ef45dee3f6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ace1f396620f3eb69c367bdf69aa27ebd"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1StorageType.html">StorageType</a>&lt; sizeof(<a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a>)&gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">Storage</a></td></tr>
+<tr class="memdesc:ace1f396620f3eb69c367bdf69aa27ebd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The actual storage (may differ from the scalar type)  <a href="#ace1f396620f3eb69c367bdf69aa27ebd">More...</a><br /></td></tr>
+<tr class="separator:ace1f396620f3eb69c367bdf69aa27ebd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2254302a3ce0b4da5c3657ada0cb8ccc"><td class="memItemLeft" align="right" valign="top">typedef Shape_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">Shape</a></td></tr>
+<tr class="memdesc:a2254302a3ce0b4da5c3657ada0cb8ccc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Size of the allocation in units of scalars.  <a href="#a2254302a3ce0b4da5c3657ada0cb8ccc">More...</a><br /></td></tr>
+<tr class="separator:a2254302a3ce0b4da5c3657ada0cb8ccc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aba9164abe2fd7a091a858b23c0d3ac9c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a>&lt; <a class="el" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">Shape</a>, 1 &gt;::<a class="el" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#aba9164abe2fd7a091a858b23c0d3ac9c">Strides</a></td></tr>
+<tr class="memdesc:aba9164abe2fd7a091a858b23c0d3ac9c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Strides.  <a href="#aba9164abe2fd7a091a858b23c0d3ac9c">More...</a><br /></td></tr>
+<tr class="separator:aba9164abe2fd7a091a858b23c0d3ac9c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a122fa067390f45b29946286271654033"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a> const, 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">ConstTensorRef</a></td></tr>
+<tr class="memdesc:a122fa067390f45b29946286271654033"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines the tensor reference for this allocation.  <a href="#a122fa067390f45b29946286271654033">More...</a><br /></td></tr>
+<tr class="separator:a122fa067390f45b29946286271654033"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa0bf6caeab13dc004350c6c0cfe0df80"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a>, 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a></td></tr>
+<tr class="memdesc:aa0bf6caeab13dc004350c6c0cfe0df80"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines the tensor reference for this allocation.  <a href="#aa0bf6caeab13dc004350c6c0cfe0df80">More...</a><br /></td></tr>
+<tr class="separator:aa0bf6caeab13dc004350c6c0cfe0df80"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a69c43b27939e9ecebd23edb18ed3a9dc"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#a69c43b27939e9ecebd23edb18ed3a9dc">data</a> ()</td></tr>
+<tr class="memdesc:a69c43b27939e9ecebd23edb18ed3a9dc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a pointer to the raw data.  <a href="#a69c43b27939e9ecebd23edb18ed3a9dc">More...</a><br /></td></tr>
+<tr class="separator:a69c43b27939e9ecebd23edb18ed3a9dc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acc3f2c29fe21316091a1405613083000"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a> const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#acc3f2c29fe21316091a1405613083000">data</a> () const</td></tr>
+<tr class="memdesc:acc3f2c29fe21316091a1405613083000"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a const pointer to the raw data.  <a href="#acc3f2c29fe21316091a1405613083000">More...</a><br /></td></tr>
+<tr class="separator:acc3f2c29fe21316091a1405613083000"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3466ef2b478e4617aa1ff261217cfd05"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#a3466ef2b478e4617aa1ff261217cfd05">reference</a> ()</td></tr>
+<tr class="memdesc:a3466ef2b478e4617aa1ff261217cfd05"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> object pointing to the data.  <a href="#a3466ef2b478e4617aa1ff261217cfd05">More...</a><br /></td></tr>
+<tr class="separator:a3466ef2b478e4617aa1ff261217cfd05"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afcdc0be82acf0b4ae66468e2170c5a0d"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">ConstTensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#afcdc0be82acf0b4ae66468e2170c5a0d">reference</a> () const</td></tr>
+<tr class="memdesc:afcdc0be82acf0b4ae66468e2170c5a0d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> object pointing to the data.  <a href="#afcdc0be82acf0b4ae66468e2170c5a0d">More...</a><br /></td></tr>
+<tr class="separator:afcdc0be82acf0b4ae66468e2170c5a0d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a3c1ba61c511110b14558941367ad4604"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">Storage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604">storage</a> [<a class="el" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Shape::kD</a>][<a class="el" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Shape::kH</a>][<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Shape::kW</a>][<a class="el" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">Shape::kC</a>]</td></tr>
+<tr class="memdesc:a3c1ba61c511110b14558941367ad4604"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage.  <a href="#a3c1ba61c511110b14558941367ad4604">More...</a><br /></td></tr>
+<tr class="separator:a3c1ba61c511110b14558941367ad4604"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a122fa067390f45b29946286271654033"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a122fa067390f45b29946286271654033">&#9670;&nbsp;</a></span>ConstTensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a>&lt;<a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a> const, 4&gt; <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::<a class="el" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">ConstTensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a98f1243dc279999e3ff083ef45dee3f6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98f1243dc279999e3ff083ef45dee3f6">&#9670;&nbsp;</a></span>Scalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Scalar_ <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::<a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2254302a3ce0b4da5c3657ada0cb8ccc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2254302a3ce0b4da5c3657ada0cb8ccc">&#9670;&nbsp;</a></span>Shape</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Shape_ <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::<a class="el" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">Shape</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ace1f396620f3eb69c367bdf69aa27ebd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ace1f396620f3eb69c367bdf69aa27ebd">&#9670;&nbsp;</a></span>Storage</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1StorageType.html">StorageType</a>&lt;sizeof(<a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a>)&gt;::Type <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::<a class="el" href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">Storage</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aba9164abe2fd7a091a858b23c0d3ac9c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba9164abe2fd7a091a858b23c0d3ac9c">&#9670;&nbsp;</a></span>Strides</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeStrides.html">ShapeStrides</a>&lt;<a class="el" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">Shape</a>, 1&gt;::<a class="el" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">Shape</a> <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::<a class="el" href="structcutlass_1_1TileAllocation.html#aba9164abe2fd7a091a858b23c0d3ac9c">Strides</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa0bf6caeab13dc004350c6c0cfe0df80"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa0bf6caeab13dc004350c6c0cfe0df80">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a>&lt;<a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a>, 4&gt; <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::<a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a69c43b27939e9ecebd23edb18ed3a9dc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69c43b27939e9ecebd23edb18ed3a9dc">&#9670;&nbsp;</a></span>data() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a>* <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::data </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc3f2c29fe21316091a1405613083000"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc3f2c29fe21316091a1405613083000">&#9670;&nbsp;</a></span>data() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a> const* <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::data </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3466ef2b478e4617aa1ff261217cfd05"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3466ef2b478e4617aa1ff261217cfd05">&#9670;&nbsp;</a></span>reference() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a> <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::reference </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afcdc0be82acf0b4ae66468e2170c5a0d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afcdc0be82acf0b4ae66468e2170c5a0d">&#9670;&nbsp;</a></span>reference() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">ConstTensorRef</a> <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::reference </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a3c1ba61c511110b14558941367ad4604"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3c1ba61c511110b14558941367ad4604">&#9670;&nbsp;</a></span>storage</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename Shape_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">Storage</a> <a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a>&lt; Scalar_, Shape_ &gt;::storage[<a class="el" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Shape::kD</a>][<a class="el" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Shape::kH</a>][<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Shape::kW</a>][<a class="el" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">Shape::kC</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__allocation_8h_source.html">tile_allocation.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileCoord-members.html b/docs/structcutlass_1_1TileCoord-members.html
new file mode 100644
index 0000000000..73a3fef585
--- /dev/null
+++ b/docs/structcutlass_1_1TileCoord-members.html
@@ -0,0 +1,151 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TileCoord&lt; Index_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">at</a>(int dim)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">at</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">at</a>(int dim) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c">c</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#ad8281750f2978c6c1c91982f347a14cd">c</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">clamp</a>(Coord&lt; kRank &gt; const &amp;max, Coord&lt; kRank &gt; const &amp;min=Coord&lt; kRank &gt;())</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">Coord</a>(Index value=0)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">Coord</a>(Index _idx[])</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">Coord</a>(Coord&lt; kRank &gt; const &amp;coord)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">count</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b">d</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#aec4ffcdc8fbf57a8b649fff38af55007">d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#abe65d1a0ff3798b662376032d51e9713">dhw</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">dot</a>(Coord const &amp;b, T sum) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">dot</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">h</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a1d91ffa0a63ad03431ff79185526f92f">h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a0927c4ba212d00f3687034afe6bb8daf">hw</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a11bb7593ce7bba2dcedd199322a8b42b">hwc</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a8236879e1670072033983b7ec4b7ae32">kC</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#ab5ebf352327baadcc740175d6b39adcb">kD</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a24d32587359493bb965745f5551e1624">kH</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#ac2c14af3ceffd5ef8f17c9e0efb4e5ec">kW</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">N</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">operator bool</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">operator!</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">operator!=</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#ab8fbb13cc5ea4f580a7fc32963de9553">operator*</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">Coord&lt; 4, Index_ &gt;::operator*</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#ae946b3af6b795d26632da7ca66b3751c">operator*=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">Coord&lt; 4, Index_ &gt;::operator*=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a3bfa2daa0e63144c1e8510ba336f185b">operator+</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">Coord&lt; 4, Index_ &gt;::operator+</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a812760c633ea813db8a2bc24826c68df">operator+=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">Coord&lt; 4, Index_ &gt;::operator+=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a9f274d8e93f9cd3e0a9699e11b85fa7c">operator-</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">Coord&lt; 4, Index_ &gt;::operator-</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a02da20e580962fe0754a772842045389">operator-=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">Coord&lt; 4, Index_ &gt;::operator-=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a5d2cc915343a3b90fb530348ddd329d2">operator/</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">Coord&lt; 4, Index_ &gt;::operator/</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#ac3207d8aa879c86a907cdcc93ccb2eb5">operator/=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">Coord&lt; 4, Index_ &gt;::operator/=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">operator&lt;</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">operator&lt;=</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">operator==</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">operator[]</a>(int dim)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">operator[]</a>(int dim) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a>(int start=0, Index identity=0) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">TileCoord</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#ac760795433c0f0ccc5c44fb58626f51d">TileCoord</a>(Coord&lt; 3, Index &gt; const &amp;coord)</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a752dcc11f1a018de692e5846a80fe185">TileCoord</a>(Coord&lt; 4, Index &gt; const &amp;coord)</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a2ff6ac0ad18cff304ee7f79597fdc274">TileCoord</a>(Index coord[4])</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a28ee00699941f879cfa92327c038fca6">TileCoord</a>(Index d, Index h, Index w, Index c)</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">w</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html#a8f83026751c83f57c1854c8544e75bd0">w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileCoord.html b/docs/structcutlass_1_1TileCoord.html
new file mode 100644
index 0000000000..e0684be4de
--- /dev/null
+++ b/docs/structcutlass_1_1TileCoord.html
@@ -0,0 +1,1127 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TileCoord&lt; Index_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1TileCoord-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TileCoord&lt; Index_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="tile__coord_8h_source.html">tile_coord.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::TileCoord&lt; Index_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1TileCoord.png" usemap="#cutlass::TileCoord_3C_20Index_5F_20_3E_map" alt=""/>
+  <map id="cutlass::TileCoord_3C_20Index_5F_20_3E_map" name="cutlass::TileCoord_3C_20Index_5F_20_3E_map">
+<area href="structcutlass_1_1Coord.html" alt="cutlass::Coord&lt; 4, Index_ &gt;" shape="rect" coords="0,0,173,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a7018df7f2dbc7d70345d5f076fb26259"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a></td></tr>
+<tr class="memdesc:a7018df7f2dbc7d70345d5f076fb26259"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#a7018df7f2dbc7d70345d5f076fb26259">More...</a><br /></td></tr>
+<tr class="separator:a7018df7f2dbc7d70345d5f076fb26259"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab40c6bb58967d6be5a349bf6276c2eca"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a></td></tr>
+<tr class="memdesc:ab40c6bb58967d6be5a349bf6276c2eca"><td class="mdescLeft">&#160;</td><td class="mdescRight">Underlying <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a>  <a href="#ab40c6bb58967d6be5a349bf6276c2eca">More...</a><br /></td></tr>
+<tr class="separator:ab40c6bb58967d6be5a349bf6276c2eca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td></tr>
+<tr class="memitem:a7c73966e94b4f45854f16e33683bc02c inherit pub_types_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a></td></tr>
+<tr class="memdesc:a7c73966e94b4f45854f16e33683bc02c inherit pub_types_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type used to store elements.  <a href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">More...</a><br /></td></tr>
+<tr class="separator:a7c73966e94b4f45854f16e33683bc02c inherit pub_types_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:ae0c8cd0657a73f3ffff99e9546ea8a95"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">TileCoord</a> ()</td></tr>
+<tr class="memdesc:ae0c8cd0657a73f3ffff99e9546ea8a95"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor.  <a href="#ae0c8cd0657a73f3ffff99e9546ea8a95">More...</a><br /></td></tr>
+<tr class="separator:ae0c8cd0657a73f3ffff99e9546ea8a95"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac760795433c0f0ccc5c44fb58626f51d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#ac760795433c0f0ccc5c44fb58626f51d">TileCoord</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &gt; const &amp;coord)</td></tr>
+<tr class="memdesc:ac760795433c0f0ccc5c44fb58626f51d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> and infers coord[kC] = 0.  <a href="#ac760795433c0f0ccc5c44fb58626f51d">More...</a><br /></td></tr>
+<tr class="separator:ac760795433c0f0ccc5c44fb58626f51d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a752dcc11f1a018de692e5846a80fe185"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a752dcc11f1a018de692e5846a80fe185">TileCoord</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &gt; const &amp;coord)</td></tr>
+<tr class="memdesc:a752dcc11f1a018de692e5846a80fe185"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a>  <a href="#a752dcc11f1a018de692e5846a80fe185">More...</a><br /></td></tr>
+<tr class="separator:a752dcc11f1a018de692e5846a80fe185"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2ff6ac0ad18cff304ee7f79597fdc274"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a2ff6ac0ad18cff304ee7f79597fdc274">TileCoord</a> (<a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> coord[4])</td></tr>
+<tr class="memdesc:a2ff6ac0ad18cff304ee7f79597fdc274"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of coordinate elements.  <a href="#a2ff6ac0ad18cff304ee7f79597fdc274">More...</a><br /></td></tr>
+<tr class="separator:a2ff6ac0ad18cff304ee7f79597fdc274"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a28ee00699941f879cfa92327c038fca6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a28ee00699941f879cfa92327c038fca6">TileCoord</a> (<a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <a class="el" href="structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b">d</a>, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <a class="el" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">h</a>, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <a class="el" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">w</a>, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <a class="el" href="structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c">c</a>)</td></tr>
+<tr class="memdesc:a28ee00699941f879cfa92327c038fca6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct from a row and column.  <a href="#a28ee00699941f879cfa92327c038fca6">More...</a><br /></td></tr>
+<tr class="separator:a28ee00699941f879cfa92327c038fca6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07a067df652b64bd580f2ddf373e292b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b">d</a> () const</td></tr>
+<tr class="memdesc:a07a067df652b64bd580f2ddf373e292b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the D element of the coordinate.  <a href="#a07a067df652b64bd580f2ddf373e292b">More...</a><br /></td></tr>
+<tr class="separator:a07a067df652b64bd580f2ddf373e292b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aec4ffcdc8fbf57a8b649fff38af55007"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#aec4ffcdc8fbf57a8b649fff38af55007">d</a> ()</td></tr>
+<tr class="memdesc:aec4ffcdc8fbf57a8b649fff38af55007"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the D element of the coordinate.  <a href="#aec4ffcdc8fbf57a8b649fff38af55007">More...</a><br /></td></tr>
+<tr class="separator:aec4ffcdc8fbf57a8b649fff38af55007"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac7c697a6fd23c7f49ff19aa6db4a41a3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">h</a> () const</td></tr>
+<tr class="memdesc:ac7c697a6fd23c7f49ff19aa6db4a41a3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the H element of the coordinate.  <a href="#ac7c697a6fd23c7f49ff19aa6db4a41a3">More...</a><br /></td></tr>
+<tr class="separator:ac7c697a6fd23c7f49ff19aa6db4a41a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1d91ffa0a63ad03431ff79185526f92f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a1d91ffa0a63ad03431ff79185526f92f">h</a> ()</td></tr>
+<tr class="memdesc:a1d91ffa0a63ad03431ff79185526f92f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the H element of the coordinate.  <a href="#a1d91ffa0a63ad03431ff79185526f92f">More...</a><br /></td></tr>
+<tr class="separator:a1d91ffa0a63ad03431ff79185526f92f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a21ae028c4ee3e5cbe5bf9d47a41e6613"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">w</a> () const</td></tr>
+<tr class="memdesc:a21ae028c4ee3e5cbe5bf9d47a41e6613"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the W element of the coordinate.  <a href="#a21ae028c4ee3e5cbe5bf9d47a41e6613">More...</a><br /></td></tr>
+<tr class="separator:a21ae028c4ee3e5cbe5bf9d47a41e6613"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f83026751c83f57c1854c8544e75bd0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a8f83026751c83f57c1854c8544e75bd0">w</a> ()</td></tr>
+<tr class="memdesc:a8f83026751c83f57c1854c8544e75bd0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the W element of the coordinate.  <a href="#a8f83026751c83f57c1854c8544e75bd0">More...</a><br /></td></tr>
+<tr class="separator:a8f83026751c83f57c1854c8544e75bd0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeebb556622fe87c0902448de13a30e0c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c">c</a> () const</td></tr>
+<tr class="memdesc:aeebb556622fe87c0902448de13a30e0c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the Celement of the coordinate.  <a href="#aeebb556622fe87c0902448de13a30e0c">More...</a><br /></td></tr>
+<tr class="separator:aeebb556622fe87c0902448de13a30e0c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad8281750f2978c6c1c91982f347a14cd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#ad8281750f2978c6c1c91982f347a14cd">c</a> ()</td></tr>
+<tr class="memdesc:ad8281750f2978c6c1c91982f347a14cd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the C element of the coordinate.  <a href="#ad8281750f2978c6c1c91982f347a14cd">More...</a><br /></td></tr>
+<tr class="separator:ad8281750f2978c6c1c91982f347a14cd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0927c4ba212d00f3687034afe6bb8daf"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a0927c4ba212d00f3687034afe6bb8daf">hw</a> () const</td></tr>
+<tr class="memdesc:a0927c4ba212d00f3687034afe6bb8daf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets H and W dimensions as a Coord&lt;2&gt;  <a href="#a0927c4ba212d00f3687034afe6bb8daf">More...</a><br /></td></tr>
+<tr class="separator:a0927c4ba212d00f3687034afe6bb8daf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a11bb7593ce7bba2dcedd199322a8b42b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a11bb7593ce7bba2dcedd199322a8b42b">hwc</a> () const</td></tr>
+<tr class="memdesc:a11bb7593ce7bba2dcedd199322a8b42b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets H, W, and C dimensions as a <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>  <a href="#a11bb7593ce7bba2dcedd199322a8b42b">More...</a><br /></td></tr>
+<tr class="separator:a11bb7593ce7bba2dcedd199322a8b42b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abe65d1a0ff3798b662376032d51e9713"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#abe65d1a0ff3798b662376032d51e9713">dhw</a> () const</td></tr>
+<tr class="memdesc:abe65d1a0ff3798b662376032d51e9713"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets D, H, and W dimensions as a <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>  <a href="#abe65d1a0ff3798b662376032d51e9713">More...</a><br /></td></tr>
+<tr class="separator:abe65d1a0ff3798b662376032d51e9713"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3bfa2daa0e63144c1e8510ba336f185b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a3bfa2daa0e63144c1e8510ba336f185b">operator+</a> (<a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a3bfa2daa0e63144c1e8510ba336f185b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise addition.  <a href="#a3bfa2daa0e63144c1e8510ba336f185b">More...</a><br /></td></tr>
+<tr class="separator:a3bfa2daa0e63144c1e8510ba336f185b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f274d8e93f9cd3e0a9699e11b85fa7c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a9f274d8e93f9cd3e0a9699e11b85fa7c">operator-</a> (<a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a9f274d8e93f9cd3e0a9699e11b85fa7c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise subtraction.  <a href="#a9f274d8e93f9cd3e0a9699e11b85fa7c">More...</a><br /></td></tr>
+<tr class="separator:a9f274d8e93f9cd3e0a9699e11b85fa7c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab8fbb13cc5ea4f580a7fc32963de9553"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#ab8fbb13cc5ea4f580a7fc32963de9553">operator*</a> (<a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:ab8fbb13cc5ea4f580a7fc32963de9553"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise multiplication.  <a href="#ab8fbb13cc5ea4f580a7fc32963de9553">More...</a><br /></td></tr>
+<tr class="separator:ab8fbb13cc5ea4f580a7fc32963de9553"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5d2cc915343a3b90fb530348ddd329d2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a5d2cc915343a3b90fb530348ddd329d2">operator/</a> (<a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a5d2cc915343a3b90fb530348ddd329d2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise division.  <a href="#a5d2cc915343a3b90fb530348ddd329d2">More...</a><br /></td></tr>
+<tr class="separator:a5d2cc915343a3b90fb530348ddd329d2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a812760c633ea813db8a2bc24826c68df"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a812760c633ea813db8a2bc24826c68df">operator+=</a> (<a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:a812760c633ea813db8a2bc24826c68df"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place addition.  <a href="#a812760c633ea813db8a2bc24826c68df">More...</a><br /></td></tr>
+<tr class="separator:a812760c633ea813db8a2bc24826c68df"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a02da20e580962fe0754a772842045389"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a02da20e580962fe0754a772842045389">operator-=</a> (<a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:a02da20e580962fe0754a772842045389"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place subtraction.  <a href="#a02da20e580962fe0754a772842045389">More...</a><br /></td></tr>
+<tr class="separator:a02da20e580962fe0754a772842045389"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae946b3af6b795d26632da7ca66b3751c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#ae946b3af6b795d26632da7ca66b3751c">operator*=</a> (<a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:ae946b3af6b795d26632da7ca66b3751c"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place multiplication.  <a href="#ae946b3af6b795d26632da7ca66b3751c">More...</a><br /></td></tr>
+<tr class="separator:ae946b3af6b795d26632da7ca66b3751c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac3207d8aa879c86a907cdcc93ccb2eb5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#ac3207d8aa879c86a907cdcc93ccb2eb5">operator/=</a> (<a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:ac3207d8aa879c86a907cdcc93ccb2eb5"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place division.  <a href="#ac3207d8aa879c86a907cdcc93ccb2eb5">More...</a><br /></td></tr>
+<tr class="separator:ac3207d8aa879c86a907cdcc93ccb2eb5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td></tr>
+<tr class="memitem:a422aa7e2d2bf5dd3a60f65427bc0d7c0 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> value=0)</td></tr>
+<tr class="memdesc:a422aa7e2d2bf5dd3a60f65427bc0d7c0 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor initializes uniformly.  <a href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">More...</a><br /></td></tr>
+<tr class="separator:a422aa7e2d2bf5dd3a60f65427bc0d7c0 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a63ad1225ab2c51a68add731e994526b4 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> _idx[])</td></tr>
+<tr class="memdesc:a63ad1225ab2c51a68add731e994526b4 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of integers.  <a href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">More...</a><br /></td></tr>
+<tr class="separator:a63ad1225ab2c51a68add731e994526b4 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6110e4cfd090561696a81a8a4068a573 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;coord)</td></tr>
+<tr class="memdesc:a6110e4cfd090561696a81a8a4068a573 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of integers.  <a href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">More...</a><br /></td></tr>
+<tr class="separator:a6110e4cfd090561696a81a8a4068a573 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac8f7a9b0835efc34fd28894b2b45342c inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Slice &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a> (int start=0, <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> identity=0) const</td></tr>
+<tr class="separator:ac8f7a9b0835efc34fd28894b2b45342c inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1781b3c5a2d653b0c1718ec3154ae48f inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">operator bool</a> () const</td></tr>
+<tr class="memdesc:a1781b3c5a2d653b0c1718ec3154ae48f inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if Coord is non-zero.  <a href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">More...</a><br /></td></tr>
+<tr class="separator:a1781b3c5a2d653b0c1718ec3154ae48f inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a232095edae2f74c01a3c8abf68166e02 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">operator!</a> () const</td></tr>
+<tr class="memdesc:a232095edae2f74c01a3c8abf68166e02 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if Coord is uniformly zero.  <a href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">More...</a><br /></td></tr>
+<tr class="separator:a232095edae2f74c01a3c8abf68166e02 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37672637771a70910df9aa1a0cffddc inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">operator+</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:ab37672637771a70910df9aa1a0cffddc inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise addition.  <a href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">More...</a><br /></td></tr>
+<tr class="separator:ab37672637771a70910df9aa1a0cffddc inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6b876f61a85a4a4ef3763b6742bfaa6b inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">operator-</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a6b876f61a85a4a4ef3763b6742bfaa6b inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise subtraction.  <a href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">More...</a><br /></td></tr>
+<tr class="separator:a6b876f61a85a4a4ef3763b6742bfaa6b inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e94c093f82908ff3dba4f23b5d10033 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">operator*</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a2e94c093f82908ff3dba4f23b5d10033 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise multiplication.  <a href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">More...</a><br /></td></tr>
+<tr class="separator:a2e94c093f82908ff3dba4f23b5d10033 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9bb07631f09efc80219413ac8309f568 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">operator/</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a9bb07631f09efc80219413ac8309f568 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise division.  <a href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">More...</a><br /></td></tr>
+<tr class="separator:a9bb07631f09efc80219413ac8309f568 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae4f2cb12b84411118cb93e7c4cb88b20 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ae4f2cb12b84411118cb93e7c4cb88b20 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place addition.  <a href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">More...</a><br /></td></tr>
+<tr class="separator:ae4f2cb12b84411118cb93e7c4cb88b20 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a304334cbcad636d7b058fdc6310f0e6b inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">operator-=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a304334cbcad636d7b058fdc6310f0e6b inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place subtraction.  <a href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">More...</a><br /></td></tr>
+<tr class="separator:a304334cbcad636d7b058fdc6310f0e6b inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad4303b578b72b5cb2a0198375290e168 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">operator*=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ad4303b578b72b5cb2a0198375290e168 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place multiplication.  <a href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">More...</a><br /></td></tr>
+<tr class="separator:ad4303b578b72b5cb2a0198375290e168 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac87199c4c9a4e20aac4eb6e3b9a68f28 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">operator/=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ac87199c4c9a4e20aac4eb6e3b9a68f28 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place division.  <a href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">More...</a><br /></td></tr>
+<tr class="separator:ac87199c4c9a4e20aac4eb6e3b9a68f28 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6e0967541a1d74edeb93897ea6069e24 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">operator[]</a> (int dim)</td></tr>
+<tr class="memdesc:a6e0967541a1d74edeb93897ea6069e24 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Member access operator.  <a href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">More...</a><br /></td></tr>
+<tr class="separator:a6e0967541a1d74edeb93897ea6069e24 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a882e7ac07bbd6983659ef2e574b46454 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">operator[]</a> (int dim) const</td></tr>
+<tr class="memdesc:a882e7ac07bbd6983659ef2e574b46454 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Member access operator.  <a href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">More...</a><br /></td></tr>
+<tr class="separator:a882e7ac07bbd6983659ef2e574b46454 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac8ec94703830ab2c62ee055533ea2184 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">dot</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b, T sum) const</td></tr>
+<tr class="memdesc:ac8ec94703830ab2c62ee055533ea2184 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the dot product of two Coord instances.  <a href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">More...</a><br /></td></tr>
+<tr class="separator:ac8ec94703830ab2c62ee055533ea2184 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0acc37908acb6b879c37f54ff7ffc93d inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">dot</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a0acc37908acb6b879c37f54ff7ffc93d inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the dot product of two Coord instances.  <a href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">More...</a><br /></td></tr>
+<tr class="separator:a0acc37908acb6b879c37f54ff7ffc93d inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9eff24a3b74b68d11839b92324613c93 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a> ()</td></tr>
+<tr class="memdesc:a9eff24a3b74b68d11839b92324613c93 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the index of a given Coord element.  <a href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">More...</a><br /></td></tr>
+<tr class="separator:a9eff24a3b74b68d11839b92324613c93 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa253bf69fc819876a7c7770305f1a694 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">at</a> (int dim)</td></tr>
+<tr class="memdesc:aa253bf69fc819876a7c7770305f1a694 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access via index; may limit unrolling potential.  <a href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">More...</a><br /></td></tr>
+<tr class="separator:aa253bf69fc819876a7c7770305f1a694 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a177adcc2d0fb5e72ebcb523edd24e6fe inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">at</a> () const</td></tr>
+<tr class="memdesc:a177adcc2d0fb5e72ebcb523edd24e6fe inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the index of a given Coord element.  <a href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">More...</a><br /></td></tr>
+<tr class="separator:a177adcc2d0fb5e72ebcb523edd24e6fe inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b47b1521820c898b03868627c3f8e46 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">at</a> (int dim) const</td></tr>
+<tr class="memdesc:a9b47b1521820c898b03868627c3f8e46 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access via index; may limit unrolling potential.  <a href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">More...</a><br /></td></tr>
+<tr class="separator:a9b47b1521820c898b03868627c3f8e46 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f919aeb2a895bc040599971400dec8d inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">operator==</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a7f919aeb2a895bc040599971400dec8d inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Determines if two Coord&lt;&gt; objects are equal.  <a href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">More...</a><br /></td></tr>
+<tr class="separator:a7f919aeb2a895bc040599971400dec8d inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a353d847675e5ba2402c407dcd4ae4de3 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">operator!=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a353d847675e5ba2402c407dcd4ae4de3 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Not equal.  <a href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">More...</a><br /></td></tr>
+<tr class="separator:a353d847675e5ba2402c407dcd4ae4de3 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a404a3b4e00f59cac71d41fb1bbba38ba inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">clamp</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;max, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;min=<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt;())</td></tr>
+<tr class="memdesc:a404a3b4e00f59cac71d41fb1bbba38ba inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clamps a coordinate to a range specified by maximum and minimum values.  <a href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">More...</a><br /></td></tr>
+<tr class="separator:a404a3b4e00f59cac71d41fb1bbba38ba inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac0ac5f2aa2cbea3887d126645025e017 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">count</a> () const</td></tr>
+<tr class="memdesc:ac0ac5f2aa2cbea3887d126645025e017 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the product of all elements.  <a href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">More...</a><br /></td></tr>
+<tr class="separator:ac0ac5f2aa2cbea3887d126645025e017 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a148851df63840ac63e23b2f170bd1308 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">operator&lt;</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a148851df63840ac63e23b2f170bd1308 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Less than operator.  <a href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">More...</a><br /></td></tr>
+<tr class="separator:a148851df63840ac63e23b2f170bd1308 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dc9f063be329d475f040afd449d304c inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">operator&lt;=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a9dc9f063be329d475f040afd449d304c inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Less than or equals operator.  <a href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">More...</a><br /></td></tr>
+<tr class="separator:a9dc9f063be329d475f040afd449d304c inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:ab5ebf352327baadcc740175d6b39adcb"><td class="memItemLeft" align="right" valign="top">static int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#ab5ebf352327baadcc740175d6b39adcb">kD</a> = 0</td></tr>
+<tr class="memdesc:ab5ebf352327baadcc740175d6b39adcb"><td class="mdescLeft">&#160;</td><td class="mdescRight">D dimension.  <a href="#ab5ebf352327baadcc740175d6b39adcb">More...</a><br /></td></tr>
+<tr class="separator:ab5ebf352327baadcc740175d6b39adcb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a24d32587359493bb965745f5551e1624"><td class="memItemLeft" align="right" valign="top">static int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a24d32587359493bb965745f5551e1624">kH</a> = 1</td></tr>
+<tr class="memdesc:a24d32587359493bb965745f5551e1624"><td class="mdescLeft">&#160;</td><td class="mdescRight">H dimension.  <a href="#a24d32587359493bb965745f5551e1624">More...</a><br /></td></tr>
+<tr class="separator:a24d32587359493bb965745f5551e1624"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac2c14af3ceffd5ef8f17c9e0efb4e5ec"><td class="memItemLeft" align="right" valign="top">static int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#ac2c14af3ceffd5ef8f17c9e0efb4e5ec">kW</a> = 2</td></tr>
+<tr class="memdesc:ac2c14af3ceffd5ef8f17c9e0efb4e5ec"><td class="mdescLeft">&#160;</td><td class="mdescRight">W dimension.  <a href="#ac2c14af3ceffd5ef8f17c9e0efb4e5ec">More...</a><br /></td></tr>
+<tr class="separator:ac2c14af3ceffd5ef8f17c9e0efb4e5ec"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8236879e1670072033983b7ec4b7ae32"><td class="memItemLeft" align="right" valign="top">static int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html#a8236879e1670072033983b7ec4b7ae32">kC</a> = 3</td></tr>
+<tr class="memdesc:a8236879e1670072033983b7ec4b7ae32"><td class="mdescLeft">&#160;</td><td class="mdescRight">C dimension.  <a href="#a8236879e1670072033983b7ec4b7ae32">More...</a><br /></td></tr>
+<tr class="separator:a8236879e1670072033983b7ec4b7ae32"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td></tr>
+<tr class="memitem:a23e1b9a7f5fa8fd4afeadfb85de7c5c3 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a></td></tr>
+<tr class="memdesc:a23e1b9a7f5fa8fd4afeadfb85de7c5c3 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of elements in Coord.  <a href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">More...</a><br /></td></tr>
+<tr class="separator:a23e1b9a7f5fa8fd4afeadfb85de7c5c3 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acfd416eafec51e47b42b8b713ba76030 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">N</a></td></tr>
+<tr class="memdesc:acfd416eafec51e47b42b8b713ba76030 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of elements in Coord, aliased for compatibility.  <a href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">More...</a><br /></td></tr>
+<tr class="separator:acfd416eafec51e47b42b8b713ba76030 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, Index_ &gt;</a></td></tr>
+<tr class="memitem:a872e1e0d9cc255fa438c04daaf10ad68 inherit pub_attribs_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a> [<a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>]</td></tr>
+<tr class="memdesc:a872e1e0d9cc255fa438c04daaf10ad68 inherit pub_attribs_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Indices.  <a href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">More...</a><br /></td></tr>
+<tr class="separator:a872e1e0d9cc255fa438c04daaf10ad68 inherit pub_attribs_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;typename Index_ = int&gt;<br />
+struct cutlass::TileCoord&lt; Index_ &gt;</h3>
+
+<p><a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> wraps <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;4, int&gt;</a> to provide a helper for accessing named dimensions. Classes expecting a coordinate in the rank=4 index space of a CUTLASS tile structure should use <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a>. </p>
+</div><h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ab40c6bb58967d6be5a349bf6276c2eca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab40c6bb58967d6be5a349bf6276c2eca">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;4, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>&gt; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::<a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7018df7f2dbc7d70345d5f076fb26259"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7018df7f2dbc7d70345d5f076fb26259">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::<a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ae0c8cd0657a73f3ffff99e9546ea8a95"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0c8cd0657a73f3ffff99e9546ea8a95">&#9670;&nbsp;</a></span>TileCoord() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::<a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac760795433c0f0ccc5c44fb58626f51d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac760795433c0f0ccc5c44fb58626f51d">&#9670;&nbsp;</a></span>TileCoord() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::<a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a752dcc11f1a018de692e5846a80fe185"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a752dcc11f1a018de692e5846a80fe185">&#9670;&nbsp;</a></span>TileCoord() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::<a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4, <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2ff6ac0ad18cff304ee7f79597fdc274"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ff6ac0ad18cff304ee7f79597fdc274">&#9670;&nbsp;</a></span>TileCoord() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::<a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>&#160;</td>
+          <td class="paramname"><em>coord</em>[4]</td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a28ee00699941f879cfa92327c038fca6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a28ee00699941f879cfa92327c038fca6">&#9670;&nbsp;</a></span>TileCoord() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::<a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>&#160;</td>
+          <td class="paramname"><em>d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>&#160;</td>
+          <td class="paramname"><em>h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>&#160;</td>
+          <td class="paramname"><em>w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>&#160;</td>
+          <td class="paramname"><em>c</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="aeebb556622fe87c0902448de13a30e0c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeebb556622fe87c0902448de13a30e0c">&#9670;&nbsp;</a></span>c() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> const&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::c </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad8281750f2978c6c1c91982f347a14cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8281750f2978c6c1c91982f347a14cd">&#9670;&nbsp;</a></span>c() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::c </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07a067df652b64bd580f2ddf373e292b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07a067df652b64bd580f2ddf373e292b">&#9670;&nbsp;</a></span>d() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> const&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::d </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aec4ffcdc8fbf57a8b649fff38af55007"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aec4ffcdc8fbf57a8b649fff38af55007">&#9670;&nbsp;</a></span>d() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::d </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abe65d1a0ff3798b662376032d51e9713"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe65d1a0ff3798b662376032d51e9713">&#9670;&nbsp;</a></span>dhw()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::dhw </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac7c697a6fd23c7f49ff19aa6db4a41a3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac7c697a6fd23c7f49ff19aa6db4a41a3">&#9670;&nbsp;</a></span>h() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> const&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::h </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1d91ffa0a63ad03431ff79185526f92f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1d91ffa0a63ad03431ff79185526f92f">&#9670;&nbsp;</a></span>h() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::h </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0927c4ba212d00f3687034afe6bb8daf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0927c4ba212d00f3687034afe6bb8daf">&#9670;&nbsp;</a></span>hw()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;2&gt; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::hw </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a11bb7593ce7bba2dcedd199322a8b42b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11bb7593ce7bba2dcedd199322a8b42b">&#9670;&nbsp;</a></span>hwc()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::hwc </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab8fbb13cc5ea4f580a7fc32963de9553"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab8fbb13cc5ea4f580a7fc32963de9553">&#9670;&nbsp;</a></span>operator*()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::operator* </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae946b3af6b795d26632da7ca66b3751c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae946b3af6b795d26632da7ca66b3751c">&#9670;&nbsp;</a></span>operator*=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a>&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::operator*= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3bfa2daa0e63144c1e8510ba336f185b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3bfa2daa0e63144c1e8510ba336f185b">&#9670;&nbsp;</a></span>operator+()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::operator+ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a812760c633ea813db8a2bc24826c68df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a812760c633ea813db8a2bc24826c68df">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a>&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9f274d8e93f9cd3e0a9699e11b85fa7c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f274d8e93f9cd3e0a9699e11b85fa7c">&#9670;&nbsp;</a></span>operator-()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::operator- </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a02da20e580962fe0754a772842045389"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a02da20e580962fe0754a772842045389">&#9670;&nbsp;</a></span>operator-=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a>&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::operator-= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5d2cc915343a3b90fb530348ddd329d2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5d2cc915343a3b90fb530348ddd329d2">&#9670;&nbsp;</a></span>operator/()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a> <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::operator/ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac3207d8aa879c86a907cdcc93ccb2eb5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac3207d8aa879c86a907cdcc93ccb2eb5">&#9670;&nbsp;</a></span>operator/=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html">TileCoord</a>&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::operator/= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a21ae028c4ee3e5cbe5bf9d47a41e6613"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a21ae028c4ee3e5cbe5bf9d47a41e6613">&#9670;&nbsp;</a></span>w() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> const&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::w </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8f83026751c83f57c1854c8544e75bd0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f83026751c83f57c1854c8544e75bd0">&#9670;&nbsp;</a></span>w() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>&amp; <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::w </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a8236879e1670072033983b7ec4b7ae32"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8236879e1670072033983b7ec4b7ae32">&#9670;&nbsp;</a></span>kC</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::kC = 3</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab5ebf352327baadcc740175d6b39adcb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab5ebf352327baadcc740175d6b39adcb">&#9670;&nbsp;</a></span>kD</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::kD = 0</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a24d32587359493bb965745f5551e1624"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a24d32587359493bb965745f5551e1624">&#9670;&nbsp;</a></span>kH</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::kH = 1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac2c14af3ceffd5ef8f17c9e0efb4e5ec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac2c14af3ceffd5ef8f17c9e0efb4e5ec">&#9670;&nbsp;</a></span>kW</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int <a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a>&lt; Index_ &gt;::kW = 2</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__coord_8h_source.html">tile_coord.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileCoord.png b/docs/structcutlass_1_1TileCoord.png
new file mode 100644
index 0000000000..ed79e4b075
Binary files /dev/null and b/docs/structcutlass_1_1TileCoord.png differ
diff --git a/docs/structcutlass_1_1TileIteratorBase-members.html b/docs/structcutlass_1_1TileIteratorBase-members.html
index a313a5115b..ce46e77f75 100644
--- a/docs/structcutlass_1_1TileIteratorBase-members.html
+++ b/docs/structcutlass_1_1TileIteratorBase-members.html
@@ -73,40 +73,40 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Member List</div>  </div>
+<div class="title">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a>(PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileIteratorBase.html b/docs/structcutlass_1_1TileIteratorBase.html
index a946914977..b01915206f 100644
--- a/docs/structcutlass_1_1TileIteratorBase.html
+++ b/docs/structcutlass_1_1TileIteratorBase.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -80,7 +80,7 @@
 <a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="structcutlass_1_1TileIteratorBase-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -89,13 +89,13 @@
 
 <p><code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">tile_iterator.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;:</div>
+Inheritance diagram for cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1TileIteratorBase.png" usemap="#cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E_map" alt=""/>
-  <map id="cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E_map" name="cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E_map">
-<area href="structcutlass_1_1TileLoadIterator.html" title="An iterator implementing Tile Load Iterator Concept for loading a tile from memory. " alt="cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;" shape="rect" coords="0,56,734,80"/>
-<area href="structcutlass_1_1TileStoreIterator.html" title="An iterator implementing Tile Store Iterator Concept for storing a tile to memory. " alt="cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;" shape="rect" coords="744,56,1478,80"/>
+  <img src="structcutlass_1_1TileIteratorBase.png" usemap="#cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E_map" alt=""/>
+  <map id="cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E_map" name="cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E_map">
+<area href="structcutlass_1_1TileLoadIterator.html" title="An iterator implementing Tile Load Iterator Concept for loading a tile from memory. " alt="cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;" shape="rect" coords="0,56,766,80"/>
+<area href="structcutlass_1_1TileStoreIterator.html" title="An iterator implementing Tile Store Iterator Concept for storing a tile to memory. " alt="cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;" shape="rect" coords="776,56,1542,80"/>
 </map>
  </div></div>
 <table class="memberdecls">
@@ -107,356 +107,356 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:ae7add0ee02bbec2c130ebaf608ab0696"><td class="memItemLeft" align="right" valign="top">typedef Traits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a></td></tr>
-<tr class="memdesc:ae7add0ee02bbec2c130ebaf608ab0696"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept <a class="el" href="structcutlass_1_1TileTraits.html" title="A template defining Tile Traits Concept. ">TileTraits</a>  <a href="#ae7add0ee02bbec2c130ebaf608ab0696">More...</a><br /></td></tr>
-<tr class="separator:ae7add0ee02bbec2c130ebaf608ab0696"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a17163e93d7d3616b4950925f72bb4c16"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a></td></tr>
-<tr class="memdesc:a17163e93d7d3616b4950925f72bb4c16"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="#a17163e93d7d3616b4950925f72bb4c16">More...</a><br /></td></tr>
-<tr class="separator:a17163e93d7d3616b4950925f72bb4c16"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac7cca14d54bf3f0749db1ffaea7c9ae7"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a></td></tr>
-<tr class="memdesc:ac7cca14d54bf3f0749db1ffaea7c9ae7"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> element.  <a href="#ac7cca14d54bf3f0749db1ffaea7c9ae7">More...</a><br /></td></tr>
-<tr class="separator:ac7cca14d54bf3f0749db1ffaea7c9ae7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a44665808adfd69df0d26cec4b1840cc3"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a></td></tr>
-<tr class="memdesc:a44665808adfd69df0d26cec4b1840cc3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#a44665808adfd69df0d26cec4b1840cc3">More...</a><br /></td></tr>
-<tr class="separator:a44665808adfd69df0d26cec4b1840cc3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae89afbcf642b3023770ff22969c51d16"><td class="memItemLeft" align="right" valign="top">typedef Skew_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a></td></tr>
-<tr class="memdesc:ae89afbcf642b3023770ff22969c51d16"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="#ae89afbcf642b3023770ff22969c51d16">More...</a><br /></td></tr>
-<tr class="separator:ae89afbcf642b3023770ff22969c51d16"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a954ef18acc12d8256a7d4e37683f8c2c"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a></td></tr>
-<tr class="memdesc:a954ef18acc12d8256a7d4e37683f8c2c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="#a954ef18acc12d8256a7d4e37683f8c2c">More...</a><br /></td></tr>
-<tr class="separator:a954ef18acc12d8256a7d4e37683f8c2c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9bc6c04f4a3adeb5a29743fa43425088"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a></td></tr>
-<tr class="memdesc:a9bc6c04f4a3adeb5a29743fa43425088"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="#a9bc6c04f4a3adeb5a29743fa43425088">More...</a><br /></td></tr>
-<tr class="separator:a9bc6c04f4a3adeb5a29743fa43425088"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a561ceb1093b28b8dce67df0129b7b8b8"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a></td></tr>
-<tr class="memdesc:a561ceb1093b28b8dce67df0129b7b8b8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#a561ceb1093b28b8dce67df0129b7b8b8">More...</a><br /></td></tr>
-<tr class="separator:a561ceb1093b28b8dce67df0129b7b8b8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a352ed0773b37f03bf68e4b6cf9899474"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a></td></tr>
-<tr class="memdesc:a352ed0773b37f03bf68e4b6cf9899474"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="#a352ed0773b37f03bf68e4b6cf9899474">More...</a><br /></td></tr>
-<tr class="separator:a352ed0773b37f03bf68e4b6cf9899474"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5abf4755aee07dc58b1d6183fbf4786f"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a></td></tr>
-<tr class="memdesc:a5abf4755aee07dc58b1d6183fbf4786f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="#a5abf4755aee07dc58b1d6183fbf4786f">More...</a><br /></td></tr>
-<tr class="separator:a5abf4755aee07dc58b1d6183fbf4786f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb3dde23971ad35a477b75ee99381b53"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a></td></tr>
-<tr class="memdesc:abb3dde23971ad35a477b75ee99381b53"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="#abb3dde23971ad35a477b75ee99381b53">More...</a><br /></td></tr>
-<tr class="separator:abb3dde23971ad35a477b75ee99381b53"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6ca47fd6e2f9cbb3498c138417ea414a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a></td></tr>
-<tr class="memdesc:a6ca47fd6e2f9cbb3498c138417ea414a"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="#a6ca47fd6e2f9cbb3498c138417ea414a">More...</a><br /></td></tr>
-<tr class="separator:a6ca47fd6e2f9cbb3498c138417ea414a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0d7b595d7959cc1680fc07c2e02e1c8e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a></td></tr>
-<tr class="memdesc:a0d7b595d7959cc1680fc07c2e02e1c8e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="#a0d7b595d7959cc1680fc07c2e02e1c8e">More...</a><br /></td></tr>
-<tr class="separator:a0d7b595d7959cc1680fc07c2e02e1c8e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a379a52ed1128fc9f93cad35d3e3233e5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a></td></tr>
-<tr class="memdesc:a379a52ed1128fc9f93cad35d3e3233e5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="#a379a52ed1128fc9f93cad35d3e3233e5">More...</a><br /></td></tr>
-<tr class="separator:a379a52ed1128fc9f93cad35d3e3233e5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a25a241bbdc0b0121992019a16f1a6d60"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a></td></tr>
-<tr class="memdesc:a25a241bbdc0b0121992019a16f1a6d60"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="#a25a241bbdc0b0121992019a16f1a6d60">More...</a><br /></td></tr>
-<tr class="separator:a25a241bbdc0b0121992019a16f1a6d60"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a14f4b356c9cd320e6e7b451edbf58c24"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a></td></tr>
-<tr class="memdesc:a14f4b356c9cd320e6e7b451edbf58c24"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="#a14f4b356c9cd320e6e7b451edbf58c24">More...</a><br /></td></tr>
-<tr class="separator:a14f4b356c9cd320e6e7b451edbf58c24"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7ab46a9210b421d32af4d1394892cfd5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a></td></tr>
-<tr class="memdesc:a7ab46a9210b421d32af4d1394892cfd5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="#a7ab46a9210b421d32af4d1394892cfd5">More...</a><br /></td></tr>
-<tr class="separator:a7ab46a9210b421d32af4d1394892cfd5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aac9e5b7890a53d46e5d49912b254ded7"><td class="memItemLeft" align="right" valign="top">typedef Traits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a></td></tr>
+<tr class="memdesc:aac9e5b7890a53d46e5d49912b254ded7"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept <a class="el" href="structcutlass_1_1TileTraits.html" title="A template defining Tile Traits Concept. ">TileTraits</a>  <a href="#aac9e5b7890a53d46e5d49912b254ded7">More...</a><br /></td></tr>
+<tr class="separator:aac9e5b7890a53d46e5d49912b254ded7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:affac5a91f0659bb6739db25d20822c34"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a></td></tr>
+<tr class="memdesc:affac5a91f0659bb6739db25d20822c34"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="#affac5a91f0659bb6739db25d20822c34">More...</a><br /></td></tr>
+<tr class="separator:affac5a91f0659bb6739db25d20822c34"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f2fe3fa2eb764bf664817097d22fe45"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a></td></tr>
+<tr class="memdesc:a7f2fe3fa2eb764bf664817097d22fe45"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> element.  <a href="#a7f2fe3fa2eb764bf664817097d22fe45">More...</a><br /></td></tr>
+<tr class="separator:a7f2fe3fa2eb764bf664817097d22fe45"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab49ff66953031a8cfcfa11ddc092025c"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a></td></tr>
+<tr class="memdesc:ab49ff66953031a8cfcfa11ddc092025c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#ab49ff66953031a8cfcfa11ddc092025c">More...</a><br /></td></tr>
+<tr class="separator:ab49ff66953031a8cfcfa11ddc092025c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae50ca325a827bdf1d1bfab3ba6e204c1"><td class="memItemLeft" align="right" valign="top">typedef Skew_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a></td></tr>
+<tr class="memdesc:ae50ca325a827bdf1d1bfab3ba6e204c1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="#ae50ca325a827bdf1d1bfab3ba6e204c1">More...</a><br /></td></tr>
+<tr class="separator:ae50ca325a827bdf1d1bfab3ba6e204c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7fcf13023c85cf1e1150d867bd1559d4"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a></td></tr>
+<tr class="memdesc:a7fcf13023c85cf1e1150d867bd1559d4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="#a7fcf13023c85cf1e1150d867bd1559d4">More...</a><br /></td></tr>
+<tr class="separator:a7fcf13023c85cf1e1150d867bd1559d4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aaac43bc2258e06824c354a068e7815"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a></td></tr>
+<tr class="memdesc:a9aaac43bc2258e06824c354a068e7815"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="#a9aaac43bc2258e06824c354a068e7815">More...</a><br /></td></tr>
+<tr class="separator:a9aaac43bc2258e06824c354a068e7815"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37eec43846be90d558201bd6bb27ee4"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:ab37eec43846be90d558201bd6bb27ee4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#ab37eec43846be90d558201bd6bb27ee4">More...</a><br /></td></tr>
+<tr class="separator:ab37eec43846be90d558201bd6bb27ee4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adbf563ecda4ffd4110d288f521c7e0da"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a></td></tr>
+<tr class="memdesc:adbf563ecda4ffd4110d288f521c7e0da"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="#adbf563ecda4ffd4110d288f521c7e0da">More...</a><br /></td></tr>
+<tr class="separator:adbf563ecda4ffd4110d288f521c7e0da"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0fec2c1f9c0b8fbde4ca6faf123b59a5"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a></td></tr>
+<tr class="memdesc:a0fec2c1f9c0b8fbde4ca6faf123b59a5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="#a0fec2c1f9c0b8fbde4ca6faf123b59a5">More...</a><br /></td></tr>
+<tr class="separator:a0fec2c1f9c0b8fbde4ca6faf123b59a5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a24716c07ab1d7834a79d52231a990973"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a></td></tr>
+<tr class="memdesc:a24716c07ab1d7834a79d52231a990973"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="#a24716c07ab1d7834a79d52231a990973">More...</a><br /></td></tr>
+<tr class="separator:a24716c07ab1d7834a79d52231a990973"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e682380b5ea9ea05ee8ffd68a1205f0"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a></td></tr>
+<tr class="memdesc:a2e682380b5ea9ea05ee8ffd68a1205f0"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="#a2e682380b5ea9ea05ee8ffd68a1205f0">More...</a><br /></td></tr>
+<tr class="separator:a2e682380b5ea9ea05ee8ffd68a1205f0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ffa12dcd7ed1e96845e1cd273d9f219"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a></td></tr>
+<tr class="memdesc:a9ffa12dcd7ed1e96845e1cd273d9f219"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="#a9ffa12dcd7ed1e96845e1cd273d9f219">More...</a><br /></td></tr>
+<tr class="separator:a9ffa12dcd7ed1e96845e1cd273d9f219"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a59d40c5bd544fdabf42787b9f11cce51"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a></td></tr>
+<tr class="memdesc:a59d40c5bd544fdabf42787b9f11cce51"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="#a59d40c5bd544fdabf42787b9f11cce51">More...</a><br /></td></tr>
+<tr class="separator:a59d40c5bd544fdabf42787b9f11cce51"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5eb6375410d4440c0f73a25c06d282b5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:a5eb6375410d4440c0f73a25c06d282b5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="#a5eb6375410d4440c0f73a25c06d282b5">More...</a><br /></td></tr>
+<tr class="separator:a5eb6375410d4440c0f73a25c06d282b5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a064aaca9cc27e34bdae9684447a3f5be"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a></td></tr>
+<tr class="memdesc:a064aaca9cc27e34bdae9684447a3f5be"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="#a064aaca9cc27e34bdae9684447a3f5be">More...</a><br /></td></tr>
+<tr class="separator:a064aaca9cc27e34bdae9684447a3f5be"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a05065dadf7b8a20284c566c82cda8000"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a></td></tr>
+<tr class="memdesc:a05065dadf7b8a20284c566c82cda8000"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="#a05065dadf7b8a20284c566c82cda8000">More...</a><br /></td></tr>
+<tr class="separator:a05065dadf7b8a20284c566c82cda8000"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:af78a2bf3e7507dc7f50343a3c209f770"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:af78a2bf3e7507dc7f50343a3c209f770"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="#af78a2bf3e7507dc7f50343a3c209f770">More...</a><br /></td></tr>
-<tr class="separator:af78a2bf3e7507dc7f50343a3c209f770"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac811886f3412861928040546282b6973"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:ac811886f3412861928040546282b6973"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="#ac811886f3412861928040546282b6973">More...</a><br /></td></tr>
+<tr class="separator:ac811886f3412861928040546282b6973"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
 Static Public Member Functions</h2></td></tr>
-<tr class="memitem:a78b6c0d6a1a96dd55a34bc302ecb07d7"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator &gt; </td></tr>
-<tr class="memitem:a78b6c0d6a1a96dd55a34bc302ecb07d7"><td class="memTemplItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
-<tr class="memdesc:a78b6c0d6a1a96dd55a34bc302ecb07d7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="#a78b6c0d6a1a96dd55a34bc302ecb07d7">More...</a><br /></td></tr>
-<tr class="separator:a78b6c0d6a1a96dd55a34bc302ecb07d7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa58daf082cf97108e2e2ad0b1fd89208"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator , typename PredicateFunctor &gt; </td></tr>
+<tr class="memitem:aa58daf082cf97108e2e2ad0b1fd89208"><td class="memTemplItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:aa58daf082cf97108e2e2ad0b1fd89208"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="#aa58daf082cf97108e2e2ad0b1fd89208">More...</a><br /></td></tr>
+<tr class="separator:aa58daf082cf97108e2e2ad0b1fd89208"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
-<tr class="memitem:ac1a64e974dcd69c3a86a31db6cbff421"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a> = Advance_</td></tr>
-<tr class="memdesc:ac1a64e974dcd69c3a86a31db6cbff421"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="#ac1a64e974dcd69c3a86a31db6cbff421">More...</a><br /></td></tr>
-<tr class="separator:ac1a64e974dcd69c3a86a31db6cbff421"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a38c8ec1e9d0117172981b4c7dd4bf3be"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a> = IteratorFragment_</td></tr>
-<tr class="memdesc:a38c8ec1e9d0117172981b4c7dd4bf3be"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="#a38c8ec1e9d0117172981b4c7dd4bf3be">More...</a><br /></td></tr>
-<tr class="separator:a38c8ec1e9d0117172981b4c7dd4bf3be"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a871c9b82109eab432c5a1d465643bf97"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">kMemorySpace</a> = <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a></td></tr>
-<tr class="memdesc:a871c9b82109eab432c5a1d465643bf97"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="#a871c9b82109eab432c5a1d465643bf97">More...</a><br /></td></tr>
-<tr class="separator:a871c9b82109eab432c5a1d465643bf97"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aef07ba456ea016092d7d2446751b76a3"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> = Tile::kC</td></tr>
-<tr class="memdesc:aef07ba456ea016092d7d2446751b76a3"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="#aef07ba456ea016092d7d2446751b76a3">More...</a><br /></td></tr>
-<tr class="separator:aef07ba456ea016092d7d2446751b76a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4e0b2bc06bb8f52313e4d8c51ab30ff2"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td></tr>
-<tr class="memdesc:a4e0b2bc06bb8f52313e4d8c51ab30ff2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="#a4e0b2bc06bb8f52313e4d8c51ab30ff2">More...</a><br /></td></tr>
-<tr class="separator:a4e0b2bc06bb8f52313e4d8c51ab30ff2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acc8c86a3629a3ca105269fc3a47f2a4f"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a> = Advance_</td></tr>
+<tr class="memdesc:acc8c86a3629a3ca105269fc3a47f2a4f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="#acc8c86a3629a3ca105269fc3a47f2a4f">More...</a><br /></td></tr>
+<tr class="separator:acc8c86a3629a3ca105269fc3a47f2a4f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af405f6c5f0bd8f04487d8a7f41dc1826"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a> = FragmentElementType_</td></tr>
+<tr class="memdesc:af405f6c5f0bd8f04487d8a7f41dc1826"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="#af405f6c5f0bd8f04487d8a7f41dc1826">More...</a><br /></td></tr>
+<tr class="separator:af405f6c5f0bd8f04487d8a7f41dc1826"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab8bfa9914c4ba49a583d1cfaa8a62d56"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a> = <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a></td></tr>
+<tr class="memdesc:ab8bfa9914c4ba49a583d1cfaa8a62d56"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="#ab8bfa9914c4ba49a583d1cfaa8a62d56">More...</a><br /></td></tr>
+<tr class="separator:ab8bfa9914c4ba49a583d1cfaa8a62d56"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8a4edd46b8cad3eeafc2a3dc3a344499"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> = Traits::kAccessSize</td></tr>
+<tr class="memdesc:a8a4edd46b8cad3eeafc2a3dc3a344499"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="#a8a4edd46b8cad3eeafc2a3dc3a344499">More...</a><br /></td></tr>
+<tr class="separator:a8a4edd46b8cad3eeafc2a3dc3a344499"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aefe67241dde93bb032c5b4d82bc3f761"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td></tr>
+<tr class="memdesc:aefe67241dde93bb032c5b4d82bc3f761"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="#aefe67241dde93bb032c5b4d82bc3f761">More...</a><br /></td></tr>
+<tr class="separator:aefe67241dde93bb032c5b4d82bc3f761"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="abb3dde23971ad35a477b75ee99381b53"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abb3dde23971ad35a477b75ee99381b53">&#9670;&nbsp;</a></span>AccessType</h2>
+<a id="a24716c07ab1d7834a79d52231a990973"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a24716c07ab1d7834a79d52231a990973">&#9670;&nbsp;</a></span>AccessType</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a>&gt;::Type <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a>&gt;::Type <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a9bc6c04f4a3adeb5a29743fa43425088"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9bc6c04f4a3adeb5a29743fa43425088">&#9670;&nbsp;</a></span>Delta</h2>
+<a id="a9aaac43bc2258e06824c354a068e7815"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9aaac43bc2258e06824c354a068e7815">&#9670;&nbsp;</a></span>Delta</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Traits::Delta <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a></td>
+          <td class="memname">typedef Traits::Delta <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a0d7b595d7959cc1680fc07c2e02e1c8e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0d7b595d7959cc1680fc07c2e02e1c8e">&#9670;&nbsp;</a></span>Fragment</h2>
+<a id="a9ffa12dcd7ed1e96845e1cd273d9f219"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ffa12dcd7ed1e96845e1cd273d9f219">&#9670;&nbsp;</a></span>Fragment</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>&gt;::kCount * <a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>&gt;::kCount * <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a25a241bbdc0b0121992019a16f1a6d60"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a25a241bbdc0b0121992019a16f1a6d60">&#9670;&nbsp;</a></span>FragmentConstIterator</h2>
+<a id="a5eb6375410d4440c0f73a25c06d282b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5eb6375410d4440c0f73a25c06d282b5">&#9670;&nbsp;</a></span>FragmentConstIterator</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a>&gt; <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a>&gt; <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ac7cca14d54bf3f0749db1ffaea7c9ae7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac7cca14d54bf3f0749db1ffaea7c9ae7">&#9670;&nbsp;</a></span>FragmentElement</h2>
+<a id="a7f2fe3fa2eb764bf664817097d22fe45"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f2fe3fa2eb764bf664817097d22fe45">&#9670;&nbsp;</a></span>FragmentElement</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef FragmentElement_ <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a></td>
+          <td class="memname">typedef FragmentElement_ <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a379a52ed1128fc9f93cad35d3e3233e5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a379a52ed1128fc9f93cad35d3e3233e5">&#9670;&nbsp;</a></span>FragmentIterator</h2>
+<a id="a59d40c5bd544fdabf42787b9f11cce51"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a59d40c5bd544fdabf42787b9f11cce51">&#9670;&nbsp;</a></span>FragmentIterator</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a>&gt; <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a>&gt; <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a14f4b356c9cd320e6e7b451edbf58c24"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a14f4b356c9cd320e6e7b451edbf58c24">&#9670;&nbsp;</a></span>FragmentShape</h2>
+<a id="a064aaca9cc27e34bdae9684447a3f5be"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a064aaca9cc27e34bdae9684447a3f5be">&#9670;&nbsp;</a></span>FragmentShape</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a561ceb1093b28b8dce67df0129b7b8b8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a561ceb1093b28b8dce67df0129b7b8b8">&#9670;&nbsp;</a></span>ImmediateOffsetStrides</h2>
+<a id="ab37eec43846be90d558201bd6bb27ee4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab37eec43846be90d558201bd6bb27ee4">&#9670;&nbsp;</a></span>ImmediateOffsetStrides</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Traits::ImmediateOffsetStrides <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a></td>
+          <td class="memname">typedef Traits::ImmediateOffsetStrides <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a44665808adfd69df0d26cec4b1840cc3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a44665808adfd69df0d26cec4b1840cc3">&#9670;&nbsp;</a></span>Index</h2>
+<a id="ab49ff66953031a8cfcfa11ddc092025c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab49ff66953031a8cfcfa11ddc092025c">&#9670;&nbsp;</a></span>Index</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a></td>
+          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a352ed0773b37f03bf68e4b6cf9899474"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a352ed0773b37f03bf68e4b6cf9899474">&#9670;&nbsp;</a></span>Iterations</h2>
+<a id="adbf563ecda4ffd4110d288f521c7e0da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adbf563ecda4ffd4110d288f521c7e0da">&#9670;&nbsp;</a></span>Iterations</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Traits::Iterations <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a></td>
+          <td class="memname">typedef Traits::Iterations <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7ab46a9210b421d32af4d1394892cfd5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7ab46a9210b421d32af4d1394892cfd5">&#9670;&nbsp;</a></span>PredicateVector</h2>
+<a id="a05065dadf7b8a20284c566c82cda8000"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a05065dadf7b8a20284c566c82cda8000">&#9670;&nbsp;</a></span>PredicateVector</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a>&lt;<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>&gt;::kCount&gt; <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a>&lt;<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>&gt;::kCount&gt; <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a17163e93d7d3616b4950925f72bb4c16"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a17163e93d7d3616b4950925f72bb4c16">&#9670;&nbsp;</a></span>Scalar</h2>
+<a id="affac5a91f0659bb6739db25d20822c34"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#affac5a91f0659bb6739db25d20822c34">&#9670;&nbsp;</a></span>Scalar</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Scalar_ <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a></td>
+          <td class="memname">typedef Scalar_ <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ae89afbcf642b3023770ff22969c51d16"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae89afbcf642b3023770ff22969c51d16">&#9670;&nbsp;</a></span>Skew</h2>
+<a id="ae50ca325a827bdf1d1bfab3ba6e204c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae50ca325a827bdf1d1bfab3ba6e204c1">&#9670;&nbsp;</a></span>Skew</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Skew_ <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a></td>
+          <td class="memname">typedef Skew_ <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a6ca47fd6e2f9cbb3498c138417ea414a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6ca47fd6e2f9cbb3498c138417ea414a">&#9670;&nbsp;</a></span>Storage</h2>
+<a id="a2e682380b5ea9ea05ee8ffd68a1205f0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2e682380b5ea9ea05ee8ffd68a1205f0">&#9670;&nbsp;</a></span>Storage</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a>&gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a>&gt; <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a>&gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a>&gt; <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5abf4755aee07dc58b1d6183fbf4786f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5abf4755aee07dc58b1d6183fbf4786f">&#9670;&nbsp;</a></span>ThreadOffset</h2>
+<a id="a0fec2c1f9c0b8fbde4ca6faf123b59a5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0fec2c1f9c0b8fbde4ca6faf123b59a5">&#9670;&nbsp;</a></span>ThreadOffset</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Traits::ThreadOffset <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a></td>
+          <td class="memname">typedef Traits::ThreadOffset <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a954ef18acc12d8256a7d4e37683f8c2c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a954ef18acc12d8256a7d4e37683f8c2c">&#9670;&nbsp;</a></span>Tile</h2>
+<a id="a7fcf13023c85cf1e1150d867bd1559d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7fcf13023c85cf1e1150d867bd1559d4">&#9670;&nbsp;</a></span>Tile</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Traits::Tile <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a></td>
+          <td class="memname">typedef Traits::Tile <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ae7add0ee02bbec2c130ebaf608ab0696"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae7add0ee02bbec2c130ebaf608ab0696">&#9670;&nbsp;</a></span>Traits</h2>
+<a id="aac9e5b7890a53d46e5d49912b254ded7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac9e5b7890a53d46e5d49912b254ded7">&#9670;&nbsp;</a></span>Traits</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Traits_ <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a></td>
+          <td class="memname">typedef Traits_ <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -464,21 +464,21 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae7add0ee02bbec2c130ebaf6
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a78b6c0d6a1a96dd55a34bc302ecb07d7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a78b6c0d6a1a96dd55a34bc302ecb07d7">&#9670;&nbsp;</a></span>initialize_predicates()</h2>
+<a id="aa58daf082cf97108e2e2ad0b1fd89208"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa58daf082cf97108e2e2ad0b1fd89208">&#9670;&nbsp;</a></span>initialize_predicates()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
-template&lt;typename PredicateIterator &gt; </div>
+template&lt;typename PredicateIterator , typename PredicateFunctor &gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">static CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::initialize_predicates </td>
+          <td class="memname">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::initialize_predicates </td>
           <td>(</td>
           <td class="paramtype">PredicateIterator&#160;</td>
           <td class="paramname"><em>predicate_it</em>, </td>
@@ -486,14 +486,14 @@ <h2 class="memtitle"><span class="permalink"><a href="#a78b6c0d6a1a96dd55a34bc30
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>bounds</em>, </td>
+          <td class="paramtype">PredicateFunctor const &amp;&#160;</td>
+          <td class="paramname"><em>predicate_func</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>offset</em> = <code><a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,&#160;0,&#160;0)</code>&#160;</td>
+          <td class="paramname"><em>offset</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -510,19 +510,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a78b6c0d6a1a96dd55a34bc30
 
 </div>
 </div>
-<a id="af78a2bf3e7507dc7f50343a3c209f770"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af78a2bf3e7507dc7f50343a3c209f770">&#9670;&nbsp;</a></span>valid()</h2>
+<a id="ac811886f3412861928040546282b6973"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac811886f3412861928040546282b6973">&#9670;&nbsp;</a></span>valid()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE bool <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::valid </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::valid </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
@@ -561,19 +561,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#af78a2bf3e7507dc7f50343a3
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="aef07ba456ea016092d7d2446751b76a3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aef07ba456ea016092d7d2446751b76a3">&#9670;&nbsp;</a></span>kAccessSize</h2>
+<a id="a8a4edd46b8cad3eeafc2a3dc3a344499"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8a4edd46b8cad3eeafc2a3dc3a344499">&#9670;&nbsp;</a></span>kAccessSize</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kAccessSize = Tile::kC</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kAccessSize = Traits::kAccessSize</td>
         </tr>
       </table>
   </td>
@@ -585,19 +585,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#aef07ba456ea016092d7d2446
 
 </div>
 </div>
-<a id="ac1a64e974dcd69c3a86a31db6cbff421"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac1a64e974dcd69c3a86a31db6cbff421">&#9670;&nbsp;</a></span>kAdvance</h2>
+<a id="acc8c86a3629a3ca105269fc3a47f2a4f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc8c86a3629a3ca105269fc3a47f2a4f">&#9670;&nbsp;</a></span>kAdvance</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kAdvance = Advance_</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kAdvance = Advance_</td>
         </tr>
       </table>
   </td>
@@ -609,19 +609,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac1a64e974dcd69c3a86a31db
 
 </div>
 </div>
-<a id="a4e0b2bc06bb8f52313e4d8c51ab30ff2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4e0b2bc06bb8f52313e4d8c51ab30ff2">&#9670;&nbsp;</a></span>kFragmentSize</h2>
+<a id="af405f6c5f0bd8f04487d8a7f41dc1826"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af405f6c5f0bd8f04487d8a7f41dc1826">&#9670;&nbsp;</a></span>kFragmentElementType</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kFragmentSize</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kFragmentElementType = FragmentElementType_</td>
         </tr>
       </table>
   </td>
@@ -630,22 +630,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4e0b2bc06bb8f52313e4d8c5
   </tr>
 </table>
 </div><div class="memdoc">
-<b>Initial value:</b><div class="fragment"><div class="line">=</div><div class="line">      (<a class="code" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a> == <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">IteratorFragment::kWmmaMatrix</a> ? 16 : <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a>))</div></div><!-- fragment -->
+
 </div>
 </div>
-<a id="a38c8ec1e9d0117172981b4c7dd4bf3be"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a38c8ec1e9d0117172981b4c7dd4bf3be">&#9670;&nbsp;</a></span>kIteratorFragment</h2>
+<a id="aefe67241dde93bb032c5b4d82bc3f761"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aefe67241dde93bb032c5b4d82bc3f761">&#9670;&nbsp;</a></span>kFragmentSize</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kIteratorFragment = IteratorFragment_</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kFragmentSize</td>
         </tr>
       </table>
   </td>
@@ -654,22 +654,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a38c8ec1e9d0117172981b4c7
   </tr>
 </table>
 </div><div class="memdoc">
-
+<b>Initial value:</b><div class="fragment"><div class="line">=</div><div class="line">      (<a class="code" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a> == <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a> ? 16 : <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a>))</div></div><!-- fragment -->
 </div>
 </div>
-<a id="a871c9b82109eab432c5a1d465643bf97"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a871c9b82109eab432c5a1d465643bf97">&#9670;&nbsp;</a></span>kMemorySpace</h2>
+<a id="ab8bfa9914c4ba49a583d1cfaa8a62d56"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab8bfa9914c4ba49a583d1cfaa8a62d56">&#9670;&nbsp;</a></span>kMemorySpace</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kMemorySpace = <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a></td>
+          <td class="memname"><a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kMemorySpace = <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a></td>
         </tr>
       </table>
   </td>
@@ -687,7 +687,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a871c9b82109eab432c5a1d46
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileIteratorBase.png b/docs/structcutlass_1_1TileIteratorBase.png
index ce0eacc9de..0dd3418494 100644
Binary files a/docs/structcutlass_1_1TileIteratorBase.png and b/docs/structcutlass_1_1TileIteratorBase.png differ
diff --git a/docs/structcutlass_1_1TileIteratorBase_1_1Params-members.html b/docs/structcutlass_1_1TileIteratorBase_1_1Params-members.html
index 3acf4206bc..c3855bd167 100644
--- a/docs/structcutlass_1_1TileIteratorBase_1_1Params-members.html
+++ b/docs/structcutlass_1_1TileIteratorBase_1_1Params-members.html
@@ -73,26 +73,30 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params Member List</div>  </div>
+<div class="title">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">initialize</a>(Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">initialize</a>(Index _stride_d, Index _stride_h, Index _stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">initialize</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">initialize</a>(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">initialize</a>(Coord&lt; 4 &gt; const &amp;stride)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">initialize</a>(long long _stride_d, Index _stride_h, Index _stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">initialize</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">Params</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">Params</a>(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">Params</a>(Coord&lt; 4 &gt; const &amp;stride)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileIteratorBase_1_1Params.html b/docs/structcutlass_1_1TileIteratorBase_1_1Params.html
index be921381e3..19a16384de 100644
--- a/docs/structcutlass_1_1TileIteratorBase_1_1Params.html
+++ b/docs/structcutlass_1_1TileIteratorBase_1_1Params.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params Struct Reference</title>
+<title>Cutlass: cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params Struct Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -77,7 +77,7 @@
 <a href="#pub-attribs">Public Attributes</a> &#124;
 <a href="structcutlass_1_1TileIteratorBase_1_1Params-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params Struct Reference</div>  </div>
+<div class="title">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params Struct Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -86,96 +86,234 @@
 
 <p><code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">tile_iterator.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params:</div>
+Inheritance diagram for cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1TileIteratorBase_1_1Params.png" usemap="#cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E::Params_map" alt=""/>
-  <map id="cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E::Params_map" name="cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E::Params_map">
-<area href="structcutlass_1_1TileLoadIterator_1_1Params.html" title="Parameters. " alt="cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params" shape="rect" coords="0,56,782,80"/>
-<area href="structcutlass_1_1TileStoreIterator_1_1Params.html" title="Parameters. " alt="cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params" shape="rect" coords="792,56,1574,80"/>
-<area href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html" alt="cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params" shape="rect" coords="0,112,782,136"/>
+  <img src="structcutlass_1_1TileIteratorBase_1_1Params.png" usemap="#cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E::Params_map" alt=""/>
+  <map id="cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E::Params_map" name="cutlass::TileIteratorBase_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E::Params_map">
+<area href="structcutlass_1_1TileLoadIterator_1_1Params.html" title="Parameters. " alt="cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params" shape="rect" coords="0,56,814,80"/>
+<area href="structcutlass_1_1TileStoreIterator_1_1Params.html" title="Parameters. " alt="cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params" shape="rect" coords="824,56,1638,80"/>
+<area href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html" alt="cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params" shape="rect" coords="0,112,814,136"/>
 </map>
  </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:ad2631ffcc963638aa5b016c66a2e2c55"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">initialize</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_advance)</td></tr>
-<tr class="memdesc:ad2631ffcc963638aa5b016c66a2e2c55"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="#ad2631ffcc963638aa5b016c66a2e2c55">More...</a><br /></td></tr>
-<tr class="separator:ad2631ffcc963638aa5b016c66a2e2c55"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3ba93370bd4b2ede4bd4eb97ac0881be"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">initialize</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w)</td></tr>
-<tr class="separator:a3ba93370bd4b2ede4bd4eb97ac0881be"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af496afebb8983e5d346c681334955224"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">initialize</a> ()</td></tr>
-<tr class="separator:af496afebb8983e5d346c681334955224"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acc0341b88143aac4ffd9bc1dcfaafa71"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">Params</a> ()</td></tr>
+<tr class="memdesc:acc0341b88143aac4ffd9bc1dcfaafa71"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params.  <a href="#acc0341b88143aac4ffd9bc1dcfaafa71">More...</a><br /></td></tr>
+<tr class="separator:acc0341b88143aac4ffd9bc1dcfaafa71"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab04617136a3bf909ef27eb97ea5ef81c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">Params</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, long long _inc_advance)</td></tr>
+<tr class="memdesc:ab04617136a3bf909ef27eb97ea5ef81c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params.  <a href="#ab04617136a3bf909ef27eb97ea5ef81c">More...</a><br /></td></tr>
+<tr class="separator:ab04617136a3bf909ef27eb97ea5ef81c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac030ea4568fa2cb6d6661df75062cd1a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">Params</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;stride)</td></tr>
+<tr class="memdesc:ac030ea4568fa2cb6d6661df75062cd1a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params with a stride vector.  <a href="#ac030ea4568fa2cb6d6661df75062cd1a">More...</a><br /></td></tr>
+<tr class="separator:ac030ea4568fa2cb6d6661df75062cd1a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a802c270449da579ed8661e915d27ce60"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">initialize</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, long long _inc_advance)</td></tr>
+<tr class="memdesc:a802c270449da579ed8661e915d27ce60"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="#a802c270449da579ed8661e915d27ce60">More...</a><br /></td></tr>
+<tr class="separator:a802c270449da579ed8661e915d27ce60"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2ef70d9e13b5aa7e4a53233b153d7edd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">initialize</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;stride)</td></tr>
+<tr class="memdesc:a2ef70d9e13b5aa7e4a53233b153d7edd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes the parameters object from a vector of strides.  <a href="#a2ef70d9e13b5aa7e4a53233b153d7edd">More...</a><br /></td></tr>
+<tr class="separator:a2ef70d9e13b5aa7e4a53233b153d7edd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a44870d45442ec45c8eaba46ab47a3ad9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">initialize</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w)</td></tr>
+<tr class="memdesc:a44870d45442ec45c8eaba46ab47a3ad9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes the parameters object from a vector of strides.  <a href="#a44870d45442ec45c8eaba46ab47a3ad9">More...</a><br /></td></tr>
+<tr class="separator:a44870d45442ec45c8eaba46ab47a3ad9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1776bf51e1e23cde6c58529be58aafb9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">initialize</a> ()</td></tr>
+<tr class="memdesc:a1776bf51e1e23cde6c58529be58aafb9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gotta have this.  <a href="#a1776bf51e1e23cde6c58529be58aafb9">More...</a><br /></td></tr>
+<tr class="separator:a1776bf51e1e23cde6c58529be58aafb9"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:ad67234ec264354a22032bb2519575dc1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a></td></tr>
-<tr class="separator:ad67234ec264354a22032bb2519575dc1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a58e8c883aea4cfdfa5a84c25a4704ebc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a></td></tr>
-<tr class="separator:a58e8c883aea4cfdfa5a84c25a4704ebc"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a313984457c78eea66c980f6813047b9c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a></td></tr>
-<tr class="separator:a313984457c78eea66c980f6813047b9c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af95fa1b5102176a0fa9b17713fd48150"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a></td></tr>
-<tr class="separator:af95fa1b5102176a0fa9b17713fd48150"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aea591d4278a8338ae8b50fa0b8f3a366"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a></td></tr>
-<tr class="separator:aea591d4278a8338ae8b50fa0b8f3a366"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac6e81450a2d78555a6c2415dcc42b178"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a></td></tr>
-<tr class="separator:ac6e81450a2d78555a6c2415dcc42b178"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1187258cd4068a627e73bee0302f1fc2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a></td></tr>
-<tr class="separator:a1187258cd4068a627e73bee0302f1fc2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a235647baff946e483dd61a2069aa01d2"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a></td></tr>
+<tr class="separator:a235647baff946e483dd61a2069aa01d2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4f029a268387bd63112d9074c185c623"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a></td></tr>
+<tr class="separator:a4f029a268387bd63112d9074c185c623"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af7e7a71a9fa41cc3f6d0e5963963339d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a></td></tr>
+<tr class="separator:af7e7a71a9fa41cc3f6d0e5963963339d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7b4293bf8291b0383dee695a60f2e0fd"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a></td></tr>
+<tr class="separator:a7b4293bf8291b0383dee695a60f2e0fd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a15227102466522445261b6ea65c89c06"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a></td></tr>
+<tr class="separator:a15227102466522445261b6ea65c89c06"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af0be1271cfe6d6c03a9a76ff992d8a5c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a></td></tr>
+<tr class="separator:af0be1271cfe6d6c03a9a76ff992d8a5c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6d8f1e07f286ed8d5761e2a878b807d3"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a></td></tr>
+<tr class="separator:a6d8f1e07f286ed8d5761e2a878b807d3"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="acc0341b88143aac4ffd9bc1dcfaafa71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc0341b88143aac4ffd9bc1dcfaafa71">&#9670;&nbsp;</a></span>Params() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab04617136a3bf909ef27eb97ea5ef81c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab04617136a3bf909ef27eb97ea5ef81c">&#9670;&nbsp;</a></span>Params() <span class="overload">[2/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_stride_d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_stride_h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_stride_w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_inc_d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_inc_h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_inc_w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_inc_advance</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac030ea4568fa2cb6d6661df75062cd1a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac030ea4568fa2cb6d6661df75062cd1a">&#9670;&nbsp;</a></span>Params() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>stride</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="ad2631ffcc963638aa5b016c66a2e2c55"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad2631ffcc963638aa5b016c66a2e2c55">&#9670;&nbsp;</a></span>initialize() <span class="overload">[1/3]</span></h2>
+<a id="a802c270449da579ed8661e915d27ce60"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a802c270449da579ed8661e915d27ce60">&#9670;&nbsp;</a></span>initialize() <span class="overload">[1/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype">long long&#160;</td>
           <td class="paramname"><em>_stride_d</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_stride_h</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_stride_w</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype">long long&#160;</td>
           <td class="paramname"><em>_inc_d</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_inc_h</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_inc_w</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype">long long&#160;</td>
           <td class="paramname"><em>_inc_advance</em>&#160;</td>
         </tr>
         <tr>
@@ -193,33 +331,61 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad2631ffcc963638aa5b016c6
 
 </div>
 </div>
-<a id="a3ba93370bd4b2ede4bd4eb97ac0881be"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3ba93370bd4b2ede4bd4eb97ac0881be">&#9670;&nbsp;</a></span>initialize() <span class="overload">[2/3]</span></h2>
+<a id="a2ef70d9e13b5aa7e4a53233b153d7edd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ef70d9e13b5aa7e4a53233b153d7edd">&#9670;&nbsp;</a></span>initialize() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>stride</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a44870d45442ec45c8eaba46ab47a3ad9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a44870d45442ec45c8eaba46ab47a3ad9">&#9670;&nbsp;</a></span>initialize() <span class="overload">[3/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype">long long&#160;</td>
           <td class="paramname"><em>_stride_d</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_stride_h</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_stride_w</em>&#160;</td>
         </tr>
         <tr>
@@ -237,19 +403,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3ba93370bd4b2ede4bd4eb97
 
 </div>
 </div>
-<a id="af496afebb8983e5d346c681334955224"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af496afebb8983e5d346c681334955224">&#9670;&nbsp;</a></span>initialize() <span class="overload">[3/3]</span></h2>
+<a id="a1776bf51e1e23cde6c58529be58aafb9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1776bf51e1e23cde6c58529be58aafb9">&#9670;&nbsp;</a></span>initialize() <span class="overload">[4/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -265,112 +431,112 @@ <h2 class="memtitle"><span class="permalink"><a href="#af496afebb8983e5d346c6813
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="a1187258cd4068a627e73bee0302f1fc2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1187258cd4068a627e73bee0302f1fc2">&#9670;&nbsp;</a></span>inc_advance</h2>
+<a id="a6d8f1e07f286ed8d5761e2a878b807d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6d8f1e07f286ed8d5761e2a878b807d3">&#9670;&nbsp;</a></span>inc_advance</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::inc_advance</td>
+          <td class="memname">long long <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::inc_advance</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="af95fa1b5102176a0fa9b17713fd48150"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af95fa1b5102176a0fa9b17713fd48150">&#9670;&nbsp;</a></span>inc_d</h2>
+<a id="a7b4293bf8291b0383dee695a60f2e0fd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7b4293bf8291b0383dee695a60f2e0fd">&#9670;&nbsp;</a></span>inc_d</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::inc_d</td>
+          <td class="memname">long long <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::inc_d</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aea591d4278a8338ae8b50fa0b8f3a366"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aea591d4278a8338ae8b50fa0b8f3a366">&#9670;&nbsp;</a></span>inc_h</h2>
+<a id="a15227102466522445261b6ea65c89c06"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a15227102466522445261b6ea65c89c06">&#9670;&nbsp;</a></span>inc_h</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::inc_h</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::inc_h</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ac6e81450a2d78555a6c2415dcc42b178"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac6e81450a2d78555a6c2415dcc42b178">&#9670;&nbsp;</a></span>inc_w</h2>
+<a id="af0be1271cfe6d6c03a9a76ff992d8a5c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0be1271cfe6d6c03a9a76ff992d8a5c">&#9670;&nbsp;</a></span>inc_w</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::inc_w</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::inc_w</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ad67234ec264354a22032bb2519575dc1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad67234ec264354a22032bb2519575dc1">&#9670;&nbsp;</a></span>stride_d</h2>
+<a id="a235647baff946e483dd61a2069aa01d2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a235647baff946e483dd61a2069aa01d2">&#9670;&nbsp;</a></span>stride_d</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::stride_d</td>
+          <td class="memname">long long <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::stride_d</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a58e8c883aea4cfdfa5a84c25a4704ebc"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a58e8c883aea4cfdfa5a84c25a4704ebc">&#9670;&nbsp;</a></span>stride_h</h2>
+<a id="a4f029a268387bd63112d9074c185c623"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f029a268387bd63112d9074c185c623">&#9670;&nbsp;</a></span>stride_h</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::stride_h</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::stride_h</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a313984457c78eea66c980f6813047b9c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a313984457c78eea66c980f6813047b9c">&#9670;&nbsp;</a></span>stride_w</h2>
+<a id="af7e7a71a9fa41cc3f6d0e5963963339d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7e7a71a9fa41cc3f6d0e5963963339d">&#9670;&nbsp;</a></span>stride_w</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::stride_w</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::stride_w</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -383,7 +549,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a313984457c78eea66c980f68
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileIteratorBase_1_1Params.png b/docs/structcutlass_1_1TileIteratorBase_1_1Params.png
index f1c874633c..2b723102b3 100644
Binary files a/docs/structcutlass_1_1TileIteratorBase_1_1Params.png and b/docs/structcutlass_1_1TileIteratorBase_1_1Params.png differ
diff --git a/docs/structcutlass_1_1TileLoadIterator-members.html b/docs/structcutlass_1_1TileLoadIterator-members.html
index 6acaea33b6..7d9755f9f2 100644
--- a/docs/structcutlass_1_1TileLoadIterator-members.html
+++ b/docs/structcutlass_1_1TileLoadIterator-members.html
@@ -73,61 +73,67 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Member List</div>  </div>
+<div class="title">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76">BaseParams</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4">data</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64">inc_stage</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5">initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98">kIteratorFragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc">kRequiresLoadFence</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140">load</a>(Fragment &amp;fragment, PredicateIterator pred_it) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db">load</a>(Fragment &amp;fragment) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915">load_post_increment</a>(Fragment &amp;fragment, PredicateIterator pred_it)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d">load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">thread_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e">TileLoadIterator</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a93e166575be3b2f7489833ae5da23f23">TileLoadIterator</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a53282fa4cb33cfcec79033d26e418af6">TileLoadIterator</a>(Params const &amp;, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">add_pointer_offset</a>(Index offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">BaseParams</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">inc_stage</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">initialize_predicates</a>(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">kFragmentElementType</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126">kRequiresLoadFence</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">load</a>(Fragment &amp;fragment, PredicateIterator pred_it) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">load</a>(Fragment &amp;fragment) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">load</a>(Fragment &amp;fragment, int d)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">load_element</a>(AccessType &amp;value, int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">load_post_increment</a>(Fragment &amp;fragment, PredicateIterator pred_it)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">operator+=</a>(Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11">stride_advance</a>(void)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">TileLoadIterator</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">TileLoadIterator</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">TileLoadIterator</a>(Params const &amp;, Scalar const *ptr, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileLoadIterator.html b/docs/structcutlass_1_1TileLoadIterator.html
index d670b93fbb..f9e5ad7e57 100644
--- a/docs/structcutlass_1_1TileLoadIterator.html
+++ b/docs/structcutlass_1_1TileLoadIterator.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -80,7 +80,7 @@
 <a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="structcutlass_1_1TileLoadIterator-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Struct Template Reference<div class="ingroups"><a class="el" href="group__tile__load__iterator__concept.html">Tile Load Iterator Concept</a></div></div>  </div>
+<div class="title">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Struct Template Reference<div class="ingroups"><a class="el" href="group__tile__load__iterator__concept.html">Tile Load Iterator Concept</a></div></div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -89,12 +89,12 @@
 
 <p><code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">tile_iterator.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;:</div>
+Inheritance diagram for cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1TileLoadIterator.png" usemap="#cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E_map" alt=""/>
-  <map id="cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E_map" name="cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E_map">
-<area href="structcutlass_1_1TileIteratorBase.html" title="Iterator for accessing a stripmined tile in memory. " alt="cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;" shape="rect" coords="0,0,732,24"/>
+  <img src="structcutlass_1_1TileLoadIterator.png" usemap="#cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E_map" alt=""/>
+  <map id="cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E_map" name="cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E_map">
+<area href="structcutlass_1_1TileIteratorBase.html" title="Iterator for accessing a stripmined tile in memory. " alt="cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;" shape="rect" coords="0,0,764,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
@@ -106,521 +106,559 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:a1f3601c595f12e7083919ece9b1ec84e"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc">kRequiresLoadFence</a> = Tile::kD == 1
+<tr class="memitem:a1f3601c595f12e7083919ece9b1ec84e"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126">kRequiresLoadFence</a> = Tile::kD == 1
  }</td></tr>
 <tr class="memdesc:a1f3601c595f12e7083919ece9b1ec84e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Do we require a fence?  <a href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84e">More...</a><br /></td></tr>
 <tr class="separator:a1f3601c595f12e7083919ece9b1ec84e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1bc1bd4893c14b313ee71b71db2903f3"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3">Base</a></td></tr>
-<tr class="memdesc:a1bc1bd4893c14b313ee71b71db2903f3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base class.  <a href="#a1bc1bd4893c14b313ee71b71db2903f3">More...</a><br /></td></tr>
-<tr class="separator:a1bc1bd4893c14b313ee71b71db2903f3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7c6182031d9aa41d0e4a64516723e20a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Base::Traits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a">Traits</a></td></tr>
-<tr class="memdesc:a7c6182031d9aa41d0e4a64516723e20a"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept <a class="el" href="structcutlass_1_1TileTraits.html" title="A template defining Tile Traits Concept. ">TileTraits</a>  <a href="#a7c6182031d9aa41d0e4a64516723e20a">More...</a><br /></td></tr>
-<tr class="separator:a7c6182031d9aa41d0e4a64516723e20a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae8dff52e619f06fbdbca8cb847c79895"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Base::Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a></td></tr>
-<tr class="memdesc:ae8dff52e619f06fbdbca8cb847c79895"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="#ae8dff52e619f06fbdbca8cb847c79895">More...</a><br /></td></tr>
-<tr class="separator:ae8dff52e619f06fbdbca8cb847c79895"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2edd89863b8035137ccd8dd3ad7be464"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">Base::FragmentElement</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464">FragmentElement</a></td></tr>
-<tr class="memdesc:a2edd89863b8035137ccd8dd3ad7be464"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> element.  <a href="#a2edd89863b8035137ccd8dd3ad7be464">More...</a><br /></td></tr>
-<tr class="separator:a2edd89863b8035137ccd8dd3ad7be464"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aaa83f05e0cb3204053c3ee1da036cd36"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Base::Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36">Index</a></td></tr>
-<tr class="memdesc:aaa83f05e0cb3204053c3ee1da036cd36"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#aaa83f05e0cb3204053c3ee1da036cd36">More...</a><br /></td></tr>
-<tr class="separator:aaa83f05e0cb3204053c3ee1da036cd36"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a11ec4297c9a1352c8005ac222892b35c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Base::Skew</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c">Skew</a></td></tr>
-<tr class="memdesc:a11ec4297c9a1352c8005ac222892b35c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="#a11ec4297c9a1352c8005ac222892b35c">More...</a><br /></td></tr>
-<tr class="separator:a11ec4297c9a1352c8005ac222892b35c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7f1499ada284c21624487d4d3a5dbd10"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Base::Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10">Tile</a></td></tr>
-<tr class="memdesc:a7f1499ada284c21624487d4d3a5dbd10"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="#a7f1499ada284c21624487d4d3a5dbd10">More...</a><br /></td></tr>
-<tr class="separator:a7f1499ada284c21624487d4d3a5dbd10"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac2a7f94723259f0d3c7b8a6d5b8778bf"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Base::Delta</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf">Delta</a></td></tr>
-<tr class="memdesc:ac2a7f94723259f0d3c7b8a6d5b8778bf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Delta.  <a href="#ac2a7f94723259f0d3c7b8a6d5b8778bf">More...</a><br /></td></tr>
-<tr class="separator:ac2a7f94723259f0d3c7b8a6d5b8778bf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9720b1e4a10c2d5aa85f9a9c66a31bbf"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Base::Iterations</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">Iterations</a></td></tr>
-<tr class="memdesc:a9720b1e4a10c2d5aa85f9a9c66a31bbf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="#a9720b1e4a10c2d5aa85f9a9c66a31bbf">More...</a><br /></td></tr>
-<tr class="separator:a9720b1e4a10c2d5aa85f9a9c66a31bbf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8a1527b4b469ae1f97afde2502ece70d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">Base::ThreadOffset</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">ThreadOffset</a></td></tr>
-<tr class="memdesc:a8a1527b4b469ae1f97afde2502ece70d"><td class="mdescLeft">&#160;</td><td class="mdescRight">ThreadOffset functor.  <a href="#a8a1527b4b469ae1f97afde2502ece70d">More...</a><br /></td></tr>
-<tr class="separator:a8a1527b4b469ae1f97afde2502ece70d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7c27a7b0d8593b002eca186c15fdc869"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">Base::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869">FragmentShape</a></td></tr>
-<tr class="memdesc:a7c27a7b0d8593b002eca186c15fdc869"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> type.  <a href="#a7c27a7b0d8593b002eca186c15fdc869">More...</a><br /></td></tr>
-<tr class="separator:a7c27a7b0d8593b002eca186c15fdc869"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4af8eeabe7c1ec0362782687a84466e0"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">Base::AccessType</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0">AccessType</a></td></tr>
-<tr class="memdesc:a4af8eeabe7c1ec0362782687a84466e0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory access type.  <a href="#a4af8eeabe7c1ec0362782687a84466e0">More...</a><br /></td></tr>
-<tr class="separator:a4af8eeabe7c1ec0362782687a84466e0"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aaf72c4897641080b1d84c0bbd8d813cc"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">Fragment</a></td></tr>
-<tr class="memdesc:aaf72c4897641080b1d84c0bbd8d813cc"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> definition.  <a href="#aaf72c4897641080b1d84c0bbd8d813cc">More...</a><br /></td></tr>
-<tr class="separator:aaf72c4897641080b1d84c0bbd8d813cc"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aebbe5a0996dcd362caad618e78dc2591"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">Base::FragmentIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591">FragmentIterator</a></td></tr>
-<tr class="memdesc:aebbe5a0996dcd362caad618e78dc2591"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> iterator definition.  <a href="#aebbe5a0996dcd362caad618e78dc2591">More...</a><br /></td></tr>
-<tr class="separator:aebbe5a0996dcd362caad618e78dc2591"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4c7a3a4917245de8269b74bdabe16b76"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">Base::FragmentConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76">FragmentConstIterator</a></td></tr>
-<tr class="memdesc:a4c7a3a4917245de8269b74bdabe16b76"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> const iterator definition.  <a href="#a4c7a3a4917245de8269b74bdabe16b76">More...</a><br /></td></tr>
-<tr class="separator:a4c7a3a4917245de8269b74bdabe16b76"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a64ae02b44f275ef2f016949aec769328"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">Base::PredicateVector</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328">PredicateVector</a></td></tr>
-<tr class="memdesc:a64ae02b44f275ef2f016949aec769328"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="#a64ae02b44f275ef2f016949aec769328">More...</a><br /></td></tr>
-<tr class="separator:a64ae02b44f275ef2f016949aec769328"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab457bd7953af9ef418510f55f52d1f39"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Base::Storage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a></td></tr>
-<tr class="memdesc:ab457bd7953af9ef418510f55f52d1f39"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage object that may be loaded from.  <a href="#ab457bd7953af9ef418510f55f52d1f39">More...</a><br /></td></tr>
-<tr class="separator:ab457bd7953af9ef418510f55f52d1f39"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a788bab4fa46dc26854348b751cf1cc76"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Base::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76">BaseParams</a></td></tr>
-<tr class="memdesc:a788bab4fa46dc26854348b751cf1cc76"><td class="mdescLeft">&#160;</td><td class="mdescRight">IteratorBase parameters.  <a href="#a788bab4fa46dc26854348b751cf1cc76">More...</a><br /></td></tr>
-<tr class="separator:a788bab4fa46dc26854348b751cf1cc76"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5a179e148ccd770e1703f288624fa9b8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">Pointer</a></td></tr>
-<tr class="memdesc:a5a179e148ccd770e1703f288624fa9b8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer type.  <a href="#a5a179e148ccd770e1703f288624fa9b8">More...</a><br /></td></tr>
-<tr class="separator:a5a179e148ccd770e1703f288624fa9b8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_types_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
-<tr class="memitem:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a></td></tr>
-<tr class="memdesc:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept <a class="el" href="structcutlass_1_1TileTraits.html" title="A template defining Tile Traits Concept. ">TileTraits</a>  <a href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">More...</a><br /></td></tr>
-<tr class="separator:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a></td></tr>
-<tr class="memdesc:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">More...</a><br /></td></tr>
-<tr class="separator:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a></td></tr>
-<tr class="memdesc:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> element.  <a href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">More...</a><br /></td></tr>
-<tr class="separator:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a></td></tr>
-<tr class="memdesc:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">More...</a><br /></td></tr>
-<tr class="separator:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Skew_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a></td></tr>
-<tr class="memdesc:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">More...</a><br /></td></tr>
-<tr class="separator:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a></td></tr>
-<tr class="memdesc:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">More...</a><br /></td></tr>
-<tr class="separator:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a></td></tr>
-<tr class="memdesc:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">More...</a><br /></td></tr>
-<tr class="separator:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a></td></tr>
-<tr class="memdesc:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">More...</a><br /></td></tr>
-<tr class="separator:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a></td></tr>
-<tr class="memdesc:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">More...</a><br /></td></tr>
-<tr class="separator:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a></td></tr>
-<tr class="memdesc:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">More...</a><br /></td></tr>
-<tr class="separator:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a></td></tr>
-<tr class="memdesc:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">More...</a><br /></td></tr>
-<tr class="separator:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a></td></tr>
-<tr class="memdesc:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">More...</a><br /></td></tr>
-<tr class="separator:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a></td></tr>
-<tr class="memdesc:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">More...</a><br /></td></tr>
-<tr class="separator:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a></td></tr>
-<tr class="memdesc:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">More...</a><br /></td></tr>
-<tr class="separator:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a></td></tr>
-<tr class="memdesc:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">More...</a><br /></td></tr>
-<tr class="separator:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a></td></tr>
-<tr class="memdesc:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">More...</a><br /></td></tr>
-<tr class="separator:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a></td></tr>
-<tr class="memdesc:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">More...</a><br /></td></tr>
-<tr class="separator:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1dcbf633eac61ff06980e4992fbe8264"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">Base</a></td></tr>
+<tr class="memdesc:a1dcbf633eac61ff06980e4992fbe8264"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base class.  <a href="#a1dcbf633eac61ff06980e4992fbe8264">More...</a><br /></td></tr>
+<tr class="separator:a1dcbf633eac61ff06980e4992fbe8264"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6a5d065939282fa1b9454b28a1e73948"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Base::Traits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">Traits</a></td></tr>
+<tr class="memdesc:a6a5d065939282fa1b9454b28a1e73948"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept <a class="el" href="structcutlass_1_1TileTraits.html" title="A template defining Tile Traits Concept. ">TileTraits</a>  <a href="#a6a5d065939282fa1b9454b28a1e73948">More...</a><br /></td></tr>
+<tr class="separator:a6a5d065939282fa1b9454b28a1e73948"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aafbb7a2137a07f0e07a12838b66bd511"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Base::Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a></td></tr>
+<tr class="memdesc:aafbb7a2137a07f0e07a12838b66bd511"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="#aafbb7a2137a07f0e07a12838b66bd511">More...</a><br /></td></tr>
+<tr class="separator:aafbb7a2137a07f0e07a12838b66bd511"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a70dfd0b62feb082d8da34af09d9524a6"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">FragmentElement</a></td></tr>
+<tr class="memdesc:a70dfd0b62feb082d8da34af09d9524a6"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> element.  <a href="#a70dfd0b62feb082d8da34af09d9524a6">More...</a><br /></td></tr>
+<tr class="separator:a70dfd0b62feb082d8da34af09d9524a6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaa5d98b72576478ba04e4ad554faa827"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Base::Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">Index</a></td></tr>
+<tr class="memdesc:aaa5d98b72576478ba04e4ad554faa827"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#aaa5d98b72576478ba04e4ad554faa827">More...</a><br /></td></tr>
+<tr class="separator:aaa5d98b72576478ba04e4ad554faa827"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb6cc0e2990c06c83b789b579a03b15f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Base::Skew</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">Skew</a></td></tr>
+<tr class="memdesc:aeb6cc0e2990c06c83b789b579a03b15f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="#aeb6cc0e2990c06c83b789b579a03b15f">More...</a><br /></td></tr>
+<tr class="separator:aeb6cc0e2990c06c83b789b579a03b15f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a88eaa581e0b5419b98ee5a71073d0539"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Base::Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">Tile</a></td></tr>
+<tr class="memdesc:a88eaa581e0b5419b98ee5a71073d0539"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="#a88eaa581e0b5419b98ee5a71073d0539">More...</a><br /></td></tr>
+<tr class="separator:a88eaa581e0b5419b98ee5a71073d0539"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afc68649cb9bb32931b27e711c7ce2604"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Base::Delta</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">Delta</a></td></tr>
+<tr class="memdesc:afc68649cb9bb32931b27e711c7ce2604"><td class="mdescLeft">&#160;</td><td class="mdescRight">Delta.  <a href="#afc68649cb9bb32931b27e711c7ce2604">More...</a><br /></td></tr>
+<tr class="separator:afc68649cb9bb32931b27e711c7ce2604"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6c570dfa1cb68d436d8da6bd23cce6ce"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Base::Iterations</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">Iterations</a></td></tr>
+<tr class="memdesc:a6c570dfa1cb68d436d8da6bd23cce6ce"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="#a6c570dfa1cb68d436d8da6bd23cce6ce">More...</a><br /></td></tr>
+<tr class="separator:a6c570dfa1cb68d436d8da6bd23cce6ce"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae8cb43a98cd2fa28f6457afbda8ec58a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">Base::ThreadOffset</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">ThreadOffset</a></td></tr>
+<tr class="memdesc:ae8cb43a98cd2fa28f6457afbda8ec58a"><td class="mdescLeft">&#160;</td><td class="mdescRight">ThreadOffset functor.  <a href="#ae8cb43a98cd2fa28f6457afbda8ec58a">More...</a><br /></td></tr>
+<tr class="separator:ae8cb43a98cd2fa28f6457afbda8ec58a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a46a2cbf407d3f43a7441323d150d96f1"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">Base::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">FragmentShape</a></td></tr>
+<tr class="memdesc:a46a2cbf407d3f43a7441323d150d96f1"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> type.  <a href="#a46a2cbf407d3f43a7441323d150d96f1">More...</a><br /></td></tr>
+<tr class="separator:a46a2cbf407d3f43a7441323d150d96f1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae8f2c93ec43646be70d4b9f32d034125"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">AccessType</a></td></tr>
+<tr class="memdesc:ae8f2c93ec43646be70d4b9f32d034125"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory access type.  <a href="#ae8f2c93ec43646be70d4b9f32d034125">More...</a><br /></td></tr>
+<tr class="separator:ae8f2c93ec43646be70d4b9f32d034125"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4604b230174b11bc7ddf5f3e9a922139"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">Fragment</a></td></tr>
+<tr class="memdesc:a4604b230174b11bc7ddf5f3e9a922139"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> definition.  <a href="#a4604b230174b11bc7ddf5f3e9a922139">More...</a><br /></td></tr>
+<tr class="separator:a4604b230174b11bc7ddf5f3e9a922139"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad9c77ca0521d18a90dd3542a3941f016"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">Base::FragmentIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">FragmentIterator</a></td></tr>
+<tr class="memdesc:ad9c77ca0521d18a90dd3542a3941f016"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> iterator definition.  <a href="#ad9c77ca0521d18a90dd3542a3941f016">More...</a><br /></td></tr>
+<tr class="separator:ad9c77ca0521d18a90dd3542a3941f016"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad272502e5a54615584bb037a33ff1dca"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">Base::FragmentConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:ad272502e5a54615584bb037a33ff1dca"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> const iterator definition.  <a href="#ad272502e5a54615584bb037a33ff1dca">More...</a><br /></td></tr>
+<tr class="separator:ad272502e5a54615584bb037a33ff1dca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad71f865c61f02eba981c056ef71653f5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">Base::PredicateVector</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">PredicateVector</a></td></tr>
+<tr class="memdesc:ad71f865c61f02eba981c056ef71653f5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="#ad71f865c61f02eba981c056ef71653f5">More...</a><br /></td></tr>
+<tr class="separator:ad71f865c61f02eba981c056ef71653f5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a57eff980f6b1086abe39dd617de5b948"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Base::Storage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a></td></tr>
+<tr class="memdesc:a57eff980f6b1086abe39dd617de5b948"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage object that may be loaded from.  <a href="#a57eff980f6b1086abe39dd617de5b948">More...</a><br /></td></tr>
+<tr class="separator:a57eff980f6b1086abe39dd617de5b948"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aebb9153659320f1391671c215c519e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Base::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">BaseParams</a></td></tr>
+<tr class="memdesc:a9aebb9153659320f1391671c215c519e"><td class="mdescLeft">&#160;</td><td class="mdescRight">IteratorBase parameters.  <a href="#a9aebb9153659320f1391671c215c519e">More...</a><br /></td></tr>
+<tr class="separator:a9aebb9153659320f1391671c215c519e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a39acc5c35c8db019a3aeef79e8005b7f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">Pointer</a></td></tr>
+<tr class="memdesc:a39acc5c35c8db019a3aeef79e8005b7f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer type.  <a href="#a39acc5c35c8db019a3aeef79e8005b7f">More...</a><br /></td></tr>
+<tr class="separator:a39acc5c35c8db019a3aeef79e8005b7f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a146adfb1951efd70995b05a7a31fd548"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const, 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a></td></tr>
+<tr class="memdesc:a146adfb1951efd70995b05a7a31fd548"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference for the load iterator.  <a href="#a146adfb1951efd70995b05a7a31fd548">More...</a><br /></td></tr>
+<tr class="separator:a146adfb1951efd70995b05a7a31fd548"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a></td></tr>
+<tr class="memdesc:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept <a class="el" href="structcutlass_1_1TileTraits.html" title="A template defining Tile Traits Concept. ">TileTraits</a>  <a href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">More...</a><br /></td></tr>
+<tr class="separator:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a></td></tr>
+<tr class="memdesc:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">More...</a><br /></td></tr>
+<tr class="separator:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a></td></tr>
+<tr class="memdesc:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> element.  <a href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">More...</a><br /></td></tr>
+<tr class="separator:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a></td></tr>
+<tr class="memdesc:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">More...</a><br /></td></tr>
+<tr class="separator:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Skew_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a></td></tr>
+<tr class="memdesc:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">More...</a><br /></td></tr>
+<tr class="separator:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a></td></tr>
+<tr class="memdesc:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">More...</a><br /></td></tr>
+<tr class="separator:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a></td></tr>
+<tr class="memdesc:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">More...</a><br /></td></tr>
+<tr class="separator:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">More...</a><br /></td></tr>
+<tr class="separator:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a></td></tr>
+<tr class="memdesc:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">More...</a><br /></td></tr>
+<tr class="separator:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a></td></tr>
+<tr class="memdesc:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">More...</a><br /></td></tr>
+<tr class="separator:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a></td></tr>
+<tr class="memdesc:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">More...</a><br /></td></tr>
+<tr class="separator:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a></td></tr>
+<tr class="memdesc:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">More...</a><br /></td></tr>
+<tr class="separator:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a></td></tr>
+<tr class="memdesc:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">More...</a><br /></td></tr>
+<tr class="separator:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a></td></tr>
+<tr class="memdesc:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">More...</a><br /></td></tr>
+<tr class="separator:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">More...</a><br /></td></tr>
+<tr class="separator:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a></td></tr>
+<tr class="memdesc:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">More...</a><br /></td></tr>
+<tr class="separator:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a></td></tr>
+<tr class="memdesc:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">More...</a><br /></td></tr>
+<tr class="separator:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a8291a51bf96f86bc77d0e3453345dbd5"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator &gt; </td></tr>
-<tr class="memitem:a8291a51bf96f86bc77d0e3453345dbd5"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
-<tr class="memdesc:a8291a51bf96f86bc77d0e3453345dbd5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="#a8291a51bf96f86bc77d0e3453345dbd5">More...</a><br /></td></tr>
-<tr class="separator:a8291a51bf96f86bc77d0e3453345dbd5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a81c9c0b17bf5f214230ecf10e0690a4e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e">TileLoadIterator</a> ()</td></tr>
-<tr class="memdesc:a81c9c0b17bf5f214230ecf10e0690a4e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="#a81c9c0b17bf5f214230ecf10e0690a4e">More...</a><br /></td></tr>
-<tr class="separator:a81c9c0b17bf5f214230ecf10e0690a4e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a93e166575be3b2f7489833ae5da23f23"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a93e166575be3b2f7489833ae5da23f23">TileLoadIterator</a> (<a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>())</td></tr>
-<tr class="memdesc:a93e166575be3b2f7489833ae5da23f23"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile load iterator.  <a href="#a93e166575be3b2f7489833ae5da23f23">More...</a><br /></td></tr>
-<tr class="separator:a93e166575be3b2f7489833ae5da23f23"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a53282fa4cb33cfcec79033d26e418af6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a53282fa4cb33cfcec79033d26e418af6">TileLoadIterator</a> (<a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a> const &amp;, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a> &amp;shared_storage, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>())</td></tr>
-<tr class="memdesc:a53282fa4cb33cfcec79033d26e418af6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile load iterator.  <a href="#a53282fa4cb33cfcec79033d26e418af6">More...</a><br /></td></tr>
-<tr class="separator:a53282fa4cb33cfcec79033d26e418af6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afb6320b600f1f561594a9fb543b954e4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4">data</a> () const</td></tr>
-<tr class="memdesc:afb6320b600f1f561594a9fb543b954e4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the current pointer.  <a href="#afb6320b600f1f561594a9fb543b954e4">More...</a><br /></td></tr>
-<tr class="separator:afb6320b600f1f561594a9fb543b954e4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0a93f37fd366a48c4ed6cc39aa850eb5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5">inc_d</a> ()</td></tr>
-<tr class="memdesc:a0a93f37fd366a48c4ed6cc39aa850eb5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the D dimension.  <a href="#a0a93f37fd366a48c4ed6cc39aa850eb5">More...</a><br /></td></tr>
-<tr class="separator:a0a93f37fd366a48c4ed6cc39aa850eb5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a228a95cf2c9c6089287984fcbf5cface"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface">inc_h</a> ()</td></tr>
-<tr class="memdesc:a228a95cf2c9c6089287984fcbf5cface"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the H dimension.  <a href="#a228a95cf2c9c6089287984fcbf5cface">More...</a><br /></td></tr>
-<tr class="separator:a228a95cf2c9c6089287984fcbf5cface"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a49cf3ee608debebf451cdd8c2125d073"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">inc_w</a> ()</td></tr>
-<tr class="memdesc:a49cf3ee608debebf451cdd8c2125d073"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the W dimension.  <a href="#a49cf3ee608debebf451cdd8c2125d073">More...</a><br /></td></tr>
-<tr class="separator:a49cf3ee608debebf451cdd8c2125d073"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a91e13a7aad4b0acac002b6dd125abc37"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37">inc_advance</a> ()</td></tr>
-<tr class="memdesc:a91e13a7aad4b0acac002b6dd125abc37"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the next dimension.  <a href="#a91e13a7aad4b0acac002b6dd125abc37">More...</a><br /></td></tr>
-<tr class="separator:a91e13a7aad4b0acac002b6dd125abc37"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aeb3faf5e8f976f5a4d158ceb41a1cc64"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64">inc_stage</a> ()</td></tr>
-<tr class="memdesc:aeb3faf5e8f976f5a4d158ceb41a1cc64"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the stage.  <a href="#aeb3faf5e8f976f5a4d158ceb41a1cc64">More...</a><br /></td></tr>
-<tr class="separator:aeb3faf5e8f976f5a4d158ceb41a1cc64"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2716b9010d2902b90e63abb0531ee915"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
-<tr class="memitem:a2716b9010d2902b90e63abb0531ee915"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment, PredicateIterator pred_it)</td></tr>
-<tr class="memdesc:a2716b9010d2902b90e63abb0531ee915"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="#a2716b9010d2902b90e63abb0531ee915">More...</a><br /></td></tr>
-<tr class="separator:a2716b9010d2902b90e63abb0531ee915"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a195993d58ae0eeb53203116ac02ab38d"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
-<tr class="memitem:a195993d58ae0eeb53203116ac02ab38d"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment)</td></tr>
-<tr class="memdesc:a195993d58ae0eeb53203116ac02ab38d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="#a195993d58ae0eeb53203116ac02ab38d">More...</a><br /></td></tr>
-<tr class="separator:a195993d58ae0eeb53203116ac02ab38d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9c4b332857f419e6f789a93404dc2140"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
-<tr class="memitem:a9c4b332857f419e6f789a93404dc2140"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment, PredicateIterator pred_it) const</td></tr>
-<tr class="memdesc:a9c4b332857f419e6f789a93404dc2140"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="#a9c4b332857f419e6f789a93404dc2140">More...</a><br /></td></tr>
-<tr class="separator:a9c4b332857f419e6f789a93404dc2140"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1058cdec33393db9c16b28c21d8957db"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
-<tr class="memitem:a1058cdec33393db9c16b28c21d8957db"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment) const</td></tr>
-<tr class="memdesc:a1058cdec33393db9c16b28c21d8957db"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="#a1058cdec33393db9c16b28c21d8957db">More...</a><br /></td></tr>
-<tr class="separator:a1058cdec33393db9c16b28c21d8957db"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
-<tr class="memitem:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">More...</a><br /></td></tr>
-<tr class="separator:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60bbb4d4a6a5b8fb32e176e7d33f9e82"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:a60bbb4d4a6a5b8fb32e176e7d33f9e82"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:a60bbb4d4a6a5b8fb32e176e7d33f9e82"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector using a <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html" title="Functor computing a predicate given the logical position of an access. ">RegularTilePredicateFunctor</a>.  <a href="#a60bbb4d4a6a5b8fb32e176e7d33f9e82">More...</a><br /></td></tr>
+<tr class="separator:a60bbb4d4a6a5b8fb32e176e7d33f9e82"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa566cf603a5c19c59946a41b04642e49"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator , typename PredicateFunctor &gt; </td></tr>
+<tr class="memitem:aa566cf603a5c19c59946a41b04642e49"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;functor, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset)</td></tr>
+<tr class="memdesc:aa566cf603a5c19c59946a41b04642e49"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector using an arbitrary predicate functor.  <a href="#aa566cf603a5c19c59946a41b04642e49">More...</a><br /></td></tr>
+<tr class="separator:aa566cf603a5c19c59946a41b04642e49"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:add962655973d5b8eff5673c04e053e4e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">TileLoadIterator</a> ()</td></tr>
+<tr class="memdesc:add962655973d5b8eff5673c04e053e4e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="#add962655973d5b8eff5673c04e053e4e">More...</a><br /></td></tr>
+<tr class="separator:add962655973d5b8eff5673c04e053e4e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4ffe90c974b260220fe0b44274095322"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">TileLoadIterator</a> (<a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:a4ffe90c974b260220fe0b44274095322"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile load iterator.  <a href="#a4ffe90c974b260220fe0b44274095322">More...</a><br /></td></tr>
+<tr class="separator:a4ffe90c974b260220fe0b44274095322"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1636f4e15ca7f9f56bfccb93a2826c30"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">TileLoadIterator</a> (<a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a> const &amp;, <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const *ptr, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:a1636f4e15ca7f9f56bfccb93a2826c30"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile load iterator.  <a href="#a1636f4e15ca7f9f56bfccb93a2826c30">More...</a><br /></td></tr>
+<tr class="separator:a1636f4e15ca7f9f56bfccb93a2826c30"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb92092230ae933ff6cc4a36960d0674"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">inc_d</a> ()</td></tr>
+<tr class="memdesc:aeb92092230ae933ff6cc4a36960d0674"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the D dimension.  <a href="#aeb92092230ae933ff6cc4a36960d0674">More...</a><br /></td></tr>
+<tr class="separator:aeb92092230ae933ff6cc4a36960d0674"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1b94be88a160b21347c0eb58ed8e1b51"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">inc_h</a> ()</td></tr>
+<tr class="memdesc:a1b94be88a160b21347c0eb58ed8e1b51"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the H dimension.  <a href="#a1b94be88a160b21347c0eb58ed8e1b51">More...</a><br /></td></tr>
+<tr class="separator:a1b94be88a160b21347c0eb58ed8e1b51"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af4f964364fc54a2b9a431fa529f6c44c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">inc_w</a> ()</td></tr>
+<tr class="memdesc:af4f964364fc54a2b9a431fa529f6c44c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the W dimension.  <a href="#af4f964364fc54a2b9a431fa529f6c44c">More...</a><br /></td></tr>
+<tr class="separator:af4f964364fc54a2b9a431fa529f6c44c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9bda55335fb2e90af2ee7d20571f3d9b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">inc_advance</a> ()</td></tr>
+<tr class="memdesc:a9bda55335fb2e90af2ee7d20571f3d9b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the next dimension.  <a href="#a9bda55335fb2e90af2ee7d20571f3d9b">More...</a><br /></td></tr>
+<tr class="separator:a9bda55335fb2e90af2ee7d20571f3d9b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6f74b87df129693ee6ac9a6fcc0c8910"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">load_element</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &amp;value, int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a6f74b87df129693ee6ac9a6fcc0c8910"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a single fragment element from memory.  <a href="#a6f74b87df129693ee6ac9a6fcc0c8910">More...</a><br /></td></tr>
+<tr class="separator:a6f74b87df129693ee6ac9a6fcc0c8910"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64ce59c5deb58e208529761a44c7661d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">inc_stage</a> ()</td></tr>
+<tr class="memdesc:a64ce59c5deb58e208529761a44c7661d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the stage.  <a href="#a64ce59c5deb58e208529761a44c7661d">More...</a><br /></td></tr>
+<tr class="separator:a64ce59c5deb58e208529761a44c7661d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a723041057b1e8212e075959a22c0c120"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:a723041057b1e8212e075959a22c0c120"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a vector offset to the iterator.  <a href="#a723041057b1e8212e075959a22c0c120">More...</a><br /></td></tr>
+<tr class="separator:a723041057b1e8212e075959a22c0c120"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad65b7a0a5b4f42c590642ef7b269f232"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">add_pointer_offset</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> offset)</td></tr>
+<tr class="memdesc:ad65b7a0a5b4f42c590642ef7b269f232"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a raw offset to the pointer.  <a href="#ad65b7a0a5b4f42c590642ef7b269f232">More...</a><br /></td></tr>
+<tr class="separator:ad65b7a0a5b4f42c590642ef7b269f232"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a31a021d6c099e8027fa9bcb5fdc21c11"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11">stride_advance</a> (void)</td></tr>
+<tr class="separator:a31a021d6c099e8027fa9bcb5fdc21c11"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4d437597ae736c581a9ba0764f9d955f"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:a4d437597ae736c581a9ba0764f9d955f"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it)</td></tr>
+<tr class="memdesc:a4d437597ae736c581a9ba0764f9d955f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="#a4d437597ae736c581a9ba0764f9d955f">More...</a><br /></td></tr>
+<tr class="separator:a4d437597ae736c581a9ba0764f9d955f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5c8a4318ffd400363d9c7572c07ff32a"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a5c8a4318ffd400363d9c7572c07ff32a"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)</td></tr>
+<tr class="memdesc:a5c8a4318ffd400363d9c7572c07ff32a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="#a5c8a4318ffd400363d9c7572c07ff32a">More...</a><br /></td></tr>
+<tr class="separator:a5c8a4318ffd400363d9c7572c07ff32a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa856180123f8d50a00222542fa6345cf"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:aa856180123f8d50a00222542fa6345cf"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it) const</td></tr>
+<tr class="memdesc:aa856180123f8d50a00222542fa6345cf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="#aa856180123f8d50a00222542fa6345cf">More...</a><br /></td></tr>
+<tr class="separator:aa856180123f8d50a00222542fa6345cf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a83dadcea858a5e426dcea54400138480"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a83dadcea858a5e426dcea54400138480"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment) const</td></tr>
+<tr class="memdesc:a83dadcea858a5e426dcea54400138480"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="#a83dadcea858a5e426dcea54400138480">More...</a><br /></td></tr>
+<tr class="separator:a83dadcea858a5e426dcea54400138480"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1b070fc66109d372f5a45a5857594ac6"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a1b070fc66109d372f5a45a5857594ac6"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, int d)</td></tr>
+<tr class="memdesc:a1b070fc66109d372f5a45a5857594ac6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="#a1b070fc66109d372f5a45a5857594ac6">More...</a><br /></td></tr>
+<tr class="separator:a1b070fc66109d372f5a45a5857594ac6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">More...</a><br /></td></tr>
+<tr class="separator:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:aaafe35622751532971c1b7efc54c888b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a></td></tr>
-<tr class="memdesc:aaafe35622751532971c1b7efc54c888b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters structure.  <a href="#aaafe35622751532971c1b7efc54c888b">More...</a><br /></td></tr>
-<tr class="separator:aaafe35622751532971c1b7efc54c888b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7726cdd4fe056c59bb04adb9e5504457"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">thread_offset</a></td></tr>
-<tr class="memdesc:a7726cdd4fe056c59bb04adb9e5504457"><td class="mdescLeft">&#160;</td><td class="mdescRight">Offset of an individual lane from the start of the tile.  <a href="#a7726cdd4fe056c59bb04adb9e5504457">More...</a><br /></td></tr>
-<tr class="separator:a7726cdd4fe056c59bb04adb9e5504457"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa3fd9859de68d76e07ebee06c6ccee92"><td class="memItemLeft" align="right" valign="top">int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a></td></tr>
-<tr class="memdesc:aa3fd9859de68d76e07ebee06c6ccee92"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stage argument enables wrapping after some number of tiles have been loaded.  <a href="#aa3fd9859de68d76e07ebee06c6ccee92">More...</a><br /></td></tr>
-<tr class="separator:aa3fd9859de68d76e07ebee06c6ccee92"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5561e676148200c2fc85a603847cc596"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a></td></tr>
+<tr class="memdesc:a5561e676148200c2fc85a603847cc596"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters structure.  <a href="#a5561e676148200c2fc85a603847cc596">More...</a><br /></td></tr>
+<tr class="separator:a5561e676148200c2fc85a603847cc596"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7808588ce0b12017379dcbe1ba9c511f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a></td></tr>
+<tr class="memdesc:a7808588ce0b12017379dcbe1ba9c511f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Offset of an individual lane from the start of the tile.  <a href="#a7808588ce0b12017379dcbe1ba9c511f">More...</a><br /></td></tr>
+<tr class="separator:a7808588ce0b12017379dcbe1ba9c511f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad8e730768c1805d98e23886a492389d3"><td class="memItemLeft" align="right" valign="top">int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a></td></tr>
+<tr class="memdesc:ad8e730768c1805d98e23886a492389d3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stage argument enables wrapping after some number of tiles have been loaded.  <a href="#ad8e730768c1805d98e23886a492389d3">More...</a><br /></td></tr>
+<tr class="separator:ad8e730768c1805d98e23886a492389d3"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
-<tr class="memitem:a69d2f21c8188fb3229af8c2dbe0a23b6"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">kAdvance</a> = Base::kAdvance</td></tr>
-<tr class="memdesc:a69d2f21c8188fb3229af8c2dbe0a23b6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies in which dimension post-increment accesses advance.  <a href="#a69d2f21c8188fb3229af8c2dbe0a23b6">More...</a><br /></td></tr>
-<tr class="separator:a69d2f21c8188fb3229af8c2dbe0a23b6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aba1d75a0cd5f11dee2aecf89b2b13d98"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98">kIteratorFragment</a> = Base::kIteratorFragment</td></tr>
-<tr class="memdesc:aba1d75a0cd5f11dee2aecf89b2b13d98"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies type of iterator fragment storage (Salar or WmmaMatrix)  <a href="#aba1d75a0cd5f11dee2aecf89b2b13d98">More...</a><br /></td></tr>
-<tr class="separator:aba1d75a0cd5f11dee2aecf89b2b13d98"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac21bd78b31c99c826f0eddb5aa033bf1"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1">kMemorySpace</a> = Base::kMemorySpace</td></tr>
-<tr class="memdesc:ac21bd78b31c99c826f0eddb5aa033bf1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="#ac21bd78b31c99c826f0eddb5aa033bf1">More...</a><br /></td></tr>
-<tr class="separator:ac21bd78b31c99c826f0eddb5aa033bf1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_static_attribs_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
-<tr class="memitem:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a> = Advance_</td></tr>
-<tr class="memdesc:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">More...</a><br /></td></tr>
-<tr class="separator:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a> = IteratorFragment_</td></tr>
-<tr class="memdesc:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">More...</a><br /></td></tr>
-<tr class="separator:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">kMemorySpace</a> = <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a></td></tr>
-<tr class="memdesc:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">More...</a><br /></td></tr>
-<tr class="separator:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> = Tile::kC</td></tr>
-<tr class="memdesc:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">More...</a><br /></td></tr>
-<tr class="separator:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td></tr>
-<tr class="memdesc:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">More...</a><br /></td></tr>
-<tr class="separator:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea9fbc738003a7424cfa9b0527d4a352"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">kAdvance</a> = Base::kAdvance</td></tr>
+<tr class="memdesc:aea9fbc738003a7424cfa9b0527d4a352"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies in which dimension post-increment accesses advance.  <a href="#aea9fbc738003a7424cfa9b0527d4a352">More...</a><br /></td></tr>
+<tr class="separator:aea9fbc738003a7424cfa9b0527d4a352"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2af872794b35a631f9c1a97df0c6d177"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">kFragmentElementType</a> = FragmentElementType_</td></tr>
+<tr class="memdesc:a2af872794b35a631f9c1a97df0c6d177"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies type of iterator fragment storage (Salar or WmmaMatrix)  <a href="#a2af872794b35a631f9c1a97df0c6d177">More...</a><br /></td></tr>
+<tr class="separator:a2af872794b35a631f9c1a97df0c6d177"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a44424164c9347f9916b2b86858706043"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">kMemorySpace</a> = Base::kMemorySpace</td></tr>
+<tr class="memdesc:a44424164c9347f9916b2b86858706043"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="#a44424164c9347f9916b2b86858706043">More...</a><br /></td></tr>
+<tr class="separator:a44424164c9347f9916b2b86858706043"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a84f2f19069c3b003b1fcad438f690bc8"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">kAccessSize</a> = Base::kAccessSize</td></tr>
+<tr class="memdesc:a84f2f19069c3b003b1fcad438f690bc8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="#a84f2f19069c3b003b1fcad438f690bc8">More...</a><br /></td></tr>
+<tr class="separator:a84f2f19069c3b003b1fcad438f690bc8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a> = Advance_</td></tr>
+<tr class="memdesc:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">More...</a><br /></td></tr>
+<tr class="separator:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a> = FragmentElementType_</td></tr>
+<tr class="memdesc:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">More...</a><br /></td></tr>
+<tr class="separator:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a> = <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a></td></tr>
+<tr class="memdesc:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">More...</a><br /></td></tr>
+<tr class="separator:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> = Traits::kAccessSize</td></tr>
+<tr class="memdesc:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">More...</a><br /></td></tr>
+<tr class="separator:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td></tr>
+<tr class="memdesc:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">More...</a><br /></td></tr>
+<tr class="separator:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_static_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
-<tr class="memitem:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator &gt; </td></tr>
-<tr class="memitem:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memTemplItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
-<tr class="memdesc:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">More...</a><br /></td></tr>
-<tr class="separator:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator , typename PredicateFunctor &gt; </td></tr>
+<tr class="memitem:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memTemplItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">More...</a><br /></td></tr>
+<tr class="separator:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a4af8eeabe7c1ec0362782687a84466e0"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4af8eeabe7c1ec0362782687a84466e0">&#9670;&nbsp;</a></span>AccessType</h2>
+<a id="ae8f2c93ec43646be70d4b9f32d034125"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8f2c93ec43646be70d4b9f32d034125">&#9670;&nbsp;</a></span>AccessType</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">Base::AccessType</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a1bc1bd4893c14b313ee71b71db2903f3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1bc1bd4893c14b313ee71b71db2903f3">&#9670;&nbsp;</a></span>Base</h2>
+<a id="a1dcbf633eac61ff06980e4992fbe8264"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1dcbf633eac61ff06980e4992fbe8264">&#9670;&nbsp;</a></span>Base</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_&gt; <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3">Base</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_&gt; <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">Base</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a788bab4fa46dc26854348b751cf1cc76"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a788bab4fa46dc26854348b751cf1cc76">&#9670;&nbsp;</a></span>BaseParams</h2>
+<a id="a9aebb9153659320f1391671c215c519e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9aebb9153659320f1391671c215c519e">&#9670;&nbsp;</a></span>BaseParams</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Base::Params</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76">BaseParams</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Base::Params</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">BaseParams</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ac2a7f94723259f0d3c7b8a6d5b8778bf"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac2a7f94723259f0d3c7b8a6d5b8778bf">&#9670;&nbsp;</a></span>Delta</h2>
+<a id="afc68649cb9bb32931b27e711c7ce2604"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afc68649cb9bb32931b27e711c7ce2604">&#9670;&nbsp;</a></span>Delta</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Base::Delta</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Base::Delta</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aaf72c4897641080b1d84c0bbd8d813cc"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aaf72c4897641080b1d84c0bbd8d813cc">&#9670;&nbsp;</a></span>Fragment</h2>
+<a id="a4604b230174b11bc7ddf5f3e9a922139"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4604b230174b11bc7ddf5f3e9a922139">&#9670;&nbsp;</a></span>Fragment</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Base::Fragment</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Base::Fragment</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a4c7a3a4917245de8269b74bdabe16b76"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4c7a3a4917245de8269b74bdabe16b76">&#9670;&nbsp;</a></span>FragmentConstIterator</h2>
+<a id="ad272502e5a54615584bb037a33ff1dca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad272502e5a54615584bb037a33ff1dca">&#9670;&nbsp;</a></span>FragmentConstIterator</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">Base::FragmentConstIterator</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">Base::FragmentConstIterator</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a2edd89863b8035137ccd8dd3ad7be464"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2edd89863b8035137ccd8dd3ad7be464">&#9670;&nbsp;</a></span>FragmentElement</h2>
+<a id="a70dfd0b62feb082d8da34af09d9524a6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a70dfd0b62feb082d8da34af09d9524a6">&#9670;&nbsp;</a></span>FragmentElement</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">Base::FragmentElement</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a></td>
+          <td class="memname">typedef FragmentElement_ <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aebbe5a0996dcd362caad618e78dc2591"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aebbe5a0996dcd362caad618e78dc2591">&#9670;&nbsp;</a></span>FragmentIterator</h2>
+<a id="ad9c77ca0521d18a90dd3542a3941f016"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad9c77ca0521d18a90dd3542a3941f016">&#9670;&nbsp;</a></span>FragmentIterator</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">Base::FragmentIterator</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">Base::FragmentIterator</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7c27a7b0d8593b002eca186c15fdc869"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7c27a7b0d8593b002eca186c15fdc869">&#9670;&nbsp;</a></span>FragmentShape</h2>
+<a id="a46a2cbf407d3f43a7441323d150d96f1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46a2cbf407d3f43a7441323d150d96f1">&#9670;&nbsp;</a></span>FragmentShape</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">Base::FragmentShape</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">Base::FragmentShape</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aaa83f05e0cb3204053c3ee1da036cd36"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aaa83f05e0cb3204053c3ee1da036cd36">&#9670;&nbsp;</a></span>Index</h2>
+<a id="aaa5d98b72576478ba04e4ad554faa827"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa5d98b72576478ba04e4ad554faa827">&#9670;&nbsp;</a></span>Index</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Base::Index</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Base::Index</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a9720b1e4a10c2d5aa85f9a9c66a31bbf"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9720b1e4a10c2d5aa85f9a9c66a31bbf">&#9670;&nbsp;</a></span>Iterations</h2>
+<a id="a6c570dfa1cb68d436d8da6bd23cce6ce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c570dfa1cb68d436d8da6bd23cce6ce">&#9670;&nbsp;</a></span>Iterations</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Base::Iterations</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Base::Iterations</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5a179e148ccd770e1703f288624fa9b8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5a179e148ccd770e1703f288624fa9b8">&#9670;&nbsp;</a></span>Pointer</h2>
+<a id="a39acc5c35c8db019a3aeef79e8005b7f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a39acc5c35c8db019a3aeef79e8005b7f">&#9670;&nbsp;</a></span>Pointer</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> const* <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">Pointer</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const* <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">Pointer</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a64ae02b44f275ef2f016949aec769328"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a64ae02b44f275ef2f016949aec769328">&#9670;&nbsp;</a></span>PredicateVector</h2>
+<a id="ad71f865c61f02eba981c056ef71653f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad71f865c61f02eba981c056ef71653f5">&#9670;&nbsp;</a></span>PredicateVector</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">Base::PredicateVector</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">Base::PredicateVector</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ae8dff52e619f06fbdbca8cb847c79895"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae8dff52e619f06fbdbca8cb847c79895">&#9670;&nbsp;</a></span>Scalar</h2>
+<a id="aafbb7a2137a07f0e07a12838b66bd511"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aafbb7a2137a07f0e07a12838b66bd511">&#9670;&nbsp;</a></span>Scalar</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Base::Scalar</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Base::Scalar</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ab457bd7953af9ef418510f55f52d1f39"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab457bd7953af9ef418510f55f52d1f39">&#9670;&nbsp;</a></span>SharedStorage</h2>
+<a id="a57eff980f6b1086abe39dd617de5b948"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57eff980f6b1086abe39dd617de5b948">&#9670;&nbsp;</a></span>SharedStorage</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Base::Storage</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Base::Storage</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a11ec4297c9a1352c8005ac222892b35c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a11ec4297c9a1352c8005ac222892b35c">&#9670;&nbsp;</a></span>Skew</h2>
+<a id="aeb6cc0e2990c06c83b789b579a03b15f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeb6cc0e2990c06c83b789b579a03b15f">&#9670;&nbsp;</a></span>Skew</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Base::Skew</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Base::Skew</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a8a1527b4b469ae1f97afde2502ece70d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8a1527b4b469ae1f97afde2502ece70d">&#9670;&nbsp;</a></span>ThreadOffset</h2>
+<a id="a146adfb1951efd70995b05a7a31fd548"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a146adfb1951efd70995b05a7a31fd548">&#9670;&nbsp;</a></span>TensorRef</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">Base::ThreadOffset</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const, 4&gt; <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7f1499ada284c21624487d4d3a5dbd10"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7f1499ada284c21624487d4d3a5dbd10">&#9670;&nbsp;</a></span>Tile</h2>
+<a id="ae8cb43a98cd2fa28f6457afbda8ec58a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8cb43a98cd2fa28f6457afbda8ec58a">&#9670;&nbsp;</a></span>ThreadOffset</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Base::Tile</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">Base::ThreadOffset</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7c6182031d9aa41d0e4a64516723e20a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7c6182031d9aa41d0e4a64516723e20a">&#9670;&nbsp;</a></span>Traits</h2>
+<a id="a88eaa581e0b5419b98ee5a71073d0539"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a88eaa581e0b5419b98ee5a71073d0539">&#9670;&nbsp;</a></span>Tile</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Base::Traits</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Base::Tile</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a5d065939282fa1b9454b28a1e73948"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a5d065939282fa1b9454b28a1e73948">&#9670;&nbsp;</a></span>Traits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Base::Traits</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -634,7 +672,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1f3601c595f12e7083919ece
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">anonymous enum</td>
@@ -642,25 +680,25 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1f3601c595f12e7083919ece
       </table>
 </div><div class="memdoc">
 <table class="fieldtable">
-<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc"></a>kRequiresLoadFence&#160;</td><td class="fielddoc"></td></tr>
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126"></a>kRequiresLoadFence&#160;</td><td class="fielddoc"></td></tr>
 </table>
 
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="a81c9c0b17bf5f214230ecf10e0690a4e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a81c9c0b17bf5f214230ecf10e0690a4e">&#9670;&nbsp;</a></span>TileLoadIterator() <span class="overload">[1/3]</span></h2>
+<a id="add962655973d5b8eff5673c04e053e4e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#add962655973d5b8eff5673c04e053e4e">&#9670;&nbsp;</a></span>TileLoadIterator() <span class="overload">[1/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -675,19 +713,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a81c9c0b17bf5f214230ecf10
 
 </div>
 </div>
-<a id="a93e166575be3b2f7489833ae5da23f23"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a93e166575be3b2f7489833ae5da23f23">&#9670;&nbsp;</a></span>TileLoadIterator() <span class="overload">[2/3]</span></h2>
+<a id="a4ffe90c974b260220fe0b44274095322"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ffe90c974b260220fe0b44274095322">&#9670;&nbsp;</a></span>TileLoadIterator() <span class="overload">[2/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> </td>
           <td>(</td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a> const &amp;&#160;</td>
           <td class="paramname"><em>_params</em>, </td>
@@ -701,8 +739,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a93e166575be3b2f7489833ae
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>&#160;</td>
-          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>()</code>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>&#160;</td>
+          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>()</code>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -719,19 +757,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a93e166575be3b2f7489833ae
 
 </div>
 </div>
-<a id="a53282fa4cb33cfcec79033d26e418af6"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a53282fa4cb33cfcec79033d26e418af6">&#9670;&nbsp;</a></span>TileLoadIterator() <span class="overload">[3/3]</span></h2>
+<a id="a1636f4e15ca7f9f56bfccb93a2826c30"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1636f4e15ca7f9f56bfccb93a2826c30">&#9670;&nbsp;</a></span>TileLoadIterator() <span class="overload">[3/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> </td>
           <td>(</td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a> const &amp;&#160;</td>
           <td class="paramname">, </td>
@@ -739,8 +777,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a53282fa4cb33cfcec79033d2
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a> &amp;&#160;</td>
-          <td class="paramname"><em>shared_storage</em>, </td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
@@ -751,8 +789,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a53282fa4cb33cfcec79033d2
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>&#160;</td>
-          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>()</code>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>&#160;</td>
+          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>()</code>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -770,22 +808,23 @@ <h2 class="memtitle"><span class="permalink"><a href="#a53282fa4cb33cfcec79033d2
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="afb6320b600f1f561594a9fb543b954e4"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#afb6320b600f1f561594a9fb543b954e4">&#9670;&nbsp;</a></span>data()</h2>
+<a id="ad65b7a0a5b4f42c590642ef7b269f232"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad65b7a0a5b4f42c590642ef7b269f232">&#9670;&nbsp;</a></span>add_pointer_offset()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> const* <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::data </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::add_pointer_offset </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
-          <td> const</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
         </tr>
       </table>
   </td>
@@ -797,19 +836,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#afb6320b600f1f561594a9fb5
 
 </div>
 </div>
-<a id="a91e13a7aad4b0acac002b6dd125abc37"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a91e13a7aad4b0acac002b6dd125abc37">&#9670;&nbsp;</a></span>inc_advance()</h2>
+<a id="a9bda55335fb2e90af2ee7d20571f3d9b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9bda55335fb2e90af2ee7d20571f3d9b">&#9670;&nbsp;</a></span>inc_advance()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::inc_advance </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::inc_advance </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -824,19 +863,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a91e13a7aad4b0acac002b6dd
 
 </div>
 </div>
-<a id="a0a93f37fd366a48c4ed6cc39aa850eb5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0a93f37fd366a48c4ed6cc39aa850eb5">&#9670;&nbsp;</a></span>inc_d()</h2>
+<a id="aeb92092230ae933ff6cc4a36960d0674"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeb92092230ae933ff6cc4a36960d0674">&#9670;&nbsp;</a></span>inc_d()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::inc_d </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::inc_d </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -851,19 +890,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0a93f37fd366a48c4ed6cc39
 
 </div>
 </div>
-<a id="a228a95cf2c9c6089287984fcbf5cface"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a228a95cf2c9c6089287984fcbf5cface">&#9670;&nbsp;</a></span>inc_h()</h2>
+<a id="a1b94be88a160b21347c0eb58ed8e1b51"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1b94be88a160b21347c0eb58ed8e1b51">&#9670;&nbsp;</a></span>inc_h()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::inc_h </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::inc_h </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -878,19 +917,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a228a95cf2c9c6089287984fc
 
 </div>
 </div>
-<a id="aeb3faf5e8f976f5a4d158ceb41a1cc64"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aeb3faf5e8f976f5a4d158ceb41a1cc64">&#9670;&nbsp;</a></span>inc_stage()</h2>
+<a id="a64ce59c5deb58e208529761a44c7661d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64ce59c5deb58e208529761a44c7661d">&#9670;&nbsp;</a></span>inc_stage()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::inc_stage </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::inc_stage </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -905,19 +944,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#aeb3faf5e8f976f5a4d158ceb
 
 </div>
 </div>
-<a id="a49cf3ee608debebf451cdd8c2125d073"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a49cf3ee608debebf451cdd8c2125d073">&#9670;&nbsp;</a></span>inc_w()</h2>
+<a id="af4f964364fc54a2b9a431fa529f6c44c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af4f964364fc54a2b9a431fa529f6c44c">&#9670;&nbsp;</a></span>inc_w()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::inc_w </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::inc_w </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -932,13 +971,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#a49cf3ee608debebf451cdd8c
 
 </div>
 </div>
-<a id="a8291a51bf96f86bc77d0e3453345dbd5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8291a51bf96f86bc77d0e3453345dbd5">&#9670;&nbsp;</a></span>initialize_predicates()</h2>
+<a id="a60bbb4d4a6a5b8fb32e176e7d33f9e82"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60bbb4d4a6a5b8fb32e176e7d33f9e82">&#9670;&nbsp;</a></span>initialize_predicates() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename PredicateIterator &gt; </div>
 <table class="mlabels">
@@ -946,7 +985,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8291a51bf96f86bc77d0e345
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::initialize_predicates </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::initialize_predicates </td>
           <td>(</td>
           <td class="paramtype">PredicateIterator&#160;</td>
           <td class="paramname"><em>predicate_it</em>, </td>
@@ -978,13 +1017,59 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8291a51bf96f86bc77d0e345
 
 </div>
 </div>
-<a id="a9c4b332857f419e6f789a93404dc2140"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9c4b332857f419e6f789a93404dc2140">&#9670;&nbsp;</a></span>load() <span class="overload">[1/2]</span></h2>
+<a id="aa566cf603a5c19c59946a41b04642e49"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa566cf603a5c19c59946a41b04642e49">&#9670;&nbsp;</a></span>initialize_predicates() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename PredicateIterator , typename PredicateFunctor &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::initialize_predicates </td>
+          <td>(</td>
+          <td class="paramtype">PredicateIterator&#160;</td>
+          <td class="paramname"><em>predicate_it</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">PredicateFunctor const &amp;&#160;</td>
+          <td class="paramname"><em>functor</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>block_offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa856180123f8d50a00222542fa6345cf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa856180123f8d50a00222542fa6345cf">&#9670;&nbsp;</a></span>load() <span class="overload">[1/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename Fragment , typename PredicateIterator &gt; </div>
 <table class="mlabels">
@@ -992,9 +1077,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9c4b332857f419e6f789a934
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::load </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
           <td class="paramname"><em>fragment</em>, </td>
         </tr>
         <tr>
@@ -1018,13 +1103,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9c4b332857f419e6f789a934
 
 </div>
 </div>
-<a id="a1058cdec33393db9c16b28c21d8957db"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1058cdec33393db9c16b28c21d8957db">&#9670;&nbsp;</a></span>load() <span class="overload">[2/2]</span></h2>
+<a id="a83dadcea858a5e426dcea54400138480"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a83dadcea858a5e426dcea54400138480">&#9670;&nbsp;</a></span>load() <span class="overload">[2/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename Fragment &gt; </div>
 <table class="mlabels">
@@ -1032,9 +1117,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1058cdec33393db9c16b28c2
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::load </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
           <td class="paramname"><em>fragment</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -1048,13 +1133,109 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1058cdec33393db9c16b28c2
 
 </div>
 </div>
-<a id="a2716b9010d2902b90e63abb0531ee915"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2716b9010d2902b90e63abb0531ee915">&#9670;&nbsp;</a></span>load_post_increment() <span class="overload">[1/2]</span></h2>
+<a id="a1b070fc66109d372f5a45a5857594ac6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1b070fc66109d372f5a45a5857594ac6">&#9670;&nbsp;</a></span>load() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>d</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6f74b87df129693ee6ac9a6fcc0c8910"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6f74b87df129693ee6ac9a6fcc0c8910">&#9670;&nbsp;</a></span>load_element()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load_element </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>c</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4d437597ae736c581a9ba0764f9d955f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4d437597ae736c581a9ba0764f9d955f">&#9670;&nbsp;</a></span>load_post_increment() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename Fragment , typename PredicateIterator &gt; </div>
 <table class="mlabels">
@@ -1062,9 +1243,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2716b9010d2902b90e63abb0
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::load_post_increment </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load_post_increment </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
           <td class="paramname"><em>fragment</em>, </td>
         </tr>
         <tr>
@@ -1088,13 +1269,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2716b9010d2902b90e63abb0
 
 </div>
 </div>
-<a id="a195993d58ae0eeb53203116ac02ab38d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a195993d58ae0eeb53203116ac02ab38d">&#9670;&nbsp;</a></span>load_post_increment() <span class="overload">[2/2]</span></h2>
+<a id="a5c8a4318ffd400363d9c7572c07ff32a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c8a4318ffd400363d9c7572c07ff32a">&#9670;&nbsp;</a></span>load_post_increment() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename Fragment &gt; </div>
 <table class="mlabels">
@@ -1102,9 +1283,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#a195993d58ae0eeb53203116a
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::load_post_increment </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load_post_increment </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
           <td class="paramname"><em>fragment</em></td><td>)</td>
           <td></td>
         </tr>
@@ -1116,22 +1297,102 @@ <h2 class="memtitle"><span class="permalink"><a href="#a195993d58ae0eeb53203116a
 </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a723041057b1e8212e075959a22c0c120"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a723041057b1e8212e075959a22c0c120">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&amp; <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a31a021d6c099e8027fa9bcb5fdc21c11"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a31a021d6c099e8027fa9bcb5fdc21c11">&#9670;&nbsp;</a></span>stride_advance()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::stride_advance </td>
+          <td>(</td>
+          <td class="paramtype">void&#160;</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="a69d2f21c8188fb3229af8c2dbe0a23b6"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a69d2f21c8188fb3229af8c2dbe0a23b6">&#9670;&nbsp;</a></span>kAdvance</h2>
+<a id="a84f2f19069c3b003b1fcad438f690bc8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84f2f19069c3b003b1fcad438f690bc8">&#9670;&nbsp;</a></span>kAccessSize</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kAccessSize = Base::kAccessSize</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea9fbc738003a7424cfa9b0527d4a352"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea9fbc738003a7424cfa9b0527d4a352">&#9670;&nbsp;</a></span>kAdvance</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kAdvance = Base::kAdvance</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kAdvance = Base::kAdvance</td>
         </tr>
       </table>
   </td>
@@ -1143,19 +1404,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a69d2f21c8188fb3229af8c2d
 
 </div>
 </div>
-<a id="aba1d75a0cd5f11dee2aecf89b2b13d98"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aba1d75a0cd5f11dee2aecf89b2b13d98">&#9670;&nbsp;</a></span>kIteratorFragment</h2>
+<a id="a2af872794b35a631f9c1a97df0c6d177"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2af872794b35a631f9c1a97df0c6d177">&#9670;&nbsp;</a></span>kFragmentElementType</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kIteratorFragment = Base::kIteratorFragment</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kFragmentElementType = FragmentElementType_</td>
         </tr>
       </table>
   </td>
@@ -1167,19 +1428,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#aba1d75a0cd5f11dee2aecf89
 
 </div>
 </div>
-<a id="ac21bd78b31c99c826f0eddb5aa033bf1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac21bd78b31c99c826f0eddb5aa033bf1">&#9670;&nbsp;</a></span>kMemorySpace</h2>
+<a id="a44424164c9347f9916b2b86858706043"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a44424164c9347f9916b2b86858706043">&#9670;&nbsp;</a></span>kMemorySpace</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kMemorySpace = Base::kMemorySpace</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kMemorySpace = Base::kMemorySpace</td>
         </tr>
       </table>
   </td>
@@ -1191,48 +1452,48 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac21bd78b31c99c826f0eddb5
 
 </div>
 </div>
-<a id="aaafe35622751532971c1b7efc54c888b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aaafe35622751532971c1b7efc54c888b">&#9670;&nbsp;</a></span>params</h2>
+<a id="a5561e676148200c2fc85a603847cc596"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5561e676148200c2fc85a603847cc596">&#9670;&nbsp;</a></span>params</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::params</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::params</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aa3fd9859de68d76e07ebee06c6ccee92"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa3fd9859de68d76e07ebee06c6ccee92">&#9670;&nbsp;</a></span>stage</h2>
+<a id="ad8e730768c1805d98e23886a492389d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8e730768c1805d98e23886a492389d3">&#9670;&nbsp;</a></span>stage</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::stage</td>
+          <td class="memname">int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::stage</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7726cdd4fe056c59bb04adb9e5504457"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7726cdd4fe056c59bb04adb9e5504457">&#9670;&nbsp;</a></span>thread_offset</h2>
+<a id="a7808588ce0b12017379dcbe1ba9c511f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7808588ce0b12017379dcbe1ba9c511f">&#9670;&nbsp;</a></span>thread_offset</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;4&gt; <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::thread_offset</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;4&gt; <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::thread_offset</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -1245,7 +1506,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7726cdd4fe056c59bb04adb9
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileLoadIterator.png b/docs/structcutlass_1_1TileLoadIterator.png
index 30866fa85d..bad871e1e7 100644
Binary files a/docs/structcutlass_1_1TileLoadIterator.png and b/docs/structcutlass_1_1TileLoadIterator.png differ
diff --git a/docs/structcutlass_1_1TileLoadIterator_1_1Params-members.html b/docs/structcutlass_1_1TileLoadIterator_1_1Params-members.html
index 1977795eae..25b1fdad22 100644
--- a/docs/structcutlass_1_1TileLoadIterator_1_1Params-members.html
+++ b/docs/structcutlass_1_1TileLoadIterator_1_1Params-members.html
@@ -73,30 +73,40 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params Member List</div>  </div>
+<div class="title">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76">initialize</a>(SharedStorage const &amp;storage)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#afd9e82df76ad35fe883b7834457242b2">initialize</a>(Scalar const *ptr, Index stride_d, Index stride_h, Index stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aa3922946bb0da0c0040dec44aa389ec1">initialize</a>(Scalar const *ptr, Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8">initialize</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">cutlass::TileIteratorBase::Params::initialize</a>(Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">cutlass::TileIteratorBase::Params::initialize</a>(Index _stride_d, Index _stride_h, Index _stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803">initialize</a>(TensorRef const &amp;ref)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a61b898051d0397b013407a4c90409aa0">initialize</a>(SharedStorage const &amp;storage)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8869188d1c3b867fe6389aadf04837bf">initialize</a>(Scalar const *ptr)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662">initialize</a>(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a53917e002fd29a5650752c65f96b353d">initialize</a>(Scalar const *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d">initialize</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">cutlass::TileIteratorBase::Params::initialize</a>(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">cutlass::TileIteratorBase::Params::initialize</a>(Coord&lt; 4 &gt; const &amp;stride)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">cutlass::TileIteratorBase::Params::initialize</a>(long long _stride_d, Index _stride_h, Index _stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5">Params</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a88a90437f11d029ef109ebb4f828f282">Params</a>(Scalar const *ptr)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192">Params</a>(TensorRef const &amp;ref)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a78380e92553010656516400d51e14c7e">Params</a>(Scalar const *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8c9856709d3392d8b70dce9a13fa529a">Params</a>(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">cutlass::TileIteratorBase::Params::Params</a>(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">cutlass::TileIteratorBase::Params::Params</a>(Coord&lt; 4 &gt; const &amp;stride)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileLoadIterator_1_1Params.html b/docs/structcutlass_1_1TileLoadIterator_1_1Params.html
index b25879f36b..70ae9afbd4 100644
--- a/docs/structcutlass_1_1TileLoadIterator_1_1Params.html
+++ b/docs/structcutlass_1_1TileLoadIterator_1_1Params.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params Struct Reference</title>
+<title>Cutlass: cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params Struct Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -77,7 +77,7 @@
 <a href="#pub-attribs">Public Attributes</a> &#124;
 <a href="structcutlass_1_1TileLoadIterator_1_1Params-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params Struct Reference</div>  </div>
+<div class="title">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params Struct Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -86,75 +86,346 @@
 
 <p><code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">tile_iterator.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params:</div>
+Inheritance diagram for cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1TileLoadIterator_1_1Params.png" usemap="#cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E::Params_map" alt=""/>
-  <map id="cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E::Params_map" name="cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E::Params_map">
-<area href="structcutlass_1_1TileIteratorBase_1_1Params.html" title="Parameters to the iterator. " alt="cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params" shape="rect" coords="0,0,780,24"/>
-<area href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html" alt="cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params" shape="rect" coords="0,112,780,136"/>
+  <img src="structcutlass_1_1TileLoadIterator_1_1Params.png" usemap="#cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E::Params_map" alt=""/>
+  <map id="cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E::Params_map" name="cutlass::TileLoadIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E::Params_map">
+<area href="structcutlass_1_1TileIteratorBase_1_1Params.html" title="Parameters to the iterator. " alt="cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params" shape="rect" coords="0,0,812,24"/>
+<area href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html" alt="cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params" shape="rect" coords="0,112,812,136"/>
 </map>
  </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:aeeea0f8bdee876553a4908b9b7cbaf76"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a> const &amp;storage)</td></tr>
-<tr class="memdesc:aeeea0f8bdee876553a4908b9b7cbaf76"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="#aeeea0f8bdee876553a4908b9b7cbaf76">More...</a><br /></td></tr>
-<tr class="separator:aeeea0f8bdee876553a4908b9b7cbaf76"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afd9e82df76ad35fe883b7834457242b2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#afd9e82df76ad35fe883b7834457242b2">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> const *ptr, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a>)</td></tr>
-<tr class="memdesc:afd9e82df76ad35fe883b7834457242b2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to access a raw pointer.  <a href="#afd9e82df76ad35fe883b7834457242b2">More...</a><br /></td></tr>
-<tr class="separator:afd9e82df76ad35fe883b7834457242b2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa3922946bb0da0c0040dec44aa389ec1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aa3922946bb0da0c0040dec44aa389ec1">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> const *ptr, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_advance)</td></tr>
-<tr class="memdesc:aa3922946bb0da0c0040dec44aa389ec1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="#aa3922946bb0da0c0040dec44aa389ec1">More...</a><br /></td></tr>
-<tr class="separator:aa3922946bb0da0c0040dec44aa389ec1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aebaecd0f971245ffc5a50fe5f7a9b4e8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8">initialize</a> ()</td></tr>
-<tr class="separator:aebaecd0f971245ffc5a50fe5f7a9b4e8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
-<tr class="memitem:ad2631ffcc963638aa5b016c66a2e2c55 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">initialize</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_advance)</td></tr>
-<tr class="memdesc:ad2631ffcc963638aa5b016c66a2e2c55 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">More...</a><br /></td></tr>
-<tr class="separator:ad2631ffcc963638aa5b016c66a2e2c55 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3ba93370bd4b2ede4bd4eb97ac0881be inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">initialize</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w)</td></tr>
-<tr class="separator:a3ba93370bd4b2ede4bd4eb97ac0881be inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af496afebb8983e5d346c681334955224 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">initialize</a> ()</td></tr>
-<tr class="separator:af496afebb8983e5d346c681334955224 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9a1098e6c7b8c7c377031fe59a18fbf5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5">Params</a> ()</td></tr>
+<tr class="memdesc:a9a1098e6c7b8c7c377031fe59a18fbf5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="#a9a1098e6c7b8c7c377031fe59a18fbf5">More...</a><br /></td></tr>
+<tr class="separator:a9a1098e6c7b8c7c377031fe59a18fbf5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a88a90437f11d029ef109ebb4f828f282"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a88a90437f11d029ef109ebb4f828f282">Params</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr)</td></tr>
+<tr class="memdesc:a88a90437f11d029ef109ebb4f828f282"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="#a88a90437f11d029ef109ebb4f828f282">More...</a><br /></td></tr>
+<tr class="separator:a88a90437f11d029ef109ebb4f828f282"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2de32338814d0554b05ca985dbb7e192"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192">Params</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> const &amp;ref)</td></tr>
+<tr class="memdesc:a2de32338814d0554b05ca985dbb7e192"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs with a CompactTensorRef&lt;&gt;  <a href="#a2de32338814d0554b05ca985dbb7e192">More...</a><br /></td></tr>
+<tr class="separator:a2de32338814d0554b05ca985dbb7e192"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a78380e92553010656516400d51e14c7e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a78380e92553010656516400d51e14c7e">Params</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr, long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_advance)</td></tr>
+<tr class="memdesc:a78380e92553010656516400d51e14c7e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="#a78380e92553010656516400d51e14c7e">More...</a><br /></td></tr>
+<tr class="separator:a78380e92553010656516400d51e14c7e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8c9856709d3392d8b70dce9a13fa529a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8c9856709d3392d8b70dce9a13fa529a">Params</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr, long long <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>)</td></tr>
+<tr class="memdesc:a8c9856709d3392d8b70dce9a13fa529a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="#a8c9856709d3392d8b70dce9a13fa529a">More...</a><br /></td></tr>
+<tr class="separator:a8c9856709d3392d8b70dce9a13fa529a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac22d9229f3f8993d52b808dced173803"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> const &amp;ref)</td></tr>
+<tr class="memdesc:ac22d9229f3f8993d52b808dced173803"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to access a raw pointer.  <a href="#ac22d9229f3f8993d52b808dced173803">More...</a><br /></td></tr>
+<tr class="separator:ac22d9229f3f8993d52b808dced173803"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a61b898051d0397b013407a4c90409aa0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a61b898051d0397b013407a4c90409aa0">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a> const &amp;storage)</td></tr>
+<tr class="memdesc:a61b898051d0397b013407a4c90409aa0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="#a61b898051d0397b013407a4c90409aa0">More...</a><br /></td></tr>
+<tr class="separator:a61b898051d0397b013407a4c90409aa0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8869188d1c3b867fe6389aadf04837bf"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8869188d1c3b867fe6389aadf04837bf">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr)</td></tr>
+<tr class="memdesc:a8869188d1c3b867fe6389aadf04837bf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="#a8869188d1c3b867fe6389aadf04837bf">More...</a><br /></td></tr>
+<tr class="separator:a8869188d1c3b867fe6389aadf04837bf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9a40662ff01a14e0616ce1a0fbb70662"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr, long long <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>)</td></tr>
+<tr class="memdesc:a9a40662ff01a14e0616ce1a0fbb70662"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to access a raw pointer.  <a href="#a9a40662ff01a14e0616ce1a0fbb70662">More...</a><br /></td></tr>
+<tr class="separator:a9a40662ff01a14e0616ce1a0fbb70662"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a53917e002fd29a5650752c65f96b353d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a53917e002fd29a5650752c65f96b353d">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr, long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_advance)</td></tr>
+<tr class="memdesc:a53917e002fd29a5650752c65f96b353d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="#a53917e002fd29a5650752c65f96b353d">More...</a><br /></td></tr>
+<tr class="separator:a53917e002fd29a5650752c65f96b353d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3175746438646453e93e6e08e954bc8d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d">initialize</a> ()</td></tr>
+<tr class="separator:a3175746438646453e93e6e08e954bc8d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:acc0341b88143aac4ffd9bc1dcfaafa71 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">Params</a> ()</td></tr>
+<tr class="memdesc:acc0341b88143aac4ffd9bc1dcfaafa71 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">More...</a><br /></td></tr>
+<tr class="separator:acc0341b88143aac4ffd9bc1dcfaafa71 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab04617136a3bf909ef27eb97ea5ef81c inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">Params</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, long long _inc_advance)</td></tr>
+<tr class="memdesc:ab04617136a3bf909ef27eb97ea5ef81c inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">More...</a><br /></td></tr>
+<tr class="separator:ab04617136a3bf909ef27eb97ea5ef81c inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac030ea4568fa2cb6d6661df75062cd1a inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">Params</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;stride)</td></tr>
+<tr class="memdesc:ac030ea4568fa2cb6d6661df75062cd1a inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params with a stride vector.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">More...</a><br /></td></tr>
+<tr class="separator:ac030ea4568fa2cb6d6661df75062cd1a inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a802c270449da579ed8661e915d27ce60 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">initialize</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, long long _inc_advance)</td></tr>
+<tr class="memdesc:a802c270449da579ed8661e915d27ce60 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">More...</a><br /></td></tr>
+<tr class="separator:a802c270449da579ed8661e915d27ce60 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2ef70d9e13b5aa7e4a53233b153d7edd inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">initialize</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;stride)</td></tr>
+<tr class="memdesc:a2ef70d9e13b5aa7e4a53233b153d7edd inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes the parameters object from a vector of strides.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">More...</a><br /></td></tr>
+<tr class="separator:a2ef70d9e13b5aa7e4a53233b153d7edd inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a44870d45442ec45c8eaba46ab47a3ad9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">initialize</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w)</td></tr>
+<tr class="memdesc:a44870d45442ec45c8eaba46ab47a3ad9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes the parameters object from a vector of strides.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">More...</a><br /></td></tr>
+<tr class="separator:a44870d45442ec45c8eaba46ab47a3ad9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1776bf51e1e23cde6c58529be58aafb9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">initialize</a> ()</td></tr>
+<tr class="memdesc:a1776bf51e1e23cde6c58529be58aafb9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gotta have this.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">More...</a><br /></td></tr>
+<tr class="separator:a1776bf51e1e23cde6c58529be58aafb9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:a6608f7027994aaebdefd004fe94153d9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a></td></tr>
-<tr class="memdesc:a6608f7027994aaebdefd004fe94153d9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Pointer to memory.  <a href="#a6608f7027994aaebdefd004fe94153d9">More...</a><br /></td></tr>
-<tr class="separator:a6608f7027994aaebdefd004fe94153d9"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
-<tr class="memitem:ad67234ec264354a22032bb2519575dc1 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a></td></tr>
-<tr class="separator:ad67234ec264354a22032bb2519575dc1 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a58e8c883aea4cfdfa5a84c25a4704ebc inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a></td></tr>
-<tr class="separator:a58e8c883aea4cfdfa5a84c25a4704ebc inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a313984457c78eea66c980f6813047b9c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a></td></tr>
-<tr class="separator:a313984457c78eea66c980f6813047b9c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af95fa1b5102176a0fa9b17713fd48150 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a></td></tr>
-<tr class="separator:af95fa1b5102176a0fa9b17713fd48150 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aea591d4278a8338ae8b50fa0b8f3a366 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a></td></tr>
-<tr class="separator:aea591d4278a8338ae8b50fa0b8f3a366 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac6e81450a2d78555a6c2415dcc42b178 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a></td></tr>
-<tr class="separator:ac6e81450a2d78555a6c2415dcc42b178 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1187258cd4068a627e73bee0302f1fc2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a></td></tr>
-<tr class="separator:a1187258cd4068a627e73bee0302f1fc2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a388d464c35cc1bcd509d22937f38dcf6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a></td></tr>
+<tr class="memdesc:a388d464c35cc1bcd509d22937f38dcf6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Pointer to memory.  <a href="#a388d464c35cc1bcd509d22937f38dcf6">More...</a><br /></td></tr>
+<tr class="separator:a388d464c35cc1bcd509d22937f38dcf6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:a235647baff946e483dd61a2069aa01d2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a></td></tr>
+<tr class="separator:a235647baff946e483dd61a2069aa01d2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4f029a268387bd63112d9074c185c623 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a></td></tr>
+<tr class="separator:a4f029a268387bd63112d9074c185c623 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af7e7a71a9fa41cc3f6d0e5963963339d inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a></td></tr>
+<tr class="separator:af7e7a71a9fa41cc3f6d0e5963963339d inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7b4293bf8291b0383dee695a60f2e0fd inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a></td></tr>
+<tr class="separator:a7b4293bf8291b0383dee695a60f2e0fd inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a15227102466522445261b6ea65c89c06 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a></td></tr>
+<tr class="separator:a15227102466522445261b6ea65c89c06 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af0be1271cfe6d6c03a9a76ff992d8a5c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a></td></tr>
+<tr class="separator:af0be1271cfe6d6c03a9a76ff992d8a5c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6d8f1e07f286ed8d5761e2a878b807d3 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a></td></tr>
+<tr class="separator:a6d8f1e07f286ed8d5761e2a878b807d3 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a9a1098e6c7b8c7c377031fe59a18fbf5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a1098e6c7b8c7c377031fe59a18fbf5">&#9670;&nbsp;</a></span>Params() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a88a90437f11d029ef109ebb4f828f282"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a88a90437f11d029ef109ebb4f828f282">&#9670;&nbsp;</a></span>Params() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>ptr</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2de32338814d0554b05ca985dbb7e192"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2de32338814d0554b05ca985dbb7e192">&#9670;&nbsp;</a></span>Params() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a78380e92553010656516400d51e14c7e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a78380e92553010656516400d51e14c7e">&#9670;&nbsp;</a></span>Params() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_stride_d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_stride_h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_stride_w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_inc_d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_inc_h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_inc_w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_inc_advance</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8c9856709d3392d8b70dce9a13fa529a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c9856709d3392d8b70dce9a13fa529a">&#9670;&nbsp;</a></span>Params() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>stride_d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>stride_h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>stride_w</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="aeeea0f8bdee876553a4908b9b7cbaf76"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aeeea0f8bdee876553a4908b9b7cbaf76">&#9670;&nbsp;</a></span>initialize() <span class="overload">[1/4]</span></h2>
+<a id="ac22d9229f3f8993d52b808dced173803"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac22d9229f3f8993d52b808dced173803">&#9670;&nbsp;</a></span>initialize() <span class="overload">[1/6]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a> const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a61b898051d0397b013407a4c90409aa0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a61b898051d0397b013407a4c90409aa0">&#9670;&nbsp;</a></span>initialize() <span class="overload">[2/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a> const &amp;&#160;</td>
           <td class="paramname"><em>storage</em></td><td>)</td>
           <td></td>
         </tr>
@@ -168,39 +439,67 @@ <h2 class="memtitle"><span class="permalink"><a href="#aeeea0f8bdee876553a4908b9
 
 </div>
 </div>
-<a id="afd9e82df76ad35fe883b7834457242b2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#afd9e82df76ad35fe883b7834457242b2">&#9670;&nbsp;</a></span>initialize() <span class="overload">[2/4]</span></h2>
+<a id="a8869188d1c3b867fe6389aadf04837bf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8869188d1c3b867fe6389aadf04837bf">&#9670;&nbsp;</a></span>initialize() <span class="overload">[3/6]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *&#160;</td>
+          <td class="paramname"><em>ptr</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9a40662ff01a14e0616ce1a0fbb70662"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a40662ff01a14e0616ce1a0fbb70662">&#9670;&nbsp;</a></span>initialize() <span class="overload">[4/6]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> const *&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *&#160;</td>
           <td class="paramname"><em>ptr</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype">long long&#160;</td>
           <td class="paramname"><em>stride_d</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>stride_h</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>stride_w</em>&#160;</td>
         </tr>
         <tr>
@@ -218,63 +517,63 @@ <h2 class="memtitle"><span class="permalink"><a href="#afd9e82df76ad35fe883b7834
 
 </div>
 </div>
-<a id="aa3922946bb0da0c0040dec44aa389ec1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa3922946bb0da0c0040dec44aa389ec1">&#9670;&nbsp;</a></span>initialize() <span class="overload">[3/4]</span></h2>
+<a id="a53917e002fd29a5650752c65f96b353d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53917e002fd29a5650752c65f96b353d">&#9670;&nbsp;</a></span>initialize() <span class="overload">[5/6]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> const *&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *&#160;</td>
           <td class="paramname"><em>ptr</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype">long long&#160;</td>
           <td class="paramname"><em>_stride_d</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_stride_h</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_stride_w</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype">long long&#160;</td>
           <td class="paramname"><em>_inc_d</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_inc_h</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_inc_w</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_inc_advance</em>&#160;</td>
         </tr>
         <tr>
@@ -292,19 +591,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa3922946bb0da0c0040dec44
 
 </div>
 </div>
-<a id="aebaecd0f971245ffc5a50fe5f7a9b4e8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aebaecd0f971245ffc5a50fe5f7a9b4e8">&#9670;&nbsp;</a></span>initialize() <span class="overload">[4/4]</span></h2>
+<a id="a3175746438646453e93e6e08e954bc8d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3175746438646453e93e6e08e954bc8d">&#9670;&nbsp;</a></span>initialize() <span class="overload">[6/6]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -320,16 +619,16 @@ <h2 class="memtitle"><span class="permalink"><a href="#aebaecd0f971245ffc5a50fe5
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="a6608f7027994aaebdefd004fe94153d9"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6608f7027994aaebdefd004fe94153d9">&#9670;&nbsp;</a></span>pointer</h2>
+<a id="a388d464c35cc1bcd509d22937f38dcf6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a388d464c35cc1bcd509d22937f38dcf6">&#9670;&nbsp;</a></span>pointer</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_, typename Scalar_, IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_ = int, typename FragmentElement_ = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_ = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> const* <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::pointer</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const* <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::pointer</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -342,7 +641,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6608f7027994aaebdefd004f
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileLoadIterator_1_1Params.png b/docs/structcutlass_1_1TileLoadIterator_1_1Params.png
index 9993389178..831398c27b 100644
Binary files a/docs/structcutlass_1_1TileLoadIterator_1_1Params.png and b/docs/structcutlass_1_1TileLoadIterator_1_1Params.png differ
diff --git a/docs/structcutlass_1_1TileLoadStream-members.html b/docs/structcutlass_1_1TileLoadStream-members.html
new file mode 100644
index 0000000000..463ff21440
--- /dev/null
+++ b/docs/structcutlass_1_1TileLoadStream-members.html
@@ -0,0 +1,106 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627">commit</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23">copy</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">fetched_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be">fragment</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093">intermediate_fragment</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">Iterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3">TileLoadStream</a>(Params const &amp;_params, TensorRef const &amp;_ref)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7">TileLoadStream</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">transformed_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">transformer</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">Transformer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileLoadStream.html b/docs/structcutlass_1_1TileLoadStream.html
new file mode 100644
index 0000000000..ca065a3d70
--- /dev/null
+++ b/docs/structcutlass_1_1TileLoadStream.html
@@ -0,0 +1,525 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1TileLoadStream-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Generic stream for loading and transforming fragments.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__stream_8h_source.html">tile_stream.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1TileLoadStream.png" usemap="#cutlass::TileLoadStream_3C_20Iterator_5F_2C_20Transformer_5F_20_3E_map" alt=""/>
+  <map id="cutlass::TileLoadStream_3C_20Iterator_5F_2C_20Transformer_5F_20_3E_map" name="cutlass::TileLoadStream_3C_20Iterator_5F_2C_20Transformer_5F_20_3E_map">
+<area href="structcutlass_1_1PredicatedTileLoadStream.html" title="Generic stream for loading and transforming fragments. " alt="cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;" shape="rect" coords="0,56,475,80"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object used to construct generic load stream.  <a href="structcutlass_1_1TileLoadStream_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html">PredicateVector</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Empty predicate vector struct.  <a href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a21234ea1d4e0ff5cd599c763035b967b"><td class="memItemLeft" align="right" valign="top">typedef Iterator_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">Iterator</a></td></tr>
+<tr class="memdesc:a21234ea1d4e0ff5cd599c763035b967b"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1TileLoadIterator.html" title="An iterator implementing Tile Load Iterator Concept for loading a tile from memory. ">TileLoadIterator</a>.  <a href="#a21234ea1d4e0ff5cd599c763035b967b">More...</a><br /></td></tr>
+<tr class="separator:a21234ea1d4e0ff5cd599c763035b967b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad531770d336b2541c303c19148ef5cd7"><td class="memItemLeft" align="right" valign="top">typedef Transformer_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">Transformer</a></td></tr>
+<tr class="memdesc:ad531770d336b2541c303c19148ef5cd7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformer.  <a href="#ad531770d336b2541c303c19148ef5cd7">More...</a><br /></td></tr>
+<tr class="separator:ad531770d336b2541c303c19148ef5cd7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea86cbd64781caabeee293cfa2070e81"><td class="memItemLeft" align="right" valign="top">typedef Iterator::Fragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a></td></tr>
+<tr class="memdesc:aea86cbd64781caabeee293cfa2070e81"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> fetched from source memory.  <a href="#aea86cbd64781caabeee293cfa2070e81">More...</a><br /></td></tr>
+<tr class="separator:aea86cbd64781caabeee293cfa2070e81"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a94cde8bcdcedc934cc14de19e43375d1"><td class="memItemLeft" align="right" valign="top">typedef Transformer::OutputFragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a></td></tr>
+<tr class="memdesc:a94cde8bcdcedc934cc14de19e43375d1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Output fragment from transformer.  <a href="#a94cde8bcdcedc934cc14de19e43375d1">More...</a><br /></td></tr>
+<tr class="separator:a94cde8bcdcedc934cc14de19e43375d1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8c9256c5cdd1fd129dbcc6536375aca7"><td class="memItemLeft" align="right" valign="top">typedef Iterator::TensorRef&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">TensorRef</a></td></tr>
+<tr class="memdesc:a8c9256c5cdd1fd129dbcc6536375aca7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference expected by the stream.  <a href="#a8c9256c5cdd1fd129dbcc6536375aca7">More...</a><br /></td></tr>
+<tr class="separator:a8c9256c5cdd1fd129dbcc6536375aca7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a90ca6bbd882e39b5624ee0cd17e0d652"><td class="memItemLeft" align="right" valign="top">typedef Iterator::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">Index</a></td></tr>
+<tr class="memdesc:a90ca6bbd882e39b5624ee0cd17e0d652"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#a90ca6bbd882e39b5624ee0cd17e0d652">More...</a><br /></td></tr>
+<tr class="separator:a90ca6bbd882e39b5624ee0cd17e0d652"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a40a9b1a87cda0f3eb6f4b3e73a4fade3"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3">TileLoadStream</a> (<a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">TensorRef</a> const &amp;_ref)</td></tr>
+<tr class="memdesc:a40a9b1a87cda0f3eb6f4b3e73a4fade3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a40a9b1a87cda0f3eb6f4b3e73a4fade3">More...</a><br /></td></tr>
+<tr class="separator:a40a9b1a87cda0f3eb6f4b3e73a4fade3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6b8b65772d95c30d29e7833348d06ba7"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7">TileLoadStream</a> (<a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;threadblock_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:a6b8b65772d95c30d29e7833348d06ba7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a6b8b65772d95c30d29e7833348d06ba7">More...</a><br /></td></tr>
+<tr class="separator:a6b8b65772d95c30d29e7833348d06ba7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aed4e6a6f1bc125ea40ae04fb120d6a23"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23">copy</a> ()</td></tr>
+<tr class="memdesc:aed4e6a6f1bc125ea40ae04fb120d6a23"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a tile and increments the iterator.  <a href="#aed4e6a6f1bc125ea40ae04fb120d6a23">More...</a><br /></td></tr>
+<tr class="separator:aed4e6a6f1bc125ea40ae04fb120d6a23"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac004fc2e078591ced5d4e5521dfd8627"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627">commit</a> ()</td></tr>
+<tr class="memdesc:ac004fc2e078591ced5d4e5521dfd8627"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commits the fetched fragment and applies a transformation.  <a href="#ac004fc2e078591ced5d4e5521dfd8627">More...</a><br /></td></tr>
+<tr class="separator:ac004fc2e078591ced5d4e5521dfd8627"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af2727fc0ddeffd1cdaef751140aa6093"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093">intermediate_fragment</a> ()</td></tr>
+<tr class="memdesc:af2727fc0ddeffd1cdaef751140aa6093"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the loaded, transformed fragment.  <a href="#af2727fc0ddeffd1cdaef751140aa6093">More...</a><br /></td></tr>
+<tr class="separator:af2727fc0ddeffd1cdaef751140aa6093"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5b7161b2b97100c13c2c5009edd2a6be"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be">fragment</a> ()</td></tr>
+<tr class="memdesc:a5b7161b2b97100c13c2c5009edd2a6be"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the loaded, transformed fragment.  <a href="#a5b7161b2b97100c13c2c5009edd2a6be">More...</a><br /></td></tr>
+<tr class="separator:a5b7161b2b97100c13c2c5009edd2a6be"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:ab6d8716c166d071615f4e78d9ac6efb8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">Iterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">iterator</a></td></tr>
+<tr class="memdesc:ab6d8716c166d071615f4e78d9ac6efb8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterator to load tiles.  <a href="#ab6d8716c166d071615f4e78d9ac6efb8">More...</a><br /></td></tr>
+<tr class="separator:ab6d8716c166d071615f4e78d9ac6efb8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a89b0f92764b5492a8d1de2c1ada60869"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">fetched_fragment</a></td></tr>
+<tr class="memdesc:a89b0f92764b5492a8d1de2c1ada60869"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> loaded via iterator.  <a href="#a89b0f92764b5492a8d1de2c1ada60869">More...</a><br /></td></tr>
+<tr class="separator:a89b0f92764b5492a8d1de2c1ada60869"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54399d7a42c1330ef0e756949483c552"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">Transformer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">transformer</a></td></tr>
+<tr class="memdesc:a54399d7a42c1330ef0e756949483c552"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformation applied to fragments.  <a href="#a54399d7a42c1330ef0e756949483c552">More...</a><br /></td></tr>
+<tr class="separator:a54399d7a42c1330ef0e756949483c552"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac61d45d91faf9d060509cf1e5c34fe01"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">transformed_fragment</a></td></tr>
+<tr class="memdesc:ac61d45d91faf9d060509cf1e5c34fe01"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformed fragment from transformer.  <a href="#ac61d45d91faf9d060509cf1e5c34fe01">More...</a><br /></td></tr>
+<tr class="separator:ac61d45d91faf9d060509cf1e5c34fe01"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="aea86cbd64781caabeee293cfa2070e81"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea86cbd64781caabeee293cfa2070e81">&#9670;&nbsp;</a></span>Fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Iterator::Fragment <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a90ca6bbd882e39b5624ee0cd17e0d652"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a90ca6bbd882e39b5624ee0cd17e0d652">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Iterator::Index <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a21234ea1d4e0ff5cd599c763035b967b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a21234ea1d4e0ff5cd599c763035b967b">&#9670;&nbsp;</a></span>Iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Iterator_ <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">Iterator</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8c9256c5cdd1fd129dbcc6536375aca7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c9256c5cdd1fd129dbcc6536375aca7">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Iterator::TensorRef <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a94cde8bcdcedc934cc14de19e43375d1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94cde8bcdcedc934cc14de19e43375d1">&#9670;&nbsp;</a></span>TransformedFragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Transformer::OutputFragment <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad531770d336b2541c303c19148ef5cd7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad531770d336b2541c303c19148ef5cd7">&#9670;&nbsp;</a></span>Transformer</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Transformer_ <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">Transformer</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a40a9b1a87cda0f3eb6f4b3e73a4fade3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a40a9b1a87cda0f3eb6f4b3e73a4fade3">&#9670;&nbsp;</a></span>TileLoadStream() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">TensorRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_ref</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6b8b65772d95c30d29e7833348d06ba7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6b8b65772d95c30d29e7833348d06ba7">&#9670;&nbsp;</a></span>TileLoadStream() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>threadblock_offset</em> = <code><a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,&#160;0,&#160;0)</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ac004fc2e078591ced5d4e5521dfd8627"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac004fc2e078591ced5d4e5521dfd8627">&#9670;&nbsp;</a></span>commit()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::commit </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aed4e6a6f1bc125ea40ae04fb120d6a23"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed4e6a6f1bc125ea40ae04fb120d6a23">&#9670;&nbsp;</a></span>copy()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::copy </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5b7161b2b97100c13c2c5009edd2a6be"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5b7161b2b97100c13c2c5009edd2a6be">&#9670;&nbsp;</a></span>fragment()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a>&amp; <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::fragment </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af2727fc0ddeffd1cdaef751140aa6093"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af2727fc0ddeffd1cdaef751140aa6093">&#9670;&nbsp;</a></span>intermediate_fragment()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a>&amp; <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::intermediate_fragment </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a89b0f92764b5492a8d1de2c1ada60869"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a89b0f92764b5492a8d1de2c1ada60869">&#9670;&nbsp;</a></span>fetched_fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a> <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::fetched_fragment</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab6d8716c166d071615f4e78d9ac6efb8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab6d8716c166d071615f4e78d9ac6efb8">&#9670;&nbsp;</a></span>iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">Iterator</a> <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::iterator</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac61d45d91faf9d060509cf1e5c34fe01"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac61d45d91faf9d060509cf1e5c34fe01">&#9670;&nbsp;</a></span>transformed_fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a> <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::transformed_fragment</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a54399d7a42c1330ef0e756949483c552"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54399d7a42c1330ef0e756949483c552">&#9670;&nbsp;</a></span>transformer</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">Transformer</a> <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::transformer</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__stream_8h_source.html">tile_stream.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileLoadStream.png b/docs/structcutlass_1_1TileLoadStream.png
new file mode 100644
index 0000000000..3f78724914
Binary files /dev/null and b/docs/structcutlass_1_1TileLoadStream.png differ
diff --git a/docs/structcutlass_1_1TileLoadStream_1_1Params-members.html b/docs/structcutlass_1_1TileLoadStream_1_1Params-members.html
new file mode 100644
index 0000000000..bafa4e14a2
--- /dev/null
+++ b/docs/structcutlass_1_1TileLoadStream_1_1Params-members.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html#a0430f377595718291f84ef62eb6f4e57">iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html#a90772ac34f8c49f049eb62fada0a2165">Params</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html#a50f136516b139f011939015c8c417ddd">Params</a>(typename Iterator::Params const &amp;_iterator)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileLoadStream_1_1Params.html b/docs/structcutlass_1_1TileLoadStream_1_1Params.html
new file mode 100644
index 0000000000..34eec4d302
--- /dev/null
+++ b/docs/structcutlass_1_1TileLoadStream_1_1Params.html
@@ -0,0 +1,188 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1TileLoadStream_1_1Params-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Parameters object used to construct generic load stream.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__stream_8h_source.html">tile_stream.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a90772ac34f8c49f049eb62fada0a2165"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html#a90772ac34f8c49f049eb62fada0a2165">Params</a> ()</td></tr>
+<tr class="memdesc:a90772ac34f8c49f049eb62fada0a2165"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="#a90772ac34f8c49f049eb62fada0a2165">More...</a><br /></td></tr>
+<tr class="separator:a90772ac34f8c49f049eb62fada0a2165"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a50f136516b139f011939015c8c417ddd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html#a50f136516b139f011939015c8c417ddd">Params</a> (typename Iterator::Params const &amp;_iterator)</td></tr>
+<tr class="memdesc:a50f136516b139f011939015c8c417ddd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor with iterator params.  <a href="#a50f136516b139f011939015c8c417ddd">More...</a><br /></td></tr>
+<tr class="separator:a50f136516b139f011939015c8c417ddd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a0430f377595718291f84ef62eb6f4e57"><td class="memItemLeft" align="right" valign="top">Iterator::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html#a0430f377595718291f84ef62eb6f4e57">iterator</a></td></tr>
+<tr class="memdesc:a0430f377595718291f84ef62eb6f4e57"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters to the iterator.  <a href="#a0430f377595718291f84ef62eb6f4e57">More...</a><br /></td></tr>
+<tr class="separator:a0430f377595718291f84ef62eb6f4e57"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a90772ac34f8c49f049eb62fada0a2165"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a90772ac34f8c49f049eb62fada0a2165">&#9670;&nbsp;</a></span>Params() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a50f136516b139f011939015c8c417ddd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a50f136516b139f011939015c8c417ddd">&#9670;&nbsp;</a></span>Params() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype">typename Iterator::Params const &amp;&#160;</td>
+          <td class="paramname"><em>_iterator</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a0430f377595718291f84ef62eb6f4e57"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0430f377595718291f84ef62eb6f4e57">&#9670;&nbsp;</a></span>iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">Iterator::Params <a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a>&lt; Iterator_, Transformer_ &gt;::Params::iterator</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__stream_8h_source.html">tile_stream.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileLoadStream_1_1PredicateVector.html b/docs/structcutlass_1_1TileLoadStream_1_1PredicateVector.html
new file mode 100644
index 0000000000..2ff76de11b
--- /dev/null
+++ b/docs/structcutlass_1_1TileLoadStream_1_1PredicateVector.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::PredicateVector Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html">PredicateVector</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::PredicateVector Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Empty predicate vector struct.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__stream_8h_source.html">tile_stream.h</a>&gt;</code></p>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__stream_8h_source.html">tile_stream.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileStoreIterator-members.html b/docs/structcutlass_1_1TileStoreIterator-members.html
index f24d2dcd78..9499cf9727 100644
--- a/docs/structcutlass_1_1TileStoreIterator-members.html
+++ b/docs/structcutlass_1_1TileStoreIterator-members.html
@@ -73,59 +73,70 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Member List</div>  </div>
+<div class="title">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a0e79ed59263ebc3478c43f2f9a50cb5a">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#af4576dca736bab8ac73b308522cb4a67">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5484b46ac2646edb7a185b51137f70c0">BaseParams</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5ebab59862d5f50ad980871515d999b0">data</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a1c433ba0eea5e6a46f36101d8de98ed0">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a48de0db7ee2ee9699b946a9d5a0364c7">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a2b13136a970fae187fcb377c9be28fac">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a0843b2d82422e7178f324a8d3be9d705">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a3b872e85844c9e009fa480a71a829136">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a1614b27755cf82c0e1f3e7852c5a4c75">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a74dffe1ddcc84935ab170117e939b7e3">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a3793f5d5846862f22f1de736e36ae7c1">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a187e0852ec4862f6d3cb6249bedc3bb3">inc_stage</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa573a47a9ffc3e07239a09e2bc470cf1">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5ac2280dfcac08cec17b8c0db1c4593e">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#af92ba20db048a9ec96976a1673f0f7c2">initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a552a67fb03c28e985d143f6193f88308">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a8059c57030df99b73309e9210ec5f624">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a94c0567316118abfb84fc28560a5a46a">kIteratorFragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#adaebec9eacf767f63f048033de73ea5b">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5aa507eaeb63951f8e69fb223ec41809">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a57348779bb004ed1ea0fd9cc252e895d">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">stage</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a53820de506cecb1f5fb07b3385d8272a">store</a>(Fragment &amp;fragment, PredicateIterator pred_it) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a60258b7c1a1708f97e28f8f6c292bfe4">store</a>(Fragment &amp;fragment) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a57aa2c36eb6ad9d2500c1f5396b3a526">store_post_increment</a>(Fragment &amp;fragment, PredicateIterator pred_it)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ae63949f58c1b32959bbfa5b64d521f0f">store_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">thread_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a8a87c8ef986e110a01a9226012594a61">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aac4d49854d63f632627b6974f9b59dbb">TileStoreIterator</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a037ccd942359e6bc8640a240b13cd330">TileStoreIterator</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a4f89c5182659de94605300e15c3651b2">TileStoreIterator</a>(Params const &amp;, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a6f50a8aec2d7045e9057b93df08172a8">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a10431ed94c0dd66a8c1d01ba7c8b5aa2">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa6977ded39ead005b3435f13f0e51116">add_pointer_offset</a>(Index offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a24fa369165de783a72311d8ec3115c48">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5dd2a31d41d9098e928c559af12cbe66">BaseParams</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#afdb38f790d9c7cf1ac238643103b45ce">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#adfcd8a2e63bd0c515ef03760cc1c4283">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ace8a65d90db264a0ee93a810be38918f">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a82ceeea55603dbb0c6e5bf9c22ac692e">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad61206a742c8c5ab5bcd64b76ece9f74">inc_stage</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aae07fdedeef68abd4e6c099924c70910">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#acb6bc889b93d25c9e483a0b7297d7c89">initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a890a7239a89679662aeaea797ba32d32">initialize_predicates</a>(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a8628ea7116f736b59c644fc0d85d395f">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a44200854ad5b35c1863f73c435b8750b">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f">kFragmentElementType</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6">load</a>(Fragment &amp;fragment, PredicateIterator pred_it) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a8c42ab8699c3fd74dc7b59d559364b9a">load</a>(Fragment &amp;fragment) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad33c46a584deb1c7968e08e349382af3">load</a>(Fragment &amp;fragment, int d)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c">load_element</a>(AccessType &amp;value, int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a57c56e2fe02fc5c771283e35d59b9214">load_post_increment</a>(Fragment &amp;fragment, PredicateIterator pred_it)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#adfbd262dfb19fffd91e0712190d9712d">load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a57b284e6cbff892d45e5cfeb0ae1e3ed">operator+=</a>(Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#adc4182adb78e34b7741f297eca86fe35">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a6157fe8a2ffefd45eba6f3953f0e2994">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a18248da35dc9a0ae2411121bee323085">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">stage</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a0218adf569557b17d8e36a3d97fb185e">store</a>(Fragment const &amp;fragment, PredicateIterator pred_it) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa27a456bf12d0e44adc89a1c2ca7bc3b">store</a>(Fragment const &amp;fragment) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a1f7c4143443d2bee4a69d1b380576f08">store_element</a>(AccessType const &amp;value, int d, int h, int w, int c)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#adbb7fdb5710295cdfb86e090a8c40f44">store_post_increment</a>(Fragment const &amp;fragment, PredicateIterator pred_it)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a35ab2595b09912d31a60c2a4e5847c88">store_post_increment</a>(Fragment const &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad18ee6f519b03e1dbf711339b63e16d6">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a9f4501c6e8ba0f4511919c1b63c14e69">TileStoreIterator</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa563bb10f8e58d97e81959556923e210">TileStoreIterator</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a2b58a21331cf3255f5d3938a39babf20">TileStoreIterator</a>(Params const &amp;, Scalar *ptr, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5016bd7b24938026a2879ec0054eb3b6">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileStoreIterator.html b/docs/structcutlass_1_1TileStoreIterator.html
index 4fe6f216b9..e1b7f0bd79 100644
--- a/docs/structcutlass_1_1TileStoreIterator.html
+++ b/docs/structcutlass_1_1TileStoreIterator.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -80,7 +80,7 @@
 <a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="structcutlass_1_1TileStoreIterator-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Struct Template Reference<div class="ingroups"><a class="el" href="group__tile__store__iterator__concept.html">Tile Store Iterator Concept</a></div></div>  </div>
+<div class="title">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Struct Template Reference<div class="ingroups"><a class="el" href="group__tile__store__iterator__concept.html">Tile Store Iterator Concept</a></div></div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -89,12 +89,12 @@
 
 <p><code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">tile_iterator.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;:</div>
+Inheritance diagram for cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1TileStoreIterator.png" usemap="#cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E_map" alt=""/>
-  <map id="cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E_map" name="cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E_map">
-<area href="structcutlass_1_1TileIteratorBase.html" title="Iterator for accessing a stripmined tile in memory. " alt="cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;" shape="rect" coords="0,0,734,24"/>
+  <img src="structcutlass_1_1TileStoreIterator.png" usemap="#cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E_map" alt=""/>
+  <map id="cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E_map" name="cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E_map">
+<area href="structcutlass_1_1TileIteratorBase.html" title="Iterator for accessing a stripmined tile in memory. " alt="cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;" shape="rect" coords="0,0,766,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
@@ -106,498 +106,572 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:af4576dca736bab8ac73b308522cb4a67"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#af4576dca736bab8ac73b308522cb4a67">Base</a></td></tr>
-<tr class="memdesc:af4576dca736bab8ac73b308522cb4a67"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base class.  <a href="#af4576dca736bab8ac73b308522cb4a67">More...</a><br /></td></tr>
-<tr class="separator:af4576dca736bab8ac73b308522cb4a67"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6f50a8aec2d7045e9057b93df08172a8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Base::Traits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a6f50a8aec2d7045e9057b93df08172a8">Traits</a></td></tr>
-<tr class="memdesc:a6f50a8aec2d7045e9057b93df08172a8"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept <a class="el" href="structcutlass_1_1TileTraits.html" title="A template defining Tile Traits Concept. ">TileTraits</a>  <a href="#a6f50a8aec2d7045e9057b93df08172a8">More...</a><br /></td></tr>
-<tr class="separator:a6f50a8aec2d7045e9057b93df08172a8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad52318b430437575b55099ca992ca3a7"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Base::Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a></td></tr>
-<tr class="memdesc:ad52318b430437575b55099ca992ca3a7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="#ad52318b430437575b55099ca992ca3a7">More...</a><br /></td></tr>
-<tr class="separator:ad52318b430437575b55099ca992ca3a7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2b13136a970fae187fcb377c9be28fac"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">Base::FragmentElement</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a2b13136a970fae187fcb377c9be28fac">FragmentElement</a></td></tr>
-<tr class="memdesc:a2b13136a970fae187fcb377c9be28fac"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> element.  <a href="#a2b13136a970fae187fcb377c9be28fac">More...</a><br /></td></tr>
-<tr class="separator:a2b13136a970fae187fcb377c9be28fac"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5ac2280dfcac08cec17b8c0db1c4593e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Base::Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5ac2280dfcac08cec17b8c0db1c4593e">Index</a></td></tr>
-<tr class="memdesc:a5ac2280dfcac08cec17b8c0db1c4593e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#a5ac2280dfcac08cec17b8c0db1c4593e">More...</a><br /></td></tr>
-<tr class="separator:a5ac2280dfcac08cec17b8c0db1c4593e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a57348779bb004ed1ea0fd9cc252e895d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Base::Skew</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a57348779bb004ed1ea0fd9cc252e895d">Skew</a></td></tr>
-<tr class="memdesc:a57348779bb004ed1ea0fd9cc252e895d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="#a57348779bb004ed1ea0fd9cc252e895d">More...</a><br /></td></tr>
-<tr class="separator:a57348779bb004ed1ea0fd9cc252e895d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8a87c8ef986e110a01a9226012594a61"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Base::Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a8a87c8ef986e110a01a9226012594a61">Tile</a></td></tr>
-<tr class="memdesc:a8a87c8ef986e110a01a9226012594a61"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="#a8a87c8ef986e110a01a9226012594a61">More...</a><br /></td></tr>
-<tr class="separator:a8a87c8ef986e110a01a9226012594a61"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1c433ba0eea5e6a46f36101d8de98ed0"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Base::Delta</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a1c433ba0eea5e6a46f36101d8de98ed0">Delta</a></td></tr>
-<tr class="memdesc:a1c433ba0eea5e6a46f36101d8de98ed0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Delta.  <a href="#a1c433ba0eea5e6a46f36101d8de98ed0">More...</a><br /></td></tr>
-<tr class="separator:a1c433ba0eea5e6a46f36101d8de98ed0"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a552a67fb03c28e985d143f6193f88308"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Base::Iterations</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a552a67fb03c28e985d143f6193f88308">Iterations</a></td></tr>
-<tr class="memdesc:a552a67fb03c28e985d143f6193f88308"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="#a552a67fb03c28e985d143f6193f88308">More...</a><br /></td></tr>
-<tr class="separator:a552a67fb03c28e985d143f6193f88308"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6a6f51f459f98c0cddeacf476660cd27"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">Base::ThreadOffset</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27">ThreadOffset</a></td></tr>
-<tr class="memdesc:a6a6f51f459f98c0cddeacf476660cd27"><td class="mdescLeft">&#160;</td><td class="mdescRight">ThreadOffset functor.  <a href="#a6a6f51f459f98c0cddeacf476660cd27">More...</a><br /></td></tr>
-<tr class="separator:a6a6f51f459f98c0cddeacf476660cd27"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3b872e85844c9e009fa480a71a829136"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">Base::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a3b872e85844c9e009fa480a71a829136">FragmentShape</a></td></tr>
-<tr class="memdesc:a3b872e85844c9e009fa480a71a829136"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> type.  <a href="#a3b872e85844c9e009fa480a71a829136">More...</a><br /></td></tr>
-<tr class="separator:a3b872e85844c9e009fa480a71a829136"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0e79ed59263ebc3478c43f2f9a50cb5a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">Base::AccessType</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a0e79ed59263ebc3478c43f2f9a50cb5a">AccessType</a></td></tr>
-<tr class="memdesc:a0e79ed59263ebc3478c43f2f9a50cb5a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory access type.  <a href="#a0e79ed59263ebc3478c43f2f9a50cb5a">More...</a><br /></td></tr>
-<tr class="separator:a0e79ed59263ebc3478c43f2f9a50cb5a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a95da23108b74ad085024ab45e84083e1"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">Fragment</a></td></tr>
-<tr class="memdesc:a95da23108b74ad085024ab45e84083e1"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> definition.  <a href="#a95da23108b74ad085024ab45e84083e1">More...</a><br /></td></tr>
-<tr class="separator:a95da23108b74ad085024ab45e84083e1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0843b2d82422e7178f324a8d3be9d705"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">Base::FragmentIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a0843b2d82422e7178f324a8d3be9d705">FragmentIterator</a></td></tr>
-<tr class="memdesc:a0843b2d82422e7178f324a8d3be9d705"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> iterator definition.  <a href="#a0843b2d82422e7178f324a8d3be9d705">More...</a><br /></td></tr>
-<tr class="separator:a0843b2d82422e7178f324a8d3be9d705"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a48de0db7ee2ee9699b946a9d5a0364c7"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">Base::FragmentConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a48de0db7ee2ee9699b946a9d5a0364c7">FragmentConstIterator</a></td></tr>
-<tr class="memdesc:a48de0db7ee2ee9699b946a9d5a0364c7"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> const iterator definition.  <a href="#a48de0db7ee2ee9699b946a9d5a0364c7">More...</a><br /></td></tr>
-<tr class="separator:a48de0db7ee2ee9699b946a9d5a0364c7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5aa507eaeb63951f8e69fb223ec41809"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">Base::PredicateVector</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5aa507eaeb63951f8e69fb223ec41809">PredicateVector</a></td></tr>
-<tr class="memdesc:a5aa507eaeb63951f8e69fb223ec41809"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="#a5aa507eaeb63951f8e69fb223ec41809">More...</a><br /></td></tr>
-<tr class="separator:a5aa507eaeb63951f8e69fb223ec41809"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab7922305d47b67e6cfb439e4e8d9f09b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Base::Storage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">SharedStorage</a></td></tr>
-<tr class="memdesc:ab7922305d47b67e6cfb439e4e8d9f09b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage object which may be stored to.  <a href="#ab7922305d47b67e6cfb439e4e8d9f09b">More...</a><br /></td></tr>
-<tr class="separator:ab7922305d47b67e6cfb439e4e8d9f09b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5484b46ac2646edb7a185b51137f70c0"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Base::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5484b46ac2646edb7a185b51137f70c0">BaseParams</a></td></tr>
-<tr class="memdesc:a5484b46ac2646edb7a185b51137f70c0"><td class="mdescLeft">&#160;</td><td class="mdescRight">IteratorBase parameters.  <a href="#a5484b46ac2646edb7a185b51137f70c0">More...</a><br /></td></tr>
-<tr class="separator:a5484b46ac2646edb7a185b51137f70c0"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_types_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
-<tr class="memitem:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a></td></tr>
-<tr class="memdesc:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept <a class="el" href="structcutlass_1_1TileTraits.html" title="A template defining Tile Traits Concept. ">TileTraits</a>  <a href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">More...</a><br /></td></tr>
-<tr class="separator:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a></td></tr>
-<tr class="memdesc:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">More...</a><br /></td></tr>
-<tr class="separator:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a></td></tr>
-<tr class="memdesc:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> element.  <a href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">More...</a><br /></td></tr>
-<tr class="separator:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a></td></tr>
-<tr class="memdesc:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">More...</a><br /></td></tr>
-<tr class="separator:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Skew_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a></td></tr>
-<tr class="memdesc:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">More...</a><br /></td></tr>
-<tr class="separator:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a></td></tr>
-<tr class="memdesc:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">More...</a><br /></td></tr>
-<tr class="separator:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a></td></tr>
-<tr class="memdesc:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">More...</a><br /></td></tr>
-<tr class="separator:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a></td></tr>
-<tr class="memdesc:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">More...</a><br /></td></tr>
-<tr class="separator:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a></td></tr>
-<tr class="memdesc:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">More...</a><br /></td></tr>
-<tr class="separator:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a></td></tr>
-<tr class="memdesc:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">More...</a><br /></td></tr>
-<tr class="separator:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a></td></tr>
-<tr class="memdesc:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">More...</a><br /></td></tr>
-<tr class="separator:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a></td></tr>
-<tr class="memdesc:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">More...</a><br /></td></tr>
-<tr class="separator:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a></td></tr>
-<tr class="memdesc:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">More...</a><br /></td></tr>
-<tr class="separator:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a></td></tr>
-<tr class="memdesc:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">More...</a><br /></td></tr>
-<tr class="separator:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a></td></tr>
-<tr class="memdesc:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">More...</a><br /></td></tr>
-<tr class="separator:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a></td></tr>
-<tr class="memdesc:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">More...</a><br /></td></tr>
-<tr class="separator:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a></td></tr>
-<tr class="memdesc:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">More...</a><br /></td></tr>
-<tr class="separator:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a24fa369165de783a72311d8ec3115c48"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a24fa369165de783a72311d8ec3115c48">Base</a></td></tr>
+<tr class="memdesc:a24fa369165de783a72311d8ec3115c48"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base class.  <a href="#a24fa369165de783a72311d8ec3115c48">More...</a><br /></td></tr>
+<tr class="separator:a24fa369165de783a72311d8ec3115c48"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5016bd7b24938026a2879ec0054eb3b6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Base::Traits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5016bd7b24938026a2879ec0054eb3b6">Traits</a></td></tr>
+<tr class="memdesc:a5016bd7b24938026a2879ec0054eb3b6"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept <a class="el" href="structcutlass_1_1TileTraits.html" title="A template defining Tile Traits Concept. ">TileTraits</a>  <a href="#a5016bd7b24938026a2879ec0054eb3b6">More...</a><br /></td></tr>
+<tr class="separator:a5016bd7b24938026a2879ec0054eb3b6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac3273690cdd0a1c2e61d29b289daf5b5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Base::Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a></td></tr>
+<tr class="memdesc:ac3273690cdd0a1c2e61d29b289daf5b5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="#ac3273690cdd0a1c2e61d29b289daf5b5">More...</a><br /></td></tr>
+<tr class="separator:ac3273690cdd0a1c2e61d29b289daf5b5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a96e55c1ce2475115e6e834f3996c9ee8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">Base::FragmentElement</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">FragmentElement</a></td></tr>
+<tr class="memdesc:a96e55c1ce2475115e6e834f3996c9ee8"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> element.  <a href="#a96e55c1ce2475115e6e834f3996c9ee8">More...</a><br /></td></tr>
+<tr class="separator:a96e55c1ce2475115e6e834f3996c9ee8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aae07fdedeef68abd4e6c099924c70910"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Base::Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aae07fdedeef68abd4e6c099924c70910">Index</a></td></tr>
+<tr class="memdesc:aae07fdedeef68abd4e6c099924c70910"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#aae07fdedeef68abd4e6c099924c70910">More...</a><br /></td></tr>
+<tr class="separator:aae07fdedeef68abd4e6c099924c70910"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a18248da35dc9a0ae2411121bee323085"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Base::Skew</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a18248da35dc9a0ae2411121bee323085">Skew</a></td></tr>
+<tr class="memdesc:a18248da35dc9a0ae2411121bee323085"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="#a18248da35dc9a0ae2411121bee323085">More...</a><br /></td></tr>
+<tr class="separator:a18248da35dc9a0ae2411121bee323085"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad18ee6f519b03e1dbf711339b63e16d6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Base::Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad18ee6f519b03e1dbf711339b63e16d6">Tile</a></td></tr>
+<tr class="memdesc:ad18ee6f519b03e1dbf711339b63e16d6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="#ad18ee6f519b03e1dbf711339b63e16d6">More...</a><br /></td></tr>
+<tr class="separator:ad18ee6f519b03e1dbf711339b63e16d6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afdb38f790d9c7cf1ac238643103b45ce"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Base::Delta</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#afdb38f790d9c7cf1ac238643103b45ce">Delta</a></td></tr>
+<tr class="memdesc:afdb38f790d9c7cf1ac238643103b45ce"><td class="mdescLeft">&#160;</td><td class="mdescRight">Delta.  <a href="#afdb38f790d9c7cf1ac238643103b45ce">More...</a><br /></td></tr>
+<tr class="separator:afdb38f790d9c7cf1ac238643103b45ce"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8628ea7116f736b59c644fc0d85d395f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Base::Iterations</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a8628ea7116f736b59c644fc0d85d395f">Iterations</a></td></tr>
+<tr class="memdesc:a8628ea7116f736b59c644fc0d85d395f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="#a8628ea7116f736b59c644fc0d85d395f">More...</a><br /></td></tr>
+<tr class="separator:a8628ea7116f736b59c644fc0d85d395f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a076357a165302f01f449fd91f9ed402a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">Base::ThreadOffset</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a">ThreadOffset</a></td></tr>
+<tr class="memdesc:a076357a165302f01f449fd91f9ed402a"><td class="mdescLeft">&#160;</td><td class="mdescRight">ThreadOffset functor.  <a href="#a076357a165302f01f449fd91f9ed402a">More...</a><br /></td></tr>
+<tr class="separator:a076357a165302f01f449fd91f9ed402a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a82ceeea55603dbb0c6e5bf9c22ac692e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">Base::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a82ceeea55603dbb0c6e5bf9c22ac692e">FragmentShape</a></td></tr>
+<tr class="memdesc:a82ceeea55603dbb0c6e5bf9c22ac692e"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> type.  <a href="#a82ceeea55603dbb0c6e5bf9c22ac692e">More...</a><br /></td></tr>
+<tr class="separator:a82ceeea55603dbb0c6e5bf9c22ac692e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a10431ed94c0dd66a8c1d01ba7c8b5aa2"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a10431ed94c0dd66a8c1d01ba7c8b5aa2">AccessType</a></td></tr>
+<tr class="memdesc:a10431ed94c0dd66a8c1d01ba7c8b5aa2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory access type.  <a href="#a10431ed94c0dd66a8c1d01ba7c8b5aa2">More...</a><br /></td></tr>
+<tr class="separator:a10431ed94c0dd66a8c1d01ba7c8b5aa2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa5386367e805cdaf47a5e7564bedc2fb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">Fragment</a></td></tr>
+<tr class="memdesc:aa5386367e805cdaf47a5e7564bedc2fb"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> definition.  <a href="#aa5386367e805cdaf47a5e7564bedc2fb">More...</a><br /></td></tr>
+<tr class="separator:aa5386367e805cdaf47a5e7564bedc2fb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ace8a65d90db264a0ee93a810be38918f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">Base::FragmentIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ace8a65d90db264a0ee93a810be38918f">FragmentIterator</a></td></tr>
+<tr class="memdesc:ace8a65d90db264a0ee93a810be38918f"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> iterator definition.  <a href="#ace8a65d90db264a0ee93a810be38918f">More...</a><br /></td></tr>
+<tr class="separator:ace8a65d90db264a0ee93a810be38918f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adfcd8a2e63bd0c515ef03760cc1c4283"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">Base::FragmentConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#adfcd8a2e63bd0c515ef03760cc1c4283">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:adfcd8a2e63bd0c515ef03760cc1c4283"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> const iterator definition.  <a href="#adfcd8a2e63bd0c515ef03760cc1c4283">More...</a><br /></td></tr>
+<tr class="separator:adfcd8a2e63bd0c515ef03760cc1c4283"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6157fe8a2ffefd45eba6f3953f0e2994"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">Base::PredicateVector</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a6157fe8a2ffefd45eba6f3953f0e2994">PredicateVector</a></td></tr>
+<tr class="memdesc:a6157fe8a2ffefd45eba6f3953f0e2994"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="#a6157fe8a2ffefd45eba6f3953f0e2994">More...</a><br /></td></tr>
+<tr class="separator:a6157fe8a2ffefd45eba6f3953f0e2994"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af6c297bb43573a13f6b721cc8ff730ca"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Base::Storage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">SharedStorage</a></td></tr>
+<tr class="memdesc:af6c297bb43573a13f6b721cc8ff730ca"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage object which may be stored to.  <a href="#af6c297bb43573a13f6b721cc8ff730ca">More...</a><br /></td></tr>
+<tr class="separator:af6c297bb43573a13f6b721cc8ff730ca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5dd2a31d41d9098e928c559af12cbe66"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Base::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5dd2a31d41d9098e928c559af12cbe66">BaseParams</a></td></tr>
+<tr class="memdesc:a5dd2a31d41d9098e928c559af12cbe66"><td class="mdescLeft">&#160;</td><td class="mdescRight">IteratorBase parameters.  <a href="#a5dd2a31d41d9098e928c559af12cbe66">More...</a><br /></td></tr>
+<tr class="separator:a5dd2a31d41d9098e928c559af12cbe66"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adc4182adb78e34b7741f297eca86fe35"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#adc4182adb78e34b7741f297eca86fe35">Pointer</a></td></tr>
+<tr class="memdesc:adc4182adb78e34b7741f297eca86fe35"><td class="mdescLeft">&#160;</td><td class="mdescRight">Pointer to underlying type.  <a href="#adc4182adb78e34b7741f297eca86fe35">More...</a><br /></td></tr>
+<tr class="separator:adc4182adb78e34b7741f297eca86fe35"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acd3c170dd70bee777cb9e9dc662c5eac"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>, 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">TensorRef</a></td></tr>
+<tr class="memdesc:acd3c170dd70bee777cb9e9dc662c5eac"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference for the store iterator.  <a href="#acd3c170dd70bee777cb9e9dc662c5eac">More...</a><br /></td></tr>
+<tr class="separator:acd3c170dd70bee777cb9e9dc662c5eac"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a></td></tr>
+<tr class="memdesc:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept <a class="el" href="structcutlass_1_1TileTraits.html" title="A template defining Tile Traits Concept. ">TileTraits</a>  <a href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">More...</a><br /></td></tr>
+<tr class="separator:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a></td></tr>
+<tr class="memdesc:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">More...</a><br /></td></tr>
+<tr class="separator:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef FragmentElement_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a></td></tr>
+<tr class="memdesc:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> element.  <a href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">More...</a><br /></td></tr>
+<tr class="separator:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a></td></tr>
+<tr class="memdesc:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">More...</a><br /></td></tr>
+<tr class="separator:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Skew_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a></td></tr>
+<tr class="memdesc:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">More...</a><br /></td></tr>
+<tr class="separator:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a></td></tr>
+<tr class="memdesc:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">More...</a><br /></td></tr>
+<tr class="separator:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a></td></tr>
+<tr class="memdesc:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">More...</a><br /></td></tr>
+<tr class="separator:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">More...</a><br /></td></tr>
+<tr class="separator:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a></td></tr>
+<tr class="memdesc:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">More...</a><br /></td></tr>
+<tr class="separator:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a></td></tr>
+<tr class="memdesc:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">More...</a><br /></td></tr>
+<tr class="separator:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a></td></tr>
+<tr class="memdesc:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">More...</a><br /></td></tr>
+<tr class="separator:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a></td></tr>
+<tr class="memdesc:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">More...</a><br /></td></tr>
+<tr class="separator:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a></td></tr>
+<tr class="memdesc:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">More...</a><br /></td></tr>
+<tr class="separator:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a></td></tr>
+<tr class="memdesc:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">More...</a><br /></td></tr>
+<tr class="separator:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">More...</a><br /></td></tr>
+<tr class="separator:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a></td></tr>
+<tr class="memdesc:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">More...</a><br /></td></tr>
+<tr class="separator:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a></td></tr>
+<tr class="memdesc:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">More...</a><br /></td></tr>
+<tr class="separator:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:af92ba20db048a9ec96976a1673f0f7c2"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator &gt; </td></tr>
-<tr class="memitem:af92ba20db048a9ec96976a1673f0f7c2"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#af92ba20db048a9ec96976a1673f0f7c2">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
-<tr class="memdesc:af92ba20db048a9ec96976a1673f0f7c2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="#af92ba20db048a9ec96976a1673f0f7c2">More...</a><br /></td></tr>
-<tr class="separator:af92ba20db048a9ec96976a1673f0f7c2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aac4d49854d63f632627b6974f9b59dbb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aac4d49854d63f632627b6974f9b59dbb">TileStoreIterator</a> ()</td></tr>
-<tr class="memdesc:aac4d49854d63f632627b6974f9b59dbb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="#aac4d49854d63f632627b6974f9b59dbb">More...</a><br /></td></tr>
-<tr class="separator:aac4d49854d63f632627b6974f9b59dbb"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a037ccd942359e6bc8640a240b13cd330"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a037ccd942359e6bc8640a240b13cd330">TileStoreIterator</a> (<a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>())</td></tr>
-<tr class="memdesc:a037ccd942359e6bc8640a240b13cd330"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile store iterator.  <a href="#a037ccd942359e6bc8640a240b13cd330">More...</a><br /></td></tr>
-<tr class="separator:a037ccd942359e6bc8640a240b13cd330"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4f89c5182659de94605300e15c3651b2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a4f89c5182659de94605300e15c3651b2">TileStoreIterator</a> (<a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> const &amp;, <a class="el" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">SharedStorage</a> &amp;shared_storage, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>())</td></tr>
-<tr class="memdesc:a4f89c5182659de94605300e15c3651b2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile store iterator.  <a href="#a4f89c5182659de94605300e15c3651b2">More...</a><br /></td></tr>
-<tr class="separator:a4f89c5182659de94605300e15c3651b2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5ebab59862d5f50ad980871515d999b0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5ebab59862d5f50ad980871515d999b0">data</a> () const</td></tr>
-<tr class="memdesc:a5ebab59862d5f50ad980871515d999b0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the current pointer.  <a href="#a5ebab59862d5f50ad980871515d999b0">More...</a><br /></td></tr>
-<tr class="separator:a5ebab59862d5f50ad980871515d999b0"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a74dffe1ddcc84935ab170117e939b7e3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a74dffe1ddcc84935ab170117e939b7e3">inc_d</a> ()</td></tr>
-<tr class="memdesc:a74dffe1ddcc84935ab170117e939b7e3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the D dimension.  <a href="#a74dffe1ddcc84935ab170117e939b7e3">More...</a><br /></td></tr>
-<tr class="separator:a74dffe1ddcc84935ab170117e939b7e3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3793f5d5846862f22f1de736e36ae7c1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a3793f5d5846862f22f1de736e36ae7c1">inc_h</a> ()</td></tr>
-<tr class="memdesc:a3793f5d5846862f22f1de736e36ae7c1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the H dimension.  <a href="#a3793f5d5846862f22f1de736e36ae7c1">More...</a><br /></td></tr>
-<tr class="separator:a3793f5d5846862f22f1de736e36ae7c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa573a47a9ffc3e07239a09e2bc470cf1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa573a47a9ffc3e07239a09e2bc470cf1">inc_w</a> ()</td></tr>
-<tr class="memdesc:aa573a47a9ffc3e07239a09e2bc470cf1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the W dimension.  <a href="#aa573a47a9ffc3e07239a09e2bc470cf1">More...</a><br /></td></tr>
-<tr class="separator:aa573a47a9ffc3e07239a09e2bc470cf1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1614b27755cf82c0e1f3e7852c5a4c75"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a1614b27755cf82c0e1f3e7852c5a4c75">inc_advance</a> ()</td></tr>
-<tr class="memdesc:a1614b27755cf82c0e1f3e7852c5a4c75"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the next dimension.  <a href="#a1614b27755cf82c0e1f3e7852c5a4c75">More...</a><br /></td></tr>
-<tr class="separator:a1614b27755cf82c0e1f3e7852c5a4c75"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a187e0852ec4862f6d3cb6249bedc3bb3"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a187e0852ec4862f6d3cb6249bedc3bb3">inc_stage</a> ()</td></tr>
-<tr class="memdesc:a187e0852ec4862f6d3cb6249bedc3bb3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the stage.  <a href="#a187e0852ec4862f6d3cb6249bedc3bb3">More...</a><br /></td></tr>
-<tr class="separator:a187e0852ec4862f6d3cb6249bedc3bb3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a57aa2c36eb6ad9d2500c1f5396b3a526"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
-<tr class="memitem:a57aa2c36eb6ad9d2500c1f5396b3a526"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a57aa2c36eb6ad9d2500c1f5396b3a526">store_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment, PredicateIterator pred_it)</td></tr>
-<tr class="memdesc:a57aa2c36eb6ad9d2500c1f5396b3a526"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment and advances to the next tile.  <a href="#a57aa2c36eb6ad9d2500c1f5396b3a526">More...</a><br /></td></tr>
-<tr class="separator:a57aa2c36eb6ad9d2500c1f5396b3a526"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae63949f58c1b32959bbfa5b64d521f0f"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
-<tr class="memitem:ae63949f58c1b32959bbfa5b64d521f0f"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ae63949f58c1b32959bbfa5b64d521f0f">store_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment)</td></tr>
-<tr class="memdesc:ae63949f58c1b32959bbfa5b64d521f0f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment and advances to the next tile.  <a href="#ae63949f58c1b32959bbfa5b64d521f0f">More...</a><br /></td></tr>
-<tr class="separator:ae63949f58c1b32959bbfa5b64d521f0f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a53820de506cecb1f5fb07b3385d8272a"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
-<tr class="memitem:a53820de506cecb1f5fb07b3385d8272a"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a53820de506cecb1f5fb07b3385d8272a">store</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment, PredicateIterator pred_it) const</td></tr>
-<tr class="memdesc:a53820de506cecb1f5fb07b3385d8272a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment without advancing the iterator.  <a href="#a53820de506cecb1f5fb07b3385d8272a">More...</a><br /></td></tr>
-<tr class="separator:a53820de506cecb1f5fb07b3385d8272a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a60258b7c1a1708f97e28f8f6c292bfe4"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
-<tr class="memitem:a60258b7c1a1708f97e28f8f6c292bfe4"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a60258b7c1a1708f97e28f8f6c292bfe4">store</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment) const</td></tr>
-<tr class="memdesc:a60258b7c1a1708f97e28f8f6c292bfe4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment without advancing the iterator.  <a href="#a60258b7c1a1708f97e28f8f6c292bfe4">More...</a><br /></td></tr>
-<tr class="separator:a60258b7c1a1708f97e28f8f6c292bfe4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
-<tr class="memitem:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">More...</a><br /></td></tr>
-<tr class="separator:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acb6bc889b93d25c9e483a0b7297d7c89"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:acb6bc889b93d25c9e483a0b7297d7c89"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#acb6bc889b93d25c9e483a0b7297d7c89">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:acb6bc889b93d25c9e483a0b7297d7c89"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector using a <a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html" title="Functor computing a predicate given the logical position of an access. ">RegularTilePredicateFunctor</a>.  <a href="#acb6bc889b93d25c9e483a0b7297d7c89">More...</a><br /></td></tr>
+<tr class="separator:acb6bc889b93d25c9e483a0b7297d7c89"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a890a7239a89679662aeaea797ba32d32"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator , typename PredicateFunctor &gt; </td></tr>
+<tr class="memitem:a890a7239a89679662aeaea797ba32d32"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a890a7239a89679662aeaea797ba32d32">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;functor, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset)</td></tr>
+<tr class="memdesc:a890a7239a89679662aeaea797ba32d32"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector using an arbitrary predicate functor.  <a href="#a890a7239a89679662aeaea797ba32d32">More...</a><br /></td></tr>
+<tr class="separator:a890a7239a89679662aeaea797ba32d32"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f4501c6e8ba0f4511919c1b63c14e69"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a9f4501c6e8ba0f4511919c1b63c14e69">TileStoreIterator</a> ()</td></tr>
+<tr class="memdesc:a9f4501c6e8ba0f4511919c1b63c14e69"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="#a9f4501c6e8ba0f4511919c1b63c14e69">More...</a><br /></td></tr>
+<tr class="separator:a9f4501c6e8ba0f4511919c1b63c14e69"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa563bb10f8e58d97e81959556923e210"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa563bb10f8e58d97e81959556923e210">TileStoreIterator</a> (<a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:aa563bb10f8e58d97e81959556923e210"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile store iterator.  <a href="#aa563bb10f8e58d97e81959556923e210">More...</a><br /></td></tr>
+<tr class="separator:aa563bb10f8e58d97e81959556923e210"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2b58a21331cf3255f5d3938a39babf20"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a2b58a21331cf3255f5d3938a39babf20">TileStoreIterator</a> (<a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> const &amp;, <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> *ptr, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:a2b58a21331cf3255f5d3938a39babf20"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile store iterator.  <a href="#a2b58a21331cf3255f5d3938a39babf20">More...</a><br /></td></tr>
+<tr class="separator:a2b58a21331cf3255f5d3938a39babf20"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abcb7af7b35e605dfda5ce6a37a02f975"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975">inc_d</a> ()</td></tr>
+<tr class="memdesc:abcb7af7b35e605dfda5ce6a37a02f975"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the D dimension.  <a href="#abcb7af7b35e605dfda5ce6a37a02f975">More...</a><br /></td></tr>
+<tr class="separator:abcb7af7b35e605dfda5ce6a37a02f975"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaec63ca7faf0cf4f54cac31c7d6e0d3d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d">inc_h</a> ()</td></tr>
+<tr class="memdesc:aaec63ca7faf0cf4f54cac31c7d6e0d3d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the H dimension.  <a href="#aaec63ca7faf0cf4f54cac31c7d6e0d3d">More...</a><br /></td></tr>
+<tr class="separator:aaec63ca7faf0cf4f54cac31c7d6e0d3d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa676184bbd4c2e3f6c09dbc548e6c4e1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1">inc_w</a> ()</td></tr>
+<tr class="memdesc:aa676184bbd4c2e3f6c09dbc548e6c4e1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the W dimension.  <a href="#aa676184bbd4c2e3f6c09dbc548e6c4e1">More...</a><br /></td></tr>
+<tr class="separator:aa676184bbd4c2e3f6c09dbc548e6c4e1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3ecd73de1202f7e4a0db86d9fe9de38d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d">inc_advance</a> ()</td></tr>
+<tr class="memdesc:a3ecd73de1202f7e4a0db86d9fe9de38d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the next dimension.  <a href="#a3ecd73de1202f7e4a0db86d9fe9de38d">More...</a><br /></td></tr>
+<tr class="separator:a3ecd73de1202f7e4a0db86d9fe9de38d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad61206a742c8c5ab5bcd64b76ece9f74"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad61206a742c8c5ab5bcd64b76ece9f74">inc_stage</a> ()</td></tr>
+<tr class="memdesc:ad61206a742c8c5ab5bcd64b76ece9f74"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the stage.  <a href="#ad61206a742c8c5ab5bcd64b76ece9f74">More...</a><br /></td></tr>
+<tr class="separator:ad61206a742c8c5ab5bcd64b76ece9f74"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a57b284e6cbff892d45e5cfeb0ae1e3ed"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a57b284e6cbff892d45e5cfeb0ae1e3ed">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:a57b284e6cbff892d45e5cfeb0ae1e3ed"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a vector offset to the iterator.  <a href="#a57b284e6cbff892d45e5cfeb0ae1e3ed">More...</a><br /></td></tr>
+<tr class="separator:a57b284e6cbff892d45e5cfeb0ae1e3ed"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa6977ded39ead005b3435f13f0e51116"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa6977ded39ead005b3435f13f0e51116">add_pointer_offset</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> offset)</td></tr>
+<tr class="memdesc:aa6977ded39ead005b3435f13f0e51116"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a raw offset to the pointer.  <a href="#aa6977ded39ead005b3435f13f0e51116">More...</a><br /></td></tr>
+<tr class="separator:aa6977ded39ead005b3435f13f0e51116"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1f7c4143443d2bee4a69d1b380576f08"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a1f7c4143443d2bee4a69d1b380576f08">store_element</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> const &amp;value, int d, int h, int w, int c)</td></tr>
+<tr class="memdesc:a1f7c4143443d2bee4a69d1b380576f08"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a single fragment element into memory.  <a href="#a1f7c4143443d2bee4a69d1b380576f08">More...</a><br /></td></tr>
+<tr class="separator:a1f7c4143443d2bee4a69d1b380576f08"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adbb7fdb5710295cdfb86e090a8c40f44"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:adbb7fdb5710295cdfb86e090a8c40f44"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#adbb7fdb5710295cdfb86e090a8c40f44">store_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> const &amp;fragment, PredicateIterator pred_it)</td></tr>
+<tr class="memdesc:adbb7fdb5710295cdfb86e090a8c40f44"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment and advances to the next tile.  <a href="#adbb7fdb5710295cdfb86e090a8c40f44">More...</a><br /></td></tr>
+<tr class="separator:adbb7fdb5710295cdfb86e090a8c40f44"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a35ab2595b09912d31a60c2a4e5847c88"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a35ab2595b09912d31a60c2a4e5847c88"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a35ab2595b09912d31a60c2a4e5847c88">store_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> const &amp;fragment)</td></tr>
+<tr class="memdesc:a35ab2595b09912d31a60c2a4e5847c88"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment and advances to the next tile.  <a href="#a35ab2595b09912d31a60c2a4e5847c88">More...</a><br /></td></tr>
+<tr class="separator:a35ab2595b09912d31a60c2a4e5847c88"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0218adf569557b17d8e36a3d97fb185e"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:a0218adf569557b17d8e36a3d97fb185e"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a0218adf569557b17d8e36a3d97fb185e">store</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> const &amp;fragment, PredicateIterator pred_it) const</td></tr>
+<tr class="memdesc:a0218adf569557b17d8e36a3d97fb185e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment without advancing the iterator.  <a href="#a0218adf569557b17d8e36a3d97fb185e">More...</a><br /></td></tr>
+<tr class="separator:a0218adf569557b17d8e36a3d97fb185e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa27a456bf12d0e44adc89a1c2ca7bc3b"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:aa27a456bf12d0e44adc89a1c2ca7bc3b"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa27a456bf12d0e44adc89a1c2ca7bc3b">store</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> const &amp;fragment) const</td></tr>
+<tr class="memdesc:aa27a456bf12d0e44adc89a1c2ca7bc3b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment without advancing the iterator.  <a href="#aa27a456bf12d0e44adc89a1c2ca7bc3b">More...</a><br /></td></tr>
+<tr class="separator:aa27a456bf12d0e44adc89a1c2ca7bc3b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a320c917d585df901e66257c7d9b4780c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c">load_element</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &amp;value, int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a320c917d585df901e66257c7d9b4780c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a single fragment element from memory.  <a href="#a320c917d585df901e66257c7d9b4780c">More...</a><br /></td></tr>
+<tr class="separator:a320c917d585df901e66257c7d9b4780c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a57c56e2fe02fc5c771283e35d59b9214"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:a57c56e2fe02fc5c771283e35d59b9214"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a57c56e2fe02fc5c771283e35d59b9214">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it)</td></tr>
+<tr class="memdesc:a57c56e2fe02fc5c771283e35d59b9214"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="#a57c56e2fe02fc5c771283e35d59b9214">More...</a><br /></td></tr>
+<tr class="separator:a57c56e2fe02fc5c771283e35d59b9214"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adfbd262dfb19fffd91e0712190d9712d"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:adfbd262dfb19fffd91e0712190d9712d"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#adfbd262dfb19fffd91e0712190d9712d">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)</td></tr>
+<tr class="memdesc:adfbd262dfb19fffd91e0712190d9712d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="#adfbd262dfb19fffd91e0712190d9712d">More...</a><br /></td></tr>
+<tr class="separator:adfbd262dfb19fffd91e0712190d9712d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa3ce9690a0e8c6457e570607474af7a6"><td class="memTemplParams" colspan="2">template&lt;typename Fragment , typename PredicateIterator &gt; </td></tr>
+<tr class="memitem:aa3ce9690a0e8c6457e570607474af7a6"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it) const</td></tr>
+<tr class="memdesc:aa3ce9690a0e8c6457e570607474af7a6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="#aa3ce9690a0e8c6457e570607474af7a6">More...</a><br /></td></tr>
+<tr class="separator:aa3ce9690a0e8c6457e570607474af7a6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8c42ab8699c3fd74dc7b59d559364b9a"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a8c42ab8699c3fd74dc7b59d559364b9a"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a8c42ab8699c3fd74dc7b59d559364b9a">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment) const</td></tr>
+<tr class="memdesc:a8c42ab8699c3fd74dc7b59d559364b9a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="#a8c42ab8699c3fd74dc7b59d559364b9a">More...</a><br /></td></tr>
+<tr class="separator:a8c42ab8699c3fd74dc7b59d559364b9a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad33c46a584deb1c7968e08e349382af3"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:ad33c46a584deb1c7968e08e349382af3"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad33c46a584deb1c7968e08e349382af3">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, int d)</td></tr>
+<tr class="memdesc:ad33c46a584deb1c7968e08e349382af3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="#ad33c46a584deb1c7968e08e349382af3">More...</a><br /></td></tr>
+<tr class="separator:ad33c46a584deb1c7968e08e349382af3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">More...</a><br /></td></tr>
+<tr class="separator:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:a5e6c00b99e0f752137b07f7059f6ee0f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a></td></tr>
-<tr class="memdesc:a5e6c00b99e0f752137b07f7059f6ee0f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters structure.  <a href="#a5e6c00b99e0f752137b07f7059f6ee0f">More...</a><br /></td></tr>
-<tr class="separator:a5e6c00b99e0f752137b07f7059f6ee0f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a350f5beea87d811f43c55519bc0b9035"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">thread_offset</a></td></tr>
-<tr class="memdesc:a350f5beea87d811f43c55519bc0b9035"><td class="mdescLeft">&#160;</td><td class="mdescRight">Offset of an individual lane from the start of the tile.  <a href="#a350f5beea87d811f43c55519bc0b9035">More...</a><br /></td></tr>
-<tr class="separator:a350f5beea87d811f43c55519bc0b9035"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae435b72b15eca46eb871446d92bd316e"><td class="memItemLeft" align="right" valign="top">int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">stage</a></td></tr>
-<tr class="memdesc:ae435b72b15eca46eb871446d92bd316e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stage.  <a href="#ae435b72b15eca46eb871446d92bd316e">More...</a><br /></td></tr>
-<tr class="separator:ae435b72b15eca46eb871446d92bd316e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64e0c9fb1f7d8fcc77bf0a915445ee6d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a></td></tr>
+<tr class="memdesc:a64e0c9fb1f7d8fcc77bf0a915445ee6d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters structure.  <a href="#a64e0c9fb1f7d8fcc77bf0a915445ee6d">More...</a><br /></td></tr>
+<tr class="separator:a64e0c9fb1f7d8fcc77bf0a915445ee6d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a00a33d258b9d60c8f9d4bfc48e2c6825"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a></td></tr>
+<tr class="memdesc:a00a33d258b9d60c8f9d4bfc48e2c6825"><td class="mdescLeft">&#160;</td><td class="mdescRight">Offset of an individual lane from the start of the tile.  <a href="#a00a33d258b9d60c8f9d4bfc48e2c6825">More...</a><br /></td></tr>
+<tr class="separator:a00a33d258b9d60c8f9d4bfc48e2c6825"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff36e4a3de7e27667542564e0ec96a7e"><td class="memItemLeft" align="right" valign="top">int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">stage</a></td></tr>
+<tr class="memdesc:aff36e4a3de7e27667542564e0ec96a7e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stage.  <a href="#aff36e4a3de7e27667542564e0ec96a7e">More...</a><br /></td></tr>
+<tr class="separator:aff36e4a3de7e27667542564e0ec96a7e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
-<tr class="memitem:a8059c57030df99b73309e9210ec5f624"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a8059c57030df99b73309e9210ec5f624">kAdvance</a> = Base::kAdvance</td></tr>
-<tr class="memdesc:a8059c57030df99b73309e9210ec5f624"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies in which dimension post-increment accesses advance.  <a href="#a8059c57030df99b73309e9210ec5f624">More...</a><br /></td></tr>
-<tr class="separator:a8059c57030df99b73309e9210ec5f624"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a94c0567316118abfb84fc28560a5a46a"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a94c0567316118abfb84fc28560a5a46a">kIteratorFragment</a> = Base::kIteratorFragment</td></tr>
-<tr class="memdesc:a94c0567316118abfb84fc28560a5a46a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies type of iterator fragment storage (Salar or WmmaMatrix)  <a href="#a94c0567316118abfb84fc28560a5a46a">More...</a><br /></td></tr>
-<tr class="separator:a94c0567316118abfb84fc28560a5a46a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:adaebec9eacf767f63f048033de73ea5b"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#adaebec9eacf767f63f048033de73ea5b">kMemorySpace</a> = Base::kMemorySpace</td></tr>
-<tr class="memdesc:adaebec9eacf767f63f048033de73ea5b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="#adaebec9eacf767f63f048033de73ea5b">More...</a><br /></td></tr>
-<tr class="separator:adaebec9eacf767f63f048033de73ea5b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_static_attribs_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
-<tr class="memitem:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a> = Advance_</td></tr>
-<tr class="memdesc:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">More...</a><br /></td></tr>
-<tr class="separator:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a> = IteratorFragment_</td></tr>
-<tr class="memdesc:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">More...</a><br /></td></tr>
-<tr class="separator:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">kMemorySpace</a> = <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a></td></tr>
-<tr class="memdesc:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">More...</a><br /></td></tr>
-<tr class="separator:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> = Tile::kC</td></tr>
-<tr class="memdesc:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">More...</a><br /></td></tr>
-<tr class="separator:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td></tr>
-<tr class="memdesc:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">More...</a><br /></td></tr>
-<tr class="separator:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a44200854ad5b35c1863f73c435b8750b"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a44200854ad5b35c1863f73c435b8750b">kAdvance</a> = Base::kAdvance</td></tr>
+<tr class="memdesc:a44200854ad5b35c1863f73c435b8750b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies in which dimension post-increment accesses advance.  <a href="#a44200854ad5b35c1863f73c435b8750b">More...</a><br /></td></tr>
+<tr class="separator:a44200854ad5b35c1863f73c435b8750b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9fb3af1ab0eeb5b17b42bb990edf0e4f"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f">kFragmentElementType</a> = Base::kFragmentElementType</td></tr>
+<tr class="memdesc:a9fb3af1ab0eeb5b17b42bb990edf0e4f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies type of iterator fragment storage (Salar or WmmaMatrix)  <a href="#a9fb3af1ab0eeb5b17b42bb990edf0e4f">More...</a><br /></td></tr>
+<tr class="separator:a9fb3af1ab0eeb5b17b42bb990edf0e4f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a993e1e7d8cc461a9cfa009b61b42621f"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f">kMemorySpace</a> = Base::kMemorySpace</td></tr>
+<tr class="memdesc:a993e1e7d8cc461a9cfa009b61b42621f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="#a993e1e7d8cc461a9cfa009b61b42621f">More...</a><br /></td></tr>
+<tr class="separator:a993e1e7d8cc461a9cfa009b61b42621f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a39cecf8198d1286f497930cce632c671"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">kAccessSize</a> = Base::kAccessSize</td></tr>
+<tr class="memdesc:a39cecf8198d1286f497930cce632c671"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="#a39cecf8198d1286f497930cce632c671">More...</a><br /></td></tr>
+<tr class="separator:a39cecf8198d1286f497930cce632c671"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a> = Advance_</td></tr>
+<tr class="memdesc:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">More...</a><br /></td></tr>
+<tr class="separator:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a> = FragmentElementType_</td></tr>
+<tr class="memdesc:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">More...</a><br /></td></tr>
+<tr class="separator:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a> = <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a></td></tr>
+<tr class="memdesc:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">More...</a><br /></td></tr>
+<tr class="separator:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> = Traits::kAccessSize</td></tr>
+<tr class="memdesc:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">More...</a><br /></td></tr>
+<tr class="separator:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td></tr>
+<tr class="memdesc:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">More...</a><br /></td></tr>
+<tr class="separator:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_static_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
-<tr class="memitem:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator &gt; </td></tr>
-<tr class="memitem:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memTemplItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
-<tr class="memdesc:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">More...</a><br /></td></tr>
-<tr class="separator:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memTemplParams" colspan="2">template&lt;typename PredicateIterator , typename PredicateFunctor &gt; </td></tr>
+<tr class="memitem:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memTemplItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">More...</a><br /></td></tr>
+<tr class="separator:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a0e79ed59263ebc3478c43f2f9a50cb5a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0e79ed59263ebc3478c43f2f9a50cb5a">&#9670;&nbsp;</a></span>AccessType</h2>
+<a id="a10431ed94c0dd66a8c1d01ba7c8b5aa2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a10431ed94c0dd66a8c1d01ba7c8b5aa2">&#9670;&nbsp;</a></span>AccessType</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">Base::AccessType</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="af4576dca736bab8ac73b308522cb4a67"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af4576dca736bab8ac73b308522cb4a67">&#9670;&nbsp;</a></span>Base</h2>
+<a id="a24fa369165de783a72311d8ec3115c48"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a24fa369165de783a72311d8ec3115c48">&#9670;&nbsp;</a></span>Base</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_&gt; <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html#af4576dca736bab8ac73b308522cb4a67">Base</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_&gt; <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html#a24fa369165de783a72311d8ec3115c48">Base</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5484b46ac2646edb7a185b51137f70c0"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5484b46ac2646edb7a185b51137f70c0">&#9670;&nbsp;</a></span>BaseParams</h2>
+<a id="a5dd2a31d41d9098e928c559af12cbe66"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5dd2a31d41d9098e928c559af12cbe66">&#9670;&nbsp;</a></span>BaseParams</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Base::Params</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html#a5484b46ac2646edb7a185b51137f70c0">BaseParams</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Base::Params</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html#a5dd2a31d41d9098e928c559af12cbe66">BaseParams</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a1c433ba0eea5e6a46f36101d8de98ed0"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1c433ba0eea5e6a46f36101d8de98ed0">&#9670;&nbsp;</a></span>Delta</h2>
+<a id="afdb38f790d9c7cf1ac238643103b45ce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afdb38f790d9c7cf1ac238643103b45ce">&#9670;&nbsp;</a></span>Delta</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Base::Delta</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Base::Delta</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a95da23108b74ad085024ab45e84083e1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a95da23108b74ad085024ab45e84083e1">&#9670;&nbsp;</a></span>Fragment</h2>
+<a id="aa5386367e805cdaf47a5e7564bedc2fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa5386367e805cdaf47a5e7564bedc2fb">&#9670;&nbsp;</a></span>Fragment</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Base::Fragment</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Base::Fragment</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a48de0db7ee2ee9699b946a9d5a0364c7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a48de0db7ee2ee9699b946a9d5a0364c7">&#9670;&nbsp;</a></span>FragmentConstIterator</h2>
+<a id="adfcd8a2e63bd0c515ef03760cc1c4283"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adfcd8a2e63bd0c515ef03760cc1c4283">&#9670;&nbsp;</a></span>FragmentConstIterator</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">Base::FragmentConstIterator</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">Base::FragmentConstIterator</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a2b13136a970fae187fcb377c9be28fac"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2b13136a970fae187fcb377c9be28fac">&#9670;&nbsp;</a></span>FragmentElement</h2>
+<a id="a96e55c1ce2475115e6e834f3996c9ee8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a96e55c1ce2475115e6e834f3996c9ee8">&#9670;&nbsp;</a></span>FragmentElement</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">Base::FragmentElement</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">Base::FragmentElement</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a0843b2d82422e7178f324a8d3be9d705"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0843b2d82422e7178f324a8d3be9d705">&#9670;&nbsp;</a></span>FragmentIterator</h2>
+<a id="ace8a65d90db264a0ee93a810be38918f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ace8a65d90db264a0ee93a810be38918f">&#9670;&nbsp;</a></span>FragmentIterator</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">Base::FragmentIterator</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">Base::FragmentIterator</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a3b872e85844c9e009fa480a71a829136"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3b872e85844c9e009fa480a71a829136">&#9670;&nbsp;</a></span>FragmentShape</h2>
+<a id="a82ceeea55603dbb0c6e5bf9c22ac692e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a82ceeea55603dbb0c6e5bf9c22ac692e">&#9670;&nbsp;</a></span>FragmentShape</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">Base::FragmentShape</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">Base::FragmentShape</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5ac2280dfcac08cec17b8c0db1c4593e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5ac2280dfcac08cec17b8c0db1c4593e">&#9670;&nbsp;</a></span>Index</h2>
+<a id="aae07fdedeef68abd4e6c099924c70910"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aae07fdedeef68abd4e6c099924c70910">&#9670;&nbsp;</a></span>Index</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Base::Index</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Base::Index</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a552a67fb03c28e985d143f6193f88308"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a552a67fb03c28e985d143f6193f88308">&#9670;&nbsp;</a></span>Iterations</h2>
+<a id="a8628ea7116f736b59c644fc0d85d395f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8628ea7116f736b59c644fc0d85d395f">&#9670;&nbsp;</a></span>Iterations</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Base::Iterations</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Base::Iterations</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5aa507eaeb63951f8e69fb223ec41809"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5aa507eaeb63951f8e69fb223ec41809">&#9670;&nbsp;</a></span>PredicateVector</h2>
+<a id="adc4182adb78e34b7741f297eca86fe35"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adc4182adb78e34b7741f297eca86fe35">&#9670;&nbsp;</a></span>Pointer</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">Base::PredicateVector</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>* <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html#adc4182adb78e34b7741f297eca86fe35">Pointer</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ad52318b430437575b55099ca992ca3a7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad52318b430437575b55099ca992ca3a7">&#9670;&nbsp;</a></span>Scalar</h2>
+<a id="a6157fe8a2ffefd45eba6f3953f0e2994"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6157fe8a2ffefd45eba6f3953f0e2994">&#9670;&nbsp;</a></span>PredicateVector</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Base::Scalar</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">Base::PredicateVector</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ab7922305d47b67e6cfb439e4e8d9f09b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab7922305d47b67e6cfb439e4e8d9f09b">&#9670;&nbsp;</a></span>SharedStorage</h2>
+<a id="ac3273690cdd0a1c2e61d29b289daf5b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac3273690cdd0a1c2e61d29b289daf5b5">&#9670;&nbsp;</a></span>Scalar</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Base::Storage</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">SharedStorage</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Base::Scalar</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a57348779bb004ed1ea0fd9cc252e895d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a57348779bb004ed1ea0fd9cc252e895d">&#9670;&nbsp;</a></span>Skew</h2>
+<a id="af6c297bb43573a13f6b721cc8ff730ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af6c297bb43573a13f6b721cc8ff730ca">&#9670;&nbsp;</a></span>SharedStorage</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Base::Skew</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Base::Storage</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">SharedStorage</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a6a6f51f459f98c0cddeacf476660cd27"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6a6f51f459f98c0cddeacf476660cd27">&#9670;&nbsp;</a></span>ThreadOffset</h2>
+<a id="a18248da35dc9a0ae2411121bee323085"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a18248da35dc9a0ae2411121bee323085">&#9670;&nbsp;</a></span>Skew</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">Base::ThreadOffset</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Base::Skew</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a8a87c8ef986e110a01a9226012594a61"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8a87c8ef986e110a01a9226012594a61">&#9670;&nbsp;</a></span>Tile</h2>
+<a id="acd3c170dd70bee777cb9e9dc662c5eac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acd3c170dd70bee777cb9e9dc662c5eac">&#9670;&nbsp;</a></span>TensorRef</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Base::Tile</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">TensorRef</a>&lt;<a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>, 4&gt; <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">TensorRef</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a6f50a8aec2d7045e9057b93df08172a8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6f50a8aec2d7045e9057b93df08172a8">&#9670;&nbsp;</a></span>Traits</h2>
+<a id="a076357a165302f01f449fd91f9ed402a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a076357a165302f01f449fd91f9ed402a">&#9670;&nbsp;</a></span>ThreadOffset</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Base::Traits</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">Base::ThreadOffset</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad18ee6f519b03e1dbf711339b63e16d6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad18ee6f519b03e1dbf711339b63e16d6">&#9670;&nbsp;</a></span>Tile</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Base::Tile</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5016bd7b24938026a2879ec0054eb3b6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5016bd7b24938026a2879ec0054eb3b6">&#9670;&nbsp;</a></span>Traits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Base::Traits</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -605,19 +679,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6f50a8aec2d7045e9057b93d
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="aac4d49854d63f632627b6974f9b59dbb"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aac4d49854d63f632627b6974f9b59dbb">&#9670;&nbsp;</a></span>TileStoreIterator() <span class="overload">[1/3]</span></h2>
+<a id="a9f4501c6e8ba0f4511919c1b63c14e69"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f4501c6e8ba0f4511919c1b63c14e69">&#9670;&nbsp;</a></span>TileStoreIterator() <span class="overload">[1/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -632,19 +706,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#aac4d49854d63f632627b6974
 
 </div>
 </div>
-<a id="a037ccd942359e6bc8640a240b13cd330"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a037ccd942359e6bc8640a240b13cd330">&#9670;&nbsp;</a></span>TileStoreIterator() <span class="overload">[2/3]</span></h2>
+<a id="aa563bb10f8e58d97e81959556923e210"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa563bb10f8e58d97e81959556923e210">&#9670;&nbsp;</a></span>TileStoreIterator() <span class="overload">[2/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> </td>
           <td>(</td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> const &amp;&#160;</td>
           <td class="paramname"><em>_params</em>, </td>
@@ -658,8 +732,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a037ccd942359e6bc8640a240
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>&#160;</td>
-          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>()</code>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>&#160;</td>
+          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>()</code>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -676,19 +750,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a037ccd942359e6bc8640a240
 
 </div>
 </div>
-<a id="a4f89c5182659de94605300e15c3651b2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4f89c5182659de94605300e15c3651b2">&#9670;&nbsp;</a></span>TileStoreIterator() <span class="overload">[3/3]</span></h2>
+<a id="a2b58a21331cf3255f5d3938a39babf20"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2b58a21331cf3255f5d3938a39babf20">&#9670;&nbsp;</a></span>TileStoreIterator() <span class="overload">[3/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::<a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> </td>
           <td>(</td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> const &amp;&#160;</td>
           <td class="paramname">, </td>
@@ -696,20 +770,14 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4f89c5182659de94605300e1
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">SharedStorage</a> &amp;&#160;</td>
-          <td class="paramname"><em>shared_storage</em>, </td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>block_offset</em> = <code><a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,&#160;0,&#160;0)</code>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>&#160;</td>
-          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>()</code>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>&#160;</td>
+          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>()</code>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -727,22 +795,23 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4f89c5182659de94605300e1
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a5ebab59862d5f50ad980871515d999b0"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5ebab59862d5f50ad980871515d999b0">&#9670;&nbsp;</a></span>data()</h2>
+<a id="aa6977ded39ead005b3435f13f0e51116"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6977ded39ead005b3435f13f0e51116">&#9670;&nbsp;</a></span>add_pointer_offset()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a>* <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::data </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::add_pointer_offset </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
-          <td> const</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
         </tr>
       </table>
   </td>
@@ -754,19 +823,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5ebab59862d5f50ad9808715
 
 </div>
 </div>
-<a id="a1614b27755cf82c0e1f3e7852c5a4c75"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1614b27755cf82c0e1f3e7852c5a4c75">&#9670;&nbsp;</a></span>inc_advance()</h2>
+<a id="a3ecd73de1202f7e4a0db86d9fe9de38d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3ecd73de1202f7e4a0db86d9fe9de38d">&#9670;&nbsp;</a></span>inc_advance()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::inc_advance </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::inc_advance </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -781,19 +850,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1614b27755cf82c0e1f3e785
 
 </div>
 </div>
-<a id="a74dffe1ddcc84935ab170117e939b7e3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a74dffe1ddcc84935ab170117e939b7e3">&#9670;&nbsp;</a></span>inc_d()</h2>
+<a id="abcb7af7b35e605dfda5ce6a37a02f975"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abcb7af7b35e605dfda5ce6a37a02f975">&#9670;&nbsp;</a></span>inc_d()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::inc_d </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::inc_d </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -808,19 +877,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a74dffe1ddcc84935ab170117
 
 </div>
 </div>
-<a id="a3793f5d5846862f22f1de736e36ae7c1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3793f5d5846862f22f1de736e36ae7c1">&#9670;&nbsp;</a></span>inc_h()</h2>
+<a id="aaec63ca7faf0cf4f54cac31c7d6e0d3d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaec63ca7faf0cf4f54cac31c7d6e0d3d">&#9670;&nbsp;</a></span>inc_h()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::inc_h </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::inc_h </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -835,19 +904,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3793f5d5846862f22f1de736
 
 </div>
 </div>
-<a id="a187e0852ec4862f6d3cb6249bedc3bb3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a187e0852ec4862f6d3cb6249bedc3bb3">&#9670;&nbsp;</a></span>inc_stage()</h2>
+<a id="ad61206a742c8c5ab5bcd64b76ece9f74"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad61206a742c8c5ab5bcd64b76ece9f74">&#9670;&nbsp;</a></span>inc_stage()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::inc_stage </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::inc_stage </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -862,19 +931,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a187e0852ec4862f6d3cb6249
 
 </div>
 </div>
-<a id="aa573a47a9ffc3e07239a09e2bc470cf1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa573a47a9ffc3e07239a09e2bc470cf1">&#9670;&nbsp;</a></span>inc_w()</h2>
+<a id="aa676184bbd4c2e3f6c09dbc548e6c4e1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa676184bbd4c2e3f6c09dbc548e6c4e1">&#9670;&nbsp;</a></span>inc_w()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::inc_w </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::inc_w </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -889,13 +958,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa573a47a9ffc3e07239a09e2
 
 </div>
 </div>
-<a id="af92ba20db048a9ec96976a1673f0f7c2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af92ba20db048a9ec96976a1673f0f7c2">&#9670;&nbsp;</a></span>initialize_predicates()</h2>
+<a id="acb6bc889b93d25c9e483a0b7297d7c89"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acb6bc889b93d25c9e483a0b7297d7c89">&#9670;&nbsp;</a></span>initialize_predicates() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename PredicateIterator &gt; </div>
 <table class="mlabels">
@@ -903,7 +972,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af92ba20db048a9ec96976a16
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::initialize_predicates </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::initialize_predicates </td>
           <td>(</td>
           <td class="paramtype">PredicateIterator&#160;</td>
           <td class="paramname"><em>predicate_it</em>, </td>
@@ -935,13 +1004,59 @@ <h2 class="memtitle"><span class="permalink"><a href="#af92ba20db048a9ec96976a16
 
 </div>
 </div>
-<a id="a53820de506cecb1f5fb07b3385d8272a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a53820de506cecb1f5fb07b3385d8272a">&#9670;&nbsp;</a></span>store() <span class="overload">[1/2]</span></h2>
+<a id="a890a7239a89679662aeaea797ba32d32"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a890a7239a89679662aeaea797ba32d32">&#9670;&nbsp;</a></span>initialize_predicates() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename PredicateIterator , typename PredicateFunctor &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::initialize_predicates </td>
+          <td>(</td>
+          <td class="paramtype">PredicateIterator&#160;</td>
+          <td class="paramname"><em>predicate_it</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">PredicateFunctor const &amp;&#160;</td>
+          <td class="paramname"><em>functor</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>block_offset</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa3ce9690a0e8c6457e570607474af7a6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa3ce9690a0e8c6457e570607474af7a6">&#9670;&nbsp;</a></span>load() <span class="overload">[1/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename Fragment , typename PredicateIterator &gt; </div>
 <table class="mlabels">
@@ -949,9 +1064,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#a53820de506cecb1f5fb07b33
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::store </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
           <td class="paramname"><em>fragment</em>, </td>
         </tr>
         <tr>
@@ -975,13 +1090,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#a53820de506cecb1f5fb07b33
 
 </div>
 </div>
-<a id="a60258b7c1a1708f97e28f8f6c292bfe4"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a60258b7c1a1708f97e28f8f6c292bfe4">&#9670;&nbsp;</a></span>store() <span class="overload">[2/2]</span></h2>
+<a id="a8c42ab8699c3fd74dc7b59d559364b9a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8c42ab8699c3fd74dc7b59d559364b9a">&#9670;&nbsp;</a></span>load() <span class="overload">[2/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename Fragment &gt; </div>
 <table class="mlabels">
@@ -989,9 +1104,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#a60258b7c1a1708f97e28f8f6
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::store </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
           <td class="paramname"><em>fragment</em></td><td>)</td>
           <td> const</td>
         </tr>
@@ -1005,13 +1120,109 @@ <h2 class="memtitle"><span class="permalink"><a href="#a60258b7c1a1708f97e28f8f6
 
 </div>
 </div>
-<a id="a57aa2c36eb6ad9d2500c1f5396b3a526"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a57aa2c36eb6ad9d2500c1f5396b3a526">&#9670;&nbsp;</a></span>store_post_increment() <span class="overload">[1/2]</span></h2>
+<a id="ad33c46a584deb1c7968e08e349382af3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad33c46a584deb1c7968e08e349382af3">&#9670;&nbsp;</a></span>load() <span class="overload">[3/3]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>d</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a320c917d585df901e66257c7d9b4780c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a320c917d585df901e66257c7d9b4780c">&#9670;&nbsp;</a></span>load_element()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load_element </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>c</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a57c56e2fe02fc5c771283e35d59b9214"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57c56e2fe02fc5c771283e35d59b9214">&#9670;&nbsp;</a></span>load_post_increment() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename Fragment , typename PredicateIterator &gt; </div>
 <table class="mlabels">
@@ -1019,9 +1230,9 @@ <h2 class="memtitle"><span class="permalink"><a href="#a57aa2c36eb6ad9d2500c1f53
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::store_post_increment </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load_post_increment </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
           <td class="paramname"><em>fragment</em>, </td>
         </tr>
         <tr>
@@ -1045,13 +1256,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#a57aa2c36eb6ad9d2500c1f53
 
 </div>
 </div>
-<a id="ae63949f58c1b32959bbfa5b64d521f0f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae63949f58c1b32959bbfa5b64d521f0f">&#9670;&nbsp;</a></span>store_post_increment() <span class="overload">[2/2]</span></h2>
+<a id="adfbd262dfb19fffd91e0712190d9712d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adfbd262dfb19fffd91e0712190d9712d">&#9670;&nbsp;</a></span>load_post_increment() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename Fragment &gt; </div>
 <table class="mlabels">
@@ -1059,9 +1270,233 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae63949f58c1b32959bbfa5b6
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::store_post_increment </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::load_post_increment </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a57b284e6cbff892d45e5cfeb0ae1e3ed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57b284e6cbff892d45e5cfeb0ae1e3ed">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&amp; <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0218adf569557b17d8e36a3d97fb185e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0218adf569557b17d8e36a3d97fb185e">&#9670;&nbsp;</a></span>store() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment , typename PredicateIterator &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">PredicateIterator&#160;</td>
+          <td class="paramname"><em>pred_it</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa27a456bf12d0e44adc89a1c2ca7bc3b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa27a456bf12d0e44adc89a1c2ca7bc3b">&#9670;&nbsp;</a></span>store() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::store </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f7c4143443d2bee4a69d1b380576f08"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f7c4143443d2bee4a69d1b380576f08">&#9670;&nbsp;</a></span>store_element()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::store_element </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> const &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>c</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adbb7fdb5710295cdfb86e090a8c40f44"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adbb7fdb5710295cdfb86e090a8c40f44">&#9670;&nbsp;</a></span>store_post_increment() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment , typename PredicateIterator &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::store_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">PredicateIterator&#160;</td>
+          <td class="paramname"><em>pred_it</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a35ab2595b09912d31a60c2a4e5847c88"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a35ab2595b09912d31a60c2a4e5847c88">&#9670;&nbsp;</a></span>store_post_increment() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::store_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> const &amp;&#160;</td>
           <td class="paramname"><em>fragment</em></td><td>)</td>
           <td></td>
         </tr>
@@ -1076,19 +1511,43 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae63949f58c1b32959bbfa5b6
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="a8059c57030df99b73309e9210ec5f624"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8059c57030df99b73309e9210ec5f624">&#9670;&nbsp;</a></span>kAdvance</h2>
+<a id="a39cecf8198d1286f497930cce632c671"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a39cecf8198d1286f497930cce632c671">&#9670;&nbsp;</a></span>kAccessSize</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kAccessSize = Base::kAccessSize</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a44200854ad5b35c1863f73c435b8750b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a44200854ad5b35c1863f73c435b8750b">&#9670;&nbsp;</a></span>kAdvance</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kAdvance = Base::kAdvance</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kAdvance = Base::kAdvance</td>
         </tr>
       </table>
   </td>
@@ -1100,19 +1559,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8059c57030df99b73309e921
 
 </div>
 </div>
-<a id="a94c0567316118abfb84fc28560a5a46a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a94c0567316118abfb84fc28560a5a46a">&#9670;&nbsp;</a></span>kIteratorFragment</h2>
+<a id="a9fb3af1ab0eeb5b17b42bb990edf0e4f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9fb3af1ab0eeb5b17b42bb990edf0e4f">&#9670;&nbsp;</a></span>kFragmentElementType</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kIteratorFragment = Base::kIteratorFragment</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kFragmentElementType = Base::kFragmentElementType</td>
         </tr>
       </table>
   </td>
@@ -1124,19 +1583,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a94c0567316118abfb84fc285
 
 </div>
 </div>
-<a id="adaebec9eacf767f63f048033de73ea5b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#adaebec9eacf767f63f048033de73ea5b">&#9670;&nbsp;</a></span>kMemorySpace</h2>
+<a id="a993e1e7d8cc461a9cfa009b61b42621f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a993e1e7d8cc461a9cfa009b61b42621f">&#9670;&nbsp;</a></span>kMemorySpace</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::kMemorySpace = Base::kMemorySpace</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::kMemorySpace = Base::kMemorySpace</td>
         </tr>
       </table>
   </td>
@@ -1148,48 +1607,48 @@ <h2 class="memtitle"><span class="permalink"><a href="#adaebec9eacf767f63f048033
 
 </div>
 </div>
-<a id="a5e6c00b99e0f752137b07f7059f6ee0f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5e6c00b99e0f752137b07f7059f6ee0f">&#9670;&nbsp;</a></span>params</h2>
+<a id="a64e0c9fb1f7d8fcc77bf0a915445ee6d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64e0c9fb1f7d8fcc77bf0a915445ee6d">&#9670;&nbsp;</a></span>params</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::params</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::params</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ae435b72b15eca46eb871446d92bd316e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae435b72b15eca46eb871446d92bd316e">&#9670;&nbsp;</a></span>stage</h2>
+<a id="aff36e4a3de7e27667542564e0ec96a7e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff36e4a3de7e27667542564e0ec96a7e">&#9670;&nbsp;</a></span>stage</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::stage</td>
+          <td class="memname">int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::stage</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a350f5beea87d811f43c55519bc0b9035"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a350f5beea87d811f43c55519bc0b9035">&#9670;&nbsp;</a></span>thread_offset</h2>
+<a id="a00a33d258b9d60c8f9d4bfc48e2c6825"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a00a33d258b9d60c8f9d4bfc48e2c6825">&#9670;&nbsp;</a></span>thread_offset</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;4&gt; <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::thread_offset</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;4&gt; <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::thread_offset</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -1202,7 +1661,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a350f5beea87d811f43c55519
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileStoreIterator.png b/docs/structcutlass_1_1TileStoreIterator.png
index a20f18cfe5..c86ef843d3 100644
Binary files a/docs/structcutlass_1_1TileStoreIterator.png and b/docs/structcutlass_1_1TileStoreIterator.png differ
diff --git a/docs/structcutlass_1_1TileStoreIterator_1_1Params-members.html b/docs/structcutlass_1_1TileStoreIterator_1_1Params-members.html
index 5d34eba8fe..9a12c4821f 100644
--- a/docs/structcutlass_1_1TileStoreIterator_1_1Params-members.html
+++ b/docs/structcutlass_1_1TileStoreIterator_1_1Params-members.html
@@ -73,30 +73,39 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params Member List</div>  </div>
+<div class="title">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a71f5238a712f7b2f377fb58938ac829b">initialize</a>(SharedStorage &amp;storage)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#af0d26a2df2a1a5ba3c3169b736bd5d43">initialize</a>(Scalar *ptr, Index stride_d, Index stride_h, Index stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ac1cfe92f1543ba445fa10f1859a0db98">initialize</a>(Scalar *ptr, Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#af884f720d36aa82e7f972932686ae986">initialize</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">cutlass::TileIteratorBase::Params::initialize</a>(Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">cutlass::TileIteratorBase::Params::initialize</a>(Index _stride_d, Index _stride_h, Index _stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#aca14058b112b7d5105658457341726cb">initialize</a>(SharedStorage &amp;storage)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a0d36c05a4a757db5ebfe5f180b174b8c">initialize</a>(Scalar *ptr)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a23c9e9d1d2bed7e5d8579df9cc42dda3">initialize</a>(Scalar *ptr, long long stride_d, Index stride_h, Index stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6a7702de0e88449b3d1864b208adf87a">initialize</a>(Scalar *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ad90642d96a3b5354813fbf4d9b04b83f">initialize</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">cutlass::TileIteratorBase::Params::initialize</a>(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">cutlass::TileIteratorBase::Params::initialize</a>(Coord&lt; 4 &gt; const &amp;stride)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">cutlass::TileIteratorBase::Params::initialize</a>(long long _stride_d, Index _stride_h, Index _stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a79304c022d2466c97cd671a98128815a">Params</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ae1cb260e7b05034ec9b7fa61c92bbc80">Params</a>(Scalar *ptr)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#afae37ebc78884290300f38fce7c021b1">Params</a>(TensorRef const &amp;ref)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#aa131e0ef02ce37038c1a17bea7088ef6">Params</a>(Scalar *ptr, long long stride_d, Index stride_h, Index stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9cf4cd4ecb0a81cf3c03a70c7bfc4e09">Params</a>(Scalar *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">cutlass::TileIteratorBase::Params::Params</a>(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">cutlass::TileIteratorBase::Params::Params</a>(Coord&lt; 4 &gt; const &amp;stride)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileStoreIterator_1_1Params.html b/docs/structcutlass_1_1TileStoreIterator_1_1Params.html
index 3da80d41b2..909a87cc9d 100644
--- a/docs/structcutlass_1_1TileStoreIterator_1_1Params.html
+++ b/docs/structcutlass_1_1TileStoreIterator_1_1Params.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params Struct Reference</title>
+<title>Cutlass: cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params Struct Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -77,7 +77,7 @@
 <a href="#pub-attribs">Public Attributes</a> &#124;
 <a href="structcutlass_1_1TileStoreIterator_1_1Params-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params Struct Reference</div>  </div>
+<div class="title">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params Struct Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -86,75 +86,311 @@
 
 <p><code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">tile_iterator.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params:</div>
+Inheritance diagram for cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1TileStoreIterator_1_1Params.png" usemap="#cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E::Params_map" alt=""/>
-  <map id="cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E::Params_map" name="cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20IteratorFragment_5F_2C_20Skew_5F_20_3E::Params_map">
-<area href="structcutlass_1_1TileIteratorBase_1_1Params.html" title="Parameters to the iterator. " alt="cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params" shape="rect" coords="0,0,782,24"/>
+  <img src="structcutlass_1_1TileStoreIterator_1_1Params.png" usemap="#cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E::Params_map" alt=""/>
+  <map id="cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E::Params_map" name="cutlass::TileStoreIterator_3C_20Traits_5F_2C_20Scalar_5F_2C_20Advance_5F_2C_20MemorySpace_2C_20Index_5F_2C_20FragmentElement_5F_2C_20FragmentElementType_5F_2C_20Skew_5F_20_3E::Params_map">
+<area href="structcutlass_1_1TileIteratorBase_1_1Params.html" title="Parameters to the iterator. " alt="cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params" shape="rect" coords="0,0,814,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a71f5238a712f7b2f377fb58938ac829b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a71f5238a712f7b2f377fb58938ac829b">initialize</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">SharedStorage</a> &amp;storage)</td></tr>
-<tr class="memdesc:a71f5238a712f7b2f377fb58938ac829b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="#a71f5238a712f7b2f377fb58938ac829b">More...</a><br /></td></tr>
-<tr class="separator:a71f5238a712f7b2f377fb58938ac829b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af0d26a2df2a1a5ba3c3169b736bd5d43"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#af0d26a2df2a1a5ba3c3169b736bd5d43">initialize</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a> *ptr, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a>)</td></tr>
-<tr class="memdesc:af0d26a2df2a1a5ba3c3169b736bd5d43"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to access a raw pointer.  <a href="#af0d26a2df2a1a5ba3c3169b736bd5d43">More...</a><br /></td></tr>
-<tr class="separator:af0d26a2df2a1a5ba3c3169b736bd5d43"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac1cfe92f1543ba445fa10f1859a0db98"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ac1cfe92f1543ba445fa10f1859a0db98">initialize</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a> *ptr, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_advance)</td></tr>
-<tr class="memdesc:ac1cfe92f1543ba445fa10f1859a0db98"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="#ac1cfe92f1543ba445fa10f1859a0db98">More...</a><br /></td></tr>
-<tr class="separator:ac1cfe92f1543ba445fa10f1859a0db98"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af884f720d36aa82e7f972932686ae986"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#af884f720d36aa82e7f972932686ae986">initialize</a> ()</td></tr>
-<tr class="memdesc:af884f720d36aa82e7f972932686ae986"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to default values.  <a href="#af884f720d36aa82e7f972932686ae986">More...</a><br /></td></tr>
-<tr class="separator:af884f720d36aa82e7f972932686ae986"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
-<tr class="memitem:ad2631ffcc963638aa5b016c66a2e2c55 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">initialize</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_advance)</td></tr>
-<tr class="memdesc:ad2631ffcc963638aa5b016c66a2e2c55 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">More...</a><br /></td></tr>
-<tr class="separator:ad2631ffcc963638aa5b016c66a2e2c55 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3ba93370bd4b2ede4bd4eb97ac0881be inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">initialize</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w)</td></tr>
-<tr class="separator:a3ba93370bd4b2ede4bd4eb97ac0881be inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af496afebb8983e5d346c681334955224 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">initialize</a> ()</td></tr>
-<tr class="separator:af496afebb8983e5d346c681334955224 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a79304c022d2466c97cd671a98128815a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a79304c022d2466c97cd671a98128815a">Params</a> ()</td></tr>
+<tr class="separator:a79304c022d2466c97cd671a98128815a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae1cb260e7b05034ec9b7fa61c92bbc80"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ae1cb260e7b05034ec9b7fa61c92bbc80">Params</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr)</td></tr>
+<tr class="separator:ae1cb260e7b05034ec9b7fa61c92bbc80"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afae37ebc78884290300f38fce7c021b1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#afae37ebc78884290300f38fce7c021b1">Params</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">TensorRef</a> const &amp;ref)</td></tr>
+<tr class="memdesc:afae37ebc78884290300f38fce7c021b1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs with a CompactTensorRef&lt;&gt;  <a href="#afae37ebc78884290300f38fce7c021b1">More...</a><br /></td></tr>
+<tr class="separator:afae37ebc78884290300f38fce7c021b1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa131e0ef02ce37038c1a17bea7088ef6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#aa131e0ef02ce37038c1a17bea7088ef6">Params</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr, long long <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>)</td></tr>
+<tr class="separator:aa131e0ef02ce37038c1a17bea7088ef6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9cf4cd4ecb0a81cf3c03a70c7bfc4e09"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9cf4cd4ecb0a81cf3c03a70c7bfc4e09">Params</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr, long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_advance)</td></tr>
+<tr class="separator:a9cf4cd4ecb0a81cf3c03a70c7bfc4e09"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aca14058b112b7d5105658457341726cb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#aca14058b112b7d5105658457341726cb">initialize</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">SharedStorage</a> &amp;storage)</td></tr>
+<tr class="memdesc:aca14058b112b7d5105658457341726cb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="#aca14058b112b7d5105658457341726cb">More...</a><br /></td></tr>
+<tr class="separator:aca14058b112b7d5105658457341726cb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0d36c05a4a757db5ebfe5f180b174b8c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a0d36c05a4a757db5ebfe5f180b174b8c">initialize</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr)</td></tr>
+<tr class="memdesc:a0d36c05a4a757db5ebfe5f180b174b8c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="#a0d36c05a4a757db5ebfe5f180b174b8c">More...</a><br /></td></tr>
+<tr class="separator:a0d36c05a4a757db5ebfe5f180b174b8c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a23c9e9d1d2bed7e5d8579df9cc42dda3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a23c9e9d1d2bed7e5d8579df9cc42dda3">initialize</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr, long long <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>)</td></tr>
+<tr class="memdesc:a23c9e9d1d2bed7e5d8579df9cc42dda3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to access a raw pointer.  <a href="#a23c9e9d1d2bed7e5d8579df9cc42dda3">More...</a><br /></td></tr>
+<tr class="separator:a23c9e9d1d2bed7e5d8579df9cc42dda3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6a7702de0e88449b3d1864b208adf87a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6a7702de0e88449b3d1864b208adf87a">initialize</a> (<a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr, long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_advance)</td></tr>
+<tr class="memdesc:a6a7702de0e88449b3d1864b208adf87a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="#a6a7702de0e88449b3d1864b208adf87a">More...</a><br /></td></tr>
+<tr class="separator:a6a7702de0e88449b3d1864b208adf87a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad90642d96a3b5354813fbf4d9b04b83f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ad90642d96a3b5354813fbf4d9b04b83f">initialize</a> ()</td></tr>
+<tr class="memdesc:ad90642d96a3b5354813fbf4d9b04b83f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to default values.  <a href="#ad90642d96a3b5354813fbf4d9b04b83f">More...</a><br /></td></tr>
+<tr class="separator:ad90642d96a3b5354813fbf4d9b04b83f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:acc0341b88143aac4ffd9bc1dcfaafa71 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">Params</a> ()</td></tr>
+<tr class="memdesc:acc0341b88143aac4ffd9bc1dcfaafa71 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">More...</a><br /></td></tr>
+<tr class="separator:acc0341b88143aac4ffd9bc1dcfaafa71 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab04617136a3bf909ef27eb97ea5ef81c inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">Params</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, long long _inc_advance)</td></tr>
+<tr class="memdesc:ab04617136a3bf909ef27eb97ea5ef81c inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">More...</a><br /></td></tr>
+<tr class="separator:ab04617136a3bf909ef27eb97ea5ef81c inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac030ea4568fa2cb6d6661df75062cd1a inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">Params</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;stride)</td></tr>
+<tr class="memdesc:ac030ea4568fa2cb6d6661df75062cd1a inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params with a stride vector.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">More...</a><br /></td></tr>
+<tr class="separator:ac030ea4568fa2cb6d6661df75062cd1a inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a802c270449da579ed8661e915d27ce60 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">initialize</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, long long _inc_advance)</td></tr>
+<tr class="memdesc:a802c270449da579ed8661e915d27ce60 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">More...</a><br /></td></tr>
+<tr class="separator:a802c270449da579ed8661e915d27ce60 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2ef70d9e13b5aa7e4a53233b153d7edd inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">initialize</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;stride)</td></tr>
+<tr class="memdesc:a2ef70d9e13b5aa7e4a53233b153d7edd inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes the parameters object from a vector of strides.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">More...</a><br /></td></tr>
+<tr class="separator:a2ef70d9e13b5aa7e4a53233b153d7edd inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a44870d45442ec45c8eaba46ab47a3ad9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">initialize</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w)</td></tr>
+<tr class="memdesc:a44870d45442ec45c8eaba46ab47a3ad9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes the parameters object from a vector of strides.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">More...</a><br /></td></tr>
+<tr class="separator:a44870d45442ec45c8eaba46ab47a3ad9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1776bf51e1e23cde6c58529be58aafb9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">initialize</a> ()</td></tr>
+<tr class="memdesc:a1776bf51e1e23cde6c58529be58aafb9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gotta have this.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">More...</a><br /></td></tr>
+<tr class="separator:a1776bf51e1e23cde6c58529be58aafb9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:a6bbadae6b13aef8f31a77cacd88b068b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a></td></tr>
-<tr class="memdesc:a6bbadae6b13aef8f31a77cacd88b068b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Pointer to memory.  <a href="#a6bbadae6b13aef8f31a77cacd88b068b">More...</a><br /></td></tr>
-<tr class="separator:a6bbadae6b13aef8f31a77cacd88b068b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
-<tr class="memitem:ad67234ec264354a22032bb2519575dc1 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a></td></tr>
-<tr class="separator:ad67234ec264354a22032bb2519575dc1 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a58e8c883aea4cfdfa5a84c25a4704ebc inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a></td></tr>
-<tr class="separator:a58e8c883aea4cfdfa5a84c25a4704ebc inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a313984457c78eea66c980f6813047b9c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a></td></tr>
-<tr class="separator:a313984457c78eea66c980f6813047b9c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af95fa1b5102176a0fa9b17713fd48150 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a></td></tr>
-<tr class="separator:af95fa1b5102176a0fa9b17713fd48150 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aea591d4278a8338ae8b50fa0b8f3a366 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a></td></tr>
-<tr class="separator:aea591d4278a8338ae8b50fa0b8f3a366 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac6e81450a2d78555a6c2415dcc42b178 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a></td></tr>
-<tr class="separator:ac6e81450a2d78555a6c2415dcc42b178 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1187258cd4068a627e73bee0302f1fc2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a></td></tr>
-<tr class="separator:a1187258cd4068a627e73bee0302f1fc2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9e50043acd3b851cce169310a04c6827"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a></td></tr>
+<tr class="memdesc:a9e50043acd3b851cce169310a04c6827"><td class="mdescLeft">&#160;</td><td class="mdescRight">Pointer to memory.  <a href="#a9e50043acd3b851cce169310a04c6827">More...</a><br /></td></tr>
+<tr class="separator:a9e50043acd3b851cce169310a04c6827"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:a235647baff946e483dd61a2069aa01d2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a></td></tr>
+<tr class="separator:a235647baff946e483dd61a2069aa01d2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4f029a268387bd63112d9074c185c623 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a></td></tr>
+<tr class="separator:a4f029a268387bd63112d9074c185c623 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af7e7a71a9fa41cc3f6d0e5963963339d inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a></td></tr>
+<tr class="separator:af7e7a71a9fa41cc3f6d0e5963963339d inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7b4293bf8291b0383dee695a60f2e0fd inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a></td></tr>
+<tr class="separator:a7b4293bf8291b0383dee695a60f2e0fd inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a15227102466522445261b6ea65c89c06 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a></td></tr>
+<tr class="separator:a15227102466522445261b6ea65c89c06 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af0be1271cfe6d6c03a9a76ff992d8a5c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a></td></tr>
+<tr class="separator:af0be1271cfe6d6c03a9a76ff992d8a5c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6d8f1e07f286ed8d5761e2a878b807d3 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a></td></tr>
+<tr class="separator:a6d8f1e07f286ed8d5761e2a878b807d3 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a79304c022d2466c97cd671a98128815a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a79304c022d2466c97cd671a98128815a">&#9670;&nbsp;</a></span>Params() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae1cb260e7b05034ec9b7fa61c92bbc80"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae1cb260e7b05034ec9b7fa61c92bbc80">&#9670;&nbsp;</a></span>Params() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afae37ebc78884290300f38fce7c021b1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afae37ebc78884290300f38fce7c021b1">&#9670;&nbsp;</a></span>Params() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">TensorRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa131e0ef02ce37038c1a17bea7088ef6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa131e0ef02ce37038c1a17bea7088ef6">&#9670;&nbsp;</a></span>Params() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>stride_d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>stride_h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>stride_w</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9cf4cd4ecb0a81cf3c03a70c7bfc4e09"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9cf4cd4ecb0a81cf3c03a70c7bfc4e09">&#9670;&nbsp;</a></span>Params() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_stride_d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_stride_h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_stride_w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_inc_d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_inc_h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_inc_w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
+          <td class="paramname"><em>_inc_advance</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a71f5238a712f7b2f377fb58938ac829b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a71f5238a712f7b2f377fb58938ac829b">&#9670;&nbsp;</a></span>initialize() <span class="overload">[1/4]</span></h2>
+<a id="aca14058b112b7d5105658457341726cb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aca14058b112b7d5105658457341726cb">&#9670;&nbsp;</a></span>initialize() <span class="overload">[1/5]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">SharedStorage</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">SharedStorage</a> &amp;&#160;</td>
           <td class="paramname"><em>storage</em></td><td>)</td>
           <td></td>
         </tr>
@@ -168,39 +404,67 @@ <h2 class="memtitle"><span class="permalink"><a href="#a71f5238a712f7b2f377fb589
 
 </div>
 </div>
-<a id="af0d26a2df2a1a5ba3c3169b736bd5d43"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af0d26a2df2a1a5ba3c3169b736bd5d43">&#9670;&nbsp;</a></span>initialize() <span class="overload">[2/4]</span></h2>
+<a id="a0d36c05a4a757db5ebfe5f180b174b8c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d36c05a4a757db5ebfe5f180b174b8c">&#9670;&nbsp;</a></span>initialize() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *&#160;</td>
+          <td class="paramname"><em>ptr</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a23c9e9d1d2bed7e5d8579df9cc42dda3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a23c9e9d1d2bed7e5d8579df9cc42dda3">&#9670;&nbsp;</a></span>initialize() <span class="overload">[3/5]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a> *&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *&#160;</td>
           <td class="paramname"><em>ptr</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype">long long&#160;</td>
           <td class="paramname"><em>stride_d</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>stride_h</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>stride_w</em>&#160;</td>
         </tr>
         <tr>
@@ -218,63 +482,63 @@ <h2 class="memtitle"><span class="permalink"><a href="#af0d26a2df2a1a5ba3c3169b7
 
 </div>
 </div>
-<a id="ac1cfe92f1543ba445fa10f1859a0db98"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac1cfe92f1543ba445fa10f1859a0db98">&#9670;&nbsp;</a></span>initialize() <span class="overload">[3/4]</span></h2>
+<a id="a6a7702de0e88449b3d1864b208adf87a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a7702de0e88449b3d1864b208adf87a">&#9670;&nbsp;</a></span>initialize() <span class="overload">[4/5]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a> *&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *&#160;</td>
           <td class="paramname"><em>ptr</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype">long long&#160;</td>
           <td class="paramname"><em>_stride_d</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_stride_h</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_stride_w</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype">long long&#160;</td>
           <td class="paramname"><em>_inc_d</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_inc_h</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_inc_w</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td>
           <td class="paramname"><em>_inc_advance</em>&#160;</td>
         </tr>
         <tr>
@@ -292,19 +556,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac1cfe92f1543ba445fa10f18
 
 </div>
 </div>
-<a id="af884f720d36aa82e7f972932686ae986"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af884f720d36aa82e7f972932686ae986">&#9670;&nbsp;</a></span>initialize() <span class="overload">[4/4]</span></h2>
+<a id="ad90642d96a3b5354813fbf4d9b04b83f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad90642d96a3b5354813fbf4d9b04b83f">&#9670;&nbsp;</a></span>initialize() <span class="overload">[5/5]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::initialize </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -320,16 +584,16 @@ <h2 class="memtitle"><span class="permalink"><a href="#af884f720d36aa82e7f972932
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="a6bbadae6b13aef8f31a77cacd88b068b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6bbadae6b13aef8f31a77cacd88b068b">&#9670;&nbsp;</a></span>pointer</h2>
+<a id="a9e50043acd3b851cce169310a04c6827"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e50043acd3b851cce169310a04c6827">&#9670;&nbsp;</a></span>pointer</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, IteratorFragment::Kind IteratorFragment_ = IteratorFragment::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
+template&lt;typename Traits_ , typename Scalar_ , IteratorAdvance::Kind Advance_ = IteratorAdvance::kH, MemorySpace::Kind MemorySpace = MemorySpace::kGeneric, typename Index_  = int, typename FragmentElement_  = Scalar_, FragmentElementType::Kind FragmentElementType_ = FragmentElementType::kScalar, typename Skew_  = Shape&lt;0, 0, 0, 0&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a>* <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params::pointer</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a>* <a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a>&lt; Traits_, Scalar_, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params::pointer</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -342,7 +606,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6bbadae6b13aef8f31a77cac
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileStoreIterator_1_1Params.png b/docs/structcutlass_1_1TileStoreIterator_1_1Params.png
index aabb9a31b6..1e0529a453 100644
Binary files a/docs/structcutlass_1_1TileStoreIterator_1_1Params.png and b/docs/structcutlass_1_1TileStoreIterator_1_1Params.png differ
diff --git a/docs/structcutlass_1_1TileStoreStream-members.html b/docs/structcutlass_1_1TileStoreStream-members.html
new file mode 100644
index 0000000000..03cb5045ab
--- /dev/null
+++ b/docs/structcutlass_1_1TileStoreStream-members.html
@@ -0,0 +1,107 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579">commit</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009">copy</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa0f3c75e59054d6229de159474c9c978">copy</a>(Fragment const &amp;frag)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5">fragment</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71">intermediate_fragment</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">Iterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">source_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b">TileStoreStream</a>(Params const &amp;_params, TensorRef const &amp;_ref)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a08e7e7bf74e1e0d670dd6a4e65d14084">TileStoreStream</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">transformed_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">Transformer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">transformer</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileStoreStream.html b/docs/structcutlass_1_1TileStoreStream.html
new file mode 100644
index 0000000000..06c454fc27
--- /dev/null
+++ b/docs/structcutlass_1_1TileStoreStream.html
@@ -0,0 +1,556 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1TileStoreStream-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Generic stream for transforming and storing fragments.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__stream_8h_source.html">tile_stream.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1TileStoreStream.png" usemap="#cutlass::TileStoreStream_3C_20Iterator_5F_2C_20Transformer_5F_20_3E_map" alt=""/>
+  <map id="cutlass::TileStoreStream_3C_20Iterator_5F_2C_20Transformer_5F_20_3E_map" name="cutlass::TileStoreStream_3C_20Iterator_5F_2C_20Transformer_5F_20_3E_map">
+<area href="structcutlass_1_1PredicatedTileStoreStream.html" title="Generic stream for transforming and storing fragments. " alt="cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;" shape="rect" coords="0,56,477,80"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters used to construct the stream.  <a href="structcutlass_1_1TileStoreStream_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html">PredicateVector</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Empty predicate vector struct.  <a href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a35009c9a697f20fd5a7ee634de4d6c97"><td class="memItemLeft" align="right" valign="top">typedef Iterator_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">Iterator</a></td></tr>
+<tr class="memdesc:a35009c9a697f20fd5a7ee634de4d6c97"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1TileLoadIterator.html" title="An iterator implementing Tile Load Iterator Concept for loading a tile from memory. ">TileLoadIterator</a>.  <a href="#a35009c9a697f20fd5a7ee634de4d6c97">More...</a><br /></td></tr>
+<tr class="separator:a35009c9a697f20fd5a7ee634de4d6c97"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa8c192da812ec83329350e5838838f5e"><td class="memItemLeft" align="right" valign="top">typedef Transformer_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">Transformer</a></td></tr>
+<tr class="memdesc:aa8c192da812ec83329350e5838838f5e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformer.  <a href="#aa8c192da812ec83329350e5838838f5e">More...</a><br /></td></tr>
+<tr class="separator:aa8c192da812ec83329350e5838838f5e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea4357a67b8abef10f91a45e64840878"><td class="memItemLeft" align="right" valign="top">typedef Transformer::InputFragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a></td></tr>
+<tr class="memdesc:aea4357a67b8abef10f91a45e64840878"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source fragment.  <a href="#aea4357a67b8abef10f91a45e64840878">More...</a><br /></td></tr>
+<tr class="separator:aea4357a67b8abef10f91a45e64840878"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae14c71f6bb331030429d346f0140c993"><td class="memItemLeft" align="right" valign="top">typedef Transformer::OutputFragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a></td></tr>
+<tr class="memdesc:ae14c71f6bb331030429d346f0140c993"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformed fragment, compatible with Iterator::Fragment.  <a href="#ae14c71f6bb331030429d346f0140c993">More...</a><br /></td></tr>
+<tr class="separator:ae14c71f6bb331030429d346f0140c993"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2255d760e812cfe8e31f114cdb5793fe"><td class="memItemLeft" align="right" valign="top">typedef Iterator::TensorRef&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">TensorRef</a></td></tr>
+<tr class="memdesc:a2255d760e812cfe8e31f114cdb5793fe"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference expected by the underlying iterator.  <a href="#a2255d760e812cfe8e31f114cdb5793fe">More...</a><br /></td></tr>
+<tr class="separator:a2255d760e812cfe8e31f114cdb5793fe"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa0e894a30d3a979ac56e5134360a08f4"><td class="memItemLeft" align="right" valign="top">typedef Iterator::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">Index</a></td></tr>
+<tr class="memdesc:aa0e894a30d3a979ac56e5134360a08f4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="#aa0e894a30d3a979ac56e5134360a08f4">More...</a><br /></td></tr>
+<tr class="separator:aa0e894a30d3a979ac56e5134360a08f4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:af85b3acfc29e41ee605df64b09698a8b"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b">TileStoreStream</a> (<a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">TensorRef</a> const &amp;_ref)</td></tr>
+<tr class="memdesc:af85b3acfc29e41ee605df64b09698a8b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#af85b3acfc29e41ee605df64b09698a8b">More...</a><br /></td></tr>
+<tr class="separator:af85b3acfc29e41ee605df64b09698a8b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a08e7e7bf74e1e0d670dd6a4e65d14084"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a08e7e7bf74e1e0d670dd6a4e65d14084">TileStoreStream</a> (<a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;threadblock_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:a08e7e7bf74e1e0d670dd6a4e65d14084"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a08e7e7bf74e1e0d670dd6a4e65d14084">More...</a><br /></td></tr>
+<tr class="separator:a08e7e7bf74e1e0d670dd6a4e65d14084"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a50b6b5bd08fd83baa36c3dc4461ca009"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009">copy</a> ()</td></tr>
+<tr class="memdesc:a50b6b5bd08fd83baa36c3dc4461ca009"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment and increments the iterator.  <a href="#a50b6b5bd08fd83baa36c3dc4461ca009">More...</a><br /></td></tr>
+<tr class="separator:a50b6b5bd08fd83baa36c3dc4461ca009"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa0f3c75e59054d6229de159474c9c978"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa0f3c75e59054d6229de159474c9c978">copy</a> (<a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> const &amp;frag)</td></tr>
+<tr class="memdesc:aa0f3c75e59054d6229de159474c9c978"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a fragment and increments the iterator.  <a href="#aa0f3c75e59054d6229de159474c9c978">More...</a><br /></td></tr>
+<tr class="separator:aa0f3c75e59054d6229de159474c9c978"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab5176fc539364fdf63647dc33020f579"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579">commit</a> ()</td></tr>
+<tr class="memdesc:ab5176fc539364fdf63647dc33020f579"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commits the store operation.  <a href="#ab5176fc539364fdf63647dc33020f579">More...</a><br /></td></tr>
+<tr class="separator:ab5176fc539364fdf63647dc33020f579"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad6ff1786f85d64053ece0ac8ae9a92b5"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5">fragment</a> ()</td></tr>
+<tr class="memdesc:ad6ff1786f85d64053ece0ac8ae9a92b5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the transformed fragment.  <a href="#ad6ff1786f85d64053ece0ac8ae9a92b5">More...</a><br /></td></tr>
+<tr class="separator:ad6ff1786f85d64053ece0ac8ae9a92b5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff77aed0f1b1583b01a427fc935c5d71"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71">intermediate_fragment</a> ()</td></tr>
+<tr class="memdesc:aff77aed0f1b1583b01a427fc935c5d71"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accesses the fragment after trasnforming.  <a href="#aff77aed0f1b1583b01a427fc935c5d71">More...</a><br /></td></tr>
+<tr class="separator:aff77aed0f1b1583b01a427fc935c5d71"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a601a296ec830e9b98aca9d5cf4b4010c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">Iterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">iterator</a></td></tr>
+<tr class="memdesc:a601a296ec830e9b98aca9d5cf4b4010c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterator to store tiles.  <a href="#a601a296ec830e9b98aca9d5cf4b4010c">More...</a><br /></td></tr>
+<tr class="separator:a601a296ec830e9b98aca9d5cf4b4010c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a61d57147150bffda0c1662d6131a3934"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">Transformer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">transformer</a></td></tr>
+<tr class="memdesc:a61d57147150bffda0c1662d6131a3934"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformation applied to inputs.  <a href="#a61d57147150bffda0c1662d6131a3934">More...</a><br /></td></tr>
+<tr class="separator:a61d57147150bffda0c1662d6131a3934"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0880c28b3ec82d38571ed332451c8d6a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">source_fragment</a></td></tr>
+<tr class="memdesc:a0880c28b3ec82d38571ed332451c8d6a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source fragment.  <a href="#a0880c28b3ec82d38571ed332451c8d6a">More...</a><br /></td></tr>
+<tr class="separator:a0880c28b3ec82d38571ed332451c8d6a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb5be2edcc35c7876abe5234663f9c48"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">transformed_fragment</a></td></tr>
+<tr class="memdesc:aeb5be2edcc35c7876abe5234663f9c48"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformed fragment from transformer.  <a href="#aeb5be2edcc35c7876abe5234663f9c48">More...</a><br /></td></tr>
+<tr class="separator:aeb5be2edcc35c7876abe5234663f9c48"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="aea4357a67b8abef10f91a45e64840878"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea4357a67b8abef10f91a45e64840878">&#9670;&nbsp;</a></span>Fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Transformer::InputFragment <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa0e894a30d3a979ac56e5134360a08f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa0e894a30d3a979ac56e5134360a08f4">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Iterator::Index <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a35009c9a697f20fd5a7ee634de4d6c97"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a35009c9a697f20fd5a7ee634de4d6c97">&#9670;&nbsp;</a></span>Iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Iterator_ <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">Iterator</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2255d760e812cfe8e31f114cdb5793fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2255d760e812cfe8e31f114cdb5793fe">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Iterator::TensorRef <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae14c71f6bb331030429d346f0140c993"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae14c71f6bb331030429d346f0140c993">&#9670;&nbsp;</a></span>TransformedFragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Transformer::OutputFragment <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa8c192da812ec83329350e5838838f5e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa8c192da812ec83329350e5838838f5e">&#9670;&nbsp;</a></span>Transformer</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Transformer_ <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">Transformer</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="af85b3acfc29e41ee605df64b09698a8b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af85b3acfc29e41ee605df64b09698a8b">&#9670;&nbsp;</a></span>TileStoreStream() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">TensorRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_ref</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a08e7e7bf74e1e0d670dd6a4e65d14084"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a08e7e7bf74e1e0d670dd6a4e65d14084">&#9670;&nbsp;</a></span>TileStoreStream() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>threadblock_offset</em> = <code><a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,&#160;0,&#160;0)</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ab5176fc539364fdf63647dc33020f579"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab5176fc539364fdf63647dc33020f579">&#9670;&nbsp;</a></span>commit()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::commit </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a50b6b5bd08fd83baa36c3dc4461ca009"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a50b6b5bd08fd83baa36c3dc4461ca009">&#9670;&nbsp;</a></span>copy() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::copy </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa0f3c75e59054d6229de159474c9c978"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa0f3c75e59054d6229de159474c9c978">&#9670;&nbsp;</a></span>copy() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::copy </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>frag</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad6ff1786f85d64053ece0ac8ae9a92b5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6ff1786f85d64053ece0ac8ae9a92b5">&#9670;&nbsp;</a></span>fragment()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a>&amp; <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::fragment </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aff77aed0f1b1583b01a427fc935c5d71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff77aed0f1b1583b01a427fc935c5d71">&#9670;&nbsp;</a></span>intermediate_fragment()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a>&amp; <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::intermediate_fragment </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a601a296ec830e9b98aca9d5cf4b4010c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a601a296ec830e9b98aca9d5cf4b4010c">&#9670;&nbsp;</a></span>iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">Iterator</a> <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::iterator</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0880c28b3ec82d38571ed332451c8d6a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0880c28b3ec82d38571ed332451c8d6a">&#9670;&nbsp;</a></span>source_fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::source_fragment</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aeb5be2edcc35c7876abe5234663f9c48"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeb5be2edcc35c7876abe5234663f9c48">&#9670;&nbsp;</a></span>transformed_fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a> <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::transformed_fragment</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a61d57147150bffda0c1662d6131a3934"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a61d57147150bffda0c1662d6131a3934">&#9670;&nbsp;</a></span>transformer</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">Transformer</a> <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::transformer</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__stream_8h_source.html">tile_stream.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileStoreStream.png b/docs/structcutlass_1_1TileStoreStream.png
new file mode 100644
index 0000000000..c673a40f9d
Binary files /dev/null and b/docs/structcutlass_1_1TileStoreStream.png differ
diff --git a/docs/structcutlass_1_1TileStoreStream_1_1Params-members.html b/docs/structcutlass_1_1TileStoreStream_1_1Params-members.html
new file mode 100644
index 0000000000..2f4e2f61fe
--- /dev/null
+++ b/docs/structcutlass_1_1TileStoreStream_1_1Params-members.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html#acd106661221997d7c5943daac8eb5088">iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html#adfa2399bf13cdff16b7bfe1cb0dd2bd9">Params</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html#acc400568f7694f818b5afbb109bd2e63">Params</a>(typename Iterator::Params const &amp;_iterator)</td><td class="entry"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileStoreStream_1_1Params.html b/docs/structcutlass_1_1TileStoreStream_1_1Params.html
new file mode 100644
index 0000000000..e4b3edcafc
--- /dev/null
+++ b/docs/structcutlass_1_1TileStoreStream_1_1Params.html
@@ -0,0 +1,188 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1TileStoreStream_1_1Params-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Parameters used to construct the stream.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__stream_8h_source.html">tile_stream.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:adfa2399bf13cdff16b7bfe1cb0dd2bd9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html#adfa2399bf13cdff16b7bfe1cb0dd2bd9">Params</a> ()</td></tr>
+<tr class="memdesc:adfa2399bf13cdff16b7bfe1cb0dd2bd9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="#adfa2399bf13cdff16b7bfe1cb0dd2bd9">More...</a><br /></td></tr>
+<tr class="separator:adfa2399bf13cdff16b7bfe1cb0dd2bd9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acc400568f7694f818b5afbb109bd2e63"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html#acc400568f7694f818b5afbb109bd2e63">Params</a> (typename Iterator::Params const &amp;_iterator)</td></tr>
+<tr class="memdesc:acc400568f7694f818b5afbb109bd2e63"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor with iterator params.  <a href="#acc400568f7694f818b5afbb109bd2e63">More...</a><br /></td></tr>
+<tr class="separator:acc400568f7694f818b5afbb109bd2e63"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:acd106661221997d7c5943daac8eb5088"><td class="memItemLeft" align="right" valign="top">Iterator::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html#acd106661221997d7c5943daac8eb5088">iterator</a></td></tr>
+<tr class="memdesc:acd106661221997d7c5943daac8eb5088"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters to the iterator.  <a href="#acd106661221997d7c5943daac8eb5088">More...</a><br /></td></tr>
+<tr class="separator:acd106661221997d7c5943daac8eb5088"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="adfa2399bf13cdff16b7bfe1cb0dd2bd9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adfa2399bf13cdff16b7bfe1cb0dd2bd9">&#9670;&nbsp;</a></span>Params() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acc400568f7694f818b5afbb109bd2e63"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc400568f7694f818b5afbb109bd2e63">&#9670;&nbsp;</a></span>Params() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype">typename Iterator::Params const &amp;&#160;</td>
+          <td class="paramname"><em>_iterator</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="acd106661221997d7c5943daac8eb5088"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acd106661221997d7c5943daac8eb5088">&#9670;&nbsp;</a></span>iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">Iterator::Params <a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a>&lt; Iterator_, Transformer_ &gt;::Params::iterator</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__stream_8h_source.html">tile_stream.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileStoreStream_1_1PredicateVector.html b/docs/structcutlass_1_1TileStoreStream_1_1PredicateVector.html
new file mode 100644
index 0000000000..283d739eed
--- /dev/null
+++ b/docs/structcutlass_1_1TileStoreStream_1_1PredicateVector.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::PredicateVector Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a></li><li class="navelem"><a class="el" href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html">PredicateVector</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::PredicateVector Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Empty predicate vector struct.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__stream_8h_source.html">tile_stream.h</a>&gt;</code></p>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__stream_8h_source.html">tile_stream.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1TileTraits-members.html b/docs/structcutlass_1_1TileTraits-members.html
index c4d8ddf526..7f5bea37a1 100644
--- a/docs/structcutlass_1_1TileTraits-members.html
+++ b/docs/structcutlass_1_1TileTraits-members.html
@@ -73,20 +73,22 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt; Member List</div>  </div>
+<div class="title">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html#af88f5cea9f452d83004ea0fa0f9d56eb">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html#af7ae2fdb4c8f1702169cc7d437d2b469">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html#af9c0fc178dac7f9dac8d254da34e04dd">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html#ab831be0adb255eece4f2e12fd9713831">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html#ad6d99ccf2fcd2bd47e45d068f4d99c82">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html#a3db8202befa891bbc7c0a53c535cd21f">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html#a46b9e04bb8d33fcf8fc116cc48a555fc">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html#a0a494c2eacb51b65487f8405908a0214">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html#a671ef48f4141a9de30b6ec6fb0be1feb">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html#a3632c351a28f71f6c140dd33089d80b0">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraits.html b/docs/structcutlass_1_1TileTraits.html
index b81a519418..b95fdf273e 100644
--- a/docs/structcutlass_1_1TileTraits.html
+++ b/docs/structcutlass_1_1TileTraits.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -74,9 +74,10 @@
 <div class="header">
   <div class="summary">
 <a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="structcutlass_1_1TileTraits-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt; Struct Template Reference<div class="ingroups"><a class="el" href="group__tile__traits__concept.html">Tile Traits Concept</a></div></div>  </div>
+<div class="title">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt; Struct Template Reference<div class="ingroups"><a class="el" href="group__tile__traits__concept.html">Tile Traits Concept</a></div></div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -87,82 +88,132 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:ab831be0adb255eece4f2e12fd9713831"><td class="memItemLeft" align="right" valign="top">typedef Tile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html#ab831be0adb255eece4f2e12fd9713831">Tile</a></td></tr>
-<tr class="memdesc:ab831be0adb255eece4f2e12fd9713831"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Shape.html" title="A Shape implementing Layout Concept describing the dimensions of a cube. ">Shape</a> of the tile.  <a href="#ab831be0adb255eece4f2e12fd9713831">More...</a><br /></td></tr>
-<tr class="separator:ab831be0adb255eece4f2e12fd9713831"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af88f5cea9f452d83004ea0fa0f9d56eb"><td class="memItemLeft" align="right" valign="top">typedef Delta_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html#af88f5cea9f452d83004ea0fa0f9d56eb">Delta</a></td></tr>
-<tr class="memdesc:af88f5cea9f452d83004ea0fa0f9d56eb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of steps between accesses along each dimension.  <a href="#af88f5cea9f452d83004ea0fa0f9d56eb">More...</a><br /></td></tr>
-<tr class="separator:af88f5cea9f452d83004ea0fa0f9d56eb"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af7ae2fdb4c8f1702169cc7d437d2b469"><td class="memItemLeft" align="right" valign="top">typedef Iterations_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html#af7ae2fdb4c8f1702169cc7d437d2b469">Iterations</a></td></tr>
-<tr class="memdesc:af7ae2fdb4c8f1702169cc7d437d2b469"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of accesses performed.  <a href="#af7ae2fdb4c8f1702169cc7d437d2b469">More...</a><br /></td></tr>
-<tr class="separator:af7ae2fdb4c8f1702169cc7d437d2b469"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af9c0fc178dac7f9dac8d254da34e04dd"><td class="memItemLeft" align="right" valign="top">typedef ThreadOffset_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html#af9c0fc178dac7f9dac8d254da34e04dd">ThreadOffset</a></td></tr>
-<tr class="memdesc:af9c0fc178dac7f9dac8d254da34e04dd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Functor that returns the logical coordinate of each entity's initial offset in the tile.  <a href="#af9c0fc178dac7f9dac8d254da34e04dd">More...</a><br /></td></tr>
-<tr class="separator:af9c0fc178dac7f9dac8d254da34e04dd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3632c351a28f71f6c140dd33089d80b0"><td class="memItemLeft" align="right" valign="top">typedef Tile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html#a3632c351a28f71f6c140dd33089d80b0">Tile</a></td></tr>
+<tr class="memdesc:a3632c351a28f71f6c140dd33089d80b0"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Shape.html" title="A Shape implementing Layout Concept describing the dimensions of a cube. ">Shape</a> of the tile.  <a href="#a3632c351a28f71f6c140dd33089d80b0">More...</a><br /></td></tr>
+<tr class="separator:a3632c351a28f71f6c140dd33089d80b0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad6d99ccf2fcd2bd47e45d068f4d99c82"><td class="memItemLeft" align="right" valign="top">typedef Delta_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html#ad6d99ccf2fcd2bd47e45d068f4d99c82">Delta</a></td></tr>
+<tr class="memdesc:ad6d99ccf2fcd2bd47e45d068f4d99c82"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of steps between accesses along each dimension.  <a href="#ad6d99ccf2fcd2bd47e45d068f4d99c82">More...</a><br /></td></tr>
+<tr class="separator:ad6d99ccf2fcd2bd47e45d068f4d99c82"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a46b9e04bb8d33fcf8fc116cc48a555fc"><td class="memItemLeft" align="right" valign="top">typedef Iterations_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html#a46b9e04bb8d33fcf8fc116cc48a555fc">Iterations</a></td></tr>
+<tr class="memdesc:a46b9e04bb8d33fcf8fc116cc48a555fc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of accesses performed.  <a href="#a46b9e04bb8d33fcf8fc116cc48a555fc">More...</a><br /></td></tr>
+<tr class="separator:a46b9e04bb8d33fcf8fc116cc48a555fc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a671ef48f4141a9de30b6ec6fb0be1feb"><td class="memItemLeft" align="right" valign="top">typedef ThreadOffset_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html#a671ef48f4141a9de30b6ec6fb0be1feb">ThreadOffset</a></td></tr>
+<tr class="memdesc:a671ef48f4141a9de30b6ec6fb0be1feb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Functor that returns the logical coordinate of each entity's initial offset in the tile.  <a href="#a671ef48f4141a9de30b6ec6fb0be1feb">More...</a><br /></td></tr>
+<tr class="separator:a671ef48f4141a9de30b6ec6fb0be1feb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3db8202befa891bbc7c0a53c535cd21f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html#a3db8202befa891bbc7c0a53c535cd21f">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:a3db8202befa891bbc7c0a53c535cd21f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Strides for immediate offset computation.  <a href="#a3db8202befa891bbc7c0a53c535cd21f">More...</a><br /></td></tr>
+<tr class="separator:a3db8202befa891bbc7c0a53c535cd21f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a0a494c2eacb51b65487f8405908a0214"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html#a0a494c2eacb51b65487f8405908a0214">kAccessSize</a> = AccessSize</td></tr>
+<tr class="memdesc:a0a494c2eacb51b65487f8405908a0214"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access size.  <a href="#a0a494c2eacb51b65487f8405908a0214">More...</a><br /></td></tr>
+<tr class="separator:a0a494c2eacb51b65487f8405908a0214"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="af88f5cea9f452d83004ea0fa0f9d56eb"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af88f5cea9f452d83004ea0fa0f9d56eb">&#9670;&nbsp;</a></span>Delta</h2>
+<a id="ad6d99ccf2fcd2bd47e45d068f4d99c82"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6d99ccf2fcd2bd47e45d068f4d99c82">&#9670;&nbsp;</a></span>Delta</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Tile_ , typename Delta_ , typename Iterations_ , typename ThreadOffset_ &gt; </div>
+template&lt;typename Tile_ , typename Delta_ , typename Iterations_ , typename ThreadOffset_ , int AccessSize&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Delta_ <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a>&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;::<a class="el" href="structcutlass_1_1TileTraits.html#af88f5cea9f452d83004ea0fa0f9d56eb">Delta</a></td>
+          <td class="memname">typedef Delta_ <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a>&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;::<a class="el" href="structcutlass_1_1TileTraits.html#ad6d99ccf2fcd2bd47e45d068f4d99c82">Delta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="af7ae2fdb4c8f1702169cc7d437d2b469"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af7ae2fdb4c8f1702169cc7d437d2b469">&#9670;&nbsp;</a></span>Iterations</h2>
+<a id="a3db8202befa891bbc7c0a53c535cd21f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3db8202befa891bbc7c0a53c535cd21f">&#9670;&nbsp;</a></span>ImmediateOffsetStrides</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Tile_ , typename Delta_ , typename Iterations_ , typename ThreadOffset_ &gt; </div>
+template&lt;typename Tile_ , typename Delta_ , typename Iterations_ , typename ThreadOffset_ , int AccessSize&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Iterations_ <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a>&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;::<a class="el" href="structcutlass_1_1TileTraits.html#af7ae2fdb4c8f1702169cc7d437d2b469">Iterations</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;0, 0, 0, 0&gt; <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a>&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;::<a class="el" href="structcutlass_1_1TileTraits.html#a3db8202befa891bbc7c0a53c535cd21f">ImmediateOffsetStrides</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="af9c0fc178dac7f9dac8d254da34e04dd"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af9c0fc178dac7f9dac8d254da34e04dd">&#9670;&nbsp;</a></span>ThreadOffset</h2>
+<a id="a46b9e04bb8d33fcf8fc116cc48a555fc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46b9e04bb8d33fcf8fc116cc48a555fc">&#9670;&nbsp;</a></span>Iterations</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Tile_ , typename Delta_ , typename Iterations_ , typename ThreadOffset_ &gt; </div>
+template&lt;typename Tile_ , typename Delta_ , typename Iterations_ , typename ThreadOffset_ , int AccessSize&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef ThreadOffset_ <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a>&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;::<a class="el" href="structcutlass_1_1TileTraits.html#af9c0fc178dac7f9dac8d254da34e04dd">ThreadOffset</a></td>
+          <td class="memname">typedef Iterations_ <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a>&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;::<a class="el" href="structcutlass_1_1TileTraits.html#a46b9e04bb8d33fcf8fc116cc48a555fc">Iterations</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ab831be0adb255eece4f2e12fd9713831"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab831be0adb255eece4f2e12fd9713831">&#9670;&nbsp;</a></span>Tile</h2>
+<a id="a671ef48f4141a9de30b6ec6fb0be1feb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a671ef48f4141a9de30b6ec6fb0be1feb">&#9670;&nbsp;</a></span>ThreadOffset</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Tile_ , typename Delta_ , typename Iterations_ , typename ThreadOffset_ &gt; </div>
+template&lt;typename Tile_ , typename Delta_ , typename Iterations_ , typename ThreadOffset_ , int AccessSize&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Tile_ <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a>&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;::<a class="el" href="structcutlass_1_1TileTraits.html#ab831be0adb255eece4f2e12fd9713831">Tile</a></td>
+          <td class="memname">typedef ThreadOffset_ <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a>&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;::<a class="el" href="structcutlass_1_1TileTraits.html#a671ef48f4141a9de30b6ec6fb0be1feb">ThreadOffset</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a3632c351a28f71f6c140dd33089d80b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3632c351a28f71f6c140dd33089d80b0">&#9670;&nbsp;</a></span>Tile</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Tile_ , typename Delta_ , typename Iterations_ , typename ThreadOffset_ , int AccessSize&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Tile_ <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a>&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;::<a class="el" href="structcutlass_1_1TileTraits.html#a3632c351a28f71f6c140dd33089d80b0">Tile</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a0a494c2eacb51b65487f8405908a0214"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0a494c2eacb51b65487f8405908a0214">&#9670;&nbsp;</a></span>kAccessSize</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Tile_ , typename Delta_ , typename Iterations_ , typename ThreadOffset_ , int AccessSize&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a>&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;::kAccessSize = AccessSize</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
@@ -171,7 +222,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab831be0adb255eece4f2e12f
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraitsContiguousMajor-members.html b/docs/structcutlass_1_1TileTraitsContiguousMajor-members.html
index e33d565589..ea0af2c7e4 100644
--- a/docs/structcutlass_1_1TileTraitsContiguousMajor-members.html
+++ b/docs/structcutlass_1_1TileTraitsContiguousMajor-members.html
@@ -88,7 +88,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraitsContiguousMajor.html b/docs/structcutlass_1_1TileTraitsContiguousMajor.html
index 777f6136a6..667bce4d04 100644
--- a/docs/structcutlass_1_1TileTraitsContiguousMajor.html
+++ b/docs/structcutlass_1_1TileTraitsContiguousMajor.html
@@ -224,7 +224,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a53d10552356855bf7379632e
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraitsStandard-members.html b/docs/structcutlass_1_1TileTraitsStandard-members.html
index 4732a54bcb..40677b2654 100644
--- a/docs/structcutlass_1_1TileTraitsStandard-members.html
+++ b/docs/structcutlass_1_1TileTraitsStandard-members.html
@@ -79,14 +79,15 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25">kWarpCount</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#a5e04777205c7a292602880c59d6b43c8">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25">kWarpCount</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard&lt; Tile_, Threads &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraitsStandard.html b/docs/structcutlass_1_1TileTraitsStandard.html
index 7806ece42f..a7a26e38af 100644
--- a/docs/structcutlass_1_1TileTraitsStandard.html
+++ b/docs/structcutlass_1_1TileTraitsStandard.html
@@ -103,6 +103,9 @@
 <tr class="memitem:a1e8f90991e179d13971b84494c989d25"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25">kWarpCount</a> = <a class="el" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">kThreads</a> / <a class="el" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a></td></tr>
 <tr class="memdesc:a1e8f90991e179d13971b84494c989d25"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of participating warps.  <a href="#a1e8f90991e179d13971b84494c989d25">More...</a><br /></td></tr>
 <tr class="separator:a1e8f90991e179d13971b84494c989d25"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5e04777205c7a292602880c59d6b43c8"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraitsStandard.html#a5e04777205c7a292602880c59d6b43c8">kAccessSize</a> = 1</td></tr>
+<tr class="memdesc:a5e04777205c7a292602880c59d6b43c8"><td class="mdescLeft">&#160;</td><td class="mdescRight">By default, do not do scalar loads.  <a href="#a5e04777205c7a292602880c59d6b43c8">More...</a><br /></td></tr>
+<tr class="separator:a5e04777205c7a292602880c59d6b43c8"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="aee3fee526bc4d4820c03665a2f5f166b"></a>
@@ -122,6 +125,30 @@ <h2 class="memtitle"><span class="permalink"><a href="#aee3fee526bc4d4820c03665a
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
+<a id="a5e04777205c7a292602880c59d6b43c8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5e04777205c7a292602880c59d6b43c8">&#9670;&nbsp;</a></span>kAccessSize</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Tile_ , int Threads&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard</a>&lt; Tile_, Threads &gt;::kAccessSize = 1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <a id="a9cbcbe09aa6e9465b63dd22d59435af1"></a>
 <h2 class="memtitle"><span class="permalink"><a href="#a9cbcbe09aa6e9465b63dd22d59435af1">&#9670;&nbsp;</a></span>kThreads</h2>
 
@@ -200,7 +227,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae9f40eb177c440f01adcc2fe
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraitsStrideMajor-members.html b/docs/structcutlass_1_1TileTraitsStrideMajor-members.html
index 2ae5190886..76a8c0323f 100644
--- a/docs/structcutlass_1_1TileTraitsStrideMajor-members.html
+++ b/docs/structcutlass_1_1TileTraitsStrideMajor-members.html
@@ -88,7 +88,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraitsStrideMajor.html b/docs/structcutlass_1_1TileTraitsStrideMajor.html
index d24bc59b03..40c37b8dc0 100644
--- a/docs/structcutlass_1_1TileTraitsStrideMajor.html
+++ b/docs/structcutlass_1_1TileTraitsStrideMajor.html
@@ -224,7 +224,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2b6ad449269a178018f02b8c
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraitsWarpRake-members.html b/docs/structcutlass_1_1TileTraitsWarpRake-members.html
index e76c228b18..24bef8e492 100644
--- a/docs/structcutlass_1_1TileTraitsWarpRake-members.html
+++ b/docs/structcutlass_1_1TileTraitsWarpRake-members.html
@@ -91,7 +91,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraitsWarpRake.html b/docs/structcutlass_1_1TileTraitsWarpRake.html
index 771a8e410e..dfe8d8976e 100644
--- a/docs/structcutlass_1_1TileTraitsWarpRake.html
+++ b/docs/structcutlass_1_1TileTraitsWarpRake.html
@@ -318,7 +318,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8b1d3fe590f426ce11d597bb
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset-members.html b/docs/structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset-members.html
index e816dc744b..942245c81f 100644
--- a/docs/structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html b/docs/structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html
index cc0d9db2c1..26010fb811 100644
--- a/docs/structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html
@@ -125,7 +125,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0e4edffb19218ccbf77995f6
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TiledThreadOffset-members.html b/docs/structcutlass_1_1TiledThreadOffset-members.html
index bc28ca5dd8..9088eaddb7 100644
--- a/docs/structcutlass_1_1TiledThreadOffset-members.html
+++ b/docs/structcutlass_1_1TiledThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TiledThreadOffset.html b/docs/structcutlass_1_1TiledThreadOffset.html
index dbbccc1f22..574a6f5464 100644
--- a/docs/structcutlass_1_1TiledThreadOffset.html
+++ b/docs/structcutlass_1_1TiledThreadOffset.html
@@ -125,7 +125,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7290b6ca9ef0bede634f69bd
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TrivialPredicateTileAdapter-members.html b/docs/structcutlass_1_1TrivialPredicateTileAdapter-members.html
index 1bb156f6fc..65eb939f14 100644
--- a/docs/structcutlass_1_1TrivialPredicateTileAdapter-members.html
+++ b/docs/structcutlass_1_1TrivialPredicateTileAdapter-members.html
@@ -84,7 +84,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1TrivialPredicateTileAdapter.html b/docs/structcutlass_1_1TrivialPredicateTileAdapter.html
index f93bb89cf5..1a8178abea 100644
--- a/docs/structcutlass_1_1TrivialPredicateTileAdapter.html
+++ b/docs/structcutlass_1_1TrivialPredicateTileAdapter.html
@@ -175,7 +175,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3e41ab145489df08fca79251
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1VectorTraits-members.html b/docs/structcutlass_1_1VectorTraits-members.html
index 011de7e914..f19499038c 100644
--- a/docs/structcutlass_1_1VectorTraits-members.html
+++ b/docs/structcutlass_1_1VectorTraits-members.html
@@ -86,7 +86,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1VectorTraits.html b/docs/structcutlass_1_1VectorTraits.html
index 80070a5b10..b19316ae77 100644
--- a/docs/structcutlass_1_1VectorTraits.html
+++ b/docs/structcutlass_1_1VectorTraits.html
@@ -192,7 +192,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a052e1e5963a9e04482b16cb8
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4-members.html b/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4-members.html
index e5e2d78019..d5a0cb27d6 100644
--- a/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4-members.html
+++ b/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4-members.html
@@ -86,7 +86,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html b/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html
index 39561291cf..d029b5663b 100644
--- a/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html
+++ b/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html
@@ -192,7 +192,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aca745b59c6c21292f119943e
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4-members.html b/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4-members.html
index a038a43122..3ef83c65c4 100644
--- a/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4-members.html
+++ b/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4-members.html
@@ -86,7 +86,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html b/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html
index 7f9a574310..d0a8efc2d3 100644
--- a/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html
+++ b/docs/structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html
@@ -192,7 +192,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a43ac200035052a2c352c8c4b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Vectorize-members.html b/docs/structcutlass_1_1Vectorize-members.html
index 2f3903bd3b..3a8634e083 100644
--- a/docs/structcutlass_1_1Vectorize-members.html
+++ b/docs/structcutlass_1_1Vectorize-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Vectorize.html b/docs/structcutlass_1_1Vectorize.html
index d728c0a27a..9d5c1b22d0 100644
--- a/docs/structcutlass_1_1Vectorize.html
+++ b/docs/structcutlass_1_1Vectorize.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a070ec95f4297d769ee53a4d8
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4-members.html b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4-members.html
new file mode 100644
index 0000000000..f49dfa17c4
--- /dev/null
+++ b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html">cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html#a5c32d50c6c97d7489034efb7188c8186">Type</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html">cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html
new file mode 100644
index 0000000000..8f743cbe9c
--- /dev/null
+++ b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="vector_8h_source.html">vector.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a5c32d50c6c97d7489034efb7188c8186"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, kLanes_ *32 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html#a5c32d50c6c97d7489034efb7188c8186">Type</a></td></tr>
+<tr class="separator:a5c32d50c6c97d7489034efb7188c8186"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a5c32d50c6c97d7489034efb7188c8186"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c32d50c6c97d7489034efb7188c8186">&#9670;&nbsp;</a></span>Type</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, kLanes_ * 32&gt; <a class="el" href="structcutlass_1_1Vectorize.html">cutlass::Vectorize</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, 32 &gt;, kLanes_ &gt;::<a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html#a5c32d50c6c97d7489034efb7188c8186">Type</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="vector_8h_source.html">vector.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4-members.html b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4-members.html
new file mode 100644
index 0000000000..ec223dacdd
--- /dev/null
+++ b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html">cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html#a40dac8fb50ddccb5c1e2a98200ac3a06">Type</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html">cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html
new file mode 100644
index 0000000000..c5dc1793d3
--- /dev/null
+++ b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="vector_8h_source.html">vector.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a40dac8fb50ddccb5c1e2a98200ac3a06"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, kLanes_ *8 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html#a40dac8fb50ddccb5c1e2a98200ac3a06">Type</a></td></tr>
+<tr class="separator:a40dac8fb50ddccb5c1e2a98200ac3a06"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a40dac8fb50ddccb5c1e2a98200ac3a06"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a40dac8fb50ddccb5c1e2a98200ac3a06">&#9670;&nbsp;</a></span>Type</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, kLanes_ * 8&gt; <a class="el" href="structcutlass_1_1Vectorize.html">cutlass::Vectorize</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, 8 &gt;, kLanes_ &gt;::<a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html#a40dac8fb50ddccb5c1e2a98200ac3a06">Type</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="vector_8h_source.html">vector.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4-members.html b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4-members.html
new file mode 100644
index 0000000000..82b79ce57a
--- /dev/null
+++ b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html">cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html#a9db5873c0d4df1452129022a280247ca">Type</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html">cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html
new file mode 100644
index 0000000000..5122f26e3b
--- /dev/null
+++ b/docs/structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html">Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="vector_8h_source.html">vector.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a9db5873c0d4df1452129022a280247ca"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, kLanes_ *8 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html#a9db5873c0d4df1452129022a280247ca">Type</a></td></tr>
+<tr class="separator:a9db5873c0d4df1452129022a280247ca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a9db5873c0d4df1452129022a280247ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9db5873c0d4df1452129022a280247ca">&#9670;&nbsp;</a></span>Type</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, kLanes_ * 8&gt; <a class="el" href="structcutlass_1_1Vectorize.html">cutlass::Vectorize</a>&lt; <a class="el" href="unioncutlass_1_1Vector.html">Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, 8 &gt;, kLanes_ &gt;::<a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html#a9db5873c0d4df1452129022a280247ca">Type</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="vector_8h_source.html">vector.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ZipConvert-members.html b/docs/structcutlass_1_1ZipConvert-members.html
new file mode 100644
index 0000000000..d4e9d72fb3
--- /dev/null
+++ b/docs/structcutlass_1_1ZipConvert-members.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ZipConvert.html">ZipConvert</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::ZipConvert&lt; First_, Second_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">First</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f">first</a></td><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3">InputFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584">OutputFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">Second</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9">second</a></td><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html#a7e6398ad8ecd8757744a42f3ab8ef955">transform</a>(InputFragment const &amp;src, OutputFragment &amp;dst)</td><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html#a7aa56d3ea300ebc58493c4d66339fff5">ZipConvert</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html#a3322c88b418c365423480a481e29df29">ZipConvert</a>(First const &amp;_first, Second const &amp;_second)</td><td class="entry"><a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ZipConvert.html b/docs/structcutlass_1_1ZipConvert.html
new file mode 100644
index 0000000000..f2189b54ac
--- /dev/null
+++ b/docs/structcutlass_1_1ZipConvert.html
@@ -0,0 +1,340 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::ZipConvert&lt; First_, Second_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ZipConvert.html">ZipConvert</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1ZipConvert-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::ZipConvert&lt; First_, Second_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Zips two convert operations.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="zip__fragment_8h_source.html">zip_fragment.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a215173f8ac00f67848cae872db94c2f4"><td class="memItemLeft" align="right" valign="top">typedef First_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">First</a></td></tr>
+<tr class="memdesc:a215173f8ac00f67848cae872db94c2f4"><td class="mdescLeft">&#160;</td><td class="mdescRight">First convert operator.  <a href="#a215173f8ac00f67848cae872db94c2f4">More...</a><br /></td></tr>
+<tr class="separator:a215173f8ac00f67848cae872db94c2f4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a525a08b41696d53d6e542aea9c8e2f10"><td class="memItemLeft" align="right" valign="top">typedef Second_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">Second</a></td></tr>
+<tr class="memdesc:a525a08b41696d53d6e542aea9c8e2f10"><td class="mdescLeft">&#160;</td><td class="mdescRight">Second convert operator.  <a href="#a525a08b41696d53d6e542aea9c8e2f10">More...</a><br /></td></tr>
+<tr class="separator:a525a08b41696d53d6e542aea9c8e2f10"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a20d8f64fce1ad330969323f6959209d3"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a>&lt; typename First::InputFragment, typename Second::InputFragment &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3">InputFragment</a></td></tr>
+<tr class="memdesc:a20d8f64fce1ad330969323f6959209d3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines the input zip fragment.  <a href="#a20d8f64fce1ad330969323f6959209d3">More...</a><br /></td></tr>
+<tr class="separator:a20d8f64fce1ad330969323f6959209d3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae0276951ad92b253de673c63ec88c584"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a>&lt; typename First::OutputFragment, typename Second::OutputFragment &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584">OutputFragment</a></td></tr>
+<tr class="memdesc:ae0276951ad92b253de673c63ec88c584"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines the output zip fragment.  <a href="#ae0276951ad92b253de673c63ec88c584">More...</a><br /></td></tr>
+<tr class="separator:ae0276951ad92b253de673c63ec88c584"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a7aa56d3ea300ebc58493c4d66339fff5"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html#a7aa56d3ea300ebc58493c4d66339fff5">ZipConvert</a> ()</td></tr>
+<tr class="memdesc:a7aa56d3ea300ebc58493c4d66339fff5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a7aa56d3ea300ebc58493c4d66339fff5">More...</a><br /></td></tr>
+<tr class="separator:a7aa56d3ea300ebc58493c4d66339fff5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3322c88b418c365423480a481e29df29"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html#a3322c88b418c365423480a481e29df29">ZipConvert</a> (<a class="el" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">First</a> const &amp;_first, <a class="el" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">Second</a> const &amp;_second)</td></tr>
+<tr class="memdesc:a3322c88b418c365423480a481e29df29"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a3322c88b418c365423480a481e29df29">More...</a><br /></td></tr>
+<tr class="separator:a3322c88b418c365423480a481e29df29"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7e6398ad8ecd8757744a42f3ab8ef955"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html#a7e6398ad8ecd8757744a42f3ab8ef955">transform</a> (<a class="el" href="structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3">InputFragment</a> const &amp;src, <a class="el" href="structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584">OutputFragment</a> &amp;dst)</td></tr>
+<tr class="memdesc:a7e6398ad8ecd8757744a42f3ab8ef955"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transform a fragment.  <a href="#a7e6398ad8ecd8757744a42f3ab8ef955">More...</a><br /></td></tr>
+<tr class="separator:a7e6398ad8ecd8757744a42f3ab8ef955"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a6c59c5bda43da84da92f244103dfab6f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">First</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f">first</a></td></tr>
+<tr class="memdesc:a6c59c5bda43da84da92f244103dfab6f"><td class="mdescLeft">&#160;</td><td class="mdescRight">First transformer.  <a href="#a6c59c5bda43da84da92f244103dfab6f">More...</a><br /></td></tr>
+<tr class="separator:a6c59c5bda43da84da92f244103dfab6f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad0daa6c3b89db0a058958a6eba72c6b9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">Second</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9">second</a></td></tr>
+<tr class="memdesc:ad0daa6c3b89db0a058958a6eba72c6b9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Second transformer.  <a href="#ad0daa6c3b89db0a058958a6eba72c6b9">More...</a><br /></td></tr>
+<tr class="separator:ad0daa6c3b89db0a058958a6eba72c6b9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a215173f8ac00f67848cae872db94c2f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a215173f8ac00f67848cae872db94c2f4">&#9670;&nbsp;</a></span>First</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef First_ <a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">First</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a20d8f64fce1ad330969323f6959209d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a20d8f64fce1ad330969323f6959209d3">&#9670;&nbsp;</a></span>InputFragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a>&lt;typename First::InputFragment, typename Second::InputFragment&gt; <a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3">InputFragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae0276951ad92b253de673c63ec88c584"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0276951ad92b253de673c63ec88c584">&#9670;&nbsp;</a></span>OutputFragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a>&lt;typename First::OutputFragment, typename Second::OutputFragment&gt; <a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584">OutputFragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a525a08b41696d53d6e542aea9c8e2f10"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a525a08b41696d53d6e542aea9c8e2f10">&#9670;&nbsp;</a></span>Second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Second_ <a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">Second</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a7aa56d3ea300ebc58493c4d66339fff5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7aa56d3ea300ebc58493c4d66339fff5">&#9670;&nbsp;</a></span>ZipConvert() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipConvert.html">ZipConvert</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3322c88b418c365423480a481e29df29"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3322c88b418c365423480a481e29df29">&#9670;&nbsp;</a></span>ZipConvert() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipConvert.html">ZipConvert</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">First</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_first</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">Second</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_second</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a7e6398ad8ecd8757744a42f3ab8ef955"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7e6398ad8ecd8757744a42f3ab8ef955">&#9670;&nbsp;</a></span>transform()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert</a>&lt; First_, Second_ &gt;::transform </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3">InputFragment</a> const &amp;&#160;</td>
+          <td class="paramname"><em>src</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584">OutputFragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>dst</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a6c59c5bda43da84da92f244103dfab6f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c59c5bda43da84da92f244103dfab6f">&#9670;&nbsp;</a></span>first</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">First</a> <a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert</a>&lt; First_, Second_ &gt;::first</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad0daa6c3b89db0a058958a6eba72c6b9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0daa6c3b89db0a058958a6eba72c6b9">&#9670;&nbsp;</a></span>second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">Second</a> <a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert</a>&lt; First_, Second_ &gt;::second</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="zip__fragment_8h_source.html">zip_fragment.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ZipFragment-members.html b/docs/structcutlass_1_1ZipFragment-members.html
new file mode 100644
index 0000000000..51049f254a
--- /dev/null
+++ b/docs/structcutlass_1_1ZipFragment-members.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::ZipFragment&lt; First_, Second_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html#aa978dd7fca15ca20e9f52d15e6f8f9c1">clear</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a></td><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a></td><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html#a2f038ddb37879cbc54dbadaeb7085fb1">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html#aeb654423884324b14130a8fa8bc1ab83">ZipFragment</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html#a520318d060123c5870c4153b99cf0427">ZipFragment</a>(First const &amp;_first, Second const &amp;_second)</td><td class="entry"><a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ZipFragment.html b/docs/structcutlass_1_1ZipFragment.html
new file mode 100644
index 0000000000..8311f018bd
--- /dev/null
+++ b/docs/structcutlass_1_1ZipFragment.html
@@ -0,0 +1,310 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::ZipFragment&lt; First_, Second_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1ZipFragment-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::ZipFragment&lt; First_, Second_ &gt; Struct Template Reference<div class="ingroups"><a class="el" href="group__fragment__concept.html">Fragment Concept</a></div></div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>A template defining <a class="el" href="group__fragment__concept.html">Fragment Concept</a>.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="zip__fragment_8h_source.html">zip_fragment.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a97332506a4834bcced49301b1ac7a4c4"><td class="memItemLeft" align="right" valign="top">typedef First_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a></td></tr>
+<tr class="memdesc:a97332506a4834bcced49301b1ac7a4c4"><td class="mdescLeft">&#160;</td><td class="mdescRight">First fragment object.  <a href="#a97332506a4834bcced49301b1ac7a4c4">More...</a><br /></td></tr>
+<tr class="separator:a97332506a4834bcced49301b1ac7a4c4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af93e3396f0f2ca8d5e439ca5803af92a"><td class="memItemLeft" align="right" valign="top">typedef Second_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a></td></tr>
+<tr class="memdesc:af93e3396f0f2ca8d5e439ca5803af92a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Second fragment object.  <a href="#af93e3396f0f2ca8d5e439ca5803af92a">More...</a><br /></td></tr>
+<tr class="separator:af93e3396f0f2ca8d5e439ca5803af92a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2f038ddb37879cbc54dbadaeb7085fb1"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a>&lt; <a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a>, <a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html#a2f038ddb37879cbc54dbadaeb7085fb1">This_</a></td></tr>
+<tr class="memdesc:a2f038ddb37879cbc54dbadaeb7085fb1"><td class="mdescLeft">&#160;</td><td class="mdescRight">This class.  <a href="#a2f038ddb37879cbc54dbadaeb7085fb1">More...</a><br /></td></tr>
+<tr class="separator:a2f038ddb37879cbc54dbadaeb7085fb1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:aeb654423884324b14130a8fa8bc1ab83"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html#aeb654423884324b14130a8fa8bc1ab83">ZipFragment</a> ()</td></tr>
+<tr class="memdesc:aeb654423884324b14130a8fa8bc1ab83"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor.  <a href="#aeb654423884324b14130a8fa8bc1ab83">More...</a><br /></td></tr>
+<tr class="separator:aeb654423884324b14130a8fa8bc1ab83"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a520318d060123c5870c4153b99cf0427"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html#a520318d060123c5870c4153b99cf0427">ZipFragment</a> (<a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a> const &amp;_first, <a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a> const &amp;_second)</td></tr>
+<tr class="memdesc:a520318d060123c5870c4153b99cf0427"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Copy.html">Copy</a> ctor.  <a href="#a520318d060123c5870c4153b99cf0427">More...</a><br /></td></tr>
+<tr class="separator:a520318d060123c5870c4153b99cf0427"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa978dd7fca15ca20e9f52d15e6f8f9c1"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html#aa978dd7fca15ca20e9f52d15e6f8f9c1">clear</a> ()</td></tr>
+<tr class="memdesc:aa978dd7fca15ca20e9f52d15e6f8f9c1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear a fragment.  <a href="#aa978dd7fca15ca20e9f52d15e6f8f9c1">More...</a><br /></td></tr>
+<tr class="separator:aa978dd7fca15ca20e9f52d15e6f8f9c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:aea444ab3b52b6f0e994401cf2e0b7f3c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a></td></tr>
+<tr class="memdesc:aea444ab3b52b6f0e994401cf2e0b7f3c"><td class="mdescLeft">&#160;</td><td class="mdescRight">First fragment object.  <a href="#aea444ab3b52b6f0e994401cf2e0b7f3c">More...</a><br /></td></tr>
+<tr class="separator:aea444ab3b52b6f0e994401cf2e0b7f3c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1812254d5fd77cd6dfdf7d7f2e81130c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a></td></tr>
+<tr class="memdesc:a1812254d5fd77cd6dfdf7d7f2e81130c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Second fragment object.  <a href="#a1812254d5fd77cd6dfdf7d7f2e81130c">More...</a><br /></td></tr>
+<tr class="separator:a1812254d5fd77cd6dfdf7d7f2e81130c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a97332506a4834bcced49301b1ac7a4c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a97332506a4834bcced49301b1ac7a4c4">&#9670;&nbsp;</a></span>First</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef First_ <a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af93e3396f0f2ca8d5e439ca5803af92a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af93e3396f0f2ca8d5e439ca5803af92a">&#9670;&nbsp;</a></span>Second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Second_ <a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a2f038ddb37879cbc54dbadaeb7085fb1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2f038ddb37879cbc54dbadaeb7085fb1">&#9670;&nbsp;</a></span>This_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a>&lt;<a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a>, <a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a>&gt; <a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipFragment.html#a2f038ddb37879cbc54dbadaeb7085fb1">This_</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="aeb654423884324b14130a8fa8bc1ab83"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeb654423884324b14130a8fa8bc1ab83">&#9670;&nbsp;</a></span>ZipFragment() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a520318d060123c5870c4153b99cf0427"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a520318d060123c5870c4153b99cf0427">&#9670;&nbsp;</a></span>ZipFragment() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipFragment.html">ZipFragment</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_first</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_second</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="aa978dd7fca15ca20e9f52d15e6f8f9c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa978dd7fca15ca20e9f52d15e6f8f9c1">&#9670;&nbsp;</a></span>clear()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment</a>&lt; First_, Second_ &gt;::clear </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="aea444ab3b52b6f0e994401cf2e0b7f3c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea444ab3b52b6f0e994401cf2e0b7f3c">&#9670;&nbsp;</a></span>first</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a> <a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment</a>&lt; First_, Second_ &gt;::first</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1812254d5fd77cd6dfdf7d7f2e81130c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1812254d5fd77cd6dfdf7d7f2e81130c">&#9670;&nbsp;</a></span>second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a> <a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment</a>&lt; First_, Second_ &gt;::second</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="zip__fragment_8h_source.html">zip_fragment.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ZipTensorRef-members.html b/docs/structcutlass_1_1ZipTensorRef-members.html
new file mode 100644
index 0000000000..41d9fa2760
--- /dev/null
+++ b/docs/structcutlass_1_1ZipTensorRef-members.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::ZipTensorRef&lt; First_, Second_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">First</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a535f0e6fc79d0e305f651efed099275c">first</a></td><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html#ad981b056cc96709a23e6d51dba4cd451">second</a></td><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">Second</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a9b4e616da5b0a71ac2d9bd03b4e07b86">ZipTensorRef</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a6905b853de0521e2f2fedac407a920e1">ZipTensorRef</a>(First const &amp;_first, Second const &amp;_second)</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ZipTensorRef.html b/docs/structcutlass_1_1ZipTensorRef.html
new file mode 100644
index 0000000000..e9943f2748
--- /dev/null
+++ b/docs/structcutlass_1_1ZipTensorRef.html
@@ -0,0 +1,255 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::ZipTensorRef&lt; First_, Second_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1ZipTensorRef-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::ZipTensorRef&lt; First_, Second_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="zip__tensor__ref_8h_source.html">zip_tensor_ref.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a44deb7a83049ee80dfd0419d4a0206d9"><td class="memItemLeft" align="right" valign="top">typedef First_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">First</a></td></tr>
+<tr class="memdesc:a44deb7a83049ee80dfd0419d4a0206d9"><td class="mdescLeft">&#160;</td><td class="mdescRight">First tensor ref.  <a href="#a44deb7a83049ee80dfd0419d4a0206d9">More...</a><br /></td></tr>
+<tr class="separator:a44deb7a83049ee80dfd0419d4a0206d9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3e77904f83d1b33f0bac054355f3432e"><td class="memItemLeft" align="right" valign="top">typedef Second_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">Second</a></td></tr>
+<tr class="memdesc:a3e77904f83d1b33f0bac054355f3432e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Second tensor ref.  <a href="#a3e77904f83d1b33f0bac054355f3432e">More...</a><br /></td></tr>
+<tr class="separator:a3e77904f83d1b33f0bac054355f3432e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a9b4e616da5b0a71ac2d9bd03b4e07b86"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a9b4e616da5b0a71ac2d9bd03b4e07b86">ZipTensorRef</a> ()</td></tr>
+<tr class="separator:a9b4e616da5b0a71ac2d9bd03b4e07b86"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6905b853de0521e2f2fedac407a920e1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a6905b853de0521e2f2fedac407a920e1">ZipTensorRef</a> (<a class="el" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">First</a> const &amp;_first, <a class="el" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">Second</a> const &amp;_second)</td></tr>
+<tr class="separator:a6905b853de0521e2f2fedac407a920e1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a535f0e6fc79d0e305f651efed099275c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">First</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a535f0e6fc79d0e305f651efed099275c">first</a></td></tr>
+<tr class="memdesc:a535f0e6fc79d0e305f651efed099275c"><td class="mdescLeft">&#160;</td><td class="mdescRight">First <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>.  <a href="#a535f0e6fc79d0e305f651efed099275c">More...</a><br /></td></tr>
+<tr class="separator:a535f0e6fc79d0e305f651efed099275c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad981b056cc96709a23e6d51dba4cd451"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">Second</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTensorRef.html#ad981b056cc96709a23e6d51dba4cd451">second</a></td></tr>
+<tr class="memdesc:ad981b056cc96709a23e6d51dba4cd451"><td class="mdescLeft">&#160;</td><td class="mdescRight">Second <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>.  <a href="#ad981b056cc96709a23e6d51dba4cd451">More...</a><br /></td></tr>
+<tr class="separator:ad981b056cc96709a23e6d51dba4cd451"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a44deb7a83049ee80dfd0419d4a0206d9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a44deb7a83049ee80dfd0419d4a0206d9">&#9670;&nbsp;</a></span>First</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef First_ <a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">First</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3e77904f83d1b33f0bac054355f3432e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3e77904f83d1b33f0bac054355f3432e">&#9670;&nbsp;</a></span>Second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Second_ <a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">Second</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a9b4e616da5b0a71ac2d9bd03b4e07b86"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9b4e616da5b0a71ac2d9bd03b4e07b86">&#9670;&nbsp;</a></span>ZipTensorRef() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6905b853de0521e2f2fedac407a920e1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6905b853de0521e2f2fedac407a920e1">&#9670;&nbsp;</a></span>ZipTensorRef() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">First</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_first</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">Second</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_second</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a535f0e6fc79d0e305f651efed099275c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a535f0e6fc79d0e305f651efed099275c">&#9670;&nbsp;</a></span>first</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">First</a> <a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef</a>&lt; First_, Second_ &gt;::first</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad981b056cc96709a23e6d51dba4cd451"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad981b056cc96709a23e6d51dba4cd451">&#9670;&nbsp;</a></span>second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_, typename Second_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">Second</a> <a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef</a>&lt; First_, Second_ &gt;::second</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="zip__tensor__ref_8h_source.html">zip_tensor_ref.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ZipTileAllocation-members.html b/docs/structcutlass_1_1ZipTileAllocation-members.html
new file mode 100644
index 0000000000..f7489bd008
--- /dev/null
+++ b/docs/structcutlass_1_1ZipTileAllocation-members.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">ZipTileAllocation</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::ZipTileAllocation&lt; First_, Second_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">ConstTensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">First</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014">first</a></td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#a0d00001220df7f2bdb1f09ae3f37c585">reference</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#af9964904e789b3ab58334f1ec1ceee56">reference</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">Second</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc">second</a></td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ZipTileAllocation.html b/docs/structcutlass_1_1ZipTileAllocation.html
new file mode 100644
index 0000000000..844ff780f6
--- /dev/null
+++ b/docs/structcutlass_1_1ZipTileAllocation.html
@@ -0,0 +1,287 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::ZipTileAllocation&lt; First_, Second_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">ZipTileAllocation</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1ZipTileAllocation-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::ZipTileAllocation&lt; First_, Second_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Manages a pair of tile allocations as if they are one allocation.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="tile__allocation_8h_source.html">tile_allocation.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:acbdbed808b27997a0e8c22adfa9cc9b2"><td class="memItemLeft" align="right" valign="top">typedef First_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">First</a></td></tr>
+<tr class="memdesc:acbdbed808b27997a0e8c22adfa9cc9b2"><td class="mdescLeft">&#160;</td><td class="mdescRight">First tensor allocation.  <a href="#acbdbed808b27997a0e8c22adfa9cc9b2">More...</a><br /></td></tr>
+<tr class="separator:acbdbed808b27997a0e8c22adfa9cc9b2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac6b988a7e6cd8ec83fae642342209527"><td class="memItemLeft" align="right" valign="top">typedef Second_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">Second</a></td></tr>
+<tr class="memdesc:ac6b988a7e6cd8ec83fae642342209527"><td class="mdescLeft">&#160;</td><td class="mdescRight">Second tensor allocation.  <a href="#ac6b988a7e6cd8ec83fae642342209527">More...</a><br /></td></tr>
+<tr class="separator:ac6b988a7e6cd8ec83fae642342209527"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1c274bfb4401beabaf62fed9c2054ddf"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt; typename First::TensorRef, typename Second::TensorRef &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">TensorRef</a></td></tr>
+<tr class="memdesc:a1c274bfb4401beabaf62fed9c2054ddf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines the tensor reference for this allocation.  <a href="#a1c274bfb4401beabaf62fed9c2054ddf">More...</a><br /></td></tr>
+<tr class="separator:a1c274bfb4401beabaf62fed9c2054ddf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aba6d5cfb32cfed340d8af2971ec50af4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt; typename First::ConstTensorRef, typename Second::ConstTensorRef &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">ConstTensorRef</a></td></tr>
+<tr class="memdesc:aba6d5cfb32cfed340d8af2971ec50af4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines the tensor reference for this allocation.  <a href="#aba6d5cfb32cfed340d8af2971ec50af4">More...</a><br /></td></tr>
+<tr class="separator:aba6d5cfb32cfed340d8af2971ec50af4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a0d00001220df7f2bdb1f09ae3f37c585"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#a0d00001220df7f2bdb1f09ae3f37c585">reference</a> ()</td></tr>
+<tr class="memdesc:a0d00001220df7f2bdb1f09ae3f37c585"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> object pointing to the data.  <a href="#a0d00001220df7f2bdb1f09ae3f37c585">More...</a><br /></td></tr>
+<tr class="separator:a0d00001220df7f2bdb1f09ae3f37c585"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af9964904e789b3ab58334f1ec1ceee56"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">ConstTensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#af9964904e789b3ab58334f1ec1ceee56">reference</a> () const</td></tr>
+<tr class="memdesc:af9964904e789b3ab58334f1ec1ceee56"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns a <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> object pointing to the data.  <a href="#af9964904e789b3ab58334f1ec1ceee56">More...</a><br /></td></tr>
+<tr class="separator:af9964904e789b3ab58334f1ec1ceee56"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a6c0f139eef549521763b36cb1e45a014"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">First</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014">first</a></td></tr>
+<tr class="memdesc:a6c0f139eef549521763b36cb1e45a014"><td class="mdescLeft">&#160;</td><td class="mdescRight">First tensor allocation.  <a href="#a6c0f139eef549521763b36cb1e45a014">More...</a><br /></td></tr>
+<tr class="separator:a6c0f139eef549521763b36cb1e45a014"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a94abc7e74632b14718fd2d5b78cceafc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">Second</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc">second</a></td></tr>
+<tr class="memdesc:a94abc7e74632b14718fd2d5b78cceafc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Second tensor allocation.  <a href="#a94abc7e74632b14718fd2d5b78cceafc">More...</a><br /></td></tr>
+<tr class="separator:a94abc7e74632b14718fd2d5b78cceafc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="aba6d5cfb32cfed340d8af2971ec50af4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba6d5cfb32cfed340d8af2971ec50af4">&#9670;&nbsp;</a></span>ConstTensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt;typename First::ConstTensorRef, typename Second::ConstTensorRef&gt; <a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">ConstTensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acbdbed808b27997a0e8c22adfa9cc9b2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acbdbed808b27997a0e8c22adfa9cc9b2">&#9670;&nbsp;</a></span>First</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef First_ <a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">First</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac6b988a7e6cd8ec83fae642342209527"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac6b988a7e6cd8ec83fae642342209527">&#9670;&nbsp;</a></span>Second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Second_ <a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">Second</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1c274bfb4401beabaf62fed9c2054ddf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1c274bfb4401beabaf62fed9c2054ddf">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt;typename First::TensorRef, typename Second::TensorRef&gt; <a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a>&lt; First_, Second_ &gt;::<a class="el" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a0d00001220df7f2bdb1f09ae3f37c585"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0d00001220df7f2bdb1f09ae3f37c585">&#9670;&nbsp;</a></span>reference() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">TensorRef</a> <a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a>&lt; First_, Second_ &gt;::reference </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af9964904e789b3ab58334f1ec1ceee56"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af9964904e789b3ab58334f1ec1ceee56">&#9670;&nbsp;</a></span>reference() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">ConstTensorRef</a> <a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a>&lt; First_, Second_ &gt;::reference </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a6c0f139eef549521763b36cb1e45a014"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c0f139eef549521763b36cb1e45a014">&#9670;&nbsp;</a></span>first</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">First</a> <a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a>&lt; First_, Second_ &gt;::first</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a94abc7e74632b14718fd2d5b78cceafc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94abc7e74632b14718fd2d5b78cceafc">&#9670;&nbsp;</a></span>second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">Second</a> <a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a>&lt; First_, Second_ &gt;::second</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="tile__allocation_8h_source.html">tile_allocation.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ZipTileIterator_1_1Params-members.html b/docs/structcutlass_1_1ZipTileIterator_1_1Params-members.html
new file mode 100644
index 0000000000..a197a4a8c8
--- /dev/null
+++ b/docs/structcutlass_1_1ZipTileIterator_1_1Params-members.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a5dd69883d6b3f16fe28ebfe79235743e">first</a></td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a4ed93b5319fe96457caf53e9384722d4">Params</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#ad38f6a2cc5800c0ec82b12d183040390">Params</a>(typename First::Params const &amp;_first, typename Second::Params const &amp;_second)</td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a6eb742dc39b1d776cf5d62719835fe26">second</a></td><td class="entry"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1ZipTileIterator_1_1Params.html b/docs/structcutlass_1_1ZipTileIterator_1_1Params.html
new file mode 100644
index 0000000000..8034c42aad
--- /dev/null
+++ b/docs/structcutlass_1_1ZipTileIterator_1_1Params.html
@@ -0,0 +1,217 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a></li><li class="navelem"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1ZipTileIterator_1_1Params-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html" title="Params object. ">Params</a> object.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="zip__tile__iterator_8h_source.html">zip_tile_iterator.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a4ed93b5319fe96457caf53e9384722d4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a4ed93b5319fe96457caf53e9384722d4">Params</a> ()</td></tr>
+<tr class="memdesc:a4ed93b5319fe96457caf53e9384722d4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a parameters object.  <a href="#a4ed93b5319fe96457caf53e9384722d4">More...</a><br /></td></tr>
+<tr class="separator:a4ed93b5319fe96457caf53e9384722d4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad38f6a2cc5800c0ec82b12d183040390"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#ad38f6a2cc5800c0ec82b12d183040390">Params</a> (typename First::Params const &amp;_first, typename Second::Params const &amp;_second)</td></tr>
+<tr class="memdesc:ad38f6a2cc5800c0ec82b12d183040390"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a parameters object.  <a href="#ad38f6a2cc5800c0ec82b12d183040390">More...</a><br /></td></tr>
+<tr class="separator:ad38f6a2cc5800c0ec82b12d183040390"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a5dd69883d6b3f16fe28ebfe79235743e"><td class="memItemLeft" align="right" valign="top">First::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a5dd69883d6b3f16fe28ebfe79235743e">first</a></td></tr>
+<tr class="memdesc:a5dd69883d6b3f16fe28ebfe79235743e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters of first iterator.  <a href="#a5dd69883d6b3f16fe28ebfe79235743e">More...</a><br /></td></tr>
+<tr class="separator:a5dd69883d6b3f16fe28ebfe79235743e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6eb742dc39b1d776cf5d62719835fe26"><td class="memItemLeft" align="right" valign="top">Second::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a6eb742dc39b1d776cf5d62719835fe26">second</a></td></tr>
+<tr class="memdesc:a6eb742dc39b1d776cf5d62719835fe26"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters of second iterator.  <a href="#a6eb742dc39b1d776cf5d62719835fe26">More...</a><br /></td></tr>
+<tr class="separator:a6eb742dc39b1d776cf5d62719835fe26"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a4ed93b5319fe96457caf53e9384722d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ed93b5319fe96457caf53e9384722d4">&#9670;&nbsp;</a></span>Params() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad38f6a2cc5800c0ec82b12d183040390"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad38f6a2cc5800c0ec82b12d183040390">&#9670;&nbsp;</a></span>Params() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype">typename First::Params const &amp;&#160;</td>
+          <td class="paramname"><em>_first</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename Second::Params const &amp;&#160;</td>
+          <td class="paramname"><em>_second</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a5dd69883d6b3f16fe28ebfe79235743e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5dd69883d6b3f16fe28ebfe79235743e">&#9670;&nbsp;</a></span>first</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">First::Params <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::Params::first</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6eb742dc39b1d776cf5d62719835fe26"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6eb742dc39b1d776cf5d62719835fe26">&#9670;&nbsp;</a></span>second</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename First_ , typename Second_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">Second::Params <a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a>&lt; First_, Second_ &gt;::Params::second</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="zip__tile__iterator_8h_source.html">zip_tile_iterator.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1bin1__t.html b/docs/structcutlass_1_1bin1__t.html
new file mode 100644
index 0000000000..c3f4a98446
--- /dev/null
+++ b/docs/structcutlass_1_1bin1__t.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::bin1_t Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::bin1_t Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="numeric__types_8h_source.html">numeric_types.h</a>&gt;</code></p>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="numeric__types_8h_source.html">numeric_types.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1divide__assert-members.html b/docs/structcutlass_1_1divide__assert-members.html
index 59e5af796f..8ddcbdf9d1 100644
--- a/docs/structcutlass_1_1divide__assert-members.html
+++ b/docs/structcutlass_1_1divide__assert-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1divide__assert.html b/docs/structcutlass_1_1divide__assert.html
index f7dd669007..e7741e4712 100644
--- a/docs/structcutlass_1_1divide__assert.html
+++ b/docs/structcutlass_1_1divide__assert.html
@@ -119,7 +119,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a20e8b8a803c6b5cfe6367247
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ClearAccumulators-members.html b/docs/structcutlass_1_1gemm_1_1ClearAccumulators-members.html
index c3f2e3e929..647a7ed989 100644
--- a/docs/structcutlass_1_1gemm_1_1ClearAccumulators-members.html
+++ b/docs/structcutlass_1_1gemm_1_1ClearAccumulators-members.html
@@ -81,10 +81,11 @@
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">clear</a>(Fragment_ &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef">ClearAccumulators</a>(SharedStorage &amp;shared_storage)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#aef1832b62ae8caef5e6d34cb1d1564e3">ClearAccumulators</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">cutlass::gemm::ClearAccumulators&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ClearAccumulators.html b/docs/structcutlass_1_1gemm_1_1ClearAccumulators.html
index e815e57d6f..314cffc664 100644
--- a/docs/structcutlass_1_1gemm_1_1ClearAccumulators.html
+++ b/docs/structcutlass_1_1gemm_1_1ClearAccumulators.html
@@ -94,6 +94,9 @@
 <tr class="memitem:a4ba07ea6d6fef961de1cb95b13c672ef"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#a4ba07ea6d6fef961de1cb95b13c672ef">ClearAccumulators</a> (<a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">SharedStorage</a> &amp;shared_storage)</td></tr>
 <tr class="memdesc:a4ba07ea6d6fef961de1cb95b13c672ef"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a4ba07ea6d6fef961de1cb95b13c672ef">More...</a><br /></td></tr>
 <tr class="separator:a4ba07ea6d6fef961de1cb95b13c672ef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aef1832b62ae8caef5e6d34cb1d1564e3"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#aef1832b62ae8caef5e6d34cb1d1564e3">ClearAccumulators</a> ()</td></tr>
+<tr class="memdesc:aef1832b62ae8caef5e6d34cb1d1564e3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#aef1832b62ae8caef5e6d34cb1d1564e3">More...</a><br /></td></tr>
+<tr class="separator:aef1832b62ae8caef5e6d34cb1d1564e3"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:adb8026a19b09e9a581ec767c2c2da4ab"><td class="memTemplParams" colspan="2">template&lt;typename Fragment_ &gt; </td></tr>
 <tr class="memitem:adb8026a19b09e9a581ec767c2c2da4ab"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html#adb8026a19b09e9a581ec767c2c2da4ab">clear</a> (Fragment_ &amp;fragment)</td></tr>
 <tr class="memdesc:adb8026a19b09e9a581ec767c2c2da4ab"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear the fragment.  <a href="#adb8026a19b09e9a581ec767c2c2da4ab">More...</a><br /></td></tr>
@@ -101,7 +104,7 @@
 </table>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
 <a id="a4ba07ea6d6fef961de1cb95b13c672ef"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4ba07ea6d6fef961de1cb95b13c672ef">&#9670;&nbsp;</a></span>ClearAccumulators()</h2>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ba07ea6d6fef961de1cb95b13c672ef">&#9670;&nbsp;</a></span>ClearAccumulators() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -126,6 +129,33 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4ba07ea6d6fef961de1cb95b
 </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="aef1832b62ae8caef5e6d34cb1d1564e3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aef1832b62ae8caef5e6d34cb1d1564e3">&#9670;&nbsp;</a></span>ClearAccumulators() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , int kLanes_ = 1&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">cutlass::gemm::ClearAccumulators</a>&lt; Scalar_, kLanes_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators.html">ClearAccumulators</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
@@ -165,7 +195,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#adb8026a19b09e9a581ec767c
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html b/docs/structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html
index b97be88f35..c30f552209 100644
--- a/docs/structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html
+++ b/docs/structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html
@@ -87,7 +87,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle-members.html b/docs/structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle-members.html
new file mode 100644
index 0000000000..698bd4d6c3
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle-members.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">ColumnMajorBlockSwizzle</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a6d0ee4e76371af26030ab4922e6c915a">ColumnMajorBlockSwizzle</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#abb21a72e2cef3217f446f70758c59c1e">get_batch_id</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a927ce3eed4cd22554f9e6fe20a1ccc6e">get_grid_layout</a>(GemmCoord const &amp;problem_size, Coord&lt; 3 &gt; const &amp;OutputTile)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a380fb7f905548c52933ea411166424b4">get_threadblock_offset</a>(Coord&lt; 3 &gt; const &amp;OutputTile)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b">swizzle</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html b/docs/structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html
new file mode 100644
index 0000000000..19c0d5e2e8
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html
@@ -0,0 +1,260 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">ColumnMajorBlockSwizzle</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="threadblock__swizzle_8h_source.html">threadblock_swizzle.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a6d0ee4e76371af26030ab4922e6c915a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a6d0ee4e76371af26030ab4922e6c915a">ColumnMajorBlockSwizzle</a> ()</td></tr>
+<tr class="memdesc:a6d0ee4e76371af26030ab4922e6c915a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a6d0ee4e76371af26030ab4922e6c915a">More...</a><br /></td></tr>
+<tr class="separator:a6d0ee4e76371af26030ab4922e6c915a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaeb1e1167144352521651547815e003b"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE dim3&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b">swizzle</a> ()</td></tr>
+<tr class="memdesc:aaeb1e1167144352521651547815e003b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Swizzle the block index.  <a href="#aaeb1e1167144352521651547815e003b">More...</a><br /></td></tr>
+<tr class="separator:aaeb1e1167144352521651547815e003b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a927ce3eed4cd22554f9e6fe20a1ccc6e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dim3&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a927ce3eed4cd22554f9e6fe20a1ccc6e">get_grid_layout</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> const &amp;problem_size, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;OutputTile)</td></tr>
+<tr class="separator:a927ce3eed4cd22554f9e6fe20a1ccc6e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a380fb7f905548c52933ea411166424b4"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a380fb7f905548c52933ea411166424b4">get_threadblock_offset</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;OutputTile)</td></tr>
+<tr class="separator:a380fb7f905548c52933ea411166424b4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abb21a72e2cef3217f446f70758c59c1e"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#abb21a72e2cef3217f446f70758c59c1e">get_batch_id</a> ()</td></tr>
+<tr class="separator:abb21a72e2cef3217f446f70758c59c1e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a6d0ee4e76371af26030ab4922e6c915a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6d0ee4e76371af26030ab4922e6c915a">&#9670;&nbsp;</a></span>ColumnMajorBlockSwizzle()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int groupCols, enum swizzleDirection::Kind swDirection&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle</a>&lt; groupCols, swDirection &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">ColumnMajorBlockSwizzle</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="abb21a72e2cef3217f446f70758c59c1e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abb21a72e2cef3217f446f70758c59c1e">&#9670;&nbsp;</a></span>get_batch_id()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int groupCols, enum swizzleDirection::Kind swDirection&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE int <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle</a>&lt; groupCols, swDirection &gt;::get_batch_id </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a927ce3eed4cd22554f9e6fe20a1ccc6e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a927ce3eed4cd22554f9e6fe20a1ccc6e">&#9670;&nbsp;</a></span>get_grid_layout()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int groupCols, enum swizzleDirection::Kind swDirection&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dim3 <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle</a>&lt; groupCols, swDirection &gt;::get_grid_layout </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>problem_size</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>OutputTile</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a380fb7f905548c52933ea411166424b4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a380fb7f905548c52933ea411166424b4">&#9670;&nbsp;</a></span>get_threadblock_offset()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int groupCols, enum swizzleDirection::Kind swDirection&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle</a>&lt; groupCols, swDirection &gt;::get_threadblock_offset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>OutputTile</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaeb1e1167144352521651547815e003b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaeb1e1167144352521651547815e003b">&#9670;&nbsp;</a></span>swizzle()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int groupCols, enum swizzleDirection::Kind swDirection&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE dim3 <a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle</a>&lt; groupCols, swDirection &gt;::swizzle </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="threadblock__swizzle_8h_source.html">threadblock_swizzle.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1DgemmConfig-members.html b/docs/structcutlass_1_1gemm_1_1DgemmConfig-members.html
index 256b383d18..74a8b93953 100644
--- a/docs/structcutlass_1_1gemm_1_1DgemmConfig-members.html
+++ b/docs/structcutlass_1_1gemm_1_1DgemmConfig-members.html
@@ -73,41 +73,44 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::DgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::DgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html">cutlass::gemm::DgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1DgemmConfig.html">cutlass::gemm::DgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1DgemmConfig.html b/docs/structcutlass_1_1gemm_1_1DgemmConfig.html
index 7ac0411289..cb727aca5e 100644
--- a/docs/structcutlass_1_1gemm_1_1DgemmConfig.html
+++ b/docs/structcutlass_1_1gemm_1_1DgemmConfig.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::DgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::DgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -75,93 +75,102 @@
   <div class="summary">
 <a href="structcutlass_1_1gemm_1_1DgemmConfig-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::DgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::DgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="dgemm__traits_8h_source.html">dgemm_traits.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::gemm::DgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;:</div>
+Inheritance diagram for cutlass::gemm::DgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1gemm_1_1DgemmConfig.png" usemap="#cutlass::gemm::DgemmConfig_3C_20OutputTile_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::DgemmConfig_3C_20OutputTile_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" name="cutlass::gemm::DgemmConfig_3C_20OutputTile_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1GemmConfig.html" alt="cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;" shape="rect" coords="0,0,1529,24"/>
+  <img src="structcutlass_1_1gemm_1_1DgemmConfig.png" usemap="#cutlass::gemm::DgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::DgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" name="cutlass::gemm::DgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmConfig.html" alt="cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;" shape="rect" coords="0,0,1610,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td></tr>
-<tr class="memitem:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef double&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a></td></tr>
-<tr class="memdesc:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">More...</a><br /></td></tr>
-<tr class="separator:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef double&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a></td></tr>
-<tr class="memdesc:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">More...</a><br /></td></tr>
-<tr class="separator:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef double&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a></td></tr>
-<tr class="memdesc:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">More...</a><br /></td></tr>
-<tr class="separator:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef double&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a></td></tr>
-<tr class="memdesc:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">More...</a><br /></td></tr>
-<tr class="separator:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a></td></tr>
-<tr class="memdesc:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">More...</a><br /></td></tr>
-<tr class="separator:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, 8 &gt;, double, double, double &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a></td></tr>
-<tr class="memdesc:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">More...</a><br /></td></tr>
-<tr class="separator:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">MultiplyAdd::InstructionShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a></td></tr>
-<tr class="memdesc:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">More...</a><br /></td></tr>
-<tr class="separator:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">MultiplyAdd::AccumulatorsPerWarp</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a></td></tr>
-<tr class="memdesc:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per warp.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">More...</a><br /></td></tr>
-<tr class="separator:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">MultiplyAdd::Accumulators</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a></td></tr>
-<tr class="memdesc:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">More...</a><br /></td></tr>
-<tr class="separator:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a></td></tr>
-<tr class="memdesc:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">More...</a><br /></td></tr>
-<tr class="separator:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2 &gt;</a></td></tr>
-<tr class="memitem:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td></tr>
-<tr class="memdesc:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">More...</a><br /></td></tr>
-<tr class="separator:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a></td></tr>
-<tr class="memdesc:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">More...</a><br /></td></tr>
-<tr class="separator:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a></td></tr>
-<tr class="memdesc:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">More...</a><br /></td></tr>
-<tr class="separator:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:accc95abc55880abdab92253367b4b186 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a></td></tr>
-<tr class="separator:accc95abc55880abdab92253367b4b186 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa1b75484138923a52b32888fef608d9b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a></td></tr>
-<tr class="separator:aa1b75484138923a52b32888fef608d9b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a></td></tr>
-<tr class="memdesc:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">More...</a><br /></td></tr>
-<tr class="separator:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac0c8c027e3ede14b62d7c7d519551f21 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a></td></tr>
-<tr class="separator:ac0c8c027e3ede14b62d7c7d519551f21 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a86470d3a44e2b50ee31ec3c9f79927ef inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a></td></tr>
-<tr class="separator:a86470d3a44e2b50ee31ec3c9f79927ef inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a></td></tr>
-<tr class="memdesc:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">More...</a><br /></td></tr>
-<tr class="separator:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a></td></tr>
-<tr class="memdesc:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">More...</a><br /></td></tr>
-<tr class="separator:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3087cdd38e2c65ad0dffdd0587d2cce0 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a></td></tr>
-<tr class="separator:a3087cdd38e2c65ad0dffdd0587d2cce0 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:adaf2ee5b8e6f7bdb9939cd45a186ca56 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a></td></tr>
-<tr class="separator:adaf2ee5b8e6f7bdb9939cd45a186ca56 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a></td></tr>
-<tr class="memdesc:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">More...</a><br /></td></tr>
-<tr class="separator:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9dd092bca2f1f2c039f367b23bafa9c1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a></td></tr>
-<tr class="separator:a9dd092bca2f1f2c039f367b23bafa9c1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a></td></tr>
-<tr class="memdesc:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">More...</a><br /></td></tr>
-<tr class="separator:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td></tr>
+<tr class="memitem:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef double&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a></td></tr>
+<tr class="memdesc:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">More...</a><br /></td></tr>
+<tr class="separator:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef double&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a></td></tr>
+<tr class="memdesc:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">More...</a><br /></td></tr>
+<tr class="separator:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef double&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a></td></tr>
+<tr class="memdesc:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">More...</a><br /></td></tr>
+<tr class="separator:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef double&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a></td></tr>
+<tr class="memdesc:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">More...</a><br /></td></tr>
+<tr class="separator:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a></td></tr>
+<tr class="memdesc:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">More...</a><br /></td></tr>
+<tr class="separator:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, 8 &gt;, double, double, double &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a></td></tr>
+<tr class="memdesc:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">More...</a><br /></td></tr>
+<tr class="separator:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">MultiplyAdd::InstructionShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a></td></tr>
+<tr class="memdesc:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">More...</a><br /></td></tr>
+<tr class="separator:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">MultiplyAdd::AccumulatorsPerWarp</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of warp-level GEMM.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">More...</a><br /></td></tr>
+<tr class="separator:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">MultiplyAdd::Accumulators</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a></td></tr>
+<tr class="memdesc:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">More...</a><br /></td></tr>
+<tr class="separator:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a></td></tr>
+<tr class="memdesc:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">More...</a><br /></td></tr>
+<tr class="separator:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; double, double, double, double, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, double, double, double &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 2, kScalarsPerLdgB_, kScalarsPerLdgB_, 2, 1, 2, 1, 2, false, false, false &gt;</a></td></tr>
+<tr class="memitem:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td></tr>
+<tr class="memdesc:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">More...</a><br /></td></tr>
+<tr class="separator:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td></tr>
+<tr class="memdesc:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">More...</a><br /></td></tr>
+<tr class="separator:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td></tr>
+<tr class="memdesc:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">More...</a><br /></td></tr>
+<tr class="separator:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td></tr>
+<tr class="separator:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td></tr>
+<tr class="separator:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td></tr>
+<tr class="memdesc:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">More...</a><br /></td></tr>
+<tr class="separator:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td></tr>
+<tr class="separator:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td></tr>
+<tr class="separator:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td></tr>
+<tr class="memdesc:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">More...</a><br /></td></tr>
+<tr class="separator:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td></tr>
+<tr class="memdesc:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">More...</a><br /></td></tr>
+<tr class="separator:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td></tr>
+<tr class="separator:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td></tr>
+<tr class="separator:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td></tr>
+<tr class="memdesc:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">More...</a><br /></td></tr>
+<tr class="separator:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td></tr>
+<tr class="separator:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td></tr>
+<tr class="memdesc:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">More...</a><br /></td></tr>
+<tr class="separator:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td></tr>
+<tr class="memdesc:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, mainloop is instantiated twice. The first instantiation contains no predicate.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">More...</a><br /></td></tr>
+<tr class="separator:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td></tr>
+<tr class="memdesc:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, residue is computed in the prologue.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">More...</a><br /></td></tr>
+<tr class="separator:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td></tr>
+<tr class="memdesc:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, kernel is launched with launch bounds specified.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">More...</a><br /></td></tr>
+<tr class="separator:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <hr/>The documentation for this struct was generated from the following file:<ul>
 <li><a class="el" href="dgemm__traits_8h_source.html">dgemm_traits.h</a></li>
@@ -169,7 +178,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1DgemmConfig.png b/docs/structcutlass_1_1gemm_1_1DgemmConfig.png
index 0769b89938..f8e438ab62 100644
Binary files a/docs/structcutlass_1_1gemm_1_1DgemmConfig.png and b/docs/structcutlass_1_1gemm_1_1DgemmConfig.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1DgemmTraits-members.html b/docs/structcutlass_1_1gemm_1_1DgemmTraits-members.html
index 2fd59e58d6..c6c1bfd99d 100644
--- a/docs/structcutlass_1_1gemm_1_1DgemmTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1DgemmTraits-members.html
@@ -73,19 +73,21 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html">cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1DgemmTraits.html">cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
@@ -98,12 +100,13 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a>(bool in_loop)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1DgemmTraits.html b/docs/structcutlass_1_1gemm_1_1DgemmTraits.html
index 2832466c10..3d2d5a785e 100644
--- a/docs/structcutlass_1_1gemm_1_1DgemmTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1DgemmTraits.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -75,17 +75,17 @@
   <div class="summary">
 <a href="structcutlass_1_1gemm_1_1DgemmTraits-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="dgemm__traits_8h_source.html">dgemm_traits.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;:</div>
+Inheritance diagram for cutlass::gemm::DgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1gemm_1_1DgemmTraits.png" usemap="#cutlass::gemm::DgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::DgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" name="cutlass::gemm::DgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map">
+  <img src="structcutlass_1_1gemm_1_1DgemmTraits.png" usemap="#cutlass::gemm::DgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::DgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" name="cutlass::gemm::DgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map">
 <area href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html" alt="cutlass::gemm::SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, Index_ &gt;" shape="rect" coords="0,56,4915,80"/>
 <area href="structcutlass_1_1gemm_1_1GemmTraits.html" alt="cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;" shape="rect" coords="0,0,4915,24"/>
 </map>
@@ -94,10 +94,16 @@
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
 <tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
+<tr class="memitem:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt; GemmConfig_, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>, Index_, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>&lt; GemmConfig_::Accumulators::Element &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a></td></tr>
+<tr class="memdesc:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">This traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">More...</a><br /></td></tr>
+<tr class="separator:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a></td></tr>
+<tr class="memdesc:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The struct that consumes this Traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">More...</a><br /></td></tr>
+<tr class="separator:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a></td></tr>
 <tr class="memdesc:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The configuration.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">More...</a><br /></td></tr>
 <tr class="separator:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
+<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
 <tr class="memdesc:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">More...</a><br /></td></tr>
 <tr class="separator:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a></td></tr>
@@ -118,13 +124,7 @@
 <tr class="memitem:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a></td></tr>
 <tr class="memdesc:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for B to load from shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">More...</a><br /></td></tr>
 <tr class="separator:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamA::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a></td></tr>
-<tr class="memdesc:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for A.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">More...</a><br /></td></tr>
-<tr class="separator:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamB::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a></td></tr>
-<tr class="memdesc:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">More...</a><br /></td></tr>
-<tr class="separator:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
+<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
 <tr class="memdesc:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The multiply-add functor.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">More...</a><br /></td></tr>
 <tr class="separator:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a></td></tr>
@@ -144,6 +144,15 @@
 <tr class="memitem:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>&lt; GemmConfig_::Accumulators::Element &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a></td></tr>
 <tr class="memdesc:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear the accumulators.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">More...</a><br /></td></tr>
 <tr class="separator:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, GemmConfig::kResidueInProlog &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a></td></tr>
+<tr class="memdesc:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the global load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">More...</a><br /></td></tr>
+<tr class="separator:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">GlobalLoadStream::ThreadblockTileStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a></td></tr>
+<tr class="memdesc:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory needed to store the threadblock-scoped GEMM tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">More...</a><br /></td></tr>
+<tr class="separator:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a></td></tr>
+<tr class="memdesc:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the shared load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">More...</a><br /></td></tr>
+<tr class="separator:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
 <tr class="memitem:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a> (bool in_loop)</td></tr>
 <tr class="memdesc:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared loads.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">More...</a><br /></td></tr>
@@ -165,7 +174,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1DgemmTraits.png b/docs/structcutlass_1_1gemm_1_1DgemmTraits.png
index 151b3c5ab0..6307a7cdaf 100644
Binary files a/docs/structcutlass_1_1gemm_1_1DgemmTraits.png and b/docs/structcutlass_1_1gemm_1_1DgemmTraits.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1Fp16SgemmConfig-members.html b/docs/structcutlass_1_1gemm_1_1Fp16SgemmConfig-members.html
new file mode 100644
index 0000000000..6941e82eb5
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1Fp16SgemmConfig-members.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html">Fp16SgemmConfig</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::Fp16SgemmConfig&lt; OutputTile_, ThreadGemmShape_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html">cutlass::gemm::Fp16SgemmConfig&lt; OutputTile_, ThreadGemmShape_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1Fp16SgemmConfig.html b/docs/structcutlass_1_1gemm_1_1Fp16SgemmConfig.html
new file mode 100644
index 0000000000..b377b2896f
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1Fp16SgemmConfig.html
@@ -0,0 +1,186 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::Fp16SgemmConfig&lt; OutputTile_, ThreadGemmShape_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmConfig.html">Fp16SgemmConfig</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structcutlass_1_1gemm_1_1Fp16SgemmConfig-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::Fp16SgemmConfig&lt; OutputTile_, ThreadGemmShape_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="fp16__sgemm__traits_8h_source.html">fp16_sgemm_traits.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::Fp16SgemmConfig&lt; OutputTile_, ThreadGemmShape_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1Fp16SgemmConfig.png" usemap="#cutlass::gemm::Fp16SgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20ScalarA_5F_2C_20ScalarB_5F_2C_20ScalarC_5F_2C_20ScalarD_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::Fp16SgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20ScalarA_5F_2C_20ScalarB_5F_2C_20ScalarC_5F_2C_20ScalarD_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" name="cutlass::gemm::Fp16SgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20ScalarA_5F_2C_20ScalarB_5F_2C_20ScalarC_5F_2C_20ScalarD_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmConfig.html" alt="cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;" shape="rect" coords="0,0,1576,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td></tr>
+<tr class="memitem:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef ScalarA_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a></td></tr>
+<tr class="memdesc:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">More...</a><br /></td></tr>
+<tr class="separator:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef ScalarB_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a></td></tr>
+<tr class="memdesc:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">More...</a><br /></td></tr>
+<tr class="separator:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef ScalarC_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a></td></tr>
+<tr class="memdesc:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">More...</a><br /></td></tr>
+<tr class="separator:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef ScalarD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a></td></tr>
+<tr class="memdesc:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">More...</a><br /></td></tr>
+<tr class="separator:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a></td></tr>
+<tr class="memdesc:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">More...</a><br /></td></tr>
+<tr class="separator:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a></td></tr>
+<tr class="memdesc:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">More...</a><br /></td></tr>
+<tr class="separator:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">MultiplyAdd::InstructionShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a></td></tr>
+<tr class="memdesc:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">More...</a><br /></td></tr>
+<tr class="separator:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">MultiplyAdd::AccumulatorsPerWarp</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of warp-level GEMM.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">More...</a><br /></td></tr>
+<tr class="separator:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">MultiplyAdd::Accumulators</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a></td></tr>
+<tr class="memdesc:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">More...</a><br /></td></tr>
+<tr class="separator:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a></td></tr>
+<tr class="memdesc:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">More...</a><br /></td></tr>
+<tr class="separator:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, ScalarA_, ScalarB_, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td></tr>
+<tr class="memitem:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td></tr>
+<tr class="memdesc:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">More...</a><br /></td></tr>
+<tr class="separator:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td></tr>
+<tr class="memdesc:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">More...</a><br /></td></tr>
+<tr class="separator:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td></tr>
+<tr class="memdesc:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">More...</a><br /></td></tr>
+<tr class="separator:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td></tr>
+<tr class="separator:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td></tr>
+<tr class="separator:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td></tr>
+<tr class="memdesc:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">More...</a><br /></td></tr>
+<tr class="separator:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td></tr>
+<tr class="separator:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td></tr>
+<tr class="separator:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td></tr>
+<tr class="memdesc:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">More...</a><br /></td></tr>
+<tr class="separator:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td></tr>
+<tr class="memdesc:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">More...</a><br /></td></tr>
+<tr class="separator:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td></tr>
+<tr class="separator:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td></tr>
+<tr class="separator:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td></tr>
+<tr class="memdesc:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">More...</a><br /></td></tr>
+<tr class="separator:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td></tr>
+<tr class="separator:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td></tr>
+<tr class="memdesc:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">More...</a><br /></td></tr>
+<tr class="separator:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td></tr>
+<tr class="memdesc:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, mainloop is instantiated twice. The first instantiation contains no predicate.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">More...</a><br /></td></tr>
+<tr class="separator:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td></tr>
+<tr class="memdesc:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, residue is computed in the prologue.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">More...</a><br /></td></tr>
+<tr class="separator:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td></tr>
+<tr class="memdesc:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, kernel is launched with launch bounds specified.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">More...</a><br /></td></tr>
+<tr class="separator:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="fp16__sgemm__traits_8h_source.html">fp16_sgemm_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1Fp16SgemmConfig.png b/docs/structcutlass_1_1gemm_1_1Fp16SgemmConfig.png
new file mode 100644
index 0000000000..b06220083c
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1Fp16SgemmConfig.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits-members.html b/docs/structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits-members.html
new file mode 100644
index 0000000000..b133a1dc10
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits-members.html
@@ -0,0 +1,114 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html">Fp16SgemmSgemmTraits</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::Fp16SgemmSgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, Scalar_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html">cutlass::gemm::Fp16SgemmSgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, Scalar_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a>(bool in_loop)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a>(bool in_loop)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html b/docs/structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html
new file mode 100644
index 0000000000..1d06a26c89
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html
@@ -0,0 +1,182 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::Fp16SgemmSgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, Scalar_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.html">Fp16SgemmSgemmTraits</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::Fp16SgemmSgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, Scalar_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="fp16__sgemm__traits_8h_source.html">fp16_sgemm_traits.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::Fp16SgemmSgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarA_, ScalarB_, ScalarC_, ScalarD_, Scalar_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.png" usemap="#cutlass::gemm::Fp16SgemmSgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20ScalarA_5F_2C_20ScalarB_5F_2C_20ScalarC_5F_2C_20ScalarD_5F_2C_20Scalar_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::Fp16SgemmSgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20ScalarA_5F_2C_20ScalarB_5F_2C_20ScalarC_5F_2C_20ScalarD_5F_2C_20Scalar_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" name="cutlass::gemm::Fp16SgemmSgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20ScalarA_5F_2C_20ScalarB_5F_2C_20ScalarC_5F_2C_20ScalarD_5F_2C_20Scalar_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html" alt="cutlass::gemm::SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, Index_ &gt;" shape="rect" coords="0,56,4915,80"/>
+<area href="structcutlass_1_1gemm_1_1GemmTraits.html" alt="cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;" shape="rect" coords="0,0,4915,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
+<tr class="memitem:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt; GemmConfig_, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>, Index_, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>&lt; GemmConfig_::Accumulators::Element &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a></td></tr>
+<tr class="memdesc:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">This traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">More...</a><br /></td></tr>
+<tr class="separator:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a></td></tr>
+<tr class="memdesc:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The struct that consumes this Traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">More...</a><br /></td></tr>
+<tr class="separator:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a></td></tr>
+<tr class="memdesc:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The configuration.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">More...</a><br /></td></tr>
+<tr class="separator:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
+<tr class="memdesc:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">More...</a><br /></td></tr>
+<tr class="separator:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a></td></tr>
+<tr class="memdesc:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from global memory to shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">More...</a><br /></td></tr>
+<tr class="separator:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a96d64bdc48db4971798b620d6b49b3f6 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> ::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a></td></tr>
+<tr class="memdesc:a96d64bdc48db4971798b620d6b49b3f6 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">More...</a><br /></td></tr>
+<tr class="separator:a96d64bdc48db4971798b620d6b49b3f6 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac393b07e780629fc8254fc22cc6f815b inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a></td></tr>
+<tr class="memdesc:ac393b07e780629fc8254fc22cc6f815b inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from global memory to shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">More...</a><br /></td></tr>
+<tr class="separator:ac393b07e780629fc8254fc22cc6f815b inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa0e8fd28f5247764dfb7843f7670c698 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> ::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a></td></tr>
+<tr class="memdesc:aa0e8fd28f5247764dfb7843f7670c698 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">More...</a><br /></td></tr>
+<tr class="separator:aa0e8fd28f5247764dfb7843f7670c698 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae01371eb31b88fa83c4926564cecafdc inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a></td></tr>
+<tr class="memdesc:ae01371eb31b88fa83c4926564cecafdc inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for A to load from shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">More...</a><br /></td></tr>
+<tr class="separator:ae01371eb31b88fa83c4926564cecafdc inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a></td></tr>
+<tr class="memdesc:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for B to load from shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">More...</a><br /></td></tr>
+<tr class="separator:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
+<tr class="memdesc:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The multiply-add functor.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">More...</a><br /></td></tr>
+<tr class="separator:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a></td></tr>
+<tr class="memdesc:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The epilogue.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">More...</a><br /></td></tr>
+<tr class="separator:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f78d4a68817760099081523aa7fd443 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">Epilogue::ScalarC</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a></td></tr>
+<tr class="memdesc:a8f78d4a68817760099081523aa7fd443 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalars in the epilogue.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">More...</a><br /></td></tr>
+<tr class="separator:a8f78d4a68817760099081523aa7fd443 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3129be75ee087603170f8367e10e070e inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">Epilogue::ScalarD</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a></td></tr>
+<tr class="separator:a3129be75ee087603170f8367e10e070e inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a50672b5fa67d858aeff8f254cf28e941 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a></td></tr>
+<tr class="memdesc:a50672b5fa67d858aeff8f254cf28e941 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The block swizzle to reorganize the grid.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">More...</a><br /></td></tr>
+<tr class="separator:a50672b5fa67d858aeff8f254cf28e941 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae67227cecbe84f5c8497d9a7ff82b367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a></td></tr>
+<tr class="memdesc:ae67227cecbe84f5c8497d9a7ff82b367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">More...</a><br /></td></tr>
+<tr class="separator:ae67227cecbe84f5c8497d9a7ff82b367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>&lt; GemmConfig_::Accumulators::Element &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a></td></tr>
+<tr class="memdesc:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear the accumulators.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">More...</a><br /></td></tr>
+<tr class="separator:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, GemmConfig::kResidueInProlog &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a></td></tr>
+<tr class="memdesc:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the global load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">More...</a><br /></td></tr>
+<tr class="separator:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">GlobalLoadStream::ThreadblockTileStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a></td></tr>
+<tr class="memdesc:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory needed to store the threadblock-scoped GEMM tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">More...</a><br /></td></tr>
+<tr class="separator:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a></td></tr>
+<tr class="memdesc:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the shared load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">More...</a><br /></td></tr>
+<tr class="separator:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
+<tr class="memitem:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a> (bool in_loop)</td></tr>
+<tr class="memdesc:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared loads.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">More...</a><br /></td></tr>
+<tr class="separator:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac3c840a3d90c0da43301761af83c2c9f inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a> (bool in_loop)</td></tr>
+<tr class="memdesc:ac3c840a3d90c0da43301761af83c2c9f inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared stores.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">More...</a><br /></td></tr>
+<tr class="separator:ac3c840a3d90c0da43301761af83c2c9f inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
+<tr class="memitem:ac5bb5931a707ed7672f69267753ba41b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a></td></tr>
+<tr class="memdesc:ac5bb5931a707ed7672f69267753ba41b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout of A.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">More...</a><br /></td></tr>
+<tr class="separator:ac5bb5931a707ed7672f69267753ba41b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a078e8d9cfa1b182e1b96a2cc8c54b684 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a></td></tr>
+<tr class="memdesc:a078e8d9cfa1b182e1b96a2cc8c54b684 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout of B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">More...</a><br /></td></tr>
+<tr class="separator:a078e8d9cfa1b182e1b96a2cc8c54b684 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="fp16__sgemm__traits_8h_source.html">fp16_sgemm_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.png b/docs/structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.png
new file mode 100644
index 0000000000..c5dd66deab
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1Fp16SgemmSgemmTraits.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd-members.html b/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd-members.html
index f03e26ac28..d7c382ac07 100644
--- a/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd-members.html
+++ b/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd-members.html
@@ -73,23 +73,22 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af19e14a22aefd1124f7d31beec6f8c42">FragmentMultiplyAdd</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ac93ba536992debeae86087e638167a13">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a522301fbe3e276cb5ef9fbe75bb2ab50">multiply</a>(Scalar_ a, Fragment_ const &amp;b, Fragment_ &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a34bbf209967fef6181d3d46dd27fa0c0">multiply_add</a>(Scalar_ a, Fragment_ const &amp;b, Fragment_ const &amp;c, Fragment_ &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a6fa76b3e7ac721d47df47eba4e9ef222">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af4f5c4a79c447e5aaf313878eca022cb">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a92c1ffbfb479cd9fa2c2632ef8e347d3">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ae1fbd0fd103deda51208102f15f896ed">FragmentMultiplyAdd</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aa101be5d45e2be54bb4056517b6d5e76">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a934c0d74c70fc87796ecb5cde50fd516">multiply</a>(ScalarAlphaBeta a, FragmentB_ const &amp;b, FragmentCd_ &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aafa37c2e1ffd2f7d7031c24c732157d8">multiply_add</a>(ScalarAlphaBeta a, FragmentB_ const &amp;b, FragmentCd_ const &amp;c, FragmentCd_ &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a1e854c281072db280ae90c2569b5f64c">ScalarAccum</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html b/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html
index bde87a6e3c..29bd3c0746 100644
--- a/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html
+++ b/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -77,7 +77,7 @@
 <a href="#pub-methods">Public Member Functions</a> &#124;
 <a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::FragmentMultiplyAdd&lt; Scalar_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::FragmentMultiplyAdd&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -85,92 +85,73 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:ac93ba536992debeae86087e638167a13"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, 1, 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ac93ba536992debeae86087e638167a13">InstructionShape</a></td></tr>
-<tr class="memdesc:ac93ba536992debeae86087e638167a13"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="#ac93ba536992debeae86087e638167a13">More...</a><br /></td></tr>
-<tr class="separator:ac93ba536992debeae86087e638167a13"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6fa76b3e7ac721d47df47eba4e9ef222"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a6fa76b3e7ac721d47df47eba4e9ef222">ScalarA</a></td></tr>
-<tr class="memdesc:a6fa76b3e7ac721d47df47eba4e9ef222"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for A.  <a href="#a6fa76b3e7ac721d47df47eba4e9ef222">More...</a><br /></td></tr>
-<tr class="separator:a6fa76b3e7ac721d47df47eba4e9ef222"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af4f5c4a79c447e5aaf313878eca022cb"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af4f5c4a79c447e5aaf313878eca022cb">ScalarB</a></td></tr>
-<tr class="memdesc:af4f5c4a79c447e5aaf313878eca022cb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for B.  <a href="#af4f5c4a79c447e5aaf313878eca022cb">More...</a><br /></td></tr>
-<tr class="separator:af4f5c4a79c447e5aaf313878eca022cb"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a92c1ffbfb479cd9fa2c2632ef8e347d3"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a92c1ffbfb479cd9fa2c2632ef8e347d3">ScalarC</a></td></tr>
-<tr class="memdesc:a92c1ffbfb479cd9fa2c2632ef8e347d3"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for C and D.  <a href="#a92c1ffbfb479cd9fa2c2632ef8e347d3">More...</a><br /></td></tr>
-<tr class="separator:a92c1ffbfb479cd9fa2c2632ef8e347d3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa101be5d45e2be54bb4056517b6d5e76"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, 1, 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aa101be5d45e2be54bb4056517b6d5e76">InstructionShape</a></td></tr>
+<tr class="memdesc:aa101be5d45e2be54bb4056517b6d5e76"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="#aa101be5d45e2be54bb4056517b6d5e76">More...</a><br /></td></tr>
+<tr class="separator:aa101be5d45e2be54bb4056517b6d5e76"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea565efe23b7a5c17eeab5e8cd0d1322"><td class="memItemLeft" align="right" valign="top">typedef ScalarAlphaBeta_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a></td></tr>
+<tr class="memdesc:aea565efe23b7a5c17eeab5e8cd0d1322"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for alpha and beta.  <a href="#aea565efe23b7a5c17eeab5e8cd0d1322">More...</a><br /></td></tr>
+<tr class="separator:aea565efe23b7a5c17eeab5e8cd0d1322"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e854c281072db280ae90c2569b5f64c"><td class="memItemLeft" align="right" valign="top">typedef ScalarAccum_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a1e854c281072db280ae90c2569b5f64c">ScalarAccum</a></td></tr>
+<tr class="memdesc:a1e854c281072db280ae90c2569b5f64c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for accumlator.  <a href="#a1e854c281072db280ae90c2569b5f64c">More...</a><br /></td></tr>
+<tr class="separator:a1e854c281072db280ae90c2569b5f64c"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:af19e14a22aefd1124f7d31beec6f8c42"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af19e14a22aefd1124f7d31beec6f8c42">FragmentMultiplyAdd</a> ()</td></tr>
-<tr class="memdesc:af19e14a22aefd1124f7d31beec6f8c42"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#af19e14a22aefd1124f7d31beec6f8c42">More...</a><br /></td></tr>
-<tr class="separator:af19e14a22aefd1124f7d31beec6f8c42"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a522301fbe3e276cb5ef9fbe75bb2ab50"><td class="memTemplParams" colspan="2">template&lt;typename Fragment_ &gt; </td></tr>
-<tr class="memitem:a522301fbe3e276cb5ef9fbe75bb2ab50"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a522301fbe3e276cb5ef9fbe75bb2ab50">multiply</a> (Scalar_ a, Fragment_ const &amp;b, Fragment_ &amp;d)</td></tr>
-<tr class="memdesc:a522301fbe3e276cb5ef9fbe75bb2ab50"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b.  <a href="#a522301fbe3e276cb5ef9fbe75bb2ab50">More...</a><br /></td></tr>
-<tr class="separator:a522301fbe3e276cb5ef9fbe75bb2ab50"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a34bbf209967fef6181d3d46dd27fa0c0"><td class="memTemplParams" colspan="2">template&lt;typename Fragment_ &gt; </td></tr>
-<tr class="memitem:a34bbf209967fef6181d3d46dd27fa0c0"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a34bbf209967fef6181d3d46dd27fa0c0">multiply_add</a> (Scalar_ a, Fragment_ const &amp;b, Fragment_ const &amp;c, Fragment_ &amp;d)</td></tr>
-<tr class="memdesc:a34bbf209967fef6181d3d46dd27fa0c0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b + c.  <a href="#a34bbf209967fef6181d3d46dd27fa0c0">More...</a><br /></td></tr>
-<tr class="separator:a34bbf209967fef6181d3d46dd27fa0c0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae1fbd0fd103deda51208102f15f896ed"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ae1fbd0fd103deda51208102f15f896ed">FragmentMultiplyAdd</a> ()</td></tr>
+<tr class="memdesc:ae1fbd0fd103deda51208102f15f896ed"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ae1fbd0fd103deda51208102f15f896ed">More...</a><br /></td></tr>
+<tr class="separator:ae1fbd0fd103deda51208102f15f896ed"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a934c0d74c70fc87796ecb5cde50fd516"><td class="memTemplParams" colspan="2">template&lt;typename FragmentB_ , typename FragmentCd_ &gt; </td></tr>
+<tr class="memitem:a934c0d74c70fc87796ecb5cde50fd516"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a934c0d74c70fc87796ecb5cde50fd516">multiply</a> (<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a> a, FragmentB_ const &amp;b, FragmentCd_ &amp;d)</td></tr>
+<tr class="memdesc:a934c0d74c70fc87796ecb5cde50fd516"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b.  <a href="#a934c0d74c70fc87796ecb5cde50fd516">More...</a><br /></td></tr>
+<tr class="separator:a934c0d74c70fc87796ecb5cde50fd516"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aafa37c2e1ffd2f7d7031c24c732157d8"><td class="memTemplParams" colspan="2">template&lt;typename FragmentB_ , typename FragmentCd_ &gt; </td></tr>
+<tr class="memitem:aafa37c2e1ffd2f7d7031c24c732157d8"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aafa37c2e1ffd2f7d7031c24c732157d8">multiply_add</a> (<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a> a, FragmentB_ const &amp;b, FragmentCd_ const &amp;c, FragmentCd_ &amp;d)</td></tr>
+<tr class="memdesc:aafa37c2e1ffd2f7d7031c24c732157d8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b + c.  <a href="#aafa37c2e1ffd2f7d7031c24c732157d8">More...</a><br /></td></tr>
+<tr class="separator:aafa37c2e1ffd2f7d7031c24c732157d8"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="ac93ba536992debeae86087e638167a13"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac93ba536992debeae86087e638167a13">&#9670;&nbsp;</a></span>InstructionShape</h2>
+<a id="aa101be5d45e2be54bb4056517b6d5e76"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa101be5d45e2be54bb4056517b6d5e76">&#9670;&nbsp;</a></span>InstructionShape</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_ &gt; </div>
+template&lt;typename ScalarAlphaBeta_ , typename ScalarAccum_ , bool fragMul2 = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, 1, 1&gt; <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; Scalar_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#ac93ba536992debeae86087e638167a13">InstructionShape</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, 1, 1&gt; <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aa101be5d45e2be54bb4056517b6d5e76">InstructionShape</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a6fa76b3e7ac721d47df47eba4e9ef222"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6fa76b3e7ac721d47df47eba4e9ef222">&#9670;&nbsp;</a></span>ScalarA</h2>
+<a id="a1e854c281072db280ae90c2569b5f64c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e854c281072db280ae90c2569b5f64c">&#9670;&nbsp;</a></span>ScalarAccum</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_ &gt; </div>
+template&lt;typename ScalarAlphaBeta_ , typename ScalarAccum_ , bool fragMul2 = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Scalar_ <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; Scalar_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a6fa76b3e7ac721d47df47eba4e9ef222">ScalarA</a></td>
+          <td class="memname">typedef ScalarAccum_ <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a1e854c281072db280ae90c2569b5f64c">ScalarAccum</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="af4f5c4a79c447e5aaf313878eca022cb"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af4f5c4a79c447e5aaf313878eca022cb">&#9670;&nbsp;</a></span>ScalarB</h2>
+<a id="aea565efe23b7a5c17eeab5e8cd0d1322"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea565efe23b7a5c17eeab5e8cd0d1322">&#9670;&nbsp;</a></span>ScalarAlphaBeta</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_ &gt; </div>
+template&lt;typename ScalarAlphaBeta_ , typename ScalarAccum_ , bool fragMul2 = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Scalar_ <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; Scalar_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#af4f5c4a79c447e5aaf313878eca022cb">ScalarB</a></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a92c1ffbfb479cd9fa2c2632ef8e347d3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a92c1ffbfb479cd9fa2c2632ef8e347d3">&#9670;&nbsp;</a></span>ScalarC</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename Scalar_ &gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname">typedef Scalar_ <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; Scalar_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#a92c1ffbfb479cd9fa2c2632ef8e347d3">ScalarC</a></td>
+          <td class="memname">typedef ScalarAlphaBeta_ <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -178,19 +159,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a92c1ffbfb479cd9fa2c2632e
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="af19e14a22aefd1124f7d31beec6f8c42"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af19e14a22aefd1124f7d31beec6f8c42">&#9670;&nbsp;</a></span>FragmentMultiplyAdd()</h2>
+<a id="ae1fbd0fd103deda51208102f15f896ed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae1fbd0fd103deda51208102f15f896ed">&#9670;&nbsp;</a></span>FragmentMultiplyAdd()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_ &gt; </div>
+template&lt;typename ScalarAlphaBeta_ , typename ScalarAccum_ , bool fragMul2 = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; Scalar_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a> </td>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a> </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -206,35 +187,35 @@ <h2 class="memtitle"><span class="permalink"><a href="#af19e14a22aefd1124f7d31be
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a522301fbe3e276cb5ef9fbe75bb2ab50"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a522301fbe3e276cb5ef9fbe75bb2ab50">&#9670;&nbsp;</a></span>multiply()</h2>
+<a id="a934c0d74c70fc87796ecb5cde50fd516"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a934c0d74c70fc87796ecb5cde50fd516">&#9670;&nbsp;</a></span>multiply()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_ &gt; </div>
+template&lt;typename ScalarAlphaBeta_ , typename ScalarAccum_ , bool fragMul2 = true&gt; </div>
 <div class="memtemplate">
-template&lt;typename Fragment_ &gt; </div>
+template&lt;typename FragmentB_ , typename FragmentCd_ &gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; Scalar_ &gt;::multiply </td>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;::multiply </td>
           <td>(</td>
-          <td class="paramtype">Scalar_&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a>&#160;</td>
           <td class="paramname"><em>a</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Fragment_ const &amp;&#160;</td>
+          <td class="paramtype">FragmentB_ const &amp;&#160;</td>
           <td class="paramname"><em>b</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Fragment_ &amp;&#160;</td>
+          <td class="paramtype">FragmentCd_ &amp;&#160;</td>
           <td class="paramname"><em>d</em>&#160;</td>
         </tr>
         <tr>
@@ -252,41 +233,41 @@ <h2 class="memtitle"><span class="permalink"><a href="#a522301fbe3e276cb5ef9fbe7
 
 </div>
 </div>
-<a id="a34bbf209967fef6181d3d46dd27fa0c0"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a34bbf209967fef6181d3d46dd27fa0c0">&#9670;&nbsp;</a></span>multiply_add()</h2>
+<a id="aafa37c2e1ffd2f7d7031c24c732157d8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aafa37c2e1ffd2f7d7031c24c732157d8">&#9670;&nbsp;</a></span>multiply_add()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_ &gt; </div>
+template&lt;typename ScalarAlphaBeta_ , typename ScalarAccum_ , bool fragMul2 = true&gt; </div>
 <div class="memtemplate">
-template&lt;typename Fragment_ &gt; </div>
+template&lt;typename FragmentB_ , typename FragmentCd_ &gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; Scalar_ &gt;::multiply_add </td>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; ScalarAlphaBeta_, ScalarAccum_, fragMul2 &gt;::multiply_add </td>
           <td>(</td>
-          <td class="paramtype">Scalar_&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html#aea565efe23b7a5c17eeab5e8cd0d1322">ScalarAlphaBeta</a>&#160;</td>
           <td class="paramname"><em>a</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Fragment_ const &amp;&#160;</td>
+          <td class="paramtype">FragmentB_ const &amp;&#160;</td>
           <td class="paramname"><em>b</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Fragment_ const &amp;&#160;</td>
+          <td class="paramtype">FragmentCd_ const &amp;&#160;</td>
           <td class="paramname"><em>c</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Fragment_ &amp;&#160;</td>
+          <td class="paramtype">FragmentCd_ &amp;&#160;</td>
           <td class="paramname"><em>d</em>&#160;</td>
         </tr>
         <tr>
@@ -310,7 +291,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a34bbf209967fef6181d3d46d
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4-members.html b/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4-members.html
new file mode 100644
index 0000000000..9730de1f66
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4-members.html
@@ -0,0 +1,96 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">FragmentMultiplyAdd&lt; half, half, true &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ad35b57b3f0cf5a467a1b0e48cffc3061">FragmentMultiplyAdd</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a7d83cf5bde360251a252c6e728ea80ff">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a6bed70e7074931419e9441688aee00ea">multiply</a>(half a, FragmentB_ const &amp;b, FragmentCd_ &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a92edee5611d25b60cdab6a1c8e32141f">multiply_add</a>(half a, FragmentB_ const &amp;b, FragmentCd_ const &amp;c, FragmentCd_ &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ab3774e6aa28266b25e3822fc9e72edc2">ScalarAccum</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ae7a333f7aa3f52226c76cec9d2da042d">ScalarAlphaBeta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html b/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html
new file mode 100644
index 0000000000..85a462d29f
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html
@@ -0,0 +1,287 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html">FragmentMultiplyAdd&lt; half, half, true &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::FragmentMultiplyAdd&lt; half, half, true &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="fragment__multiply__add_8h_source.html">fragment_multiply_add.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a7d83cf5bde360251a252c6e728ea80ff"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, 1, 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a7d83cf5bde360251a252c6e728ea80ff">InstructionShape</a></td></tr>
+<tr class="memdesc:a7d83cf5bde360251a252c6e728ea80ff"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="#a7d83cf5bde360251a252c6e728ea80ff">More...</a><br /></td></tr>
+<tr class="separator:a7d83cf5bde360251a252c6e728ea80ff"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae7a333f7aa3f52226c76cec9d2da042d"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ae7a333f7aa3f52226c76cec9d2da042d">ScalarAlphaBeta</a></td></tr>
+<tr class="memdesc:ae7a333f7aa3f52226c76cec9d2da042d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for alpha and beta.  <a href="#ae7a333f7aa3f52226c76cec9d2da042d">More...</a><br /></td></tr>
+<tr class="separator:ae7a333f7aa3f52226c76cec9d2da042d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab3774e6aa28266b25e3822fc9e72edc2"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ab3774e6aa28266b25e3822fc9e72edc2">ScalarAccum</a></td></tr>
+<tr class="memdesc:ab3774e6aa28266b25e3822fc9e72edc2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for accumlator.  <a href="#ab3774e6aa28266b25e3822fc9e72edc2">More...</a><br /></td></tr>
+<tr class="separator:ab3774e6aa28266b25e3822fc9e72edc2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:ad35b57b3f0cf5a467a1b0e48cffc3061"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ad35b57b3f0cf5a467a1b0e48cffc3061">FragmentMultiplyAdd</a> ()</td></tr>
+<tr class="memdesc:ad35b57b3f0cf5a467a1b0e48cffc3061"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ad35b57b3f0cf5a467a1b0e48cffc3061">More...</a><br /></td></tr>
+<tr class="separator:ad35b57b3f0cf5a467a1b0e48cffc3061"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6bed70e7074931419e9441688aee00ea"><td class="memTemplParams" colspan="2">template&lt;typename FragmentB_ , typename FragmentCd_ &gt; </td></tr>
+<tr class="memitem:a6bed70e7074931419e9441688aee00ea"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a6bed70e7074931419e9441688aee00ea">multiply</a> (half a, FragmentB_ const &amp;b, FragmentCd_ &amp;d)</td></tr>
+<tr class="memdesc:a6bed70e7074931419e9441688aee00ea"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b.  <a href="#a6bed70e7074931419e9441688aee00ea">More...</a><br /></td></tr>
+<tr class="separator:a6bed70e7074931419e9441688aee00ea"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a92edee5611d25b60cdab6a1c8e32141f"><td class="memTemplParams" colspan="2">template&lt;typename FragmentB_ , typename FragmentCd_ &gt; </td></tr>
+<tr class="memitem:a92edee5611d25b60cdab6a1c8e32141f"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a92edee5611d25b60cdab6a1c8e32141f">multiply_add</a> (half a, FragmentB_ const &amp;b, FragmentCd_ const &amp;c, FragmentCd_ &amp;d)</td></tr>
+<tr class="memdesc:a92edee5611d25b60cdab6a1c8e32141f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b + c.  <a href="#a92edee5611d25b60cdab6a1c8e32141f">More...</a><br /></td></tr>
+<tr class="separator:a92edee5611d25b60cdab6a1c8e32141f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a7d83cf5bde360251a252c6e728ea80ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d83cf5bde360251a252c6e728ea80ff">&#9670;&nbsp;</a></span>InstructionShape</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, 1, 1&gt; <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; half, half, true &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#a7d83cf5bde360251a252c6e728ea80ff">InstructionShape</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab3774e6aa28266b25e3822fc9e72edc2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab3774e6aa28266b25e3822fc9e72edc2">&#9670;&nbsp;</a></span>ScalarAccum</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef half <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; half, half, true &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ab3774e6aa28266b25e3822fc9e72edc2">ScalarAccum</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae7a333f7aa3f52226c76cec9d2da042d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae7a333f7aa3f52226c76cec9d2da042d">&#9670;&nbsp;</a></span>ScalarAlphaBeta</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef half <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; half, half, true &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd_3_01half_00_01half_00_01true_01_4.html#ae7a333f7aa3f52226c76cec9d2da042d">ScalarAlphaBeta</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ad35b57b3f0cf5a467a1b0e48cffc3061"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad35b57b3f0cf5a467a1b0e48cffc3061">&#9670;&nbsp;</a></span>FragmentMultiplyAdd()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; half, half, true &gt;::<a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">FragmentMultiplyAdd</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a6bed70e7074931419e9441688aee00ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6bed70e7074931419e9441688aee00ea">&#9670;&nbsp;</a></span>multiply()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename FragmentB_ , typename FragmentCd_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; half, half, true &gt;::multiply </td>
+          <td>(</td>
+          <td class="paramtype">half&#160;</td>
+          <td class="paramname"><em>a</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">FragmentB_ const &amp;&#160;</td>
+          <td class="paramname"><em>b</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">FragmentCd_ &amp;&#160;</td>
+          <td class="paramname"><em>d</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a92edee5611d25b60cdab6a1c8e32141f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a92edee5611d25b60cdab6a1c8e32141f">&#9670;&nbsp;</a></span>multiply_add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename FragmentB_ , typename FragmentCd_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1FragmentMultiplyAdd.html">cutlass::gemm::FragmentMultiplyAdd</a>&lt; half, half, true &gt;::multiply_add </td>
+          <td>(</td>
+          <td class="paramtype">half&#160;</td>
+          <td class="paramname"><em>a</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">FragmentB_ const &amp;&#160;</td>
+          <td class="paramname"><em>b</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">FragmentCd_ const &amp;&#160;</td>
+          <td class="paramname"><em>c</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">FragmentCd_ &amp;&#160;</td>
+          <td class="paramname"><em>d</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="fragment__multiply__add_8h_source.html">fragment_multiply_add.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1Gemm-members.html b/docs/structcutlass_1_1gemm_1_1Gemm-members.html
index f0424e29ac..d22133c4b7 100644
--- a/docs/structcutlass_1_1gemm_1_1Gemm-members.html
+++ b/docs/structcutlass_1_1gemm_1_1Gemm-members.html
@@ -79,12 +79,16 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">Gemm</a>(Params const &amp;params_, SharedStorage &amp;shared_storage_)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#af8bb78ae198af4dccb0241da44428053">consume_tile</a>(typename Traits::GlobalLoadStream &amp;global_to_shared_stream, typename Traits::SharedStream &amp;shared_load_stream, typename MultiplyAdd::Accumulators &amp;accumulators, Index outer_k)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">Gemm</a>(Params const &amp;params_, SharedStorage &amp;shared_storage_)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">kWarpGemmSteps</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c">launch</a>(Params const &amp;params, cudaStream_t stream=cudaStreamDefault)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906">launch</a>(CUfunction kernel, Params const &amp;params, CUstream stream=CU_STREAM_LEGACY)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a6fcf9daef57558e1bb932c6eba99721b">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ae6f11bb666c2c8510e99200a2c0fc2f4">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm&lt; GemmTraits_ &gt;</a></td><td class="entry"></td></tr>
@@ -98,7 +102,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1Gemm.html b/docs/structcutlass_1_1gemm_1_1Gemm.html
index c2f993efa9..fcb0fa46f0 100644
--- a/docs/structcutlass_1_1gemm_1_1Gemm.html
+++ b/docs/structcutlass_1_1gemm_1_1Gemm.html
@@ -73,7 +73,6 @@
 </div><!-- top -->
 <div class="header">
   <div class="summary">
-<a href="#nested-classes">Classes</a> &#124;
 <a href="#pub-types">Public Types</a> &#124;
 <a href="#pub-methods">Public Member Functions</a> &#124;
 <a href="#pub-static-methods">Static Public Member Functions</a> &#124;
@@ -87,12 +86,6 @@
 
 <p><code>#include &lt;<a class="el" href="gemm_8h_source.html">gemm.h</a>&gt;</code></p>
 <table class="memberdecls">
-<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
-Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params.  <a href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-</table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
 <tr class="memitem:a26c13e8bbad805760443ef6df475e317"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm</a>&lt; GemmTraits_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a26c13e8bbad805760443ef6df475e317">This_</a></td></tr>
@@ -122,28 +115,38 @@
 <tr class="memitem:a0aca711d07245f3071adeb1111fedd34"><td class="memItemLeft" align="right" valign="top">typedef Traits::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a></td></tr>
 <tr class="memdesc:a0aca711d07245f3071adeb1111fedd34"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="#a0aca711d07245f3071adeb1111fedd34">More...</a><br /></td></tr>
 <tr class="separator:a0aca711d07245f3071adeb1111fedd34"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab806302d059fc7cd113ec0b5ab5a9835"><td class="memItemLeft" align="right" valign="top">typedef Traits::MultiplyAdd&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835">MultiplyAdd</a></td></tr>
+<tr class="memdesc:ab806302d059fc7cd113ec0b5ab5a9835"><td class="mdescLeft">&#160;</td><td class="mdescRight">Define the mainloop iteration size.  <a href="#ab806302d059fc7cd113ec0b5ab5a9835">More...</a><br /></td></tr>
+<tr class="separator:ab806302d059fc7cd113ec0b5ab5a9835"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a054d5e87f1985ae7e53fc07f4c16d916"><td class="memItemLeft" align="right" valign="top">typedef Traits::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a></td></tr>
+<tr class="memdesc:a054d5e87f1985ae7e53fc07f4c16d916"><td class="mdescLeft">&#160;</td><td class="mdescRight">Use the params object defined in traits.  <a href="#a054d5e87f1985ae7e53fc07f4c16d916">More...</a><br /></td></tr>
+<tr class="separator:a054d5e87f1985ae7e53fc07f4c16d916"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a8bff0bd32aec05f8c1e282024be0bcfd"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">Gemm</a> (<a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> const &amp;params_, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">SharedStorage</a> &amp;shared_storage_)</td></tr>
+<tr class="memitem:a8bff0bd32aec05f8c1e282024be0bcfd"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a8bff0bd32aec05f8c1e282024be0bcfd">Gemm</a> (<a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> const &amp;params_, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">SharedStorage</a> &amp;shared_storage_)</td></tr>
 <tr class="memdesc:a8bff0bd32aec05f8c1e282024be0bcfd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a8bff0bd32aec05f8c1e282024be0bcfd">More...</a><br /></td></tr>
 <tr class="separator:a8bff0bd32aec05f8c1e282024be0bcfd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af8bb78ae198af4dccb0241da44428053"><td class="memTemplParams" colspan="2">template&lt;bool Residue, bool LastIteration&gt; </td></tr>
+<tr class="memitem:af8bb78ae198af4dccb0241da44428053"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#af8bb78ae198af4dccb0241da44428053">consume_tile</a> (typename Traits::GlobalLoadStream &amp;global_to_shared_stream, typename Traits::SharedStream &amp;shared_load_stream, typename MultiplyAdd::Accumulators &amp;accumulators, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> outer_k)</td></tr>
+<tr class="memdesc:af8bb78ae198af4dccb0241da44428053"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes a warp-level GEMM on data held in shared memory.  <a href="#af8bb78ae198af4dccb0241da44428053">More...</a><br /></td></tr>
+<tr class="separator:af8bb78ae198af4dccb0241da44428053"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a2e844037d2527b842de3590cb783a49f"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a2e844037d2527b842de3590cb783a49f">multiply_add</a> ()</td></tr>
 <tr class="memdesc:a2e844037d2527b842de3590cb783a49f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Do the GEMM.  <a href="#a2e844037d2527b842de3590cb783a49f">More...</a><br /></td></tr>
 <tr class="separator:a2e844037d2527b842de3590cb783a49f"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
 Static Public Member Functions</h2></td></tr>
-<tr class="memitem:a77ae137aec79b4061a9ffa09aabf641c"><td class="memItemLeft" align="right" valign="top">static __host__ cudaError_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c">launch</a> (<a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> const &amp;<a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>, cudaStream_t stream=cudaStreamDefault)</td></tr>
-<tr class="memdesc:a77ae137aec79b4061a9ffa09aabf641c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Launch the kernel.  <a href="#a77ae137aec79b4061a9ffa09aabf641c">More...</a><br /></td></tr>
+<tr class="memitem:a77ae137aec79b4061a9ffa09aabf641c"><td class="memItemLeft" align="right" valign="top">static __host__ cudaError_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a77ae137aec79b4061a9ffa09aabf641c">launch</a> (<a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> const &amp;<a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>, cudaStream_t stream=cudaStreamDefault)</td></tr>
+<tr class="memdesc:a77ae137aec79b4061a9ffa09aabf641c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Support for NVRTC.  <a href="#a77ae137aec79b4061a9ffa09aabf641c">More...</a><br /></td></tr>
 <tr class="separator:a77ae137aec79b4061a9ffa09aabf641c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4f4122a2ae8b9b09a9660e5c2ca9e906"><td class="memItemLeft" align="right" valign="top">static __host__ cudaError_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906">launch</a> (CUfunction kernel, <a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> const &amp;<a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>, CUstream stream=CU_STREAM_LEGACY)</td></tr>
-<tr class="memdesc:a4f4122a2ae8b9b09a9660e5c2ca9e906"><td class="mdescLeft">&#160;</td><td class="mdescRight">Launch the kernel.  <a href="#a4f4122a2ae8b9b09a9660e5c2ca9e906">More...</a><br /></td></tr>
+<tr class="memitem:a4f4122a2ae8b9b09a9660e5c2ca9e906"><td class="memItemLeft" align="right" valign="top">static __host__ cudaError_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a4f4122a2ae8b9b09a9660e5c2ca9e906">launch</a> (CUfunction kernel, <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> const &amp;<a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a>, CUstream stream=CU_STREAM_LEGACY)</td></tr>
+<tr class="memdesc:a4f4122a2ae8b9b09a9660e5c2ca9e906"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html" title="Partial specialization for launching the GEMM kernel with or without launch bounds. ">Launch</a> the kernel.  <a href="#a4f4122a2ae8b9b09a9660e5c2ca9e906">More...</a><br /></td></tr>
 <tr class="separator:a4f4122a2ae8b9b09a9660e5c2ca9e906"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:a3c292637ab0ec8e73856d0cf6efb6da2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a></td></tr>
+<tr class="memitem:a3c292637ab0ec8e73856d0cf6efb6da2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a3c292637ab0ec8e73856d0cf6efb6da2">params</a></td></tr>
 <tr class="memdesc:a3c292637ab0ec8e73856d0cf6efb6da2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params.  <a href="#a3c292637ab0ec8e73856d0cf6efb6da2">More...</a><br /></td></tr>
 <tr class="separator:a3c292637ab0ec8e73856d0cf6efb6da2"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a6b0119ed8d92698dab4de68987c8cc1b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ad10627d508fad0efae1fb91b26d7a6b7">SharedStorage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a6b0119ed8d92698dab4de68987c8cc1b">shared_storage</a></td></tr>
@@ -155,6 +158,8 @@
 <tr class="memitem:a41239809be4ebc730dd8ff28c9efc58b"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a41239809be4ebc730dd8ff28c9efc58b">kThreads</a> = Traits::GemmConfig::kThreads</td></tr>
 <tr class="memdesc:a41239809be4ebc730dd8ff28c9efc58b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of threads.  <a href="#a41239809be4ebc730dd8ff28c9efc58b">More...</a><br /></td></tr>
 <tr class="separator:a41239809be4ebc730dd8ff28c9efc58b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada54b3bc2005ed919dbdda9d500a2356"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ada54b3bc2005ed919dbdda9d500a2356">kWarpGemmSteps</a></td></tr>
+<tr class="separator:ada54b3bc2005ed919dbdda9d500a2356"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="a0aca711d07245f3071adeb1111fedd34"></a>
@@ -171,6 +176,38 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0aca711d07245f3071adeb11
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="ab806302d059fc7cd113ec0b5ab5a9835"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab806302d059fc7cd113ec0b5ab5a9835">&#9670;&nbsp;</a></span>MultiplyAdd</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmTraits_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Traits::MultiplyAdd <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; GemmTraits_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#ab806302d059fc7cd113ec0b5ab5a9835">MultiplyAdd</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a054d5e87f1985ae7e53fc07f4c16d916"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a054d5e87f1985ae7e53fc07f4c16d916">&#9670;&nbsp;</a></span>Params</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmTraits_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Traits::Params <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; GemmTraits_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="a6fcf9daef57558e1bb932c6eba99721b"></a>
@@ -316,7 +353,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8bff0bd32aec05f8c1e28202
         <tr>
           <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; GemmTraits_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm</a> </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> const &amp;&#160;</td>
           <td class="paramname"><em>params_</em>, </td>
         </tr>
         <tr>
@@ -341,6 +378,58 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8bff0bd32aec05f8c1e28202
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
+<a id="af8bb78ae198af4dccb0241da44428053"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af8bb78ae198af4dccb0241da44428053">&#9670;&nbsp;</a></span>consume_tile()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmTraits_ &gt; </div>
+<div class="memtemplate">
+template&lt;bool Residue, bool LastIteration&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; GemmTraits_ &gt;::consume_tile </td>
+          <td>(</td>
+          <td class="paramtype">typename Traits::GlobalLoadStream &amp;&#160;</td>
+          <td class="paramname"><em>global_to_shared_stream</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename Traits::SharedStream &amp;&#160;</td>
+          <td class="paramname"><em>shared_load_stream</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename MultiplyAdd::Accumulators &amp;&#160;</td>
+          <td class="paramname"><em>accumulators</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a>&#160;</td>
+          <td class="paramname"><em>outer_k</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <a id="a77ae137aec79b4061a9ffa09aabf641c"></a>
 <h2 class="memtitle"><span class="permalink"><a href="#a77ae137aec79b4061a9ffa09aabf641c">&#9670;&nbsp;</a></span>launch() <span class="overload">[1/2]</span></h2>
 
@@ -355,7 +444,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a77ae137aec79b4061a9ffa09
         <tr>
           <td class="memname">static __host__ cudaError_t <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; GemmTraits_ &gt;::launch </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> const &amp;&#160;</td>
           <td class="paramname"><em>params</em>, </td>
         </tr>
         <tr>
@@ -376,6 +465,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a77ae137aec79b4061a9ffa09
   </tr>
 </table>
 </div><div class="memdoc">
+<p><a class="el" href="structcutlass_1_1gemm_1_1Launch.html" title="Partial specialization for launching the GEMM kernel with or without launch bounds. ">Launch</a> the kernel. </p>
 
 </div>
 </div>
@@ -399,7 +489,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4f4122a2ae8b9b09a9660e5c
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> const &amp;&#160;</td>
           <td class="paramname"><em>params</em>, </td>
         </tr>
         <tr>
@@ -447,7 +537,6 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2e844037d2527b842de3590c
   </tr>
 </table>
 </div><div class="memdoc">
-<p>Define the mainloop iteration size </p>
 
 </div>
 </div>
@@ -474,6 +563,30 @@ <h2 class="memtitle"><span class="permalink"><a href="#a41239809be4ebc730dd8ff28
 </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="ada54b3bc2005ed919dbdda9d500a2356"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada54b3bc2005ed919dbdda9d500a2356">&#9670;&nbsp;</a></span>kWarpGemmSteps</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmTraits_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a0aca711d07245f3071adeb1111fedd34">Index</a> const <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; GemmTraits_ &gt;::kWarpGemmSteps</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<b>Initial value:</b><div class="fragment"><div class="line">=</div><div class="line">      Traits::GemmConfig::AccumulatorsPerWarp::kD / MultiplyAdd::InstructionShape::kD</div></div><!-- fragment -->
 </div>
 </div>
 <a id="a3c292637ab0ec8e73856d0cf6efb6da2"></a>
@@ -485,7 +598,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3c292637ab0ec8e73856d0cf
 template&lt;typename GemmTraits_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1Gemm_1_1Params.html">Params</a> const&amp; <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; GemmTraits_ &gt;::params</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Params</a> const&amp; <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; GemmTraits_ &gt;::params</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -514,7 +627,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6b0119ed8d92698dab4de689
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmConfig-members.html b/docs/structcutlass_1_1gemm_1_1GemmConfig-members.html
index 18c258d733..f6bd03c8dc 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmConfig-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmConfig-members.html
@@ -73,41 +73,44 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmConfig.html b/docs/structcutlass_1_1gemm_1_1GemmConfig.html
index 3bc9b65f34..4471551bcb 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmConfig.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmConfig.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -77,241 +77,250 @@
 <a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="structcutlass_1_1gemm_1_1GemmConfig-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::GemmConfig&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p><code>#include &lt;<a class="el" href="gemm__traits_8h_source.html">gemm_traits.h</a>&gt;</code></p>
+<p><code>#include &lt;<a class="el" href="gemm__config_8h_source.html">gemm_config.h</a>&gt;</code></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:a9d1e4e364be8fd9de5e1199d93ad76aa"><td class="memItemLeft" align="right" valign="top">typedef ScalarA_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a></td></tr>
-<tr class="memdesc:a9d1e4e364be8fd9de5e1199d93ad76aa"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="#a9d1e4e364be8fd9de5e1199d93ad76aa">More...</a><br /></td></tr>
-<tr class="separator:a9d1e4e364be8fd9de5e1199d93ad76aa"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa13d6f5e5ad907ef09c88ae49e6e8e9b"><td class="memItemLeft" align="right" valign="top">typedef ScalarB_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a></td></tr>
-<tr class="memdesc:aa13d6f5e5ad907ef09c88ae49e6e8e9b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="#aa13d6f5e5ad907ef09c88ae49e6e8e9b">More...</a><br /></td></tr>
-<tr class="separator:aa13d6f5e5ad907ef09c88ae49e6e8e9b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad8f262d7da093d07cdd5c6a4fd9aceea"><td class="memItemLeft" align="right" valign="top">typedef ScalarC_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a></td></tr>
-<tr class="memdesc:ad8f262d7da093d07cdd5c6a4fd9aceea"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="#ad8f262d7da093d07cdd5c6a4fd9aceea">More...</a><br /></td></tr>
-<tr class="separator:ad8f262d7da093d07cdd5c6a4fd9aceea"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a188ef7f4c49ff2830753218343a1b8f8"><td class="memItemLeft" align="right" valign="top">typedef ScalarD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a></td></tr>
-<tr class="memdesc:a188ef7f4c49ff2830753218343a1b8f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="#a188ef7f4c49ff2830753218343a1b8f8">More...</a><br /></td></tr>
-<tr class="separator:a188ef7f4c49ff2830753218343a1b8f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a53450f4d7444d6a4c0d2353496c0a4fd"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a></td></tr>
-<tr class="memdesc:a53450f4d7444d6a4c0d2353496c0a4fd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="#a53450f4d7444d6a4c0d2353496c0a4fd">More...</a><br /></td></tr>
-<tr class="separator:a53450f4d7444d6a4c0d2353496c0a4fd"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8669096ddbb8c810fb8d2313d62e6ee7"><td class="memItemLeft" align="right" valign="top">typedef MultiplyAdd_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a></td></tr>
-<tr class="memdesc:a8669096ddbb8c810fb8d2313d62e6ee7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="#a8669096ddbb8c810fb8d2313d62e6ee7">More...</a><br /></td></tr>
-<tr class="separator:a8669096ddbb8c810fb8d2313d62e6ee7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3a57d05f50932d718538f0d1ededa95b"><td class="memItemLeft" align="right" valign="top">typedef MultiplyAdd::InstructionShape&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a></td></tr>
-<tr class="memdesc:a3a57d05f50932d718538f0d1ededa95b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="#a3a57d05f50932d718538f0d1ededa95b">More...</a><br /></td></tr>
-<tr class="separator:a3a57d05f50932d718538f0d1ededa95b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a51d583dfcd645ad0ecfc23b87b3c5108"><td class="memItemLeft" align="right" valign="top">typedef MultiplyAdd::AccumulatorsPerWarp&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a></td></tr>
-<tr class="memdesc:a51d583dfcd645ad0ecfc23b87b3c5108"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per warp.  <a href="#a51d583dfcd645ad0ecfc23b87b3c5108">More...</a><br /></td></tr>
-<tr class="separator:a51d583dfcd645ad0ecfc23b87b3c5108"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2fadb0ad2e28109ccfa9195e817a4d54"><td class="memItemLeft" align="right" valign="top">typedef MultiplyAdd::Accumulators&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a></td></tr>
-<tr class="memdesc:a2fadb0ad2e28109ccfa9195e817a4d54"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="#a2fadb0ad2e28109ccfa9195e817a4d54">More...</a><br /></td></tr>
-<tr class="separator:a2fadb0ad2e28109ccfa9195e817a4d54"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb6ba58a2f2d80db0b2c9c1d88454efd"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a></td></tr>
-<tr class="memdesc:abb6ba58a2f2d80db0b2c9c1d88454efd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="#abb6ba58a2f2d80db0b2c9c1d88454efd">More...</a><br /></td></tr>
-<tr class="separator:abb6ba58a2f2d80db0b2c9c1d88454efd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa97b0e7f369f927c4db6d683dbb7f53b"><td class="memItemLeft" align="right" valign="top">typedef ScalarA_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a></td></tr>
+<tr class="memdesc:aa97b0e7f369f927c4db6d683dbb7f53b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="#aa97b0e7f369f927c4db6d683dbb7f53b">More...</a><br /></td></tr>
+<tr class="separator:aa97b0e7f369f927c4db6d683dbb7f53b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a389c0980e978463d3cc126342d8413c6"><td class="memItemLeft" align="right" valign="top">typedef ScalarB_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a></td></tr>
+<tr class="memdesc:a389c0980e978463d3cc126342d8413c6"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="#a389c0980e978463d3cc126342d8413c6">More...</a><br /></td></tr>
+<tr class="separator:a389c0980e978463d3cc126342d8413c6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a30d9cfbbede42166e4e1964145dfe05d"><td class="memItemLeft" align="right" valign="top">typedef ScalarC_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a></td></tr>
+<tr class="memdesc:a30d9cfbbede42166e4e1964145dfe05d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="#a30d9cfbbede42166e4e1964145dfe05d">More...</a><br /></td></tr>
+<tr class="separator:a30d9cfbbede42166e4e1964145dfe05d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ad231b16f05a58900dca8ff0e0e7bfa"><td class="memItemLeft" align="right" valign="top">typedef ScalarD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a></td></tr>
+<tr class="memdesc:a7ad231b16f05a58900dca8ff0e0e7bfa"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="#a7ad231b16f05a58900dca8ff0e0e7bfa">More...</a><br /></td></tr>
+<tr class="separator:a7ad231b16f05a58900dca8ff0e0e7bfa"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dd9c3efc3dfd9b5c6acd12236697399"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a></td></tr>
+<tr class="memdesc:a9dd9c3efc3dfd9b5c6acd12236697399"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="#a9dd9c3efc3dfd9b5c6acd12236697399">More...</a><br /></td></tr>
+<tr class="separator:a9dd9c3efc3dfd9b5c6acd12236697399"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aedb95febe4a0b2943e233c95c36a22cd"><td class="memItemLeft" align="right" valign="top">typedef MultiplyAdd_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a></td></tr>
+<tr class="memdesc:aedb95febe4a0b2943e233c95c36a22cd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="#aedb95febe4a0b2943e233c95c36a22cd">More...</a><br /></td></tr>
+<tr class="separator:aedb95febe4a0b2943e233c95c36a22cd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad83132bd03f8bd844487d1a9da908c8b"><td class="memItemLeft" align="right" valign="top">typedef MultiplyAdd::InstructionShape&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a></td></tr>
+<tr class="memdesc:ad83132bd03f8bd844487d1a9da908c8b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="#ad83132bd03f8bd844487d1a9da908c8b">More...</a><br /></td></tr>
+<tr class="separator:ad83132bd03f8bd844487d1a9da908c8b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a32a8979ff618f069665708c7771c3cc3"><td class="memItemLeft" align="right" valign="top">typedef MultiplyAdd::AccumulatorsPerWarp&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:a32a8979ff618f069665708c7771c3cc3"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of warp-level GEMM.  <a href="#a32a8979ff618f069665708c7771c3cc3">More...</a><br /></td></tr>
+<tr class="separator:a32a8979ff618f069665708c7771c3cc3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f90f91f9e5e40496e8a88eb657fd591"><td class="memItemLeft" align="right" valign="top">typedef MultiplyAdd::Accumulators&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a></td></tr>
+<tr class="memdesc:a9f90f91f9e5e40496e8a88eb657fd591"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="#a9f90f91f9e5e40496e8a88eb657fd591">More...</a><br /></td></tr>
+<tr class="separator:a9f90f91f9e5e40496e8a88eb657fd591"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b987cfb25a32e671a47cb6376a361f3"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a></td></tr>
+<tr class="memdesc:a9b987cfb25a32e671a47cb6376a361f3"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="#a9b987cfb25a32e671a47cb6376a361f3">More...</a><br /></td></tr>
+<tr class="separator:a9b987cfb25a32e671a47cb6376a361f3"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
-<tr class="memitem:a677d6a1711cc756b817095b7437cce0e"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a> = cutlass::kWarpSize</td></tr>
-<tr class="memdesc:a677d6a1711cc756b817095b7437cce0e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="#a677d6a1711cc756b817095b7437cce0e">More...</a><br /></td></tr>
-<tr class="separator:a677d6a1711cc756b817095b7437cce0e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0b2be601de08848afc4418adb97255bf"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a> = <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a>&gt;::kCount * <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td></tr>
-<tr class="memdesc:a0b2be601de08848afc4418adb97255bf"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="#a0b2be601de08848afc4418adb97255bf">More...</a><br /></td></tr>
-<tr class="separator:a0b2be601de08848afc4418adb97255bf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2e0a043c5d4d7959ec1a2214c3ac39ac"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a> = kScalarsPerLdgA_</td></tr>
-<tr class="memdesc:a2e0a043c5d4d7959ec1a2214c3ac39ac"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="#a2e0a043c5d4d7959ec1a2214c3ac39ac">More...</a><br /></td></tr>
-<tr class="separator:a2e0a043c5d4d7959ec1a2214c3ac39ac"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:accc95abc55880abdab92253367b4b186"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a> = kScalarsPerStsA_</td></tr>
-<tr class="separator:accc95abc55880abdab92253367b4b186"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa1b75484138923a52b32888fef608d9b"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a> = kScalarsPerLdsA_</td></tr>
-<tr class="separator:aa1b75484138923a52b32888fef608d9b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a849b21fed39aaac1cdd546334739be97"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a> = kScalarsPerLdgB_</td></tr>
-<tr class="memdesc:a849b21fed39aaac1cdd546334739be97"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="#a849b21fed39aaac1cdd546334739be97">More...</a><br /></td></tr>
-<tr class="separator:a849b21fed39aaac1cdd546334739be97"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac0c8c027e3ede14b62d7c7d519551f21"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a> = kScalarsPerStsB_</td></tr>
-<tr class="separator:ac0c8c027e3ede14b62d7c7d519551f21"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a86470d3a44e2b50ee31ec3c9f79927ef"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a> = kScalarsPerLdsB_</td></tr>
-<tr class="separator:a86470d3a44e2b50ee31ec3c9f79927ef"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aad47c635a73e83bd4b19494864832d31"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a> = kScalarsPerLdgCAndStgD_</td></tr>
-<tr class="memdesc:aad47c635a73e83bd4b19494864832d31"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="#aad47c635a73e83bd4b19494864832d31">More...</a><br /></td></tr>
-<tr class="separator:aad47c635a73e83bd4b19494864832d31"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3633083f4f778215543e376c092745d7"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a> = kScalarsPerLdgCAndStgD_</td></tr>
-<tr class="memdesc:a3633083f4f778215543e376c092745d7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="#a3633083f4f778215543e376c092745d7">More...</a><br /></td></tr>
-<tr class="separator:a3633083f4f778215543e376c092745d7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3087cdd38e2c65ad0dffdd0587d2cce0"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a> = kScalarsPerStsD_</td></tr>
-<tr class="separator:a3087cdd38e2c65ad0dffdd0587d2cce0"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:adaf2ee5b8e6f7bdb9939cd45a186ca56"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a> = kScalarsPerLdsD_</td></tr>
-<tr class="separator:adaf2ee5b8e6f7bdb9939cd45a186ca56"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abbdd356f280099269867e614684645cf"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a> = <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a> / InstructionShape::kD</td></tr>
-<tr class="memdesc:abbdd356f280099269867e614684645cf"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="#abbdd356f280099269867e614684645cf">More...</a><br /></td></tr>
-<tr class="separator:abbdd356f280099269867e614684645cf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9dd092bca2f1f2c039f367b23bafa9c1"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a> = <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a> / InstructionShape::kD</td></tr>
-<tr class="separator:a9dd092bca2f1f2c039f367b23bafa9c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a221949c289057e39d439ce03a5b01c52"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a> = kStages_</td></tr>
-<tr class="memdesc:a221949c289057e39d439ce03a5b01c52"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="#a221949c289057e39d439ce03a5b01c52">More...</a><br /></td></tr>
-<tr class="separator:a221949c289057e39d439ce03a5b01c52"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa549183981095a3e604974e909a7d396"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a> = cutlass::kWarpSize</td></tr>
+<tr class="memdesc:aa549183981095a3e604974e909a7d396"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="#aa549183981095a3e604974e909a7d396">More...</a><br /></td></tr>
+<tr class="separator:aa549183981095a3e604974e909a7d396"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acf461f0ba3067cc5d66a04f0a176308f"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a> = <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a>&gt;::kCount * <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td></tr>
+<tr class="memdesc:acf461f0ba3067cc5d66a04f0a176308f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="#acf461f0ba3067cc5d66a04f0a176308f">More...</a><br /></td></tr>
+<tr class="separator:acf461f0ba3067cc5d66a04f0a176308f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64e7d66e0646c7044e754b3b6b91e761"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a> = kScalarsPerLdgA_</td></tr>
+<tr class="memdesc:a64e7d66e0646c7044e754b3b6b91e761"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="#a64e7d66e0646c7044e754b3b6b91e761">More...</a><br /></td></tr>
+<tr class="separator:a64e7d66e0646c7044e754b3b6b91e761"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab2b6167b0165ed544254dc87c2a7db8f"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a> = kScalarsPerStsA_</td></tr>
+<tr class="separator:ab2b6167b0165ed544254dc87c2a7db8f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a82295105d7ccbcce057b4c57632a644b"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a> = kScalarsPerLdsA_</td></tr>
+<tr class="separator:a82295105d7ccbcce057b4c57632a644b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff7409a9d2666159435d3b9db16443bc"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a> = kScalarsPerLdgB_</td></tr>
+<tr class="memdesc:aff7409a9d2666159435d3b9db16443bc"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="#aff7409a9d2666159435d3b9db16443bc">More...</a><br /></td></tr>
+<tr class="separator:aff7409a9d2666159435d3b9db16443bc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2a424063136c56c5ca6345496485afce"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a> = kScalarsPerStsB_</td></tr>
+<tr class="separator:a2a424063136c56c5ca6345496485afce"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ccd14b44a22dfdfeefabe1e643da65e"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a> = kScalarsPerLdsB_</td></tr>
+<tr class="separator:a9ccd14b44a22dfdfeefabe1e643da65e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9c3985d8de485d76a5d72c91c3e3aaff"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a> = kScalarsPerLdgCAndStgD_</td></tr>
+<tr class="memdesc:a9c3985d8de485d76a5d72c91c3e3aaff"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="#a9c3985d8de485d76a5d72c91c3e3aaff">More...</a><br /></td></tr>
+<tr class="separator:a9c3985d8de485d76a5d72c91c3e3aaff"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ade9d3c2aeb0e4d73e04a5e9a06ce5203"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a> = kScalarsPerLdgCAndStgD_</td></tr>
+<tr class="memdesc:ade9d3c2aeb0e4d73e04a5e9a06ce5203"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="#ade9d3c2aeb0e4d73e04a5e9a06ce5203">More...</a><br /></td></tr>
+<tr class="separator:ade9d3c2aeb0e4d73e04a5e9a06ce5203"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e93d0163c0d150d33f4093b4a1ec87f"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a> = kScalarsPerStsD_</td></tr>
+<tr class="separator:a1e93d0163c0d150d33f4093b4a1ec87f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a26942561aa111089b3ba0f12cf233951"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a> = kScalarsPerLdsD_</td></tr>
+<tr class="separator:a26942561aa111089b3ba0f12cf233951"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60ab48db1b87fb6063d194247bc055f5"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a> = <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a> / InstructionShape::kD</td></tr>
+<tr class="memdesc:a60ab48db1b87fb6063d194247bc055f5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="#a60ab48db1b87fb6063d194247bc055f5">More...</a><br /></td></tr>
+<tr class="separator:a60ab48db1b87fb6063d194247bc055f5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb740e4ab9f93f29f1b8ab43ebef68eb"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a> = <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a> / InstructionShape::kD</td></tr>
+<tr class="separator:aeb740e4ab9f93f29f1b8ab43ebef68eb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab26d76515e394118bfc530d6a81b9508"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a> = kStages_</td></tr>
+<tr class="memdesc:ab26d76515e394118bfc530d6a81b9508"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="#ab26d76515e394118bfc530d6a81b9508">More...</a><br /></td></tr>
+<tr class="separator:ab26d76515e394118bfc530d6a81b9508"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64c1e0d794c1bdfa8b2f3a53e387155c"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a> = kResidueSeparate_</td></tr>
+<tr class="memdesc:a64c1e0d794c1bdfa8b2f3a53e387155c"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, mainloop is instantiated twice. The first instantiation contains no predicate.  <a href="#a64c1e0d794c1bdfa8b2f3a53e387155c">More...</a><br /></td></tr>
+<tr class="separator:a64c1e0d794c1bdfa8b2f3a53e387155c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a600746def904eeca46d7f92a4b223b46"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a> = kResidueInProlog_</td></tr>
+<tr class="memdesc:a600746def904eeca46d7f92a4b223b46"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, residue is computed in the prologue.  <a href="#a600746def904eeca46d7f92a4b223b46">More...</a><br /></td></tr>
+<tr class="separator:a600746def904eeca46d7f92a4b223b46"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54e252cedbfee75e7c4ac2f7fe5ce45b"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a> = kLaunchBounds_</td></tr>
+<tr class="memdesc:a54e252cedbfee75e7c4ac2f7fe5ce45b"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, kernel is launched with launch bounds specified.  <a href="#a54e252cedbfee75e7c4ac2f7fe5ce45b">More...</a><br /></td></tr>
+<tr class="separator:a54e252cedbfee75e7c4ac2f7fe5ce45b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a2fadb0ad2e28109ccfa9195e817a4d54"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2fadb0ad2e28109ccfa9195e817a4d54">&#9670;&nbsp;</a></span>Accumulators</h2>
+<a id="a9f90f91f9e5e40496e8a88eb657fd591"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f90f91f9e5e40496e8a88eb657fd591">&#9670;&nbsp;</a></span>Accumulators</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef MultiplyAdd::Accumulators <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a></td>
+          <td class="memname">typedef MultiplyAdd::Accumulators <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a51d583dfcd645ad0ecfc23b87b3c5108"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a51d583dfcd645ad0ecfc23b87b3c5108">&#9670;&nbsp;</a></span>AccumulatorsPerWarp</h2>
+<a id="a32a8979ff618f069665708c7771c3cc3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a32a8979ff618f069665708c7771c3cc3">&#9670;&nbsp;</a></span>AccumulatorsPerWarp</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef MultiplyAdd::AccumulatorsPerWarp <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a></td>
+          <td class="memname">typedef MultiplyAdd::AccumulatorsPerWarp <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a3a57d05f50932d718538f0d1ededa95b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3a57d05f50932d718538f0d1ededa95b">&#9670;&nbsp;</a></span>InstructionShape</h2>
+<a id="ad83132bd03f8bd844487d1a9da908c8b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad83132bd03f8bd844487d1a9da908c8b">&#9670;&nbsp;</a></span>InstructionShape</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef MultiplyAdd::InstructionShape <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a></td>
+          <td class="memname">typedef MultiplyAdd::InstructionShape <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a8669096ddbb8c810fb8d2313d62e6ee7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8669096ddbb8c810fb8d2313d62e6ee7">&#9670;&nbsp;</a></span>MultiplyAdd</h2>
+<a id="aedb95febe4a0b2943e233c95c36a22cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aedb95febe4a0b2943e233c95c36a22cd">&#9670;&nbsp;</a></span>MultiplyAdd</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef MultiplyAdd_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a></td>
+          <td class="memname">typedef MultiplyAdd_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a53450f4d7444d6a4c0d2353496c0a4fd"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a53450f4d7444d6a4c0d2353496c0a4fd">&#9670;&nbsp;</a></span>OutputTile</h2>
+<a id="a9dd9c3efc3dfd9b5c6acd12236697399"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9dd9c3efc3dfd9b5c6acd12236697399">&#9670;&nbsp;</a></span>OutputTile</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef OutputTile_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a></td>
+          <td class="memname">typedef OutputTile_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a9d1e4e364be8fd9de5e1199d93ad76aa"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9d1e4e364be8fd9de5e1199d93ad76aa">&#9670;&nbsp;</a></span>ScalarA</h2>
+<a id="aa97b0e7f369f927c4db6d683dbb7f53b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa97b0e7f369f927c4db6d683dbb7f53b">&#9670;&nbsp;</a></span>ScalarA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef ScalarA_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a></td>
+          <td class="memname">typedef ScalarA_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aa13d6f5e5ad907ef09c88ae49e6e8e9b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa13d6f5e5ad907ef09c88ae49e6e8e9b">&#9670;&nbsp;</a></span>ScalarB</h2>
+<a id="a389c0980e978463d3cc126342d8413c6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a389c0980e978463d3cc126342d8413c6">&#9670;&nbsp;</a></span>ScalarB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef ScalarB_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a></td>
+          <td class="memname">typedef ScalarB_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ad8f262d7da093d07cdd5c6a4fd9aceea"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad8f262d7da093d07cdd5c6a4fd9aceea">&#9670;&nbsp;</a></span>ScalarC</h2>
+<a id="a30d9cfbbede42166e4e1964145dfe05d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a30d9cfbbede42166e4e1964145dfe05d">&#9670;&nbsp;</a></span>ScalarC</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef ScalarC_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a></td>
+          <td class="memname">typedef ScalarC_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a188ef7f4c49ff2830753218343a1b8f8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a188ef7f4c49ff2830753218343a1b8f8">&#9670;&nbsp;</a></span>ScalarD</h2>
+<a id="a7ad231b16f05a58900dca8ff0e0e7bfa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7ad231b16f05a58900dca8ff0e0e7bfa">&#9670;&nbsp;</a></span>ScalarD</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef ScalarD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a></td>
+          <td class="memname">typedef ScalarD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="abb6ba58a2f2d80db0b2c9c1d88454efd"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abb6ba58a2f2d80db0b2c9c1d88454efd">&#9670;&nbsp;</a></span>Warps</h2>
+<a id="a9b987cfb25a32e671a47cb6376a361f3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9b987cfb25a32e671a47cb6376a361f3">&#9670;&nbsp;</a></span>Warps</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -319,19 +328,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#abb6ba58a2f2d80db0b2c9c1d
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="abbdd356f280099269867e614684645cf"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abbdd356f280099269867e614684645cf">&#9670;&nbsp;</a></span>kAccumulatorsPerLdsA</h2>
+<a id="a60ab48db1b87fb6063d194247bc055f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a60ab48db1b87fb6063d194247bc055f5">&#9670;&nbsp;</a></span>kAccumulatorsPerLdsA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kAccumulatorsPerLdsA = <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a> / InstructionShape::kD</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kAccumulatorsPerLdsA = <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a> / InstructionShape::kD</td>
         </tr>
       </table>
   </td>
@@ -343,19 +352,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#abbdd356f280099269867e614
 
 </div>
 </div>
-<a id="a9dd092bca2f1f2c039f367b23bafa9c1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9dd092bca2f1f2c039f367b23bafa9c1">&#9670;&nbsp;</a></span>kAccumulatorsPerLdsB</h2>
+<a id="aeb740e4ab9f93f29f1b8ab43ebef68eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeb740e4ab9f93f29f1b8ab43ebef68eb">&#9670;&nbsp;</a></span>kAccumulatorsPerLdsB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kAccumulatorsPerLdsB = <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a> / InstructionShape::kD</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kAccumulatorsPerLdsB = <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a> / InstructionShape::kD</td>
         </tr>
       </table>
   </td>
@@ -367,19 +376,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9dd092bca2f1f2c039f367b2
 
 </div>
 </div>
-<a id="a2e0a043c5d4d7959ec1a2214c3ac39ac"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2e0a043c5d4d7959ec1a2214c3ac39ac">&#9670;&nbsp;</a></span>kScalarsPerLdgA</h2>
+<a id="a54e252cedbfee75e7c4ac2f7fe5ce45b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a54e252cedbfee75e7c4ac2f7fe5ce45b">&#9670;&nbsp;</a></span>kLaunchBounds</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kScalarsPerLdgA = kScalarsPerLdgA_</td>
+          <td class="memname">bool const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kLaunchBounds = kLaunchBounds_</td>
         </tr>
       </table>
   </td>
@@ -391,19 +400,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2e0a043c5d4d7959ec1a2214
 
 </div>
 </div>
-<a id="a849b21fed39aaac1cdd546334739be97"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a849b21fed39aaac1cdd546334739be97">&#9670;&nbsp;</a></span>kScalarsPerLdgB</h2>
+<a id="a600746def904eeca46d7f92a4b223b46"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a600746def904eeca46d7f92a4b223b46">&#9670;&nbsp;</a></span>kResidueInProlog</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kScalarsPerLdgB = kScalarsPerLdgB_</td>
+          <td class="memname">bool const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kResidueInProlog = kResidueInProlog_</td>
         </tr>
       </table>
   </td>
@@ -415,19 +424,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a849b21fed39aaac1cdd54633
 
 </div>
 </div>
-<a id="aad47c635a73e83bd4b19494864832d31"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aad47c635a73e83bd4b19494864832d31">&#9670;&nbsp;</a></span>kScalarsPerLdgC</h2>
+<a id="a64c1e0d794c1bdfa8b2f3a53e387155c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64c1e0d794c1bdfa8b2f3a53e387155c">&#9670;&nbsp;</a></span>kResidueSeparate</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kScalarsPerLdgC = kScalarsPerLdgCAndStgD_</td>
+          <td class="memname">bool const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kResidueSeparate = kResidueSeparate_</td>
         </tr>
       </table>
   </td>
@@ -439,19 +448,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#aad47c635a73e83bd4b194948
 
 </div>
 </div>
-<a id="aa1b75484138923a52b32888fef608d9b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa1b75484138923a52b32888fef608d9b">&#9670;&nbsp;</a></span>kScalarsPerLdsA</h2>
+<a id="a64e7d66e0646c7044e754b3b6b91e761"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64e7d66e0646c7044e754b3b6b91e761">&#9670;&nbsp;</a></span>kScalarsPerLdgA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kScalarsPerLdsA = kScalarsPerLdsA_</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kScalarsPerLdgA = kScalarsPerLdgA_</td>
         </tr>
       </table>
   </td>
@@ -463,19 +472,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa1b75484138923a52b32888f
 
 </div>
 </div>
-<a id="a86470d3a44e2b50ee31ec3c9f79927ef"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a86470d3a44e2b50ee31ec3c9f79927ef">&#9670;&nbsp;</a></span>kScalarsPerLdsB</h2>
+<a id="aff7409a9d2666159435d3b9db16443bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff7409a9d2666159435d3b9db16443bc">&#9670;&nbsp;</a></span>kScalarsPerLdgB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kScalarsPerLdsB = kScalarsPerLdsB_</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kScalarsPerLdgB = kScalarsPerLdgB_</td>
         </tr>
       </table>
   </td>
@@ -487,19 +496,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a86470d3a44e2b50ee31ec3c9
 
 </div>
 </div>
-<a id="adaf2ee5b8e6f7bdb9939cd45a186ca56"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#adaf2ee5b8e6f7bdb9939cd45a186ca56">&#9670;&nbsp;</a></span>kScalarsPerLdsD</h2>
+<a id="a9c3985d8de485d76a5d72c91c3e3aaff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9c3985d8de485d76a5d72c91c3e3aaff">&#9670;&nbsp;</a></span>kScalarsPerLdgC</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kScalarsPerLdsD = kScalarsPerLdsD_</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kScalarsPerLdgC = kScalarsPerLdgCAndStgD_</td>
         </tr>
       </table>
   </td>
@@ -511,19 +520,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#adaf2ee5b8e6f7bdb9939cd45
 
 </div>
 </div>
-<a id="a3633083f4f778215543e376c092745d7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3633083f4f778215543e376c092745d7">&#9670;&nbsp;</a></span>kScalarsPerStgD</h2>
+<a id="a82295105d7ccbcce057b4c57632a644b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a82295105d7ccbcce057b4c57632a644b">&#9670;&nbsp;</a></span>kScalarsPerLdsA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kScalarsPerStgD = kScalarsPerLdgCAndStgD_</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kScalarsPerLdsA = kScalarsPerLdsA_</td>
         </tr>
       </table>
   </td>
@@ -535,19 +544,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3633083f4f778215543e376c
 
 </div>
 </div>
-<a id="accc95abc55880abdab92253367b4b186"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#accc95abc55880abdab92253367b4b186">&#9670;&nbsp;</a></span>kScalarsPerStsA</h2>
+<a id="a9ccd14b44a22dfdfeefabe1e643da65e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9ccd14b44a22dfdfeefabe1e643da65e">&#9670;&nbsp;</a></span>kScalarsPerLdsB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kScalarsPerStsA = kScalarsPerStsA_</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kScalarsPerLdsB = kScalarsPerLdsB_</td>
         </tr>
       </table>
   </td>
@@ -559,19 +568,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#accc95abc55880abdab922533
 
 </div>
 </div>
-<a id="ac0c8c027e3ede14b62d7c7d519551f21"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac0c8c027e3ede14b62d7c7d519551f21">&#9670;&nbsp;</a></span>kScalarsPerStsB</h2>
+<a id="a26942561aa111089b3ba0f12cf233951"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a26942561aa111089b3ba0f12cf233951">&#9670;&nbsp;</a></span>kScalarsPerLdsD</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kScalarsPerStsB = kScalarsPerStsB_</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kScalarsPerLdsD = kScalarsPerLdsD_</td>
         </tr>
       </table>
   </td>
@@ -583,19 +592,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac0c8c027e3ede14b62d7c7d5
 
 </div>
 </div>
-<a id="a3087cdd38e2c65ad0dffdd0587d2cce0"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3087cdd38e2c65ad0dffdd0587d2cce0">&#9670;&nbsp;</a></span>kScalarsPerStsD</h2>
+<a id="ade9d3c2aeb0e4d73e04a5e9a06ce5203"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ade9d3c2aeb0e4d73e04a5e9a06ce5203">&#9670;&nbsp;</a></span>kScalarsPerStgD</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kScalarsPerStsD = kScalarsPerStsD_</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kScalarsPerStgD = kScalarsPerLdgCAndStgD_</td>
         </tr>
       </table>
   </td>
@@ -607,19 +616,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3087cdd38e2c65ad0dffdd05
 
 </div>
 </div>
-<a id="a221949c289057e39d439ce03a5b01c52"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a221949c289057e39d439ce03a5b01c52">&#9670;&nbsp;</a></span>kStages</h2>
+<a id="ab2b6167b0165ed544254dc87c2a7db8f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab2b6167b0165ed544254dc87c2a7db8f">&#9670;&nbsp;</a></span>kScalarsPerStsA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kStages = kStages_</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kScalarsPerStsA = kScalarsPerStsA_</td>
         </tr>
       </table>
   </td>
@@ -631,19 +640,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#a221949c289057e39d439ce03
 
 </div>
 </div>
-<a id="a0b2be601de08848afc4418adb97255bf"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0b2be601de08848afc4418adb97255bf">&#9670;&nbsp;</a></span>kThreads</h2>
+<a id="a2a424063136c56c5ca6345496485afce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2a424063136c56c5ca6345496485afce">&#9670;&nbsp;</a></span>kScalarsPerStsB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kThreads = <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a>&gt;::kCount * <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kScalarsPerStsB = kScalarsPerStsB_</td>
         </tr>
       </table>
   </td>
@@ -655,19 +664,91 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0b2be601de08848afc4418ad
 
 </div>
 </div>
-<a id="a677d6a1711cc756b817095b7437cce0e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a677d6a1711cc756b817095b7437cce0e">&#9670;&nbsp;</a></span>kWarpSize</h2>
+<a id="a1e93d0163c0d150d33f4093b4a1ec87f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e93d0163c0d150d33f4093b4a1ec87f">&#9670;&nbsp;</a></span>kScalarsPerStsD</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_&gt; </div>
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_ &gt;::kWarpSize = cutlass::kWarpSize</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kScalarsPerStsD = kScalarsPerStsD_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab26d76515e394118bfc530d6a81b9508"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab26d76515e394118bfc530d6a81b9508">&#9670;&nbsp;</a></span>kStages</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kStages = kStages_</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="acf461f0ba3067cc5d66a04f0a176308f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acf461f0ba3067cc5d66a04f0a176308f">&#9670;&nbsp;</a></span>kThreads</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kThreads = <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a>&gt;::kCount * <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa549183981095a3e604974e909a7d396"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa549183981095a3e604974e909a7d396">&#9670;&nbsp;</a></span>kWarpSize</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ScalarA_, typename ScalarB_, typename ScalarC_, typename ScalarD_, typename OutputTile_, typename MultiplyAdd_, int kScalarsPerLdgA_, int kScalarsPerStsA_, int kScalarsPerLdsA_, int kScalarsPerLdgB_, int kScalarsPerStsB_, int kScalarsPerLdsB_, int kScalarsPerLdgCAndStgD_, int kScalarsPerStsD_, int kScalarsPerLdsD_, int kStages_, bool kResidueSeparate_ = false, bool kResidueInProlog_ = false, bool kLaunchBounds_ = true&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig</a>&lt; ScalarA_, ScalarB_, ScalarC_, ScalarD_, OutputTile_, MultiplyAdd_, kScalarsPerLdgA_, kScalarsPerStsA_, kScalarsPerLdsA_, kScalarsPerLdgB_, kScalarsPerStsB_, kScalarsPerLdsB_, kScalarsPerLdgCAndStgD_, kScalarsPerStsD_, kScalarsPerLdsD_, kStages_, kResidueSeparate_, kResidueInProlog_, kLaunchBounds_ &gt;::kWarpSize = cutlass::kWarpSize</td>
         </tr>
       </table>
   </td>
@@ -680,12 +761,12 @@ <h2 class="memtitle"><span class="permalink"><a href="#a677d6a1711cc756b817095b7
 </div>
 </div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
-<li><a class="el" href="gemm__traits_8h_source.html">gemm_traits.h</a></li>
+<li><a class="el" href="gemm__config_8h_source.html">gemm_config.h</a></li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmCoord-members.html b/docs/structcutlass_1_1gemm_1_1GemmCoord-members.html
new file mode 100644
index 0000000000..b3bb6a70bf
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GemmCoord-members.html
@@ -0,0 +1,152 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GemmCoord Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">at</a>(int dim)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">at</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">at</a>(int dim) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">batch</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#adaf31768b8239f497c0ec9b40bad1cb5">batch</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">clamp</a>(Coord&lt; kRank &gt; const &amp;max, Coord&lt; kRank &gt; const &amp;min=Coord&lt; kRank &gt;())</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">Coord</a>(Index value=0)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">Coord</a>(Index _idx[])</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">Coord</a>(Coord&lt; kRank &gt; const &amp;coord)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">count</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">dot</a>(Coord const &amp;b, T sum) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">dot</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01">GemmCoord</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a03e6bfa95156962be51e190d381c8b5e">GemmCoord</a>(Coord&lt; 3, Index &gt; const &amp;coord, Index _batch=0)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a65d1ca12c0f27984920cf1700322a746">GemmCoord</a>(Coord&lt; 4, Index &gt; const &amp;coord)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a17da9936dbad99f2402c42b1bd6ea5ea">GemmCoord</a>(Index coord[4])</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac3b1cbdf86bd36d6b4b5e295ef846dfe">GemmCoord</a>(Index k, Index n, Index m, Index batch=0)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">k</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ae12eb84ec47ddf01b4d459c7aabc22ad">k</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad7b490ce2150e54fccad6b0f11932382">kBatch</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a521d4b8e720d2261c825e05397c92a5e">kK</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#af1f5c03c35eaa406c6a63082da26bec3">kM</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad6c884a5bb6e5edaf371e8af10df367d">km</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a67f08a03dabee497fa5547cff0f1faea">kN</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a16501265d58ddaca0e2d9bb4e21d66ea">kn</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a4062c040208868c75dbc6ba18910bffb">knm</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8199f5e336a20c31e54d68b11e9fa3d3">m</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">N</a></td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a1327b9b4b9379df24df3d4b716952d11">n</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac4550a7e80e1f0265eacecebe54794d9">nm</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">operator bool</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">operator!</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">operator!=</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5a158b5f3c0b1779972b25aa52be1164">operator*</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">Coord&lt; 4, int &gt;::operator*</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a69fb0bb5e73f35d3c8df71a0174d6520">operator*=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">Coord&lt; 4, int &gt;::operator*=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a675efbb9ed360888faf3c333708ae4d5">operator+</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">Coord&lt; 4, int &gt;::operator+</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5465f7308778eac5d14d8020179a65e0">operator+=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">Coord&lt; 4, int &gt;::operator+=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a762fd45e61477d700c82bfd67443c6f9">operator-</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">Coord&lt; 4, int &gt;::operator-</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a12ba250be3d5474b7c6fc4eddd4f58d5">operator-=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">Coord&lt; 4, int &gt;::operator-=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a41770bb99f02f4debbafe95e019ce02b">operator/</a>(Base const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">Coord&lt; 4, int &gt;::operator/</a>(Coord const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#aac1e1bad751237fd76d32a1ea10f6c40">operator/=</a>(Base const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">Coord&lt; 4, int &gt;::operator/=</a>(Coord const &amp;b)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">operator&lt;</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">operator&lt;=</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">operator==</a>(Coord&lt; kRank &gt; const &amp;b) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">operator[]</a>(int dim)</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">operator[]</a>(int dim) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a>(int start=0, Index identity=0) const</td><td class="entry"><a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmCoord.html b/docs/structcutlass_1_1gemm_1_1GemmCoord.html
new file mode 100644
index 0000000000..9326fe152a
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GemmCoord.html
@@ -0,0 +1,1102 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::GemmCoord Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1GemmCoord-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GemmCoord Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="gemm__coord_8h_source.html">gemm_coord.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::GemmCoord:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1GemmCoord.png" usemap="#cutlass::gemm::GemmCoord_map" alt=""/>
+  <map id="cutlass::gemm::GemmCoord_map" name="cutlass::gemm::GemmCoord_map">
+<area href="structcutlass_1_1Coord.html" alt="cutlass::Coord&lt; 4, int &gt;" shape="rect" coords="0,0,164,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a8e3f0250e2265503862354c729dca892"><td class="memItemLeft" align="right" valign="top">typedef int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a></td></tr>
+<tr class="memdesc:a8e3f0250e2265503862354c729dca892"><td class="mdescLeft">&#160;</td><td class="mdescRight">Integer-valued index.  <a href="#a8e3f0250e2265503862354c729dca892">More...</a><br /></td></tr>
+<tr class="separator:a8e3f0250e2265503862354c729dca892"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a790f6552ad26964fa808b51f4aba433b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a></td></tr>
+<tr class="memdesc:a790f6552ad26964fa808b51f4aba433b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base type is a <a class="el" href="structcutlass_1_1Coord.html" title="Statically-sized array specifying Coords within a tensor. ">Coord</a> of rank=4.  <a href="#a790f6552ad26964fa808b51f4aba433b">More...</a><br /></td></tr>
+<tr class="separator:a790f6552ad26964fa808b51f4aba433b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td></tr>
+<tr class="memitem:a7c73966e94b4f45854f16e33683bc02c inherit pub_types_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top">typedef int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a></td></tr>
+<tr class="memdesc:a7c73966e94b4f45854f16e33683bc02c inherit pub_types_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type used to store elements.  <a href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">More...</a><br /></td></tr>
+<tr class="separator:a7c73966e94b4f45854f16e33683bc02c inherit pub_types_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:abaa87475d518a2e5cdf44c62122b9e01"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#abaa87475d518a2e5cdf44c62122b9e01">GemmCoord</a> ()</td></tr>
+<tr class="memdesc:abaa87475d518a2e5cdf44c62122b9e01"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor.  <a href="#abaa87475d518a2e5cdf44c62122b9e01">More...</a><br /></td></tr>
+<tr class="separator:abaa87475d518a2e5cdf44c62122b9e01"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a03e6bfa95156962be51e190d381c8b5e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a03e6bfa95156962be51e190d381c8b5e">GemmCoord</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &gt; const &amp;coord, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> _batch=0)</td></tr>
+<tr class="memdesc:a03e6bfa95156962be51e190d381c8b5e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> and a batch.  <a href="#a03e6bfa95156962be51e190d381c8b5e">More...</a><br /></td></tr>
+<tr class="separator:a03e6bfa95156962be51e190d381c8b5e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a65d1ca12c0f27984920cf1700322a746"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a65d1ca12c0f27984920cf1700322a746">GemmCoord</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &gt; const &amp;coord)</td></tr>
+<tr class="memdesc:a65d1ca12c0f27984920cf1700322a746"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a>  <a href="#a65d1ca12c0f27984920cf1700322a746">More...</a><br /></td></tr>
+<tr class="separator:a65d1ca12c0f27984920cf1700322a746"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a17da9936dbad99f2402c42b1bd6ea5ea"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a17da9936dbad99f2402c42b1bd6ea5ea">GemmCoord</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> coord[4])</td></tr>
+<tr class="memdesc:a17da9936dbad99f2402c42b1bd6ea5ea"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of coordinate elements.  <a href="#a17da9936dbad99f2402c42b1bd6ea5ea">More...</a><br /></td></tr>
+<tr class="separator:a17da9936dbad99f2402c42b1bd6ea5ea"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac3b1cbdf86bd36d6b4b5e295ef846dfe"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac3b1cbdf86bd36d6b4b5e295ef846dfe">GemmCoord</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">k</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">batch</a>=0)</td></tr>
+<tr class="memdesc:ac3b1cbdf86bd36d6b4b5e295ef846dfe"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct from a K, N, M, batch variables.  <a href="#ac3b1cbdf86bd36d6b4b5e295ef846dfe">More...</a><br /></td></tr>
+<tr class="separator:ac3b1cbdf86bd36d6b4b5e295ef846dfe"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9167769a2b915eb92fb4ca37b9212793"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a> () const</td></tr>
+<tr class="memdesc:a9167769a2b915eb92fb4ca37b9212793"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the GEMM M coordinate.  <a href="#a9167769a2b915eb92fb4ca37b9212793">More...</a><br /></td></tr>
+<tr class="separator:a9167769a2b915eb92fb4ca37b9212793"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8199f5e336a20c31e54d68b11e9fa3d3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8199f5e336a20c31e54d68b11e9fa3d3">m</a> ()</td></tr>
+<tr class="memdesc:a8199f5e336a20c31e54d68b11e9fa3d3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns reference to the GEMM M coordinate.  <a href="#a8199f5e336a20c31e54d68b11e9fa3d3">More...</a><br /></td></tr>
+<tr class="separator:a8199f5e336a20c31e54d68b11e9fa3d3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7c582518db6860e19286361b162c4fcd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a> () const</td></tr>
+<tr class="memdesc:a7c582518db6860e19286361b162c4fcd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the GEMM N coordinate.  <a href="#a7c582518db6860e19286361b162c4fcd">More...</a><br /></td></tr>
+<tr class="separator:a7c582518db6860e19286361b162c4fcd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1327b9b4b9379df24df3d4b716952d11"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a1327b9b4b9379df24df3d4b716952d11">n</a> ()</td></tr>
+<tr class="memdesc:a1327b9b4b9379df24df3d4b716952d11"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns reference to the GEMM N coordinate.  <a href="#a1327b9b4b9379df24df3d4b716952d11">More...</a><br /></td></tr>
+<tr class="separator:a1327b9b4b9379df24df3d4b716952d11"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a646c71e97ef007bde8c101479c528da7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a646c71e97ef007bde8c101479c528da7">k</a> () const</td></tr>
+<tr class="memdesc:a646c71e97ef007bde8c101479c528da7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the GEMM K coordinate.  <a href="#a646c71e97ef007bde8c101479c528da7">More...</a><br /></td></tr>
+<tr class="separator:a646c71e97ef007bde8c101479c528da7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae12eb84ec47ddf01b4d459c7aabc22ad"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ae12eb84ec47ddf01b4d459c7aabc22ad">k</a> ()</td></tr>
+<tr class="memdesc:ae12eb84ec47ddf01b4d459c7aabc22ad"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns reference to the GEMM K coordinate.  <a href="#ae12eb84ec47ddf01b4d459c7aabc22ad">More...</a><br /></td></tr>
+<tr class="separator:ae12eb84ec47ddf01b4d459c7aabc22ad"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac441e93411ed6954a93ab36f0c747d26"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">batch</a> () const</td></tr>
+<tr class="memdesc:ac441e93411ed6954a93ab36f0c747d26"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the GEMM batch coordinate.  <a href="#ac441e93411ed6954a93ab36f0c747d26">More...</a><br /></td></tr>
+<tr class="separator:ac441e93411ed6954a93ab36f0c747d26"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adaf31768b8239f497c0ec9b40bad1cb5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#adaf31768b8239f497c0ec9b40bad1cb5">batch</a> ()</td></tr>
+<tr class="memdesc:adaf31768b8239f497c0ec9b40bad1cb5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns reference to the GEMM batch coordinate.  <a href="#adaf31768b8239f497c0ec9b40bad1cb5">More...</a><br /></td></tr>
+<tr class="separator:adaf31768b8239f497c0ec9b40bad1cb5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4062c040208868c75dbc6ba18910bffb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a4062c040208868c75dbc6ba18910bffb">knm</a> () const</td></tr>
+<tr class="memdesc:a4062c040208868c75dbc6ba18910bffb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Obtains a <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> from <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>.  <a href="#a4062c040208868c75dbc6ba18910bffb">More...</a><br /></td></tr>
+<tr class="separator:a4062c040208868c75dbc6ba18910bffb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac4550a7e80e1f0265eacecebe54794d9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac4550a7e80e1f0265eacecebe54794d9">nm</a> () const</td></tr>
+<tr class="memdesc:ac4550a7e80e1f0265eacecebe54794d9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Obtains a Coord&lt;2&gt; from <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>.  <a href="#ac4550a7e80e1f0265eacecebe54794d9">More...</a><br /></td></tr>
+<tr class="separator:ac4550a7e80e1f0265eacecebe54794d9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad6c884a5bb6e5edaf371e8af10df367d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad6c884a5bb6e5edaf371e8af10df367d">km</a> () const</td></tr>
+<tr class="memdesc:ad6c884a5bb6e5edaf371e8af10df367d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Obtains a Coord&lt;2&gt; from <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>.  <a href="#ad6c884a5bb6e5edaf371e8af10df367d">More...</a><br /></td></tr>
+<tr class="separator:ad6c884a5bb6e5edaf371e8af10df367d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a16501265d58ddaca0e2d9bb4e21d66ea"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a16501265d58ddaca0e2d9bb4e21d66ea">kn</a> () const</td></tr>
+<tr class="memdesc:a16501265d58ddaca0e2d9bb4e21d66ea"><td class="mdescLeft">&#160;</td><td class="mdescRight">Obtains a Coord&lt;2&gt; from <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>.  <a href="#a16501265d58ddaca0e2d9bb4e21d66ea">More...</a><br /></td></tr>
+<tr class="separator:a16501265d58ddaca0e2d9bb4e21d66ea"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a675efbb9ed360888faf3c333708ae4d5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a675efbb9ed360888faf3c333708ae4d5">operator+</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a675efbb9ed360888faf3c333708ae4d5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise addition.  <a href="#a675efbb9ed360888faf3c333708ae4d5">More...</a><br /></td></tr>
+<tr class="separator:a675efbb9ed360888faf3c333708ae4d5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a762fd45e61477d700c82bfd67443c6f9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a762fd45e61477d700c82bfd67443c6f9">operator-</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a762fd45e61477d700c82bfd67443c6f9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise subtraction.  <a href="#a762fd45e61477d700c82bfd67443c6f9">More...</a><br /></td></tr>
+<tr class="separator:a762fd45e61477d700c82bfd67443c6f9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5a158b5f3c0b1779972b25aa52be1164"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5a158b5f3c0b1779972b25aa52be1164">operator*</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a5a158b5f3c0b1779972b25aa52be1164"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise multiplication.  <a href="#a5a158b5f3c0b1779972b25aa52be1164">More...</a><br /></td></tr>
+<tr class="separator:a5a158b5f3c0b1779972b25aa52be1164"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a41770bb99f02f4debbafe95e019ce02b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a41770bb99f02f4debbafe95e019ce02b">operator/</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a41770bb99f02f4debbafe95e019ce02b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise division.  <a href="#a41770bb99f02f4debbafe95e019ce02b">More...</a><br /></td></tr>
+<tr class="separator:a41770bb99f02f4debbafe95e019ce02b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5465f7308778eac5d14d8020179a65e0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a5465f7308778eac5d14d8020179a65e0">operator+=</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:a5465f7308778eac5d14d8020179a65e0"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place addition.  <a href="#a5465f7308778eac5d14d8020179a65e0">More...</a><br /></td></tr>
+<tr class="separator:a5465f7308778eac5d14d8020179a65e0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a12ba250be3d5474b7c6fc4eddd4f58d5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a12ba250be3d5474b7c6fc4eddd4f58d5">operator-=</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:a12ba250be3d5474b7c6fc4eddd4f58d5"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place subtraction.  <a href="#a12ba250be3d5474b7c6fc4eddd4f58d5">More...</a><br /></td></tr>
+<tr class="separator:a12ba250be3d5474b7c6fc4eddd4f58d5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a69fb0bb5e73f35d3c8df71a0174d6520"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a69fb0bb5e73f35d3c8df71a0174d6520">operator*=</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:a69fb0bb5e73f35d3c8df71a0174d6520"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place multiplication.  <a href="#a69fb0bb5e73f35d3c8df71a0174d6520">More...</a><br /></td></tr>
+<tr class="separator:a69fb0bb5e73f35d3c8df71a0174d6520"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aac1e1bad751237fd76d32a1ea10f6c40"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#aac1e1bad751237fd76d32a1ea10f6c40">operator/=</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;b)</td></tr>
+<tr class="memdesc:aac1e1bad751237fd76d32a1ea10f6c40"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place division.  <a href="#aac1e1bad751237fd76d32a1ea10f6c40">More...</a><br /></td></tr>
+<tr class="separator:aac1e1bad751237fd76d32a1ea10f6c40"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td></tr>
+<tr class="memitem:a422aa7e2d2bf5dd3a60f65427bc0d7c0 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> value=0)</td></tr>
+<tr class="memdesc:a422aa7e2d2bf5dd3a60f65427bc0d7c0 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor initializes uniformly.  <a href="structcutlass_1_1Coord.html#a422aa7e2d2bf5dd3a60f65427bc0d7c0">More...</a><br /></td></tr>
+<tr class="separator:a422aa7e2d2bf5dd3a60f65427bc0d7c0 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a63ad1225ab2c51a68add731e994526b4 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> _idx[])</td></tr>
+<tr class="memdesc:a63ad1225ab2c51a68add731e994526b4 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of integers.  <a href="structcutlass_1_1Coord.html#a63ad1225ab2c51a68add731e994526b4">More...</a><br /></td></tr>
+<tr class="separator:a63ad1225ab2c51a68add731e994526b4 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6110e4cfd090561696a81a8a4068a573 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">Coord</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;coord)</td></tr>
+<tr class="memdesc:a6110e4cfd090561696a81a8a4068a573 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs from an array of integers.  <a href="structcutlass_1_1Coord.html#a6110e4cfd090561696a81a8a4068a573">More...</a><br /></td></tr>
+<tr class="separator:a6110e4cfd090561696a81a8a4068a573 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac8f7a9b0835efc34fd28894b2b45342c inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; Slice &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac8f7a9b0835efc34fd28894b2b45342c">slice</a> (int start=0, <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> identity=0) const</td></tr>
+<tr class="separator:ac8f7a9b0835efc34fd28894b2b45342c inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1781b3c5a2d653b0c1718ec3154ae48f inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">operator bool</a> () const</td></tr>
+<tr class="memdesc:a1781b3c5a2d653b0c1718ec3154ae48f inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if Coord is non-zero.  <a href="structcutlass_1_1Coord.html#a1781b3c5a2d653b0c1718ec3154ae48f">More...</a><br /></td></tr>
+<tr class="separator:a1781b3c5a2d653b0c1718ec3154ae48f inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a232095edae2f74c01a3c8abf68166e02 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">operator!</a> () const</td></tr>
+<tr class="memdesc:a232095edae2f74c01a3c8abf68166e02 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns true if Coord is uniformly zero.  <a href="structcutlass_1_1Coord.html#a232095edae2f74c01a3c8abf68166e02">More...</a><br /></td></tr>
+<tr class="separator:a232095edae2f74c01a3c8abf68166e02 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37672637771a70910df9aa1a0cffddc inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">operator+</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:ab37672637771a70910df9aa1a0cffddc inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise addition.  <a href="structcutlass_1_1Coord.html#ab37672637771a70910df9aa1a0cffddc">More...</a><br /></td></tr>
+<tr class="separator:ab37672637771a70910df9aa1a0cffddc inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6b876f61a85a4a4ef3763b6742bfaa6b inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">operator-</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a6b876f61a85a4a4ef3763b6742bfaa6b inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise subtraction.  <a href="structcutlass_1_1Coord.html#a6b876f61a85a4a4ef3763b6742bfaa6b">More...</a><br /></td></tr>
+<tr class="separator:a6b876f61a85a4a4ef3763b6742bfaa6b inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e94c093f82908ff3dba4f23b5d10033 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">operator*</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a2e94c093f82908ff3dba4f23b5d10033 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise multiplication.  <a href="structcutlass_1_1Coord.html#a2e94c093f82908ff3dba4f23b5d10033">More...</a><br /></td></tr>
+<tr class="separator:a2e94c093f82908ff3dba4f23b5d10033 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9bb07631f09efc80219413ac8309f568 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">operator/</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a9bb07631f09efc80219413ac8309f568 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Element-wise division.  <a href="structcutlass_1_1Coord.html#a9bb07631f09efc80219413ac8309f568">More...</a><br /></td></tr>
+<tr class="separator:a9bb07631f09efc80219413ac8309f568 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae4f2cb12b84411118cb93e7c4cb88b20 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ae4f2cb12b84411118cb93e7c4cb88b20 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place addition.  <a href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">More...</a><br /></td></tr>
+<tr class="separator:ae4f2cb12b84411118cb93e7c4cb88b20 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a304334cbcad636d7b058fdc6310f0e6b inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">operator-=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:a304334cbcad636d7b058fdc6310f0e6b inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place subtraction.  <a href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">More...</a><br /></td></tr>
+<tr class="separator:a304334cbcad636d7b058fdc6310f0e6b inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad4303b578b72b5cb2a0198375290e168 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">operator*=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ad4303b578b72b5cb2a0198375290e168 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place multiplication.  <a href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">More...</a><br /></td></tr>
+<tr class="separator:ad4303b578b72b5cb2a0198375290e168 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac87199c4c9a4e20aac4eb6e3b9a68f28 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">operator/=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b)</td></tr>
+<tr class="memdesc:ac87199c4c9a4e20aac4eb6e3b9a68f28 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">In-place division.  <a href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">More...</a><br /></td></tr>
+<tr class="separator:ac87199c4c9a4e20aac4eb6e3b9a68f28 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6e0967541a1d74edeb93897ea6069e24 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">operator[]</a> (int dim)</td></tr>
+<tr class="memdesc:a6e0967541a1d74edeb93897ea6069e24 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Member access operator.  <a href="structcutlass_1_1Coord.html#a6e0967541a1d74edeb93897ea6069e24">More...</a><br /></td></tr>
+<tr class="separator:a6e0967541a1d74edeb93897ea6069e24 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a882e7ac07bbd6983659ef2e574b46454 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">operator[]</a> (int dim) const</td></tr>
+<tr class="memdesc:a882e7ac07bbd6983659ef2e574b46454 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Member access operator.  <a href="structcutlass_1_1Coord.html#a882e7ac07bbd6983659ef2e574b46454">More...</a><br /></td></tr>
+<tr class="separator:a882e7ac07bbd6983659ef2e574b46454 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac8ec94703830ab2c62ee055533ea2184 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">dot</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b, T sum) const</td></tr>
+<tr class="memdesc:ac8ec94703830ab2c62ee055533ea2184 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the dot product of two Coord instances.  <a href="structcutlass_1_1Coord.html#ac8ec94703830ab2c62ee055533ea2184">More...</a><br /></td></tr>
+<tr class="separator:ac8ec94703830ab2c62ee055533ea2184 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0acc37908acb6b879c37f54ff7ffc93d inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> T&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">dot</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a> const &amp;b) const</td></tr>
+<tr class="memdesc:a0acc37908acb6b879c37f54ff7ffc93d inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the dot product of two Coord instances.  <a href="structcutlass_1_1Coord.html#a0acc37908acb6b879c37f54ff7ffc93d">More...</a><br /></td></tr>
+<tr class="separator:a0acc37908acb6b879c37f54ff7ffc93d inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9eff24a3b74b68d11839b92324613c93 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a> ()</td></tr>
+<tr class="memdesc:a9eff24a3b74b68d11839b92324613c93 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the index of a given Coord element.  <a href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">More...</a><br /></td></tr>
+<tr class="separator:a9eff24a3b74b68d11839b92324613c93 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa253bf69fc819876a7c7770305f1a694 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">at</a> (int dim)</td></tr>
+<tr class="memdesc:aa253bf69fc819876a7c7770305f1a694 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access via index; may limit unrolling potential.  <a href="structcutlass_1_1Coord.html#aa253bf69fc819876a7c7770305f1a694">More...</a><br /></td></tr>
+<tr class="separator:aa253bf69fc819876a7c7770305f1a694 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a177adcc2d0fb5e72ebcb523edd24e6fe inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">at</a> () const</td></tr>
+<tr class="memdesc:a177adcc2d0fb5e72ebcb523edd24e6fe inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gets the index of a given Coord element.  <a href="structcutlass_1_1Coord.html#a177adcc2d0fb5e72ebcb523edd24e6fe">More...</a><br /></td></tr>
+<tr class="separator:a177adcc2d0fb5e72ebcb523edd24e6fe inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b47b1521820c898b03868627c3f8e46 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a> const &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">at</a> (int dim) const</td></tr>
+<tr class="memdesc:a9b47b1521820c898b03868627c3f8e46 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Access via index; may limit unrolling potential.  <a href="structcutlass_1_1Coord.html#a9b47b1521820c898b03868627c3f8e46">More...</a><br /></td></tr>
+<tr class="separator:a9b47b1521820c898b03868627c3f8e46 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f919aeb2a895bc040599971400dec8d inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">operator==</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a7f919aeb2a895bc040599971400dec8d inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Determines if two Coord&lt;&gt; objects are equal.  <a href="structcutlass_1_1Coord.html#a7f919aeb2a895bc040599971400dec8d">More...</a><br /></td></tr>
+<tr class="separator:a7f919aeb2a895bc040599971400dec8d inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a353d847675e5ba2402c407dcd4ae4de3 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">operator!=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a353d847675e5ba2402c407dcd4ae4de3 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Not equal.  <a href="structcutlass_1_1Coord.html#a353d847675e5ba2402c407dcd4ae4de3">More...</a><br /></td></tr>
+<tr class="separator:a353d847675e5ba2402c407dcd4ae4de3 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a404a3b4e00f59cac71d41fb1bbba38ba inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">clamp</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;max, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;min=<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt;())</td></tr>
+<tr class="memdesc:a404a3b4e00f59cac71d41fb1bbba38ba inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clamps a coordinate to a range specified by maximum and minimum values.  <a href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">More...</a><br /></td></tr>
+<tr class="separator:a404a3b4e00f59cac71d41fb1bbba38ba inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac0ac5f2aa2cbea3887d126645025e017 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">count</a> () const</td></tr>
+<tr class="memdesc:ac0ac5f2aa2cbea3887d126645025e017 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the product of all elements.  <a href="structcutlass_1_1Coord.html#ac0ac5f2aa2cbea3887d126645025e017">More...</a><br /></td></tr>
+<tr class="separator:ac0ac5f2aa2cbea3887d126645025e017 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a148851df63840ac63e23b2f170bd1308 inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">operator&lt;</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a148851df63840ac63e23b2f170bd1308 inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Less than operator.  <a href="structcutlass_1_1Coord.html#a148851df63840ac63e23b2f170bd1308">More...</a><br /></td></tr>
+<tr class="separator:a148851df63840ac63e23b2f170bd1308 inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dc9f063be329d475f040afd449d304c inherit pub_methods_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">operator&lt;=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; <a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a> &gt; const &amp;b) const</td></tr>
+<tr class="memdesc:a9dc9f063be329d475f040afd449d304c inherit pub_methods_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Less than or equals operator.  <a href="structcutlass_1_1Coord.html#a9dc9f063be329d475f040afd449d304c">More...</a><br /></td></tr>
+<tr class="separator:a9dc9f063be329d475f040afd449d304c inherit pub_methods_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a521d4b8e720d2261c825e05397c92a5e"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a521d4b8e720d2261c825e05397c92a5e">kK</a> = 0</td></tr>
+<tr class="memdesc:a521d4b8e720d2261c825e05397c92a5e"><td class="mdescLeft">&#160;</td><td class="mdescRight">GEMM K dimension - inner dimension of the GEMM problem.  <a href="#a521d4b8e720d2261c825e05397c92a5e">More...</a><br /></td></tr>
+<tr class="separator:a521d4b8e720d2261c825e05397c92a5e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a67f08a03dabee497fa5547cff0f1faea"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a67f08a03dabee497fa5547cff0f1faea">kN</a> = 1</td></tr>
+<tr class="memdesc:a67f08a03dabee497fa5547cff0f1faea"><td class="mdescLeft">&#160;</td><td class="mdescRight">GEMM N dimension - columns of the output C matrix.  <a href="#a67f08a03dabee497fa5547cff0f1faea">More...</a><br /></td></tr>
+<tr class="separator:a67f08a03dabee497fa5547cff0f1faea"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af1f5c03c35eaa406c6a63082da26bec3"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#af1f5c03c35eaa406c6a63082da26bec3">kM</a> = 2</td></tr>
+<tr class="memdesc:af1f5c03c35eaa406c6a63082da26bec3"><td class="mdescLeft">&#160;</td><td class="mdescRight">GEMM M dimension - rows of the output C matrix.  <a href="#af1f5c03c35eaa406c6a63082da26bec3">More...</a><br /></td></tr>
+<tr class="separator:af1f5c03c35eaa406c6a63082da26bec3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad7b490ce2150e54fccad6b0f11932382"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#ad7b490ce2150e54fccad6b0f11932382">kBatch</a> = 3</td></tr>
+<tr class="memdesc:ad7b490ce2150e54fccad6b0f11932382"><td class="mdescLeft">&#160;</td><td class="mdescRight">Batch dimension - for generalizing to larger problems.  <a href="#ad7b490ce2150e54fccad6b0f11932382">More...</a><br /></td></tr>
+<tr class="separator:ad7b490ce2150e54fccad6b0f11932382"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td></tr>
+<tr class="memitem:a23e1b9a7f5fa8fd4afeadfb85de7c5c3 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a></td></tr>
+<tr class="memdesc:a23e1b9a7f5fa8fd4afeadfb85de7c5c3 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of elements in Coord.  <a href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">More...</a><br /></td></tr>
+<tr class="separator:a23e1b9a7f5fa8fd4afeadfb85de7c5c3 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acfd416eafec51e47b42b8b713ba76030 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">N</a></td></tr>
+<tr class="memdesc:acfd416eafec51e47b42b8b713ba76030 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Number of elements in Coord, aliased for compatibility.  <a href="structcutlass_1_1Coord.html#acfd416eafec51e47b42b8b713ba76030">More...</a><br /></td></tr>
+<tr class="separator:acfd416eafec51e47b42b8b713ba76030 inherit pub_static_attribs_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1Coord"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1Coord')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4, int &gt;</a></td></tr>
+<tr class="memitem:a872e1e0d9cc255fa438c04daaf10ad68 inherit pub_attribs_structcutlass_1_1Coord"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html#a7c73966e94b4f45854f16e33683bc02c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">idx</a> [<a class="el" href="structcutlass_1_1Coord.html#a23e1b9a7f5fa8fd4afeadfb85de7c5c3">kRank</a>]</td></tr>
+<tr class="memdesc:a872e1e0d9cc255fa438c04daaf10ad68 inherit pub_attribs_structcutlass_1_1Coord"><td class="mdescLeft">&#160;</td><td class="mdescRight">Indices.  <a href="structcutlass_1_1Coord.html#a872e1e0d9cc255fa438c04daaf10ad68">More...</a><br /></td></tr>
+<tr class="separator:a872e1e0d9cc255fa438c04daaf10ad68 inherit pub_attribs_structcutlass_1_1Coord"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><p><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> is a structure derived from <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> that specifies a location within the coordinate space of a GEMM problem. </p>
+</div><h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a790f6552ad26964fa808b51f4aba433b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a790f6552ad26964fa808b51f4aba433b">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;4, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">cutlass::gemm::GemmCoord::Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8e3f0250e2265503862354c729dca892"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8e3f0250e2265503862354c729dca892">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef int <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">cutlass::gemm::GemmCoord::Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="abaa87475d518a2e5cdf44c62122b9e01"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abaa87475d518a2e5cdf44c62122b9e01">&#9670;&nbsp;</a></span>GemmCoord() <span class="overload">[1/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> cutlass::gemm::GemmCoord::GemmCoord </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a03e6bfa95156962be51e190d381c8b5e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a03e6bfa95156962be51e190d381c8b5e">&#9670;&nbsp;</a></span>GemmCoord() <span class="overload">[2/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> cutlass::gemm::GemmCoord::GemmCoord </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&#160;</td>
+          <td class="paramname"><em>_batch</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a65d1ca12c0f27984920cf1700322a746"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a65d1ca12c0f27984920cf1700322a746">&#9670;&nbsp;</a></span>GemmCoord() <span class="overload">[3/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> cutlass::gemm::GemmCoord::GemmCoord </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4, <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a17da9936dbad99f2402c42b1bd6ea5ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17da9936dbad99f2402c42b1bd6ea5ea">&#9670;&nbsp;</a></span>GemmCoord() <span class="overload">[4/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> cutlass::gemm::GemmCoord::GemmCoord </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&#160;</td>
+          <td class="paramname"><em>coord</em>[4]</td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac3b1cbdf86bd36d6b4b5e295ef846dfe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac3b1cbdf86bd36d6b4b5e295ef846dfe">&#9670;&nbsp;</a></span>GemmCoord() <span class="overload">[5/5]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> cutlass::gemm::GemmCoord::GemmCoord </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&#160;</td>
+          <td class="paramname"><em>k</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&#160;</td>
+          <td class="paramname"><em>n</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&#160;</td>
+          <td class="paramname"><em>m</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&#160;</td>
+          <td class="paramname"><em>batch</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ac441e93411ed6954a93ab36f0c747d26"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac441e93411ed6954a93ab36f0c747d26">&#9670;&nbsp;</a></span>batch() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> const&amp; cutlass::gemm::GemmCoord::batch </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adaf31768b8239f497c0ec9b40bad1cb5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adaf31768b8239f497c0ec9b40bad1cb5">&#9670;&nbsp;</a></span>batch() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&amp; cutlass::gemm::GemmCoord::batch </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a646c71e97ef007bde8c101479c528da7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a646c71e97ef007bde8c101479c528da7">&#9670;&nbsp;</a></span>k() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> const&amp; cutlass::gemm::GemmCoord::k </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae12eb84ec47ddf01b4d459c7aabc22ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae12eb84ec47ddf01b4d459c7aabc22ad">&#9670;&nbsp;</a></span>k() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&amp; cutlass::gemm::GemmCoord::k </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad6c884a5bb6e5edaf371e8af10df367d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6c884a5bb6e5edaf371e8af10df367d">&#9670;&nbsp;</a></span>km()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;2&gt; cutlass::gemm::GemmCoord::km </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a16501265d58ddaca0e2d9bb4e21d66ea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a16501265d58ddaca0e2d9bb4e21d66ea">&#9670;&nbsp;</a></span>kn()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;2&gt; cutlass::gemm::GemmCoord::kn </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4062c040208868c75dbc6ba18910bffb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4062c040208868c75dbc6ba18910bffb">&#9670;&nbsp;</a></span>knm()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; cutlass::gemm::GemmCoord::knm </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9167769a2b915eb92fb4ca37b9212793"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9167769a2b915eb92fb4ca37b9212793">&#9670;&nbsp;</a></span>m() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> const&amp; cutlass::gemm::GemmCoord::m </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8199f5e336a20c31e54d68b11e9fa3d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8199f5e336a20c31e54d68b11e9fa3d3">&#9670;&nbsp;</a></span>m() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&amp; cutlass::gemm::GemmCoord::m </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7c582518db6860e19286361b162c4fcd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7c582518db6860e19286361b162c4fcd">&#9670;&nbsp;</a></span>n() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a> const&amp; cutlass::gemm::GemmCoord::n </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1327b9b4b9379df24df3d4b716952d11"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1327b9b4b9379df24df3d4b716952d11">&#9670;&nbsp;</a></span>n() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a8e3f0250e2265503862354c729dca892">Index</a>&amp; cutlass::gemm::GemmCoord::n </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4550a7e80e1f0265eacecebe54794d9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4550a7e80e1f0265eacecebe54794d9">&#9670;&nbsp;</a></span>nm()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;2&gt; cutlass::gemm::GemmCoord::nm </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5a158b5f3c0b1779972b25aa52be1164"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5a158b5f3c0b1779972b25aa52be1164">&#9670;&nbsp;</a></span>operator*()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> cutlass::gemm::GemmCoord::operator* </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a69fb0bb5e73f35d3c8df71a0174d6520"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69fb0bb5e73f35d3c8df71a0174d6520">&#9670;&nbsp;</a></span>operator*=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&amp; cutlass::gemm::GemmCoord::operator*= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a675efbb9ed360888faf3c333708ae4d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a675efbb9ed360888faf3c333708ae4d5">&#9670;&nbsp;</a></span>operator+()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> cutlass::gemm::GemmCoord::operator+ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5465f7308778eac5d14d8020179a65e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5465f7308778eac5d14d8020179a65e0">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&amp; cutlass::gemm::GemmCoord::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a762fd45e61477d700c82bfd67443c6f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a762fd45e61477d700c82bfd67443c6f9">&#9670;&nbsp;</a></span>operator-()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> cutlass::gemm::GemmCoord::operator- </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12ba250be3d5474b7c6fc4eddd4f58d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12ba250be3d5474b7c6fc4eddd4f58d5">&#9670;&nbsp;</a></span>operator-=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&amp; cutlass::gemm::GemmCoord::operator-= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a41770bb99f02f4debbafe95e019ce02b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a41770bb99f02f4debbafe95e019ce02b">&#9670;&nbsp;</a></span>operator/()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> cutlass::gemm::GemmCoord::operator/ </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aac1e1bad751237fd76d32a1ea10f6c40"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac1e1bad751237fd76d32a1ea10f6c40">&#9670;&nbsp;</a></span>operator/=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&amp; cutlass::gemm::GemmCoord::operator/= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html#a790f6552ad26964fa808b51f4aba433b">Base</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="ad7b490ce2150e54fccad6b0f11932382"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad7b490ce2150e54fccad6b0f11932382">&#9670;&nbsp;</a></span>kBatch</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::gemm::GemmCoord::kBatch = 3</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a521d4b8e720d2261c825e05397c92a5e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a521d4b8e720d2261c825e05397c92a5e">&#9670;&nbsp;</a></span>kK</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::gemm::GemmCoord::kK = 0</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af1f5c03c35eaa406c6a63082da26bec3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af1f5c03c35eaa406c6a63082da26bec3">&#9670;&nbsp;</a></span>kM</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::gemm::GemmCoord::kM = 2</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a67f08a03dabee497fa5547cff0f1faea"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a67f08a03dabee497fa5547cff0f1faea">&#9670;&nbsp;</a></span>kN</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const cutlass::gemm::GemmCoord::kN = 1</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="gemm__coord_8h_source.html">gemm_coord.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmCoord.png b/docs/structcutlass_1_1gemm_1_1GemmCoord.png
new file mode 100644
index 0000000000..225d8b64e1
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1GemmCoord.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1GemmDesc-members.html b/docs/structcutlass_1_1gemm_1_1GemmDesc-members.html
index 5c3b045aa6..28c238453a 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmDesc-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmDesc-members.html
@@ -73,29 +73,41 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a053c2b529be527f510ee317737fbf7e8">alpha</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab91b702a9932144b388fad3159130332">beta</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aae63781de41962f496da469684919447">d_a</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a05915032eba39bc9b085bec5ff17257b">d_b</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa2b3126c082d04fd31521cb0e84cf4d5">d_c</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a30326e2d81c8e154d749f35837903216">d_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ac789a7e5d2db65d006f1e8e3df542a6f">k</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a62ad30ba419ccb661e6700da98221789">lda</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7591ce0223b0d05c4d6fca6c67b98bfe">ldb</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a0f492560cabc45cd492da65b819d09db">ldc</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a3280e5c5484f5c10d1412bcb70eb77e9">ldd</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a5c2b3e75cb6873762ba3f85487b78579">m</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#acee9727aa6cb612a25cd6ced4829061a">n</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b">A</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">alpha</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037">AType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774">B</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599">batch_stride_A</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a">batch_stride_B</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2">batch_stride_C</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de">batch_stride_D</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">beta</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49">BType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30">C</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704">CType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f">D</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd">DType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ae2708b731cbb99d3e638382ecf599425">GemmDesc</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a948af4a974f1aa74d3b6da9cd3e185de">GemmDesc</a>(Coord&lt; 3 &gt; _problem_size, SType _alpha, TensorRefA const &amp;_A, TensorRefB const &amp;_B, SType _beta, TensorRefC const &amp;_C, TensorRefD const &amp;_D)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7292ac0196f22525b13f223a02271bc3">GemmDesc</a>(GemmCoord _problem_size, SType _alpha, TensorRefA const &amp;_A, TensorRefB const &amp;_B, SType _beta, TensorRefC const &amp;_C, TensorRefD const &amp;_D)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#af96cd9c8f2454ea118dfa7358dd24824">GemmDesc</a>(GemmCoord _problem_size, SType _alpha, TensorRefA const &amp;_A, long long _batch_stride_A, TensorRefB const &amp;_B, long long _batch_stride_B, SType _beta, TensorRefC const &amp;_C, long long _batch_stride_C, TensorRefD const &amp;_D, long long _batch_stride_D)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#abd12fea9779ada02c0f2266909602171">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">problem_size</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmDesc.html b/docs/structcutlass_1_1gemm_1_1GemmDesc.html
index 9f4c8fd0b2..e527a78df4 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmDesc.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmDesc.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -73,257 +73,692 @@
 </div><!-- top -->
 <div class="header">
   <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
 <a href="#pub-attribs">Public Attributes</a> &#124;
 <a href="structcutlass_1_1gemm_1_1GemmDesc-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmDesc&lt; Scalar_, Index_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::GemmDesc&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p><code>#include &lt;<a class="el" href="gemm_8h_source.html">gemm.h</a>&gt;</code></p>
+<p>GEMM problem description.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="gemm__desc_8h_source.html">gemm_desc.h</a>&gt;</code></p>
 <table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:abd12fea9779ada02c0f2266909602171"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#abd12fea9779ada02c0f2266909602171">Index</a></td></tr>
+<tr class="memdesc:abd12fea9779ada02c0f2266909602171"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type for dimensions and strides.  <a href="#abd12fea9779ada02c0f2266909602171">More...</a><br /></td></tr>
+<tr class="separator:abd12fea9779ada02c0f2266909602171"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a22642bd88ccb24fec3df87230537c037"><td class="memItemLeft" align="right" valign="top">typedef AType_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037">AType</a></td></tr>
+<tr class="memdesc:a22642bd88ccb24fec3df87230537c037"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source accumulator matrix type.  <a href="#a22642bd88ccb24fec3df87230537c037">More...</a><br /></td></tr>
+<tr class="separator:a22642bd88ccb24fec3df87230537c037"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea3a523662dc801bf9abf205a8e400fe"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037">AType</a> const, 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a></td></tr>
+<tr class="memdesc:aea3a523662dc801bf9abf205a8e400fe"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference to A operand.  <a href="#aea3a523662dc801bf9abf205a8e400fe">More...</a><br /></td></tr>
+<tr class="separator:aea3a523662dc801bf9abf205a8e400fe"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a23317c22122ea2721a7a3e0c12e07a49"><td class="memItemLeft" align="right" valign="top">typedef BType_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49">BType</a></td></tr>
+<tr class="memdesc:a23317c22122ea2721a7a3e0c12e07a49"><td class="mdescLeft">&#160;</td><td class="mdescRight">Destination accumulator type.  <a href="#a23317c22122ea2721a7a3e0c12e07a49">More...</a><br /></td></tr>
+<tr class="separator:a23317c22122ea2721a7a3e0c12e07a49"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7de7de97d237d9dcc0d89de7b04342ab"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49">BType</a> const, 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a></td></tr>
+<tr class="memdesc:a7de7de97d237d9dcc0d89de7b04342ab"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference to B operand.  <a href="#a7de7de97d237d9dcc0d89de7b04342ab">More...</a><br /></td></tr>
+<tr class="separator:a7de7de97d237d9dcc0d89de7b04342ab"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa46907b69a3b1d0db5c3db1709867704"><td class="memItemLeft" align="right" valign="top">typedef CType_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704">CType</a></td></tr>
+<tr class="memdesc:aa46907b69a3b1d0db5c3db1709867704"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source accumulator matrix type.  <a href="#aa46907b69a3b1d0db5c3db1709867704">More...</a><br /></td></tr>
+<tr class="separator:aa46907b69a3b1d0db5c3db1709867704"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a51f77118d545308068b0dc287abf4e8b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704">CType</a> const, 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a></td></tr>
+<tr class="memdesc:a51f77118d545308068b0dc287abf4e8b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference to C operand.  <a href="#a51f77118d545308068b0dc287abf4e8b">More...</a><br /></td></tr>
+<tr class="separator:a51f77118d545308068b0dc287abf4e8b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a837a1c513f71ddb2729f8d2e6320b8cd"><td class="memItemLeft" align="right" valign="top">typedef DType_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd">DType</a></td></tr>
+<tr class="memdesc:a837a1c513f71ddb2729f8d2e6320b8cd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Destination accumulator type.  <a href="#a837a1c513f71ddb2729f8d2e6320b8cd">More...</a><br /></td></tr>
+<tr class="separator:a837a1c513f71ddb2729f8d2e6320b8cd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1f59ad60a529aa1db6e66ade3cb65052"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd">DType</a>, 2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a></td></tr>
+<tr class="memdesc:a1f59ad60a529aa1db6e66ade3cb65052"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference to D operand.  <a href="#a1f59ad60a529aa1db6e66ade3cb65052">More...</a><br /></td></tr>
+<tr class="separator:a1f59ad60a529aa1db6e66ade3cb65052"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a258e8c008db365b88654f46df3017ec2"><td class="memItemLeft" align="right" valign="top">typedef SType_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a></td></tr>
+<tr class="memdesc:a258e8c008db365b88654f46df3017ec2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar type for alpha and beta.  <a href="#a258e8c008db365b88654f46df3017ec2">More...</a><br /></td></tr>
+<tr class="separator:a258e8c008db365b88654f46df3017ec2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:ae2708b731cbb99d3e638382ecf599425"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ae2708b731cbb99d3e638382ecf599425">GemmDesc</a> ()</td></tr>
+<tr class="memdesc:ae2708b731cbb99d3e638382ecf599425"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default ctor.  <a href="#ae2708b731cbb99d3e638382ecf599425">More...</a><br /></td></tr>
+<tr class="separator:ae2708b731cbb99d3e638382ecf599425"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a948af4a974f1aa74d3b6da9cd3e185de"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a948af4a974f1aa74d3b6da9cd3e185de">GemmDesc</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; _problem_size, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _alpha, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a> const &amp;_A, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a> const &amp;_B, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _beta, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a> const &amp;_C, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a> const &amp;_D)</td></tr>
+<tr class="memdesc:a948af4a974f1aa74d3b6da9cd3e185de"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor for basic GEMM with batch count = 1.  <a href="#a948af4a974f1aa74d3b6da9cd3e185de">More...</a><br /></td></tr>
+<tr class="separator:a948af4a974f1aa74d3b6da9cd3e185de"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7292ac0196f22525b13f223a02271bc3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7292ac0196f22525b13f223a02271bc3">GemmDesc</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> _problem_size, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _alpha, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a> const &amp;_A, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a> const &amp;_B, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _beta, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a> const &amp;_C, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a> const &amp;_D)</td></tr>
+<tr class="memdesc:a7292ac0196f22525b13f223a02271bc3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor for basic GEMM with batch count = 1.  <a href="#a7292ac0196f22525b13f223a02271bc3">More...</a><br /></td></tr>
+<tr class="separator:a7292ac0196f22525b13f223a02271bc3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af96cd9c8f2454ea118dfa7358dd24824"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#af96cd9c8f2454ea118dfa7358dd24824">GemmDesc</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> _problem_size, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _alpha, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a> const &amp;_A, long long _batch_stride_A, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a> const &amp;_B, long long _batch_stride_B, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> _beta, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a> const &amp;_C, long long _batch_stride_C, <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a> const &amp;_D, long long _batch_stride_D)</td></tr>
+<tr class="memdesc:af96cd9c8f2454ea118dfa7358dd24824"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor for strided batch GEMM GEMM.  <a href="#af96cd9c8f2454ea118dfa7358dd24824">More...</a><br /></td></tr>
+<tr class="separator:af96cd9c8f2454ea118dfa7358dd24824"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:a5c2b3e75cb6873762ba3f85487b78579"><td class="memItemLeft" align="right" valign="top">Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a5c2b3e75cb6873762ba3f85487b78579">m</a></td></tr>
-<tr class="memdesc:a5c2b3e75cb6873762ba3f85487b78579"><td class="mdescLeft">&#160;</td><td class="mdescRight">The dimensions of the GEMM.  <a href="#a5c2b3e75cb6873762ba3f85487b78579">More...</a><br /></td></tr>
-<tr class="separator:a5c2b3e75cb6873762ba3f85487b78579"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:acee9727aa6cb612a25cd6ced4829061a"><td class="memItemLeft" align="right" valign="top">Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#acee9727aa6cb612a25cd6ced4829061a">n</a></td></tr>
-<tr class="separator:acee9727aa6cb612a25cd6ced4829061a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac789a7e5d2db65d006f1e8e3df542a6f"><td class="memItemLeft" align="right" valign="top">Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ac789a7e5d2db65d006f1e8e3df542a6f">k</a></td></tr>
-<tr class="separator:ac789a7e5d2db65d006f1e8e3df542a6f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a053c2b529be527f510ee317737fbf7e8"><td class="memItemLeft" align="right" valign="top">Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a053c2b529be527f510ee317737fbf7e8">alpha</a></td></tr>
-<tr class="memdesc:a053c2b529be527f510ee317737fbf7e8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The alpha/beta scaling values.  <a href="#a053c2b529be527f510ee317737fbf7e8">More...</a><br /></td></tr>
-<tr class="separator:a053c2b529be527f510ee317737fbf7e8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab91b702a9932144b388fad3159130332"><td class="memItemLeft" align="right" valign="top">Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab91b702a9932144b388fad3159130332">beta</a></td></tr>
-<tr class="separator:ab91b702a9932144b388fad3159130332"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aae63781de41962f496da469684919447"><td class="memItemLeft" align="right" valign="top">void const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aae63781de41962f496da469684919447">d_a</a></td></tr>
-<tr class="memdesc:aae63781de41962f496da469684919447"><td class="mdescLeft">&#160;</td><td class="mdescRight">The source matrix A.  <a href="#aae63781de41962f496da469684919447">More...</a><br /></td></tr>
-<tr class="separator:aae63781de41962f496da469684919447"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a62ad30ba419ccb661e6700da98221789"><td class="memItemLeft" align="right" valign="top">Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a62ad30ba419ccb661e6700da98221789">lda</a></td></tr>
-<tr class="memdesc:a62ad30ba419ccb661e6700da98221789"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stride for A.  <a href="#a62ad30ba419ccb661e6700da98221789">More...</a><br /></td></tr>
-<tr class="separator:a62ad30ba419ccb661e6700da98221789"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a05915032eba39bc9b085bec5ff17257b"><td class="memItemLeft" align="right" valign="top">void const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a05915032eba39bc9b085bec5ff17257b">d_b</a></td></tr>
-<tr class="memdesc:a05915032eba39bc9b085bec5ff17257b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The source matrix B.  <a href="#a05915032eba39bc9b085bec5ff17257b">More...</a><br /></td></tr>
-<tr class="separator:a05915032eba39bc9b085bec5ff17257b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7591ce0223b0d05c4d6fca6c67b98bfe"><td class="memItemLeft" align="right" valign="top">Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7591ce0223b0d05c4d6fca6c67b98bfe">ldb</a></td></tr>
-<tr class="memdesc:a7591ce0223b0d05c4d6fca6c67b98bfe"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stride for B.  <a href="#a7591ce0223b0d05c4d6fca6c67b98bfe">More...</a><br /></td></tr>
-<tr class="separator:a7591ce0223b0d05c4d6fca6c67b98bfe"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa2b3126c082d04fd31521cb0e84cf4d5"><td class="memItemLeft" align="right" valign="top">void const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa2b3126c082d04fd31521cb0e84cf4d5">d_c</a></td></tr>
-<tr class="memdesc:aa2b3126c082d04fd31521cb0e84cf4d5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The source matrix C.  <a href="#aa2b3126c082d04fd31521cb0e84cf4d5">More...</a><br /></td></tr>
-<tr class="separator:aa2b3126c082d04fd31521cb0e84cf4d5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0f492560cabc45cd492da65b819d09db"><td class="memItemLeft" align="right" valign="top">Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a0f492560cabc45cd492da65b819d09db">ldc</a></td></tr>
-<tr class="memdesc:a0f492560cabc45cd492da65b819d09db"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stride for C.  <a href="#a0f492560cabc45cd492da65b819d09db">More...</a><br /></td></tr>
-<tr class="separator:a0f492560cabc45cd492da65b819d09db"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a30326e2d81c8e154d749f35837903216"><td class="memItemLeft" align="right" valign="top">void *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a30326e2d81c8e154d749f35837903216">d_d</a></td></tr>
-<tr class="memdesc:a30326e2d81c8e154d749f35837903216"><td class="mdescLeft">&#160;</td><td class="mdescRight">The destination matrix D.  <a href="#a30326e2d81c8e154d749f35837903216">More...</a><br /></td></tr>
-<tr class="separator:a30326e2d81c8e154d749f35837903216"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3280e5c5484f5c10d1412bcb70eb77e9"><td class="memItemLeft" align="right" valign="top">Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a3280e5c5484f5c10d1412bcb70eb77e9">ldd</a></td></tr>
-<tr class="memdesc:a3280e5c5484f5c10d1412bcb70eb77e9"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stride for D.  <a href="#a3280e5c5484f5c10d1412bcb70eb77e9">More...</a><br /></td></tr>
-<tr class="separator:a3280e5c5484f5c10d1412bcb70eb77e9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a52a5538b1b5208090417cf98d8735e3f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a52a5538b1b5208090417cf98d8735e3f">problem_size</a></td></tr>
+<tr class="memdesc:a52a5538b1b5208090417cf98d8735e3f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The dimensions of the GEMM.  <a href="#a52a5538b1b5208090417cf98d8735e3f">More...</a><br /></td></tr>
+<tr class="separator:a52a5538b1b5208090417cf98d8735e3f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa82600c82e17ea1233f2f74be4aa3785"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa82600c82e17ea1233f2f74be4aa3785">alpha</a></td></tr>
+<tr class="memdesc:aa82600c82e17ea1233f2f74be4aa3785"><td class="mdescLeft">&#160;</td><td class="mdescRight">The alpha scaling values.  <a href="#aa82600c82e17ea1233f2f74be4aa3785">More...</a><br /></td></tr>
+<tr class="separator:aa82600c82e17ea1233f2f74be4aa3785"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a80b0aae6e67b733ae5bf289d979a7c9b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a80b0aae6e67b733ae5bf289d979a7c9b">A</a></td></tr>
+<tr class="memdesc:a80b0aae6e67b733ae5bf289d979a7c9b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The source matrix A.  <a href="#a80b0aae6e67b733ae5bf289d979a7c9b">More...</a><br /></td></tr>
+<tr class="separator:a80b0aae6e67b733ae5bf289d979a7c9b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8b5a86d14eba0d3c5173753212d62599"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a8b5a86d14eba0d3c5173753212d62599">batch_stride_A</a></td></tr>
+<tr class="memdesc:a8b5a86d14eba0d3c5173753212d62599"><td class="mdescLeft">&#160;</td><td class="mdescRight">batch stride for A operand  <a href="#a8b5a86d14eba0d3c5173753212d62599">More...</a><br /></td></tr>
+<tr class="separator:a8b5a86d14eba0d3c5173753212d62599"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af0ac89b161f9cad96307f1ff3c80a774"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#af0ac89b161f9cad96307f1ff3c80a774">B</a></td></tr>
+<tr class="memdesc:af0ac89b161f9cad96307f1ff3c80a774"><td class="mdescLeft">&#160;</td><td class="mdescRight">The source matrix B.  <a href="#af0ac89b161f9cad96307f1ff3c80a774">More...</a><br /></td></tr>
+<tr class="separator:af0ac89b161f9cad96307f1ff3c80a774"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a95e3fe05e4ca0d4019cbef2b1a54419a"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a95e3fe05e4ca0d4019cbef2b1a54419a">batch_stride_B</a></td></tr>
+<tr class="memdesc:a95e3fe05e4ca0d4019cbef2b1a54419a"><td class="mdescLeft">&#160;</td><td class="mdescRight">batch stride for B operand  <a href="#a95e3fe05e4ca0d4019cbef2b1a54419a">More...</a><br /></td></tr>
+<tr class="separator:a95e3fe05e4ca0d4019cbef2b1a54419a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adac41a0baad9e65aa4a6fe12d249a02b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#adac41a0baad9e65aa4a6fe12d249a02b">beta</a></td></tr>
+<tr class="memdesc:adac41a0baad9e65aa4a6fe12d249a02b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The beta scaling values.  <a href="#adac41a0baad9e65aa4a6fe12d249a02b">More...</a><br /></td></tr>
+<tr class="separator:adac41a0baad9e65aa4a6fe12d249a02b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab384a226ab370fa5e25468fb99c63e30"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#ab384a226ab370fa5e25468fb99c63e30">C</a></td></tr>
+<tr class="memdesc:ab384a226ab370fa5e25468fb99c63e30"><td class="mdescLeft">&#160;</td><td class="mdescRight">The source matrix C.  <a href="#ab384a226ab370fa5e25468fb99c63e30">More...</a><br /></td></tr>
+<tr class="separator:ab384a226ab370fa5e25468fb99c63e30"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aad3590dffa2e1ba82c834efae6b35ad2"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aad3590dffa2e1ba82c834efae6b35ad2">batch_stride_C</a></td></tr>
+<tr class="memdesc:aad3590dffa2e1ba82c834efae6b35ad2"><td class="mdescLeft">&#160;</td><td class="mdescRight">batch stride for C operand  <a href="#aad3590dffa2e1ba82c834efae6b35ad2">More...</a><br /></td></tr>
+<tr class="separator:aad3590dffa2e1ba82c834efae6b35ad2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adf95451422c529587d55aac0fecf0d9f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#adf95451422c529587d55aac0fecf0d9f">D</a></td></tr>
+<tr class="memdesc:adf95451422c529587d55aac0fecf0d9f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The destination matrix D.  <a href="#adf95451422c529587d55aac0fecf0d9f">More...</a><br /></td></tr>
+<tr class="separator:adf95451422c529587d55aac0fecf0d9f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7b9afcc7e3105da1d002b1baa68d83de"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7b9afcc7e3105da1d002b1baa68d83de">batch_stride_D</a></td></tr>
+<tr class="memdesc:a7b9afcc7e3105da1d002b1baa68d83de"><td class="mdescLeft">&#160;</td><td class="mdescRight">batch stride for D operand  <a href="#a7b9afcc7e3105da1d002b1baa68d83de">More...</a><br /></td></tr>
+<tr class="separator:a7b9afcc7e3105da1d002b1baa68d83de"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
-<h2 class="groupheader">Member Data Documentation</h2>
-<a id="a053c2b529be527f510ee317737fbf7e8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a053c2b529be527f510ee317737fbf7e8">&#9670;&nbsp;</a></span>alpha</h2>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a22642bd88ccb24fec3df87230537c037"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a22642bd88ccb24fec3df87230537c037">&#9670;&nbsp;</a></span>AType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef AType_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037">AType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a23317c22122ea2721a7a3e0c12e07a49"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a23317c22122ea2721a7a3e0c12e07a49">&#9670;&nbsp;</a></span>BType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef BType_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49">BType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa46907b69a3b1d0db5c3db1709867704"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa46907b69a3b1d0db5c3db1709867704">&#9670;&nbsp;</a></span>CType</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">Scalar_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::alpha</td>
+          <td class="memname">typedef CType_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704">CType</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ab91b702a9932144b388fad3159130332"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab91b702a9932144b388fad3159130332">&#9670;&nbsp;</a></span>beta</h2>
+<a id="a837a1c513f71ddb2729f8d2e6320b8cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a837a1c513f71ddb2729f8d2e6320b8cd">&#9670;&nbsp;</a></span>DType</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">Scalar_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::beta</td>
+          <td class="memname">typedef DType_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd">DType</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aae63781de41962f496da469684919447"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aae63781de41962f496da469684919447">&#9670;&nbsp;</a></span>d_a</h2>
+<a id="abd12fea9779ada02c0f2266909602171"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abd12fea9779ada02c0f2266909602171">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#abd12fea9779ada02c0f2266909602171">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a258e8c008db365b88654f46df3017ec2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a258e8c008db365b88654f46df3017ec2">&#9670;&nbsp;</a></span>SType</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef SType_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea3a523662dc801bf9abf205a8e400fe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea3a523662dc801bf9abf205a8e400fe">&#9670;&nbsp;</a></span>TensorRefA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a22642bd88ccb24fec3df87230537c037">AType</a> const, 2&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7de7de97d237d9dcc0d89de7b04342ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7de7de97d237d9dcc0d89de7b04342ab">&#9670;&nbsp;</a></span>TensorRefB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a23317c22122ea2721a7a3e0c12e07a49">BType</a> const, 2&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a51f77118d545308068b0dc287abf4e8b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a51f77118d545308068b0dc287abf4e8b">&#9670;&nbsp;</a></span>TensorRefC</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aa46907b69a3b1d0db5c3db1709867704">CType</a> const, 2&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1f59ad60a529aa1db6e66ade3cb65052"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1f59ad60a529aa1db6e66ade3cb65052">&#9670;&nbsp;</a></span>TensorRefD</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a837a1c513f71ddb2729f8d2e6320b8cd">DType</a>, 2&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ae2708b731cbb99d3e638382ecf599425"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae2708b731cbb99d3e638382ecf599425">&#9670;&nbsp;</a></span>GemmDesc() <span class="overload">[1/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a948af4a974f1aa74d3b6da9cd3e185de"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a948af4a974f1aa74d3b6da9cd3e185de">&#9670;&nbsp;</a></span>GemmDesc() <span class="overload">[2/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td>
+          <td class="paramname"><em>_problem_size</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a>&#160;</td>
+          <td class="paramname"><em>_alpha</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_A</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_B</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a>&#160;</td>
+          <td class="paramname"><em>_beta</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_C</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_D</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7292ac0196f22525b13f223a02271bc3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7292ac0196f22525b13f223a02271bc3">&#9670;&nbsp;</a></span>GemmDesc() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&#160;</td>
+          <td class="paramname"><em>_problem_size</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a>&#160;</td>
+          <td class="paramname"><em>_alpha</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_A</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_B</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a>&#160;</td>
+          <td class="paramname"><em>_beta</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_C</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_D</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af96cd9c8f2454ea118dfa7358dd24824"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af96cd9c8f2454ea118dfa7358dd24824">&#9670;&nbsp;</a></span>GemmDesc() <span class="overload">[4/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">GemmDesc</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&#160;</td>
+          <td class="paramname"><em>_problem_size</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a>&#160;</td>
+          <td class="paramname"><em>_alpha</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_A</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_batch_stride_A</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_B</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_batch_stride_B</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a>&#160;</td>
+          <td class="paramname"><em>_beta</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_C</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_batch_stride_C</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_D</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>_batch_stride_D</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a80b0aae6e67b733ae5bf289d979a7c9b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a80b0aae6e67b733ae5bf289d979a7c9b">&#9670;&nbsp;</a></span>A</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">void const* <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::d_a</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#aea3a523662dc801bf9abf205a8e400fe">TensorRefA</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::A</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a05915032eba39bc9b085bec5ff17257b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a05915032eba39bc9b085bec5ff17257b">&#9670;&nbsp;</a></span>d_b</h2>
+<a id="aa82600c82e17ea1233f2f74be4aa3785"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa82600c82e17ea1233f2f74be4aa3785">&#9670;&nbsp;</a></span>alpha</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">void const* <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::d_b</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::alpha</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aa2b3126c082d04fd31521cb0e84cf4d5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa2b3126c082d04fd31521cb0e84cf4d5">&#9670;&nbsp;</a></span>d_c</h2>
+<a id="af0ac89b161f9cad96307f1ff3c80a774"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af0ac89b161f9cad96307f1ff3c80a774">&#9670;&nbsp;</a></span>B</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">void const* <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::d_c</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a7de7de97d237d9dcc0d89de7b04342ab">TensorRefB</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::B</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a30326e2d81c8e154d749f35837903216"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a30326e2d81c8e154d749f35837903216">&#9670;&nbsp;</a></span>d_d</h2>
+<a id="a8b5a86d14eba0d3c5173753212d62599"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8b5a86d14eba0d3c5173753212d62599">&#9670;&nbsp;</a></span>batch_stride_A</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">void* <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::d_d</td>
+          <td class="memname">long long <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::batch_stride_A</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ac789a7e5d2db65d006f1e8e3df542a6f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac789a7e5d2db65d006f1e8e3df542a6f">&#9670;&nbsp;</a></span>k</h2>
+<a id="a95e3fe05e4ca0d4019cbef2b1a54419a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a95e3fe05e4ca0d4019cbef2b1a54419a">&#9670;&nbsp;</a></span>batch_stride_B</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::k</td>
+          <td class="memname">long long <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::batch_stride_B</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a62ad30ba419ccb661e6700da98221789"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a62ad30ba419ccb661e6700da98221789">&#9670;&nbsp;</a></span>lda</h2>
+<a id="aad3590dffa2e1ba82c834efae6b35ad2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad3590dffa2e1ba82c834efae6b35ad2">&#9670;&nbsp;</a></span>batch_stride_C</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::lda</td>
+          <td class="memname">long long <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::batch_stride_C</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7591ce0223b0d05c4d6fca6c67b98bfe"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7591ce0223b0d05c4d6fca6c67b98bfe">&#9670;&nbsp;</a></span>ldb</h2>
+<a id="a7b9afcc7e3105da1d002b1baa68d83de"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7b9afcc7e3105da1d002b1baa68d83de">&#9670;&nbsp;</a></span>batch_stride_D</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::ldb</td>
+          <td class="memname">long long <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::batch_stride_D</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a0f492560cabc45cd492da65b819d09db"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0f492560cabc45cd492da65b819d09db">&#9670;&nbsp;</a></span>ldc</h2>
+<a id="adac41a0baad9e65aa4a6fe12d249a02b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adac41a0baad9e65aa4a6fe12d249a02b">&#9670;&nbsp;</a></span>beta</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::ldc</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a258e8c008db365b88654f46df3017ec2">SType</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::beta</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a3280e5c5484f5c10d1412bcb70eb77e9"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3280e5c5484f5c10d1412bcb70eb77e9">&#9670;&nbsp;</a></span>ldd</h2>
+<a id="ab384a226ab370fa5e25468fb99c63e30"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab384a226ab370fa5e25468fb99c63e30">&#9670;&nbsp;</a></span>C</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::ldd</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a51f77118d545308068b0dc287abf4e8b">TensorRefC</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::C</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5c2b3e75cb6873762ba3f85487b78579"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5c2b3e75cb6873762ba3f85487b78579">&#9670;&nbsp;</a></span>m</h2>
+<a id="adf95451422c529587d55aac0fecf0d9f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adf95451422c529587d55aac0fecf0d9f">&#9670;&nbsp;</a></span>D</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::m</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html#a1f59ad60a529aa1db6e66ade3cb65052">TensorRefD</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::D</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="acee9727aa6cb612a25cd6ced4829061a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#acee9727aa6cb612a25cd6ced4829061a">&#9670;&nbsp;</a></span>n</h2>
+<a id="a52a5538b1b5208090417cf98d8735e3f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a52a5538b1b5208090417cf98d8735e3f">&#9670;&nbsp;</a></span>problem_size</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename Index_ = int&gt; </div>
+template&lt;typename AType_, typename BType_, typename CType_, typename DType_, typename SType_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; Scalar_, Index_ &gt;::n</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmDesc.html">cutlass::gemm::GemmDesc</a>&lt; AType_, BType_, CType_, DType_, SType_, Index_ &gt;::problem_size</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -331,12 +766,12 @@ <h2 class="memtitle"><span class="permalink"><a href="#acee9727aa6cb612a25cd6ced
 </div>
 </div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
-<li><a class="el" href="gemm_8h_source.html">gemm.h</a></li>
+<li><a class="el" href="gemm__desc_8h_source.html">gemm_desc.h</a></li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmEpilogue-members.html b/docs/structcutlass_1_1gemm_1_1GemmEpilogue-members.html
index 6024711bae..88bf1a749a 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmEpilogue-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmEpilogue-members.html
@@ -80,37 +80,36 @@
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">epilogue</a>(Coord&lt; 3 &gt; const &amp;block, Accumulators &amp;accumulators)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">epilogue_with_or_without_beta</a>(Coord&lt; 3 &gt; const &amp;block, Accumulators &amp;accumulators)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">epilogue</a>(Accumulators &amp;accumulators, Coord&lt; 3 &gt; const &amp;block=make_Coord(0, 0, 0), int batch_id=0)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">epilogue_with_or_without_beta</a>(Accumulators &amp;accumulators, Coord&lt; 3 &gt; const &amp;block, int batch_id)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">GemmEpilogue</a>(Params const &amp;params_, SharedStorage &amp;shared_storage_, Index m_, Index n_)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">m</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">n</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">GemmEpilogue</a>(Params const &amp;params_, SharedStorage &amp;shared_storage_, Coord&lt; 3 &gt; const &amp;_problem_size)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">problem_size</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">shared_load_fence</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">shared_store_fence</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">SharedLoadIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">SharedLoadTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">SharedLoadStreamD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmEpilogue.html b/docs/structcutlass_1_1gemm_1_1GemmEpilogue.html
index 3f08c9cf73..ec6b33ee41 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmEpilogue.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmEpilogue.html
@@ -138,12 +138,9 @@
 <tr class="memitem:a9063e7fc044a679652d5a3a31aa77e7c"><td class="memItemLeft" align="right" valign="top">typedef Traits::SharedStoreTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a></td></tr>
 <tr class="memdesc:a9063e7fc044a679652d5a3a31aa77e7c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="#a9063e7fc044a679652d5a3a31aa77e7c">More...</a><br /></td></tr>
 <tr class="separator:a9063e7fc044a679652d5a3a31aa77e7c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4a0b439f8a57d8e67174ecbd96183070"><td class="memItemLeft" align="right" valign="top">typedef Traits::SharedLoadIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">SharedLoadIteratorD</a></td></tr>
-<tr class="memdesc:a4a0b439f8a57d8e67174ecbd96183070"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load D in shared memory.  <a href="#a4a0b439f8a57d8e67174ecbd96183070">More...</a><br /></td></tr>
-<tr class="separator:a4a0b439f8a57d8e67174ecbd96183070"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a132cabbc1402c87c7b35dea427001a13"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename SharedLoadIteratorD::Fragment &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">SharedLoadTransformerD</a></td></tr>
-<tr class="memdesc:a132cabbc1402c87c7b35dea427001a13"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared load transformer for D.  <a href="#a132cabbc1402c87c7b35dea427001a13">More...</a><br /></td></tr>
-<tr class="separator:a132cabbc1402c87c7b35dea427001a13"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8e5d38a7795b50a021fc43dc7424288b"><td class="memItemLeft" align="right" valign="top">typedef Traits::SharedLoadStreamD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">SharedLoadStreamD</a></td></tr>
+<tr class="memdesc:a8e5d38a7795b50a021fc43dc7424288b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load D in shared memory.  <a href="#a8e5d38a7795b50a021fc43dc7424288b">More...</a><br /></td></tr>
+<tr class="separator:a8e5d38a7795b50a021fc43dc7424288b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a07c93d583bfddd8f916fba6ef809832e"><td class="memItemLeft" align="right" valign="top">typedef Traits::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a></td></tr>
 <tr class="memdesc:a07c93d583bfddd8f916fba6ef809832e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="#a07c93d583bfddd8f916fba6ef809832e">More...</a><br /></td></tr>
 <tr class="separator:a07c93d583bfddd8f916fba6ef809832e"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -156,15 +153,15 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:ab10147070c3a38fca75397f55dc51925"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">GemmEpilogue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> const &amp;params_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> &amp;shared_storage_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> m_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> n_)</td></tr>
-<tr class="memdesc:ab10147070c3a38fca75397f55dc51925"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ab10147070c3a38fca75397f55dc51925">More...</a><br /></td></tr>
-<tr class="separator:ab10147070c3a38fca75397f55dc51925"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae1983e37454ed14272b23b964614c54c"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">epilogue</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators)</td></tr>
-<tr class="memdesc:ae1983e37454ed14272b23b964614c54c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Execute the epilogue.  <a href="#ae1983e37454ed14272b23b964614c54c">More...</a><br /></td></tr>
-<tr class="separator:ae1983e37454ed14272b23b964614c54c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0c24dce365565f75e7edc1de1cb50ea4"><td class="memTemplParams" colspan="2">template&lt;bool kBetaIsZero_&gt; </td></tr>
-<tr class="memitem:a0c24dce365565f75e7edc1de1cb50ea4"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">epilogue_with_or_without_beta</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators)</td></tr>
-<tr class="separator:a0c24dce365565f75e7edc1de1cb50ea4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af91ebe8d2ed73808b9ea8846c140d3f8"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">GemmEpilogue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> const &amp;params_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> &amp;shared_storage_, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;_problem_size)</td></tr>
+<tr class="memdesc:af91ebe8d2ed73808b9ea8846c140d3f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#af91ebe8d2ed73808b9ea8846c140d3f8">More...</a><br /></td></tr>
+<tr class="separator:af91ebe8d2ed73808b9ea8846c140d3f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6f1f96715425b7196e960907676a7db3"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">epilogue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0), int batch_id=0)</td></tr>
+<tr class="memdesc:a6f1f96715425b7196e960907676a7db3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Execute the epilogue.  <a href="#a6f1f96715425b7196e960907676a7db3">More...</a><br /></td></tr>
+<tr class="separator:a6f1f96715425b7196e960907676a7db3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7af2eb421840e037263e6a144cca5c32"><td class="memTemplParams" colspan="2">template&lt;bool kSourceRequired&gt; </td></tr>
+<tr class="memitem:a7af2eb421840e037263e6a144cca5c32"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">epilogue_with_or_without_beta</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block, int batch_id)</td></tr>
+<tr class="separator:a7af2eb421840e037263e6a144cca5c32"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a9b5e42f222fec98ff479bc1650221b84"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">shared_load_fence</a> ()</td></tr>
 <tr class="memdesc:a9b5e42f222fec98ff479bc1650221b84"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared loads.  <a href="#a9b5e42f222fec98ff479bc1650221b84">More...</a><br /></td></tr>
 <tr class="separator:a9b5e42f222fec98ff479bc1650221b84"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -180,11 +177,11 @@
 <tr class="memitem:a442b5b5688cd658c3b3476650c00281e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a></td></tr>
 <tr class="memdesc:a442b5b5688cd658c3b3476650c00281e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage.  <a href="#a442b5b5688cd658c3b3476650c00281e">More...</a><br /></td></tr>
 <tr class="separator:a442b5b5688cd658c3b3476650c00281e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac344bf5ca318dc343bd6fa6bf52d2e22"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">m</a></td></tr>
-<tr class="memdesc:ac344bf5ca318dc343bd6fa6bf52d2e22"><td class="mdescLeft">&#160;</td><td class="mdescRight">The dimensions of the GEMM.  <a href="#ac344bf5ca318dc343bd6fa6bf52d2e22">More...</a><br /></td></tr>
-<tr class="separator:ac344bf5ca318dc343bd6fa6bf52d2e22"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9cc371cd2f1a9485583afdacbb7403ea"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">n</a></td></tr>
-<tr class="separator:a9cc371cd2f1a9485583afdacbb7403ea"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6bea57249e3645a4b08a11619cb1687e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">problem_size</a></td></tr>
+<tr class="memdesc:a6bea57249e3645a4b08a11619cb1687e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The dimensions of the GEMM.  <a href="#a6bea57249e3645a4b08a11619cb1687e">More...</a><br /></td></tr>
+<tr class="separator:a6bea57249e3645a4b08a11619cb1687e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5aa254702fcf24630e04ceb174aa3d57"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a></td></tr>
+<tr class="separator:a5aa254702fcf24630e04ceb174aa3d57"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="afe6bebd94e3379c94054d04c5196edce"></a>
@@ -396,8 +393,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4887b56a96694ce6350db77f
 
 </div>
 </div>
-<a id="a4a0b439f8a57d8e67174ecbd96183070"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4a0b439f8a57d8e67174ecbd96183070">&#9670;&nbsp;</a></span>SharedLoadIteratorD</h2>
+<a id="a8e5d38a7795b50a021fc43dc7424288b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8e5d38a7795b50a021fc43dc7424288b">&#9670;&nbsp;</a></span>SharedLoadStreamD</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -405,23 +402,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4a0b439f8a57d8e67174ecbd
 template&lt;typename GemmEpilogueTraits_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Traits::SharedLoadIteratorD <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">SharedLoadIteratorD</a></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a132cabbc1402c87c7b35dea427001a13"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a132cabbc1402c87c7b35dea427001a13">&#9670;&nbsp;</a></span>SharedLoadTransformerD</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename GemmEpilogueTraits_ &gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename SharedLoadIteratorD::Fragment&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">SharedLoadTransformerD</a></td>
+          <td class="memname">typedef Traits::SharedLoadStreamD <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">SharedLoadStreamD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -493,8 +474,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a645ab6e9e63163ee6bf53671
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="ab10147070c3a38fca75397f55dc51925"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab10147070c3a38fca75397f55dc51925">&#9670;&nbsp;</a></span>GemmEpilogue()</h2>
+<a id="af91ebe8d2ed73808b9ea8846c140d3f8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af91ebe8d2ed73808b9ea8846c140d3f8">&#9670;&nbsp;</a></span>GemmEpilogue()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -519,14 +500,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab10147070c3a38fca75397f5
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a>&#160;</td>
-          <td class="paramname"><em>m_</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a>&#160;</td>
-          <td class="paramname"><em>n_</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>_problem_size</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -544,8 +519,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab10147070c3a38fca75397f5
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="ae1983e37454ed14272b23b964614c54c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae1983e37454ed14272b23b964614c54c">&#9670;&nbsp;</a></span>epilogue()</h2>
+<a id="a6f1f96715425b7196e960907676a7db3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6f1f96715425b7196e960907676a7db3">&#9670;&nbsp;</a></span>epilogue()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -558,14 +533,20 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae1983e37454ed14272b23b96
         <tr>
           <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::epilogue </td>
           <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;&#160;</td>
+          <td class="paramname"><em>accumulators</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>block</em>, </td>
+          <td class="paramname"><em>block</em> = <code><a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,&#160;0,&#160;0)</code>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;&#160;</td>
-          <td class="paramname"><em>accumulators</em>&#160;</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>batch_id</em> = <code>0</code>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -582,15 +563,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae1983e37454ed14272b23b96
 
 </div>
 </div>
-<a id="a0c24dce365565f75e7edc1de1cb50ea4"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0c24dce365565f75e7edc1de1cb50ea4">&#9670;&nbsp;</a></span>epilogue_with_or_without_beta()</h2>
+<a id="a7af2eb421840e037263e6a144cca5c32"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7af2eb421840e037263e6a144cca5c32">&#9670;&nbsp;</a></span>epilogue_with_or_without_beta()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
 template&lt;typename GemmEpilogueTraits_ &gt; </div>
 <div class="memtemplate">
-template&lt;bool kBetaIsZero_&gt; </div>
+template&lt;bool kSourceRequired&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
@@ -598,14 +579,20 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0c24dce365565f75e7edc1de
         <tr>
           <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::epilogue_with_or_without_beta </td>
           <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;&#160;</td>
+          <td class="paramname"><em>accumulators</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
           <td class="paramname"><em>block</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;&#160;</td>
-          <td class="paramname"><em>accumulators</em>&#160;</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>batch_id</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -677,8 +664,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac1b2a16b4ccf3e9617faf4d8
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="ac344bf5ca318dc343bd6fa6bf52d2e22"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac344bf5ca318dc343bd6fa6bf52d2e22">&#9670;&nbsp;</a></span>m</h2>
+<a id="a5aa254702fcf24630e04ceb174aa3d57"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5aa254702fcf24630e04ceb174aa3d57">&#9670;&nbsp;</a></span>functor</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -686,15 +673,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac344bf5ca318dc343bd6fa6b
 template&lt;typename GemmEpilogueTraits_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::m</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::functor</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a9cc371cd2f1a9485583afdacbb7403ea"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9cc371cd2f1a9485583afdacbb7403ea">&#9670;&nbsp;</a></span>n</h2>
+<a id="a81b028a18df51d3caa1b0ba0c990e362"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a81b028a18df51d3caa1b0ba0c990e362">&#9670;&nbsp;</a></span>params</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -702,15 +689,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9cc371cd2f1a9485583afdac
 template&lt;typename GemmEpilogueTraits_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::n</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> const&amp; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::params</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a81b028a18df51d3caa1b0ba0c990e362"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a81b028a18df51d3caa1b0ba0c990e362">&#9670;&nbsp;</a></span>params</h2>
+<a id="a6bea57249e3645a4b08a11619cb1687e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6bea57249e3645a4b08a11619cb1687e">&#9670;&nbsp;</a></span>problem_size</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -718,7 +705,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a81b028a18df51d3caa1b0ba0
 template&lt;typename GemmEpilogueTraits_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> const&amp; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::params</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;::problem_size</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -747,7 +734,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a442b5b5688cd658c3b347665
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits-members.html
index 2035e3bf4f..894f46bb58 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits-members.html
@@ -73,32 +73,32 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">Functor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">SharedLoadIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">Functor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">SharedLoadStreamD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits.html b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits.html
index 8d99223d79..c932485477 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -77,7 +77,7 @@
 <a href="#pub-types">Public Types</a> &#124;
 <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -97,65 +97,65 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:aed1bd9df5ff579ba3e36ae5ba781c075"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">OutputTile</a></td></tr>
-<tr class="memdesc:aed1bd9df5ff579ba3e36ae5ba781c075"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="#aed1bd9df5ff579ba3e36ae5ba781c075">More...</a><br /></td></tr>
-<tr class="separator:aed1bd9df5ff579ba3e36ae5ba781c075"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af7ff579ccb4269bfa5e9ae297260f7a2"><td class="memItemLeft" align="right" valign="top">typedef Accumulators_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">Accumulators</a></td></tr>
-<tr class="separator:af7ff579ccb4269bfa5e9ae297260f7a2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8409d84ee282a4d6953bd41149d8b9c2"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadIteratorC_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">GlobalLoadIteratorC</a></td></tr>
-<tr class="memdesc:a8409d84ee282a4d6953bd41149d8b9c2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for C in global memory.  <a href="#a8409d84ee282a4d6953bd41149d8b9c2">More...</a><br /></td></tr>
-<tr class="separator:a8409d84ee282a4d6953bd41149d8b9c2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a051f25a4aa3ea71ff400582228adbdaa"><td class="memItemLeft" align="right" valign="top">typedef GlobalTransformerC_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">GlobalTransformerC</a></td></tr>
-<tr class="memdesc:a051f25a4aa3ea71ff400582228adbdaa"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for C.  <a href="#a051f25a4aa3ea71ff400582228adbdaa">More...</a><br /></td></tr>
-<tr class="separator:a051f25a4aa3ea71ff400582228adbdaa"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a261e526c6a8e832bc483bf4e486cc9d7"><td class="memItemLeft" align="right" valign="top">typedef GlobalTransformerD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">GlobalTransformerD</a></td></tr>
-<tr class="memdesc:a261e526c6a8e832bc483bf4e486cc9d7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for D.  <a href="#a261e526c6a8e832bc483bf4e486cc9d7">More...</a><br /></td></tr>
-<tr class="separator:a261e526c6a8e832bc483bf4e486cc9d7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aeef5745d149770c9f79e12f6d97ffce1"><td class="memItemLeft" align="right" valign="top">typedef GlobalStoreIteratorD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">GlobalStoreIteratorD</a></td></tr>
-<tr class="memdesc:aeef5745d149770c9f79e12f6d97ffce1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for D in global memory.  <a href="#aeef5745d149770c9f79e12f6d97ffce1">More...</a><br /></td></tr>
-<tr class="separator:aeef5745d149770c9f79e12f6d97ffce1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a74f4beb86447f6b613e9b60234cb27bc"><td class="memItemLeft" align="right" valign="top">typedef SharedStoreIteratorD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">SharedStoreIteratorD</a></td></tr>
-<tr class="memdesc:a74f4beb86447f6b613e9b60234cb27bc"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D in shared memory.  <a href="#a74f4beb86447f6b613e9b60234cb27bc">More...</a><br /></td></tr>
-<tr class="separator:a74f4beb86447f6b613e9b60234cb27bc"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0b8ac1972b2f2cff48070f8b862ed25c"><td class="memItemLeft" align="right" valign="top">typedef SharedStoreTransformerD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">SharedStoreTransformerD</a></td></tr>
-<tr class="memdesc:a0b8ac1972b2f2cff48070f8b862ed25c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="#a0b8ac1972b2f2cff48070f8b862ed25c">More...</a><br /></td></tr>
-<tr class="separator:a0b8ac1972b2f2cff48070f8b862ed25c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9822fa405b32cc2f471c9fdd37585cb5"><td class="memItemLeft" align="right" valign="top">typedef SharedLoadIteratorD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">SharedLoadIteratorD</a></td></tr>
-<tr class="memdesc:a9822fa405b32cc2f471c9fdd37585cb5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D in shared memory.  <a href="#a9822fa405b32cc2f471c9fdd37585cb5">More...</a><br /></td></tr>
-<tr class="separator:a9822fa405b32cc2f471c9fdd37585cb5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab00969bdda930eeb7b82985c476adf7d"><td class="memItemLeft" align="right" valign="top">typedef Iterations_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">Iterations</a></td></tr>
-<tr class="memdesc:ab00969bdda930eeb7b82985c476adf7d"><td class="mdescLeft">&#160;</td><td class="mdescRight">typedef typename GemmConfig::EpilogueIterations Iterations;  <a href="#ab00969bdda930eeb7b82985c476adf7d">More...</a><br /></td></tr>
-<tr class="separator:ab00969bdda930eeb7b82985c476adf7d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af1f105d4712f01880b0944666e2f81ae"><td class="memItemLeft" align="right" valign="top">typedef Delta_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">Delta</a></td></tr>
-<tr class="memdesc:af1f105d4712f01880b0944666e2f81ae"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterations strides.  <a href="#af1f105d4712f01880b0944666e2f81ae">More...</a><br /></td></tr>
-<tr class="separator:af1f105d4712f01880b0944666e2f81ae"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7cdb30f17692e8fdb3dd4cf4c0b8e9ee"><td class="memItemLeft" align="right" valign="top">typedef Functor_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">Functor</a></td></tr>
-<tr class="memdesc:a7cdb30f17692e8fdb3dd4cf4c0b8e9ee"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor in charge of the math.  <a href="#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">More...</a><br /></td></tr>
-<tr class="separator:a7cdb30f17692e8fdb3dd4cf4c0b8e9ee"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab430d05bd17efd60c28077c87b5ca331"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a></td></tr>
-<tr class="memdesc:ab430d05bd17efd60c28077c87b5ca331"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="#ab430d05bd17efd60c28077c87b5ca331">More...</a><br /></td></tr>
-<tr class="separator:ab430d05bd17efd60c28077c87b5ca331"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a006e50cf5fb67407d41c60d6d08b8b66"><td class="memItemLeft" align="right" valign="top">typedef Functor::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">Scalar</a></td></tr>
-<tr class="memdesc:a006e50cf5fb67407d41c60d6d08b8b66"><td class="mdescLeft">&#160;</td><td class="mdescRight">We do not support 3D or 4D shapes.  <a href="#a006e50cf5fb67407d41c60d6d08b8b66">More...</a><br /></td></tr>
-<tr class="separator:a006e50cf5fb67407d41c60d6d08b8b66"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abf97949c238d72854225c1c6131b5cbc"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadIteratorC::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">ScalarC</a></td></tr>
-<tr class="memdesc:abf97949c238d72854225c1c6131b5cbc"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="#abf97949c238d72854225c1c6131b5cbc">More...</a><br /></td></tr>
-<tr class="separator:abf97949c238d72854225c1c6131b5cbc"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1ee74d6f89b044578e1cd6dd210ce5fe"><td class="memItemLeft" align="right" valign="top">typedef GlobalStoreIteratorD::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">ScalarD</a></td></tr>
-<tr class="memdesc:a1ee74d6f89b044578e1cd6dd210ce5fe"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="#a1ee74d6f89b044578e1cd6dd210ce5fe">More...</a><br /></td></tr>
-<tr class="separator:a1ee74d6f89b044578e1cd6dd210ce5fe"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af4d17d3774382fc0ba63d329bd12772c"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">OutputTile</a></td></tr>
+<tr class="memdesc:af4d17d3774382fc0ba63d329bd12772c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="#af4d17d3774382fc0ba63d329bd12772c">More...</a><br /></td></tr>
+<tr class="separator:af4d17d3774382fc0ba63d329bd12772c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af27cfae15beafcfbaf6d660781cbe5c4"><td class="memItemLeft" align="right" valign="top">typedef Accumulators_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">Accumulators</a></td></tr>
+<tr class="separator:af27cfae15beafcfbaf6d660781cbe5c4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4de6207ce3843d6c4325abc7d7abcf24"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadIteratorC_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">GlobalLoadIteratorC</a></td></tr>
+<tr class="memdesc:a4de6207ce3843d6c4325abc7d7abcf24"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for C in global memory.  <a href="#a4de6207ce3843d6c4325abc7d7abcf24">More...</a><br /></td></tr>
+<tr class="separator:a4de6207ce3843d6c4325abc7d7abcf24"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a853b7ad3afb06fd720afc4559df2198d"><td class="memItemLeft" align="right" valign="top">typedef GlobalTransformerC_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">GlobalTransformerC</a></td></tr>
+<tr class="memdesc:a853b7ad3afb06fd720afc4559df2198d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for C.  <a href="#a853b7ad3afb06fd720afc4559df2198d">More...</a><br /></td></tr>
+<tr class="separator:a853b7ad3afb06fd720afc4559df2198d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adb4eb47c84dc1c6df2556e72ff5800e6"><td class="memItemLeft" align="right" valign="top">typedef GlobalTransformerD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">GlobalTransformerD</a></td></tr>
+<tr class="memdesc:adb4eb47c84dc1c6df2556e72ff5800e6"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for D.  <a href="#adb4eb47c84dc1c6df2556e72ff5800e6">More...</a><br /></td></tr>
+<tr class="separator:adb4eb47c84dc1c6df2556e72ff5800e6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada036c0457773a42fb18bc0463071d02"><td class="memItemLeft" align="right" valign="top">typedef GlobalStoreIteratorD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">GlobalStoreIteratorD</a></td></tr>
+<tr class="memdesc:ada036c0457773a42fb18bc0463071d02"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for D in global memory.  <a href="#ada036c0457773a42fb18bc0463071d02">More...</a><br /></td></tr>
+<tr class="separator:ada036c0457773a42fb18bc0463071d02"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a48dee5c2aafb86e999732a1347c9f668"><td class="memItemLeft" align="right" valign="top">typedef SharedStoreIteratorD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">SharedStoreIteratorD</a></td></tr>
+<tr class="memdesc:a48dee5c2aafb86e999732a1347c9f668"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D in shared memory.  <a href="#a48dee5c2aafb86e999732a1347c9f668">More...</a><br /></td></tr>
+<tr class="separator:a48dee5c2aafb86e999732a1347c9f668"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a685d59ee03a226e62660e83c4c60ca69"><td class="memItemLeft" align="right" valign="top">typedef SharedStoreTransformerD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">SharedStoreTransformerD</a></td></tr>
+<tr class="memdesc:a685d59ee03a226e62660e83c4c60ca69"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="#a685d59ee03a226e62660e83c4c60ca69">More...</a><br /></td></tr>
+<tr class="separator:a685d59ee03a226e62660e83c4c60ca69"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5bb3232a2f15d8263d058c69b0839e2f"><td class="memItemLeft" align="right" valign="top">typedef SharedLoadStreamD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">SharedLoadStreamD</a></td></tr>
+<tr class="memdesc:a5bb3232a2f15d8263d058c69b0839e2f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to store D in shared memory.  <a href="#a5bb3232a2f15d8263d058c69b0839e2f">More...</a><br /></td></tr>
+<tr class="separator:a5bb3232a2f15d8263d058c69b0839e2f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7cf2e703f78b877ad551d0516982da10"><td class="memItemLeft" align="right" valign="top">typedef Iterations_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">Iterations</a></td></tr>
+<tr class="memdesc:a7cf2e703f78b877ad551d0516982da10"><td class="mdescLeft">&#160;</td><td class="mdescRight">typedef typename GemmConfig::EpilogueIterations Iterations;  <a href="#a7cf2e703f78b877ad551d0516982da10">More...</a><br /></td></tr>
+<tr class="separator:a7cf2e703f78b877ad551d0516982da10"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a84b89d856f548a26fa1dc15bfd2940da"><td class="memItemLeft" align="right" valign="top">typedef Delta_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">Delta</a></td></tr>
+<tr class="memdesc:a84b89d856f548a26fa1dc15bfd2940da"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterations strides.  <a href="#a84b89d856f548a26fa1dc15bfd2940da">More...</a><br /></td></tr>
+<tr class="separator:a84b89d856f548a26fa1dc15bfd2940da"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8acbe7bfa905258a964ef56e634d4c99"><td class="memItemLeft" align="right" valign="top">typedef Functor_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">Functor</a></td></tr>
+<tr class="memdesc:a8acbe7bfa905258a964ef56e634d4c99"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor in charge of the math.  <a href="#a8acbe7bfa905258a964ef56e634d4c99">More...</a><br /></td></tr>
+<tr class="separator:a8acbe7bfa905258a964ef56e634d4c99"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a23b0e6a448e51f2e0837af95802c23b0"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a></td></tr>
+<tr class="memdesc:a23b0e6a448e51f2e0837af95802c23b0"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="#a23b0e6a448e51f2e0837af95802c23b0">More...</a><br /></td></tr>
+<tr class="separator:a23b0e6a448e51f2e0837af95802c23b0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f15d59a7571d406d5ef593c342f0d4a"><td class="memItemLeft" align="right" valign="top">typedef Functor::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">Scalar</a></td></tr>
+<tr class="memdesc:a8f15d59a7571d406d5ef593c342f0d4a"><td class="mdescLeft">&#160;</td><td class="mdescRight">We do not support 3D or 4D shapes.  <a href="#a8f15d59a7571d406d5ef593c342f0d4a">More...</a><br /></td></tr>
+<tr class="separator:a8f15d59a7571d406d5ef593c342f0d4a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa794b5f04ce736cdba0d778861ce3a9c"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadIteratorC::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">ScalarC</a></td></tr>
+<tr class="memdesc:aa794b5f04ce736cdba0d778861ce3a9c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="#aa794b5f04ce736cdba0d778861ce3a9c">More...</a><br /></td></tr>
+<tr class="separator:aa794b5f04ce736cdba0d778861ce3a9c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad9a81c3ff36a4f3aa376e2cff94cbb50"><td class="memItemLeft" align="right" valign="top">typedef GlobalStoreIteratorD::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a></td></tr>
+<tr class="memdesc:ad9a81c3ff36a4f3aa376e2cff94cbb50"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="#ad9a81c3ff36a4f3aa376e2cff94cbb50">More...</a><br /></td></tr>
+<tr class="separator:ad9a81c3ff36a4f3aa376e2cff94cbb50"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="af7ff579ccb4269bfa5e9ae297260f7a2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af7ff579ccb4269bfa5e9ae297260f7a2">&#9670;&nbsp;</a></span>Accumulators</h2>
+<a id="af27cfae15beafcfbaf6d660781cbe5c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af27cfae15beafcfbaf6d660781cbe5c4">&#9670;&nbsp;</a></span>Accumulators</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Accumulators_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">Accumulators</a></td>
+          <td class="memname">typedef Accumulators_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">Accumulators</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -163,160 +163,160 @@ <h2 class="memtitle"><span class="permalink"><a href="#af7ff579ccb4269bfa5e9ae29
 
 </div>
 </div>
-<a id="af1f105d4712f01880b0944666e2f81ae"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af1f105d4712f01880b0944666e2f81ae">&#9670;&nbsp;</a></span>Delta</h2>
+<a id="a84b89d856f548a26fa1dc15bfd2940da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a84b89d856f548a26fa1dc15bfd2940da">&#9670;&nbsp;</a></span>Delta</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Delta_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">Delta</a></td>
+          <td class="memname">typedef Delta_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">Delta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7cdb30f17692e8fdb3dd4cf4c0b8e9ee"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">&#9670;&nbsp;</a></span>Functor</h2>
+<a id="a8acbe7bfa905258a964ef56e634d4c99"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8acbe7bfa905258a964ef56e634d4c99">&#9670;&nbsp;</a></span>Functor</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Functor_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">Functor</a></td>
+          <td class="memname">typedef Functor_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">Functor</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a8409d84ee282a4d6953bd41149d8b9c2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8409d84ee282a4d6953bd41149d8b9c2">&#9670;&nbsp;</a></span>GlobalLoadIteratorC</h2>
+<a id="a4de6207ce3843d6c4325abc7d7abcf24"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4de6207ce3843d6c4325abc7d7abcf24">&#9670;&nbsp;</a></span>GlobalLoadIteratorC</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef GlobalLoadIteratorC_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">GlobalLoadIteratorC</a></td>
+          <td class="memname">typedef GlobalLoadIteratorC_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">GlobalLoadIteratorC</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aeef5745d149770c9f79e12f6d97ffce1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aeef5745d149770c9f79e12f6d97ffce1">&#9670;&nbsp;</a></span>GlobalStoreIteratorD</h2>
+<a id="ada036c0457773a42fb18bc0463071d02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada036c0457773a42fb18bc0463071d02">&#9670;&nbsp;</a></span>GlobalStoreIteratorD</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef GlobalStoreIteratorD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">GlobalStoreIteratorD</a></td>
+          <td class="memname">typedef GlobalStoreIteratorD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">GlobalStoreIteratorD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a051f25a4aa3ea71ff400582228adbdaa"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a051f25a4aa3ea71ff400582228adbdaa">&#9670;&nbsp;</a></span>GlobalTransformerC</h2>
+<a id="a853b7ad3afb06fd720afc4559df2198d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a853b7ad3afb06fd720afc4559df2198d">&#9670;&nbsp;</a></span>GlobalTransformerC</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef GlobalTransformerC_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">GlobalTransformerC</a></td>
+          <td class="memname">typedef GlobalTransformerC_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">GlobalTransformerC</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a261e526c6a8e832bc483bf4e486cc9d7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a261e526c6a8e832bc483bf4e486cc9d7">&#9670;&nbsp;</a></span>GlobalTransformerD</h2>
+<a id="adb4eb47c84dc1c6df2556e72ff5800e6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adb4eb47c84dc1c6df2556e72ff5800e6">&#9670;&nbsp;</a></span>GlobalTransformerD</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef GlobalTransformerD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">GlobalTransformerD</a></td>
+          <td class="memname">typedef GlobalTransformerD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">GlobalTransformerD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ab430d05bd17efd60c28077c87b5ca331"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab430d05bd17efd60c28077c87b5ca331">&#9670;&nbsp;</a></span>Index</h2>
+<a id="a23b0e6a448e51f2e0837af95802c23b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a23b0e6a448e51f2e0837af95802c23b0">&#9670;&nbsp;</a></span>Index</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a></td>
+          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ab00969bdda930eeb7b82985c476adf7d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab00969bdda930eeb7b82985c476adf7d">&#9670;&nbsp;</a></span>Iterations</h2>
+<a id="a7cf2e703f78b877ad551d0516982da10"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7cf2e703f78b877ad551d0516982da10">&#9670;&nbsp;</a></span>Iterations</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Iterations_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">Iterations</a></td>
+          <td class="memname">typedef Iterations_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">Iterations</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aed1bd9df5ff579ba3e36ae5ba781c075"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aed1bd9df5ff579ba3e36ae5ba781c075">&#9670;&nbsp;</a></span>OutputTile</h2>
+<a id="af4d17d3774382fc0ba63d329bd12772c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af4d17d3774382fc0ba63d329bd12772c">&#9670;&nbsp;</a></span>OutputTile</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef OutputTile_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">OutputTile</a></td>
+          <td class="memname">typedef OutputTile_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">OutputTile</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a006e50cf5fb67407d41c60d6d08b8b66"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a006e50cf5fb67407d41c60d6d08b8b66">&#9670;&nbsp;</a></span>Scalar</h2>
+<a id="a8f15d59a7571d406d5ef593c342f0d4a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f15d59a7571d406d5ef593c342f0d4a">&#9670;&nbsp;</a></span>Scalar</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Functor::Scalar <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">Scalar</a></td>
+          <td class="memname">typedef Functor::Scalar <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">Scalar</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -324,80 +324,80 @@ <h2 class="memtitle"><span class="permalink"><a href="#a006e50cf5fb67407d41c60d6
 
 </div>
 </div>
-<a id="abf97949c238d72854225c1c6131b5cbc"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abf97949c238d72854225c1c6131b5cbc">&#9670;&nbsp;</a></span>ScalarC</h2>
+<a id="aa794b5f04ce736cdba0d778861ce3a9c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa794b5f04ce736cdba0d778861ce3a9c">&#9670;&nbsp;</a></span>ScalarC</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef GlobalLoadIteratorC::Scalar <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">ScalarC</a></td>
+          <td class="memname">typedef GlobalLoadIteratorC::Scalar <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">ScalarC</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a1ee74d6f89b044578e1cd6dd210ce5fe"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1ee74d6f89b044578e1cd6dd210ce5fe">&#9670;&nbsp;</a></span>ScalarD</h2>
+<a id="ad9a81c3ff36a4f3aa376e2cff94cbb50"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad9a81c3ff36a4f3aa376e2cff94cbb50">&#9670;&nbsp;</a></span>ScalarD</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef GlobalStoreIteratorD::Scalar <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">ScalarD</a></td>
+          <td class="memname">typedef GlobalStoreIteratorD::Scalar <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a9822fa405b32cc2f471c9fdd37585cb5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9822fa405b32cc2f471c9fdd37585cb5">&#9670;&nbsp;</a></span>SharedLoadIteratorD</h2>
+<a id="a5bb3232a2f15d8263d058c69b0839e2f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5bb3232a2f15d8263d058c69b0839e2f">&#9670;&nbsp;</a></span>SharedLoadStreamD</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef SharedLoadIteratorD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">SharedLoadIteratorD</a></td>
+          <td class="memname">typedef SharedLoadStreamD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">SharedLoadStreamD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a74f4beb86447f6b613e9b60234cb27bc"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a74f4beb86447f6b613e9b60234cb27bc">&#9670;&nbsp;</a></span>SharedStoreIteratorD</h2>
+<a id="a48dee5c2aafb86e999732a1347c9f668"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a48dee5c2aafb86e999732a1347c9f668">&#9670;&nbsp;</a></span>SharedStoreIteratorD</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef SharedStoreIteratorD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">SharedStoreIteratorD</a></td>
+          <td class="memname">typedef SharedStoreIteratorD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">SharedStoreIteratorD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a0b8ac1972b2f2cff48070f8b862ed25c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0b8ac1972b2f2cff48070f8b862ed25c">&#9670;&nbsp;</a></span>SharedStoreTransformerD</h2>
+<a id="a685d59ee03a226e62660e83c4c60ca69"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a685d59ee03a226e62660e83c4c60ca69">&#9670;&nbsp;</a></span>SharedStoreTransformerD</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef SharedStoreTransformerD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">SharedStoreTransformerD</a></td>
+          <td class="memname">typedef SharedStoreTransformerD_ <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">SharedStoreTransformerD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -410,7 +410,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0b8ac1972b2f2cff48070f8b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper-members.html b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper-members.html
index 4f04d91f30..83a1f951ae 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper-members.html
@@ -91,14 +91,15 @@
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae2b82b9b62aefa15005091bb84ac20e8">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">SharedLoadStreamD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html
index 55d6652f41..642c964a62 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html
@@ -98,28 +98,31 @@
 <tr class="memitem:a981134cf87d85aa28570a62d9e878b10"><td class="memItemLeft" align="right" valign="top">typedef EpilogueFunctor_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">Functor</a></td></tr>
 <tr class="memdesc:a981134cf87d85aa28570a62d9e878b10"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do the math in the epilogue.  <a href="#a981134cf87d85aa28570a62d9e878b10">More...</a><br /></td></tr>
 <tr class="separator:a981134cf87d85aa28570a62d9e878b10"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3a0fb3a914bfd009ff2e3918bcd231a9"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a>&lt; typename Functor::Scalar, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::kScalarsPerStsD, 128/sizeof(typename GemmConfig_::ScalarD)/GemmConfig_::kScalarsPerStsD/2 *GemmConfig_::kScalarsPerStsD &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">SharedStoreTileTraits</a></td></tr>
-<tr class="memdesc:a3a0fb3a914bfd009ff2e3918bcd231a9"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store to shared memory for D.  <a href="#a3a0fb3a914bfd009ff2e3918bcd231a9">More...</a><br /></td></tr>
-<tr class="separator:a3a0fb3a914bfd009ff2e3918bcd231a9"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a02a517fd246fb961727d3bd1b4f954be"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">SharedStoreTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">SharedStoreIteratorD</a></td></tr>
+<tr class="memitem:aad9a6190cccbc5c23a86f09c45c0e507"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a>&lt; typename Functor::ScalarAccum, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::kScalarsPerStsD, 128/sizeof(typename GemmConfig_::ScalarD)/GemmConfig_::kScalarsPerStsD/2 *GemmConfig_::kScalarsPerStsD &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">SharedStoreTileTraits</a></td></tr>
+<tr class="memdesc:aad9a6190cccbc5c23a86f09c45c0e507"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store to shared memory for D.  <a href="#aad9a6190cccbc5c23a86f09c45c0e507">More...</a><br /></td></tr>
+<tr class="separator:aad9a6190cccbc5c23a86f09c45c0e507"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a02a517fd246fb961727d3bd1b4f954be"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">SharedStoreTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">SharedStoreIteratorD</a></td></tr>
 <tr class="memdesc:a02a517fd246fb961727d3bd1b4f954be"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D to shared memory.  <a href="#a02a517fd246fb961727d3bd1b4f954be">More...</a><br /></td></tr>
 <tr class="separator:a02a517fd246fb961727d3bd1b4f954be"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa5cea8dbebda9a12a503ae1416c4da33"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">SharedStoreIteratorD::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">SharedStoreTransformerD</a></td></tr>
+<tr class="memitem:aa5cea8dbebda9a12a503ae1416c4da33"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">SharedStoreIteratorD::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">SharedStoreTransformerD</a></td></tr>
 <tr class="memdesc:aa5cea8dbebda9a12a503ae1416c4da33"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="#aa5cea8dbebda9a12a503ae1416c4da33">More...</a><br /></td></tr>
 <tr class="separator:aa5cea8dbebda9a12a503ae1416c4da33"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab8ba28fd1da48fcabbafc0de91281b46"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a>&lt; typename Functor::Scalar, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::OutputTile::kH/<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a> &gt;::kCount, GemmConfig_::kScalarsPerLdsD, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">SharedStoreTileTraits::kSkew</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">SharedLoadTileTraits</a></td></tr>
-<tr class="memdesc:ab8ba28fd1da48fcabbafc0de91281b46"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for D.  <a href="#ab8ba28fd1da48fcabbafc0de91281b46">More...</a><br /></td></tr>
-<tr class="separator:ab8ba28fd1da48fcabbafc0de91281b46"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:adbff60de6f90ef4d5ae0c7096692e2c0"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">SharedLoadTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a></td></tr>
+<tr class="memitem:a076ea17d901d22d3b69bf9c621858235"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a>&lt; typename Functor::ScalarAccum, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::OutputTile::kH/<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a> &gt;::kCount, GemmConfig_::kScalarsPerLdsD, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">SharedStoreTileTraits::kSkew</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">SharedLoadTileTraits</a></td></tr>
+<tr class="memdesc:a076ea17d901d22d3b69bf9c621858235"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for D.  <a href="#a076ea17d901d22d3b69bf9c621858235">More...</a><br /></td></tr>
+<tr class="separator:a076ea17d901d22d3b69bf9c621858235"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adbff60de6f90ef4d5ae0c7096692e2c0"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">SharedLoadTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a></td></tr>
 <tr class="memdesc:adbff60de6f90ef4d5ae0c7096692e2c0"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load D from shared memory.  <a href="#adbff60de6f90ef4d5ae0c7096692e2c0">More...</a><br /></td></tr>
 <tr class="separator:adbff60de6f90ef4d5ae0c7096692e2c0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9e511e1852668e0a242315c24888dee3"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">SharedLoadStreamD</a></td></tr>
+<tr class="memdesc:a9e511e1852668e0a242315c24888dee3"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load D.  <a href="#a9e511e1852668e0a242315c24888dee3">More...</a><br /></td></tr>
+<tr class="separator:a9e511e1852668e0a242315c24888dee3"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a94f00f94a88588522ca3f9f0197a5a9b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a>&lt; typename GemmConfig_::ScalarC const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kH/<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a> &gt;::kCount, GemmConfig_::OutputTile::kW &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Iterations::kW</a>, GemmConfig_::kScalarsPerLdgC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">GlobalLoadTileTraits</a></td></tr>
 <tr class="memdesc:a94f00f94a88588522ca3f9f0197a5a9b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for C^N.  <a href="#a94f00f94a88588522ca3f9f0197a5a9b">More...</a><br /></td></tr>
 <tr class="separator:a94f00f94a88588522ca3f9f0197a5a9b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:aeea13630bb281834b717f8d9d13a9319"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">GlobalLoadTileTraits</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">GlobalLoadIteratorC</a></td></tr>
 <tr class="memdesc:aeea13630bb281834b717f8d9d13a9319"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load C.  <a href="#aeea13630bb281834b717f8d9d13a9319">More...</a><br /></td></tr>
 <tr class="separator:aeea13630bb281834b717f8d9d13a9319"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0682b61d1a1a951026ff026bff9361bb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalLoadIteratorC::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">GlobalTransformerC</a></td></tr>
+<tr class="memitem:a0682b61d1a1a951026ff026bff9361bb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalLoadIteratorC::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">GlobalTransformerC</a></td></tr>
 <tr class="memdesc:a0682b61d1a1a951026ff026bff9361bb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for C.  <a href="#a0682b61d1a1a951026ff026bff9361bb">More...</a><br /></td></tr>
 <tr class="separator:a0682b61d1a1a951026ff026bff9361bb"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a16d7df2934c3c59d9b8f36f7a2137aee"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a>&lt; typename GemmConfig_::ScalarD, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kH/<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a> &gt;::kCount, GemmConfig_::OutputTile::kW &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Iterations::kW</a>, GemmConfig_::kScalarsPerStgD &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee">GlobalStoreTileTraits</a></td></tr>
@@ -128,7 +131,7 @@
 <tr class="memitem:a23be7b4b498c17f9235a2b4896f1bffb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee">GlobalStoreTileTraits</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">GlobalStoreIteratorD</a></td></tr>
 <tr class="memdesc:a23be7b4b498c17f9235a2b4896f1bffb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D.  <a href="#a23be7b4b498c17f9235a2b4896f1bffb">More...</a><br /></td></tr>
 <tr class="separator:a23be7b4b498c17f9235a2b4896f1bffb"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae96c5a3d58dc7a95543f8749f762ca43"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalStoreIteratorD::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">GlobalTransformerD</a></td></tr>
+<tr class="memitem:ae96c5a3d58dc7a95543f8749f762ca43"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalStoreIteratorD::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">GlobalTransformerD</a></td></tr>
 <tr class="memdesc:ae96c5a3d58dc7a95543f8749f762ca43"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for D.  <a href="#ae96c5a3d58dc7a95543f8749f762ca43">More...</a><br /></td></tr>
 <tr class="separator:ae96c5a3d58dc7a95543f8749f762ca43"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
@@ -238,7 +241,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0682b61d1a1a951026ff026b
 template&lt;typename GemmConfig_, typename EpilogueFunctor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalLoadIteratorC::Fragment</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">GlobalTransformerC</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalLoadIteratorC::Fragment</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">GlobalTransformerC</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -254,7 +257,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae96c5a3d58dc7a95543f8749
 template&lt;typename GemmConfig_, typename EpilogueFunctor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalStoreIteratorD::Fragment</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">GlobalTransformerD</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalStoreIteratorD::Fragment</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">GlobalTransformerD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -318,15 +321,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#adbff60de6f90ef4d5ae0c709
 template&lt;typename GemmConfig_, typename EpilogueFunctor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">SharedLoadTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">SharedLoadTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ab8ba28fd1da48fcabbafc0de91281b46"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab8ba28fd1da48fcabbafc0de91281b46">&#9670;&nbsp;</a></span>SharedLoadTileTraits</h2>
+<a id="a9e511e1852668e0a242315c24888dee3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9e511e1852668e0a242315c24888dee3">&#9670;&nbsp;</a></span>SharedLoadStreamD</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -334,7 +337,23 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab8ba28fd1da48fcabbafc0de
 template&lt;typename GemmConfig_, typename EpilogueFunctor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a>&lt; typename Functor::Scalar, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::OutputTile::kH / <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a>&gt;::kCount, GemmConfig_::kScalarsPerLdsD, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">SharedStoreTileTraits::kSkew</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">SharedLoadTileTraits</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">SharedLoadStreamD</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a076ea17d901d22d3b69bf9c621858235"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a076ea17d901d22d3b69bf9c621858235">&#9670;&nbsp;</a></span>SharedLoadTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_, typename EpilogueFunctor_, typename Index_ = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a>&lt; typename Functor::ScalarAccum, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::OutputTile::kH / <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a>&gt;::kCount, GemmConfig_::kScalarsPerLdsD, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a48baee6541e6359753f1bae5bd864029">SharedStoreTileTraits::kSkew</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">SharedLoadTileTraits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -350,15 +369,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#a02a517fd246fb961727d3bd1
 template&lt;typename GemmConfig_, typename EpilogueFunctor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">SharedStoreTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">SharedStoreIteratorD</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">SharedStoreTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">SharedStoreIteratorD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a3a0fb3a914bfd009ff2e3918bcd231a9"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3a0fb3a914bfd009ff2e3918bcd231a9">&#9670;&nbsp;</a></span>SharedStoreTileTraits</h2>
+<a id="aad9a6190cccbc5c23a86f09c45c0e507"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad9a6190cccbc5c23a86f09c45c0e507">&#9670;&nbsp;</a></span>SharedStoreTileTraits</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -366,7 +385,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3a0fb3a914bfd009ff2e3918
 template&lt;typename GemmConfig_, typename EpilogueFunctor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a>&lt; typename Functor::Scalar, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::kScalarsPerStsD, 128 / sizeof(typename GemmConfig_::ScalarD) / GemmConfig_::kScalarsPerStsD / 2 * GemmConfig_::kScalarsPerStsD&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">SharedStoreTileTraits</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a>&lt; typename Functor::ScalarAccum, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, GemmConfig_::kScalarsPerStsD, 128 / sizeof(typename GemmConfig_::ScalarD) / GemmConfig_::kScalarsPerStsD / 2 * GemmConfig_::kScalarsPerStsD&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">SharedStoreTileTraits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -382,7 +401,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa5cea8dbebda9a12a503ae14
 template&lt;typename GemmConfig_, typename EpilogueFunctor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename <a class="el" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">SharedStoreIteratorD::Fragment</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">SharedStoreTransformerD</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">SharedStoreIteratorD::Fragment</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper</a>&lt; GemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">SharedStoreTransformerD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -395,7 +414,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa5cea8dbebda9a12a503ae14
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params-members.html b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params-members.html
index b6a1ec7804..3608cbfb7e 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params-members.html
@@ -73,24 +73,24 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params Member List</div>  </div>
+<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#afa888d993b86ed88950a9e5ab7edeb06">functor</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a3e9d0fd2989fea776b0cab0e0f2813ce">initialize</a>(GemmDesc_ const &amp;desc)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a7350ceefcd09a9e3662ca30b780cc2ce">iterator_c</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a987c179a7e73c2572fe8aef3255668f7">iterator_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a1742e43c128665f0ca39cb578291df81">shared_load_iterator_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#af79a0c74a4c30ccec59b393721b5dfc1">shared_store_iterator_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae0fdc7426b22ff2c20f077e251ebc823">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2">stride_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adb04e5990ab7faae9e8c0b110d2e3bee">functor</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a13395bf81eabdc539c935e179c31d7ca">initialize</a>(GemmDesc_ const &amp;desc)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a0745d33dd881f6ca78b168e05b133ff8">iterator_c</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#abbcccb203f9823e621caa4475aa3d346">iterator_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a5d3d1abd85f18476a74bcf616a717f9d">shared_load_stream_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adfdf3eca06ea4061fbfe016336a3f276">shared_store_iterator_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a497b91e93d0eb29ca54553f8de4c694f">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68">stride_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html
index c94e55e07d..5f2f16c3cb 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params Struct Reference</title>
+<title>Cutlass: cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params Struct Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -77,7 +77,7 @@
 <a href="#pub-attribs">Public Attributes</a> &#124;
 <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params Struct Reference</div>  </div>
+<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params Struct Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -88,42 +88,42 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a3e9d0fd2989fea776b0cab0e0f2813ce"><td class="memTemplParams" colspan="2">template&lt;typename GemmDesc_ &gt; </td></tr>
-<tr class="memitem:a3e9d0fd2989fea776b0cab0e0f2813ce"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a3e9d0fd2989fea776b0cab0e0f2813ce">initialize</a> (GemmDesc_ const &amp;desc)</td></tr>
-<tr class="memdesc:a3e9d0fd2989fea776b0cab0e0f2813ce"><td class="mdescLeft">&#160;</td><td class="mdescRight">Setup the params.  <a href="#a3e9d0fd2989fea776b0cab0e0f2813ce">More...</a><br /></td></tr>
-<tr class="separator:a3e9d0fd2989fea776b0cab0e0f2813ce"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a13395bf81eabdc539c935e179c31d7ca"><td class="memTemplParams" colspan="2">template&lt;typename GemmDesc_ &gt; </td></tr>
+<tr class="memitem:a13395bf81eabdc539c935e179c31d7ca"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a13395bf81eabdc539c935e179c31d7ca">initialize</a> (GemmDesc_ const &amp;desc)</td></tr>
+<tr class="memdesc:a13395bf81eabdc539c935e179c31d7ca"><td class="mdescLeft">&#160;</td><td class="mdescRight">Setup the params.  <a href="#a13395bf81eabdc539c935e179c31d7ca">More...</a><br /></td></tr>
+<tr class="separator:a13395bf81eabdc539c935e179c31d7ca"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:ae0fdc7426b22ff2c20f077e251ebc823"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae0fdc7426b22ff2c20f077e251ebc823">stride_h</a></td></tr>
-<tr class="memdesc:ae0fdc7426b22ff2c20f077e251ebc823"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides for H and W in the different iterations of the epilogue.  <a href="#ae0fdc7426b22ff2c20f077e251ebc823">More...</a><br /></td></tr>
-<tr class="separator:ae0fdc7426b22ff2c20f077e251ebc823"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a565f6cab8925d632dcf24bd1974caca2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a565f6cab8925d632dcf24bd1974caca2">stride_w</a></td></tr>
-<tr class="separator:a565f6cab8925d632dcf24bd1974caca2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7350ceefcd09a9e3662ca30b780cc2ce"><td class="memItemLeft" align="right" valign="top">GlobalLoadIteratorC::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a7350ceefcd09a9e3662ca30b780cc2ce">iterator_c</a></td></tr>
-<tr class="memdesc:a7350ceefcd09a9e3662ca30b780cc2ce"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the C iterator.  <a href="#a7350ceefcd09a9e3662ca30b780cc2ce">More...</a><br /></td></tr>
-<tr class="separator:a7350ceefcd09a9e3662ca30b780cc2ce"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a987c179a7e73c2572fe8aef3255668f7"><td class="memItemLeft" align="right" valign="top">GlobalStoreIteratorD::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a987c179a7e73c2572fe8aef3255668f7">iterator_d</a></td></tr>
-<tr class="memdesc:a987c179a7e73c2572fe8aef3255668f7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the D global iterator.  <a href="#a987c179a7e73c2572fe8aef3255668f7">More...</a><br /></td></tr>
-<tr class="separator:a987c179a7e73c2572fe8aef3255668f7"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af79a0c74a4c30ccec59b393721b5dfc1"><td class="memItemLeft" align="right" valign="top">SharedStoreIteratorD::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#af79a0c74a4c30ccec59b393721b5dfc1">shared_store_iterator_d</a></td></tr>
-<tr class="memdesc:af79a0c74a4c30ccec59b393721b5dfc1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the D shared store iterator.  <a href="#af79a0c74a4c30ccec59b393721b5dfc1">More...</a><br /></td></tr>
-<tr class="separator:af79a0c74a4c30ccec59b393721b5dfc1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1742e43c128665f0ca39cb578291df81"><td class="memItemLeft" align="right" valign="top">SharedLoadIteratorD::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a1742e43c128665f0ca39cb578291df81">shared_load_iterator_d</a></td></tr>
-<tr class="memdesc:a1742e43c128665f0ca39cb578291df81"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the D shared load iterator.  <a href="#a1742e43c128665f0ca39cb578291df81">More...</a><br /></td></tr>
-<tr class="separator:a1742e43c128665f0ca39cb578291df81"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afa888d993b86ed88950a9e5ab7edeb06"><td class="memItemLeft" align="right" valign="top">Functor::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#afa888d993b86ed88950a9e5ab7edeb06">functor</a></td></tr>
-<tr class="memdesc:afa888d993b86ed88950a9e5ab7edeb06"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor params.  <a href="#afa888d993b86ed88950a9e5ab7edeb06">More...</a><br /></td></tr>
-<tr class="separator:afa888d993b86ed88950a9e5ab7edeb06"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a497b91e93d0eb29ca54553f8de4c694f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a497b91e93d0eb29ca54553f8de4c694f">stride_h</a></td></tr>
+<tr class="memdesc:a497b91e93d0eb29ca54553f8de4c694f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides for H and W in the different iterations of the epilogue.  <a href="#a497b91e93d0eb29ca54553f8de4c694f">More...</a><br /></td></tr>
+<tr class="separator:a497b91e93d0eb29ca54553f8de4c694f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae814ac640d05358a3ce0ea70ed13ea68"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#ae814ac640d05358a3ce0ea70ed13ea68">stride_w</a></td></tr>
+<tr class="separator:ae814ac640d05358a3ce0ea70ed13ea68"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0745d33dd881f6ca78b168e05b133ff8"><td class="memItemLeft" align="right" valign="top">GlobalLoadIteratorC::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a0745d33dd881f6ca78b168e05b133ff8">iterator_c</a></td></tr>
+<tr class="memdesc:a0745d33dd881f6ca78b168e05b133ff8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the C iterator.  <a href="#a0745d33dd881f6ca78b168e05b133ff8">More...</a><br /></td></tr>
+<tr class="separator:a0745d33dd881f6ca78b168e05b133ff8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abbcccb203f9823e621caa4475aa3d346"><td class="memItemLeft" align="right" valign="top">GlobalStoreIteratorD::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#abbcccb203f9823e621caa4475aa3d346">iterator_d</a></td></tr>
+<tr class="memdesc:abbcccb203f9823e621caa4475aa3d346"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the D global iterator.  <a href="#abbcccb203f9823e621caa4475aa3d346">More...</a><br /></td></tr>
+<tr class="separator:abbcccb203f9823e621caa4475aa3d346"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adfdf3eca06ea4061fbfe016336a3f276"><td class="memItemLeft" align="right" valign="top">SharedStoreIteratorD::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adfdf3eca06ea4061fbfe016336a3f276">shared_store_iterator_d</a></td></tr>
+<tr class="memdesc:adfdf3eca06ea4061fbfe016336a3f276"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the D shared store iterator.  <a href="#adfdf3eca06ea4061fbfe016336a3f276">More...</a><br /></td></tr>
+<tr class="separator:adfdf3eca06ea4061fbfe016336a3f276"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5d3d1abd85f18476a74bcf616a717f9d"><td class="memItemLeft" align="right" valign="top">SharedLoadStreamD::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#a5d3d1abd85f18476a74bcf616a717f9d">shared_load_stream_d</a></td></tr>
+<tr class="memdesc:a5d3d1abd85f18476a74bcf616a717f9d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the D shared load stream.  <a href="#a5d3d1abd85f18476a74bcf616a717f9d">More...</a><br /></td></tr>
+<tr class="separator:a5d3d1abd85f18476a74bcf616a717f9d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adb04e5990ab7faae9e8c0b110d2e3bee"><td class="memItemLeft" align="right" valign="top">Functor::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1Params.html#adb04e5990ab7faae9e8c0b110d2e3bee">functor</a></td></tr>
+<tr class="memdesc:adb04e5990ab7faae9e8c0b110d2e3bee"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor params.  <a href="#adb04e5990ab7faae9e8c0b110d2e3bee">More...</a><br /></td></tr>
+<tr class="separator:adb04e5990ab7faae9e8c0b110d2e3bee"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a3e9d0fd2989fea776b0cab0e0f2813ce"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3e9d0fd2989fea776b0cab0e0f2813ce">&#9670;&nbsp;</a></span>initialize()</h2>
+<a id="a13395bf81eabdc539c935e179c31d7ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a13395bf81eabdc539c935e179c31d7ca">&#9670;&nbsp;</a></span>initialize()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
 <div class="memtemplate">
 template&lt;typename GemmDesc_ &gt; </div>
 <table class="mlabels">
@@ -131,7 +131,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3e9d0fd2989fea776b0cab0e
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::initialize </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::initialize </td>
           <td>(</td>
           <td class="paramtype">GemmDesc_ const &amp;&#160;</td>
           <td class="paramname"><em>desc</em></td><td>)</td>
@@ -148,112 +148,112 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3e9d0fd2989fea776b0cab0e
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="afa888d993b86ed88950a9e5ab7edeb06"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#afa888d993b86ed88950a9e5ab7edeb06">&#9670;&nbsp;</a></span>functor</h2>
+<a id="adb04e5990ab7faae9e8c0b110d2e3bee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adb04e5990ab7faae9e8c0b110d2e3bee">&#9670;&nbsp;</a></span>functor</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">Functor::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::functor</td>
+          <td class="memname">Functor::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::functor</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7350ceefcd09a9e3662ca30b780cc2ce"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7350ceefcd09a9e3662ca30b780cc2ce">&#9670;&nbsp;</a></span>iterator_c</h2>
+<a id="a0745d33dd881f6ca78b168e05b133ff8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0745d33dd881f6ca78b168e05b133ff8">&#9670;&nbsp;</a></span>iterator_c</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">GlobalLoadIteratorC::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::iterator_c</td>
+          <td class="memname">GlobalLoadIteratorC::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::iterator_c</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a987c179a7e73c2572fe8aef3255668f7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a987c179a7e73c2572fe8aef3255668f7">&#9670;&nbsp;</a></span>iterator_d</h2>
+<a id="abbcccb203f9823e621caa4475aa3d346"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abbcccb203f9823e621caa4475aa3d346">&#9670;&nbsp;</a></span>iterator_d</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">GlobalStoreIteratorD::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::iterator_d</td>
+          <td class="memname">GlobalStoreIteratorD::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::iterator_d</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a1742e43c128665f0ca39cb578291df81"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1742e43c128665f0ca39cb578291df81">&#9670;&nbsp;</a></span>shared_load_iterator_d</h2>
+<a id="a5d3d1abd85f18476a74bcf616a717f9d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5d3d1abd85f18476a74bcf616a717f9d">&#9670;&nbsp;</a></span>shared_load_stream_d</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">SharedLoadIteratorD::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::shared_load_iterator_d</td>
+          <td class="memname">SharedLoadStreamD::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::shared_load_stream_d</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="af79a0c74a4c30ccec59b393721b5dfc1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af79a0c74a4c30ccec59b393721b5dfc1">&#9670;&nbsp;</a></span>shared_store_iterator_d</h2>
+<a id="adfdf3eca06ea4061fbfe016336a3f276"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adfdf3eca06ea4061fbfe016336a3f276">&#9670;&nbsp;</a></span>shared_store_iterator_d</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">SharedStoreIteratorD::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::shared_store_iterator_d</td>
+          <td class="memname">SharedStoreIteratorD::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::shared_store_iterator_d</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ae0fdc7426b22ff2c20f077e251ebc823"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae0fdc7426b22ff2c20f077e251ebc823">&#9670;&nbsp;</a></span>stride_h</h2>
+<a id="a497b91e93d0eb29ca54553f8de4c694f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a497b91e93d0eb29ca54553f8de4c694f">&#9670;&nbsp;</a></span>stride_h</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::stride_h</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::stride_h</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a565f6cab8925d632dcf24bd1974caca2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a565f6cab8925d632dcf24bd1974caca2">&#9670;&nbsp;</a></span>stride_w</h2>
+<a id="ae814ac640d05358a3ce0ea70ed13ea68"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae814ac640d05358a3ce0ea70ed13ea68">&#9670;&nbsp;</a></span>stride_w</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::stride_w</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::Params::stride_w</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -266,7 +266,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a565f6cab8925d632dcf24bd1
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage-members.html b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage-members.html
index 4856ef616e..9fdea968c3 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage-members.html
@@ -73,17 +73,18 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage Member List</div>  </div>
+<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#ae63b5a52106dbd37ea304196335ec210">shared_stream</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a0e05007f939b27e6a17dce5c2a49e3e0">data</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a64ecac7d5843c38e55df78dcf609d33e">shared_stream</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html
index 4cad48c739..cad6b91dae 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage Struct Reference</title>
+<title>Cutlass: cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage Struct Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -73,10 +73,11 @@
 </div><!-- top -->
 <div class="header">
   <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
 <a href="#pub-attribs">Public Attributes</a> &#124;
 <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage Struct Reference</div>  </div>
+<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage Struct Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -85,22 +86,55 @@
 
 <p><code>#include &lt;<a class="el" href="gemm__epilogue__traits_8h_source.html">gemm_epilogue_traits.h</a>&gt;</code></p>
 <table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a0e05007f939b27e6a17dce5c2a49e3e0"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a> *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a0e05007f939b27e6a17dce5c2a49e3e0">data</a> ()</td></tr>
+<tr class="separator:a0e05007f939b27e6a17dce5c2a49e3e0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:ae63b5a52106dbd37ea304196335ec210"><td class="memItemLeft" align="right" valign="top"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#ae63b5a52106dbd37ea304196335ec210">shared_stream</a></td></tr>
-<tr class="separator:ae63b5a52106dbd37ea304196335ec210"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64ecac7d5843c38e55df78dcf609d33e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits_1_1SharedStorage.html#a64ecac7d5843c38e55df78dcf609d33e">shared_stream</a></td></tr>
+<tr class="separator:a64ecac7d5843c38e55df78dcf609d33e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a0e05007f939b27e6a17dce5c2a49e3e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0e05007f939b27e6a17dce5c2a49e3e0">&#9670;&nbsp;</a></span>data()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a>* <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage::data </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="ae63b5a52106dbd37ea304196335ec210"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae63b5a52106dbd37ea304196335ec210">&#9670;&nbsp;</a></span>shared_stream</h2>
+<a id="a64ecac7d5843c38e55df78dcf609d33e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a64ecac7d5843c38e55df78dcf609d33e">&#9670;&nbsp;</a></span>shared_stream</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage::shared_stream</td>
+          <td class="memname"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::SharedStorage::shared_stream</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -113,7 +147,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae63b5a52106dbd37ea304196
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb-members.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb-members.html
index 7e4746ea81..83f2695807 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb-members.html
@@ -79,62 +79,69 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">BaseParams</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3af66b82b1a0cc5bf6141f940553e048">data</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6">add_pointer_offset</a>(Index offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">BaseParams</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a34cb153d311377388e7819296a84d07e">GemmGlobalIteratorAb</a>(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a9dea455aa86bb59517b4a4d0309e424b">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1e42503e5a54cdc01308e9030aebdd35">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aa24336597f4a3316d94df6ab0c20f714">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64">inc_stage</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5">GemmGlobalIteratorAb</a>(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;threadblock_offset, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">inc_stage</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab9375d9e779dcda79a5cd561bb3762ff">initialize_predicates</a>(const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5">TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98">kIteratorFragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc">kRequiresLoadFence</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140">load</a>(Fragment &amp;fragment, PredicateIterator pred_it) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db">load</a>(Fragment &amp;fragment) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915">load_post_increment</a>(Fragment &amp;fragment, PredicateIterator pred_it)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d">load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aab37ea6c47e34466371314ed3971dc7b">residue</a>(Index k)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e">TileLoadIterator</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a93e166575be3b2f7489833ae5da23f23">TileLoadIterator</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a53282fa4cb33cfcec79033d26e418af6">TileLoadIterator</a>(Params const &amp;, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ac4d2c293f9312b673ea29bf79b2882fd">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018">initialize_predicates</a>(const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block_offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::initialize_predicates</a>(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">kFragmentElementType</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126">kRequiresLoadFence</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">load</a>(Fragment &amp;fragment, PredicateIterator pred_it) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">load</a>(Fragment &amp;fragment) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">load</a>(Fragment &amp;fragment, int d)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">load_element</a>(typename Base::AccessType &amp;value, int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7">load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::load_post_increment</a>(Fragment &amp;fragment, PredicateIterator pred_it)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af">operator+=</a>(Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593">residue</a>(Index k)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7">stride_advance</a>(void)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">TileLoadIterator</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">TileLoadIterator</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">TileLoadIterator</a>(Params const &amp;, Scalar const *ptr, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html
index 4210572d79..a795acf02c 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html
@@ -92,7 +92,8 @@
   <img src="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.png" usemap="#cutlass::gemm::GemmGlobalIteratorAb_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map" alt=""/>
   <map id="cutlass::gemm::GemmGlobalIteratorAb_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map" name="cutlass::gemm::GemmGlobalIteratorAb_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map">
 <area href="structcutlass_1_1TileLoadIterator.html" alt="cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;" shape="rect" coords="0,56,1003,80"/>
-<area href="structcutlass_1_1TileIteratorBase.html" alt="cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;" shape="rect" coords="0,0,1003,24"/>
+<area href="structcutlass_1_1TileIteratorBase.html" alt="cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;" shape="rect" coords="0,0,1003,24"/>
+<area href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html" alt="cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;" shape="rect" coords="0,168,1003,192"/>
 </map>
  </div></div>
 <table class="memberdecls">
@@ -109,7 +110,10 @@
 <tr class="memitem:ae13e0d30a941e16875f196b4844b03ed"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; TileTraits_, typename TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a> :<a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">IteratorAdvance::kW</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">Base</a></td></tr>
 <tr class="memdesc:ae13e0d30a941e16875f196b4844b03ed"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base class.  <a href="#ae13e0d30a941e16875f196b4844b03ed">More...</a><br /></td></tr>
 <tr class="separator:ae13e0d30a941e16875f196b4844b03ed"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2180cfbb482d300472ad2993e4b555d4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a></td></tr>
+<tr class="memitem:a646bd38ab95cdf0379ecb372839a9111"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">Tile</a></td></tr>
+<tr class="memdesc:a646bd38ab95cdf0379ecb372839a9111"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="#a646bd38ab95cdf0379ecb372839a9111">More...</a><br /></td></tr>
+<tr class="separator:a646bd38ab95cdf0379ecb372839a9111"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2180cfbb482d300472ad2993e4b555d4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a></td></tr>
 <tr class="memdesc:a2180cfbb482d300472ad2993e4b555d4"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> type loaded by the iterator.  <a href="#a2180cfbb482d300472ad2993e4b555d4">More...</a><br /></td></tr>
 <tr class="separator:a2180cfbb482d300472ad2993e4b555d4"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a5817b81c7013db9a3f7394ad4b1db79a"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a></td></tr>
@@ -124,7 +128,7 @@
 <tr class="memitem:afd09d3b8e5ca04eab7edc2e5723816e5"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a></td></tr>
 <tr class="memdesc:afd09d3b8e5ca04eab7edc2e5723816e5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The thread offset.  <a href="#afd09d3b8e5ca04eab7edc2e5723816e5">More...</a><br /></td></tr>
 <tr class="separator:afd09d3b8e5ca04eab7edc2e5723816e5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3dd74f6e12339a87c0eb8f75fbdc7b9c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">Base::Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a></td></tr>
+<tr class="memitem:a3dd74f6e12339a87c0eb8f75fbdc7b9c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">Base::Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a></td></tr>
 <tr class="separator:a3dd74f6e12339a87c0eb8f75fbdc7b9c"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a09268125f1e323874f6c12b50185c517"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Base::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">BaseParams</a></td></tr>
 <tr class="memdesc:a09268125f1e323874f6c12b50185c517"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterator parameters type.  <a href="#a09268125f1e323874f6c12b50185c517">More...</a><br /></td></tr>
@@ -133,188 +137,218 @@
 <tr class="memitem:a1f3601c595f12e7083919ece9b1ec84e inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"></td></tr>
 <tr class="memdesc:a1f3601c595f12e7083919ece9b1ec84e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Do we require a fence?  <a href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84e">More...</a><br /></td></tr>
 <tr class="separator:a1f3601c595f12e7083919ece9b1ec84e inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1bc1bd4893c14b313ee71b71db2903f3 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt; TileTraits_, TileTraits_::Scalar, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3">Base</a></td></tr>
-<tr class="memdesc:a1bc1bd4893c14b313ee71b71db2903f3 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base class.  <a href="structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3">More...</a><br /></td></tr>
-<tr class="separator:a1bc1bd4893c14b313ee71b71db2903f3 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7c6182031d9aa41d0e4a64516723e20a inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Base::Traits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a">Traits</a></td></tr>
-<tr class="memdesc:a7c6182031d9aa41d0e4a64516723e20a inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept TileTraits  <a href="structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a">More...</a><br /></td></tr>
-<tr class="separator:a7c6182031d9aa41d0e4a64516723e20a inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae8dff52e619f06fbdbca8cb847c79895 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Base::Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a></td></tr>
-<tr class="memdesc:ae8dff52e619f06fbdbca8cb847c79895 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">More...</a><br /></td></tr>
-<tr class="separator:ae8dff52e619f06fbdbca8cb847c79895 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2edd89863b8035137ccd8dd3ad7be464 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">Base::FragmentElement</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464">FragmentElement</a></td></tr>
-<tr class="memdesc:a2edd89863b8035137ccd8dd3ad7be464 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment element.  <a href="structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464">More...</a><br /></td></tr>
-<tr class="separator:a2edd89863b8035137ccd8dd3ad7be464 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aaa83f05e0cb3204053c3ee1da036cd36 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Base::Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36">Index</a></td></tr>
-<tr class="memdesc:aaa83f05e0cb3204053c3ee1da036cd36 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36">More...</a><br /></td></tr>
-<tr class="separator:aaa83f05e0cb3204053c3ee1da036cd36 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a11ec4297c9a1352c8005ac222892b35c inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Base::Skew</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c">Skew</a></td></tr>
-<tr class="memdesc:a11ec4297c9a1352c8005ac222892b35c inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c">More...</a><br /></td></tr>
-<tr class="separator:a11ec4297c9a1352c8005ac222892b35c inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7f1499ada284c21624487d4d3a5dbd10 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Base::Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10">Tile</a></td></tr>
-<tr class="memdesc:a7f1499ada284c21624487d4d3a5dbd10 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10">More...</a><br /></td></tr>
-<tr class="separator:a7f1499ada284c21624487d4d3a5dbd10 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac2a7f94723259f0d3c7b8a6d5b8778bf inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Base::Delta</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf">Delta</a></td></tr>
-<tr class="memdesc:ac2a7f94723259f0d3c7b8a6d5b8778bf inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Delta.  <a href="structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf">More...</a><br /></td></tr>
-<tr class="separator:ac2a7f94723259f0d3c7b8a6d5b8778bf inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9720b1e4a10c2d5aa85f9a9c66a31bbf inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Base::Iterations</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">Iterations</a></td></tr>
-<tr class="memdesc:a9720b1e4a10c2d5aa85f9a9c66a31bbf inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">More...</a><br /></td></tr>
-<tr class="separator:a9720b1e4a10c2d5aa85f9a9c66a31bbf inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8a1527b4b469ae1f97afde2502ece70d inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">Base::ThreadOffset</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">ThreadOffset</a></td></tr>
-<tr class="memdesc:a8a1527b4b469ae1f97afde2502ece70d inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">ThreadOffset functor.  <a href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">More...</a><br /></td></tr>
-<tr class="separator:a8a1527b4b469ae1f97afde2502ece70d inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7c27a7b0d8593b002eca186c15fdc869 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">Base::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869">FragmentShape</a></td></tr>
-<tr class="memdesc:a7c27a7b0d8593b002eca186c15fdc869 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment type.  <a href="structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869">More...</a><br /></td></tr>
-<tr class="separator:a7c27a7b0d8593b002eca186c15fdc869 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4af8eeabe7c1ec0362782687a84466e0 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">Base::AccessType</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0">AccessType</a></td></tr>
-<tr class="memdesc:a4af8eeabe7c1ec0362782687a84466e0 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory access type.  <a href="structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0">More...</a><br /></td></tr>
-<tr class="separator:a4af8eeabe7c1ec0362782687a84466e0 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aaf72c4897641080b1d84c0bbd8d813cc inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">Fragment</a></td></tr>
-<tr class="memdesc:aaf72c4897641080b1d84c0bbd8d813cc inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment definition.  <a href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">More...</a><br /></td></tr>
-<tr class="separator:aaf72c4897641080b1d84c0bbd8d813cc inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aebbe5a0996dcd362caad618e78dc2591 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">Base::FragmentIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591">FragmentIterator</a></td></tr>
-<tr class="memdesc:aebbe5a0996dcd362caad618e78dc2591 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment iterator definition.  <a href="structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591">More...</a><br /></td></tr>
-<tr class="separator:aebbe5a0996dcd362caad618e78dc2591 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4c7a3a4917245de8269b74bdabe16b76 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">Base::FragmentConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76">FragmentConstIterator</a></td></tr>
-<tr class="memdesc:a4c7a3a4917245de8269b74bdabe16b76 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment const iterator definition.  <a href="structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76">More...</a><br /></td></tr>
-<tr class="separator:a4c7a3a4917245de8269b74bdabe16b76 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a64ae02b44f275ef2f016949aec769328 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">Base::PredicateVector</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328">PredicateVector</a></td></tr>
-<tr class="memdesc:a64ae02b44f275ef2f016949aec769328 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328">More...</a><br /></td></tr>
-<tr class="separator:a64ae02b44f275ef2f016949aec769328 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab457bd7953af9ef418510f55f52d1f39 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Base::Storage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a></td></tr>
-<tr class="memdesc:ab457bd7953af9ef418510f55f52d1f39 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage object that may be loaded from.  <a href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">More...</a><br /></td></tr>
-<tr class="separator:ab457bd7953af9ef418510f55f52d1f39 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a788bab4fa46dc26854348b751cf1cc76 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef Base::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76">BaseParams</a></td></tr>
-<tr class="memdesc:a788bab4fa46dc26854348b751cf1cc76 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">IteratorBase parameters.  <a href="structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76">More...</a><br /></td></tr>
-<tr class="separator:a788bab4fa46dc26854348b751cf1cc76 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5a179e148ccd770e1703f288624fa9b8 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> const *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">Pointer</a></td></tr>
-<tr class="memdesc:a5a179e148ccd770e1703f288624fa9b8 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer type.  <a href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">More...</a><br /></td></tr>
-<tr class="separator:a5a179e148ccd770e1703f288624fa9b8 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_types_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
-<tr class="memitem:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a></td></tr>
-<tr class="memdesc:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept TileTraits  <a href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">More...</a><br /></td></tr>
-<tr class="separator:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a></td></tr>
-<tr class="memdesc:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">More...</a><br /></td></tr>
-<tr class="separator:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a></td></tr>
-<tr class="memdesc:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment element.  <a href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">More...</a><br /></td></tr>
-<tr class="separator:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a></td></tr>
-<tr class="memdesc:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">More...</a><br /></td></tr>
-<tr class="separator:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a></td></tr>
-<tr class="memdesc:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">More...</a><br /></td></tr>
-<tr class="separator:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a></td></tr>
-<tr class="memdesc:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">More...</a><br /></td></tr>
-<tr class="separator:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a></td></tr>
-<tr class="memdesc:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">More...</a><br /></td></tr>
-<tr class="separator:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a></td></tr>
-<tr class="memdesc:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">More...</a><br /></td></tr>
-<tr class="separator:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a></td></tr>
-<tr class="memdesc:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">More...</a><br /></td></tr>
-<tr class="separator:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a></td></tr>
-<tr class="memdesc:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">More...</a><br /></td></tr>
-<tr class="separator:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a></td></tr>
-<tr class="memdesc:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">More...</a><br /></td></tr>
-<tr class="separator:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a></td></tr>
-<tr class="memdesc:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">More...</a><br /></td></tr>
-<tr class="separator:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a></td></tr>
-<tr class="memdesc:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">More...</a><br /></td></tr>
-<tr class="separator:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a></td></tr>
-<tr class="memdesc:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">More...</a><br /></td></tr>
-<tr class="separator:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a></td></tr>
-<tr class="memdesc:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">More...</a><br /></td></tr>
-<tr class="separator:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a></td></tr>
-<tr class="memdesc:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">More...</a><br /></td></tr>
-<tr class="separator:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a></td></tr>
-<tr class="memdesc:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">More...</a><br /></td></tr>
-<tr class="separator:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1dcbf633eac61ff06980e4992fbe8264 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt; TileTraits_, TileTraits_::Scalar, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">Base</a></td></tr>
+<tr class="memdesc:a1dcbf633eac61ff06980e4992fbe8264 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base class.  <a href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">More...</a><br /></td></tr>
+<tr class="separator:a1dcbf633eac61ff06980e4992fbe8264 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6a5d065939282fa1b9454b28a1e73948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Base::Traits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">Traits</a></td></tr>
+<tr class="memdesc:a6a5d065939282fa1b9454b28a1e73948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept TileTraits  <a href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">More...</a><br /></td></tr>
+<tr class="separator:a6a5d065939282fa1b9454b28a1e73948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aafbb7a2137a07f0e07a12838b66bd511 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Base::Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a></td></tr>
+<tr class="memdesc:aafbb7a2137a07f0e07a12838b66bd511 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">More...</a><br /></td></tr>
+<tr class="separator:aafbb7a2137a07f0e07a12838b66bd511 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a70dfd0b62feb082d8da34af09d9524a6 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">FragmentElement</a></td></tr>
+<tr class="memdesc:a70dfd0b62feb082d8da34af09d9524a6 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment element.  <a href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">More...</a><br /></td></tr>
+<tr class="separator:a70dfd0b62feb082d8da34af09d9524a6 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaa5d98b72576478ba04e4ad554faa827 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Base::Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">Index</a></td></tr>
+<tr class="memdesc:aaa5d98b72576478ba04e4ad554faa827 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">More...</a><br /></td></tr>
+<tr class="separator:aaa5d98b72576478ba04e4ad554faa827 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb6cc0e2990c06c83b789b579a03b15f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Base::Skew</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">Skew</a></td></tr>
+<tr class="memdesc:aeb6cc0e2990c06c83b789b579a03b15f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">More...</a><br /></td></tr>
+<tr class="separator:aeb6cc0e2990c06c83b789b579a03b15f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a88eaa581e0b5419b98ee5a71073d0539 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Base::Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">Tile</a></td></tr>
+<tr class="memdesc:a88eaa581e0b5419b98ee5a71073d0539 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">More...</a><br /></td></tr>
+<tr class="separator:a88eaa581e0b5419b98ee5a71073d0539 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afc68649cb9bb32931b27e711c7ce2604 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Base::Delta</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">Delta</a></td></tr>
+<tr class="memdesc:afc68649cb9bb32931b27e711c7ce2604 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Delta.  <a href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">More...</a><br /></td></tr>
+<tr class="separator:afc68649cb9bb32931b27e711c7ce2604 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6c570dfa1cb68d436d8da6bd23cce6ce inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Base::Iterations</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">Iterations</a></td></tr>
+<tr class="memdesc:a6c570dfa1cb68d436d8da6bd23cce6ce inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">More...</a><br /></td></tr>
+<tr class="separator:a6c570dfa1cb68d436d8da6bd23cce6ce inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae8cb43a98cd2fa28f6457afbda8ec58a inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">Base::ThreadOffset</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">ThreadOffset</a></td></tr>
+<tr class="memdesc:ae8cb43a98cd2fa28f6457afbda8ec58a inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">ThreadOffset functor.  <a href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">More...</a><br /></td></tr>
+<tr class="separator:ae8cb43a98cd2fa28f6457afbda8ec58a inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a46a2cbf407d3f43a7441323d150d96f1 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">Base::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">FragmentShape</a></td></tr>
+<tr class="memdesc:a46a2cbf407d3f43a7441323d150d96f1 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment type.  <a href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">More...</a><br /></td></tr>
+<tr class="separator:a46a2cbf407d3f43a7441323d150d96f1 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae8f2c93ec43646be70d4b9f32d034125 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">AccessType</a></td></tr>
+<tr class="memdesc:ae8f2c93ec43646be70d4b9f32d034125 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory access type.  <a href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">More...</a><br /></td></tr>
+<tr class="separator:ae8f2c93ec43646be70d4b9f32d034125 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4604b230174b11bc7ddf5f3e9a922139 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">Fragment</a></td></tr>
+<tr class="memdesc:a4604b230174b11bc7ddf5f3e9a922139 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment definition.  <a href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">More...</a><br /></td></tr>
+<tr class="separator:a4604b230174b11bc7ddf5f3e9a922139 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad9c77ca0521d18a90dd3542a3941f016 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">Base::FragmentIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">FragmentIterator</a></td></tr>
+<tr class="memdesc:ad9c77ca0521d18a90dd3542a3941f016 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment iterator definition.  <a href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">More...</a><br /></td></tr>
+<tr class="separator:ad9c77ca0521d18a90dd3542a3941f016 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad272502e5a54615584bb037a33ff1dca inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">Base::FragmentConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:ad272502e5a54615584bb037a33ff1dca inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment const iterator definition.  <a href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">More...</a><br /></td></tr>
+<tr class="separator:ad272502e5a54615584bb037a33ff1dca inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad71f865c61f02eba981c056ef71653f5 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">Base::PredicateVector</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">PredicateVector</a></td></tr>
+<tr class="memdesc:ad71f865c61f02eba981c056ef71653f5 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">More...</a><br /></td></tr>
+<tr class="separator:ad71f865c61f02eba981c056ef71653f5 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a57eff980f6b1086abe39dd617de5b948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Base::Storage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a></td></tr>
+<tr class="memdesc:a57eff980f6b1086abe39dd617de5b948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage object that may be loaded from.  <a href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">More...</a><br /></td></tr>
+<tr class="separator:a57eff980f6b1086abe39dd617de5b948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aebb9153659320f1391671c215c519e inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef Base::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">BaseParams</a></td></tr>
+<tr class="memdesc:a9aebb9153659320f1391671c215c519e inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">IteratorBase parameters.  <a href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">More...</a><br /></td></tr>
+<tr class="separator:a9aebb9153659320f1391671c215c519e inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a39acc5c35c8db019a3aeef79e8005b7f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">Pointer</a></td></tr>
+<tr class="memdesc:a39acc5c35c8db019a3aeef79e8005b7f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer type.  <a href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">More...</a><br /></td></tr>
+<tr class="separator:a39acc5c35c8db019a3aeef79e8005b7f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a146adfb1951efd70995b05a7a31fd548 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const, 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a></td></tr>
+<tr class="memdesc:a146adfb1951efd70995b05a7a31fd548 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference for the load iterator.  <a href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">More...</a><br /></td></tr>
+<tr class="separator:a146adfb1951efd70995b05a7a31fd548 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
+<tr class="memitem:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a></td></tr>
+<tr class="memdesc:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept TileTraits  <a href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">More...</a><br /></td></tr>
+<tr class="separator:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a></td></tr>
+<tr class="memdesc:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">More...</a><br /></td></tr>
+<tr class="separator:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a></td></tr>
+<tr class="memdesc:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment element.  <a href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">More...</a><br /></td></tr>
+<tr class="separator:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a></td></tr>
+<tr class="memdesc:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">More...</a><br /></td></tr>
+<tr class="separator:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a></td></tr>
+<tr class="memdesc:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">More...</a><br /></td></tr>
+<tr class="separator:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a></td></tr>
+<tr class="memdesc:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">More...</a><br /></td></tr>
+<tr class="separator:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a></td></tr>
+<tr class="memdesc:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">More...</a><br /></td></tr>
+<tr class="separator:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">More...</a><br /></td></tr>
+<tr class="separator:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a></td></tr>
+<tr class="memdesc:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">More...</a><br /></td></tr>
+<tr class="separator:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a></td></tr>
+<tr class="memdesc:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">More...</a><br /></td></tr>
+<tr class="separator:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a></td></tr>
+<tr class="memdesc:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">More...</a><br /></td></tr>
+<tr class="separator:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a></td></tr>
+<tr class="memdesc:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">More...</a><br /></td></tr>
+<tr class="separator:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a></td></tr>
+<tr class="memdesc:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">More...</a><br /></td></tr>
+<tr class="separator:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a></td></tr>
+<tr class="memdesc:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">More...</a><br /></td></tr>
+<tr class="separator:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">More...</a><br /></td></tr>
+<tr class="separator:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a></td></tr>
+<tr class="memdesc:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">More...</a><br /></td></tr>
+<tr class="separator:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a></td></tr>
+<tr class="memdesc:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">More...</a><br /></td></tr>
+<tr class="separator:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:ab9375d9e779dcda79a5cd561bb3762ff"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab9375d9e779dcda79a5cd561bb3762ff">initialize_predicates</a> (const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block)</td></tr>
-<tr class="separator:ab9375d9e779dcda79a5cd561bb3762ff"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a34cb153d311377388e7819296a84d07e"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a34cb153d311377388e7819296a84d07e">GemmGlobalIteratorAb</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a> const &amp;_params, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a>())</td></tr>
-<tr class="memdesc:a34cb153d311377388e7819296a84d07e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a34cb153d311377388e7819296a84d07e">More...</a><br /></td></tr>
-<tr class="separator:a34cb153d311377388e7819296a84d07e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa24336597f4a3316d94df6ab0c20f714"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aa24336597f4a3316d94df6ab0c20f714">inc_h</a> ()</td></tr>
-<tr class="memdesc:aa24336597f4a3316d94df6ab0c20f714"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the H dimension.  <a href="#aa24336597f4a3316d94df6ab0c20f714">More...</a><br /></td></tr>
-<tr class="separator:aa24336597f4a3316d94df6ab0c20f714"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1e42503e5a54cdc01308e9030aebdd35"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1e42503e5a54cdc01308e9030aebdd35">inc_d</a> ()</td></tr>
-<tr class="memdesc:a1e42503e5a54cdc01308e9030aebdd35"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the D dimension.  <a href="#a1e42503e5a54cdc01308e9030aebdd35">More...</a><br /></td></tr>
-<tr class="separator:a1e42503e5a54cdc01308e9030aebdd35"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9dea455aa86bb59517b4a4d0309e424b"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a9dea455aa86bb59517b4a4d0309e424b">inc_advance</a> ()</td></tr>
-<tr class="memdesc:a9dea455aa86bb59517b4a4d0309e424b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer to move to the next iteration.  <a href="#a9dea455aa86bb59517b4a4d0309e424b">More...</a><br /></td></tr>
-<tr class="separator:a9dea455aa86bb59517b4a4d0309e424b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3af66b82b1a0cc5bf6141f940553e048"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3af66b82b1a0cc5bf6141f940553e048">data</a> () const</td></tr>
-<tr class="memdesc:a3af66b82b1a0cc5bf6141f940553e048"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the current pointer.  <a href="#a3af66b82b1a0cc5bf6141f940553e048">More...</a><br /></td></tr>
-<tr class="separator:a3af66b82b1a0cc5bf6141f940553e048"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aab37ea6c47e34466371314ed3971dc7b"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aab37ea6c47e34466371314ed3971dc7b">residue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> k)</td></tr>
-<tr class="memdesc:aab37ea6c47e34466371314ed3971dc7b"><td class="mdescLeft">&#160;</td><td class="mdescRight">That's the residue! Update the predicates.  <a href="#aab37ea6c47e34466371314ed3971dc7b">More...</a><br /></td></tr>
-<tr class="separator:aab37ea6c47e34466371314ed3971dc7b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac4d2c293f9312b673ea29bf79b2882fd"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ac4d2c293f9312b673ea29bf79b2882fd">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:ac4d2c293f9312b673ea29bf79b2882fd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="#ac4d2c293f9312b673ea29bf79b2882fd">More...</a><br /></td></tr>
-<tr class="separator:ac4d2c293f9312b673ea29bf79b2882fd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aba8142a7a3b43da97f7968d98f3ba018"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018">initialize_predicates</a> (const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block_offset)</td></tr>
+<tr class="separator:aba8142a7a3b43da97f7968d98f3ba018"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab61ce6b04d72d2652ee3bffca3885fe5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5">GemmGlobalIteratorAb</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a> const &amp;_params, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;threadblock_offset, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:ab61ce6b04d72d2652ee3bffca3885fe5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ab61ce6b04d72d2652ee3bffca3885fe5">More...</a><br /></td></tr>
+<tr class="separator:ab61ce6b04d72d2652ee3bffca3885fe5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a760404b7879a38364d7eef47fc1fe209"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">inc_w</a> ()</td></tr>
+<tr class="memdesc:a760404b7879a38364d7eef47fc1fe209"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the W dimension.  <a href="#a760404b7879a38364d7eef47fc1fe209">More...</a><br /></td></tr>
+<tr class="separator:a760404b7879a38364d7eef47fc1fe209"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1d86f7e16bd11e10c94b0c14111c8c14"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">inc_h</a> ()</td></tr>
+<tr class="memdesc:a1d86f7e16bd11e10c94b0c14111c8c14"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the H dimension.  <a href="#a1d86f7e16bd11e10c94b0c14111c8c14">More...</a><br /></td></tr>
+<tr class="separator:a1d86f7e16bd11e10c94b0c14111c8c14"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2ad473e8f2fa2694617ee39ead5c41b3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">inc_d</a> ()</td></tr>
+<tr class="memdesc:a2ad473e8f2fa2694617ee39ead5c41b3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the D dimension.  <a href="#a2ad473e8f2fa2694617ee39ead5c41b3">More...</a><br /></td></tr>
+<tr class="separator:a2ad473e8f2fa2694617ee39ead5c41b3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae3ecef6501f0761051f298eb7cefcacf"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">inc_advance</a> ()</td></tr>
+<tr class="memdesc:ae3ecef6501f0761051f298eb7cefcacf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer to move to the next iteration.  <a href="#ae3ecef6501f0761051f298eb7cefcacf">More...</a><br /></td></tr>
+<tr class="separator:ae3ecef6501f0761051f298eb7cefcacf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a85afb31647e5cac591b76959a102cd06"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">load_element</a> (typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">Base::AccessType</a> &amp;value, int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a85afb31647e5cac591b76959a102cd06"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a single fragment element from memory.  <a href="#a85afb31647e5cac591b76959a102cd06">More...</a><br /></td></tr>
+<tr class="separator:a85afb31647e5cac591b76959a102cd06"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab2bad39cd9e9d27382cf8fb9e05ed593"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593">residue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> k)</td></tr>
+<tr class="memdesc:ab2bad39cd9e9d27382cf8fb9e05ed593"><td class="mdescLeft">&#160;</td><td class="mdescRight">That's the residue! Update the predicates.  <a href="#ab2bad39cd9e9d27382cf8fb9e05ed593">More...</a><br /></td></tr>
+<tr class="separator:ab2bad39cd9e9d27382cf8fb9e05ed593"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6ebdbdce88f040fffd3eb60622c6d7e0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a6ebdbdce88f040fffd3eb60622c6d7e0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the valid?  <a href="#a6ebdbdce88f040fffd3eb60622c6d7e0">More...</a><br /></td></tr>
+<tr class="separator:a6ebdbdce88f040fffd3eb60622c6d7e0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a32cd0a03868f52b172d031f23e2c08af"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:a32cd0a03868f52b172d031f23e2c08af"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a vector offset to the iterator.  <a href="#a32cd0a03868f52b172d031f23e2c08af">More...</a><br /></td></tr>
+<tr class="separator:a32cd0a03868f52b172d031f23e2c08af"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5940e491967e265630dc0a4b448791d6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6">add_pointer_offset</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> offset)</td></tr>
+<tr class="separator:a5940e491967e265630dc0a4b448791d6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adfb9a7df1b900e4f6ee59c72aabdebd7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7">stride_advance</a> (void)</td></tr>
+<tr class="separator:adfb9a7df1b900e4f6ee59c72aabdebd7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07989416829cbe7efecb56456c99adf7"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a07989416829cbe7efecb56456c99adf7"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7">load_post_increment</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a> &amp;fragment)</td></tr>
+<tr class="separator:a07989416829cbe7efecb56456c99adf7"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_methods_structcutlass_1_1TileLoadIterator"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileLoadIterator')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:a8291a51bf96f86bc77d0e3453345dbd5 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td></tr>
-<tr class="memdesc:a8291a51bf96f86bc77d0e3453345dbd5 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5">More...</a><br /></td></tr>
-<tr class="separator:a8291a51bf96f86bc77d0e3453345dbd5 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a81c9c0b17bf5f214230ecf10e0690a4e inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e">TileLoadIterator</a> ()</td></tr>
-<tr class="memdesc:a81c9c0b17bf5f214230ecf10e0690a4e inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e">More...</a><br /></td></tr>
-<tr class="separator:a81c9c0b17bf5f214230ecf10e0690a4e inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a93e166575be3b2f7489833ae5da23f23 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a93e166575be3b2f7489833ae5da23f23">TileLoadIterator</a> (Params const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>())</td></tr>
-<tr class="memdesc:a93e166575be3b2f7489833ae5da23f23 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile load iterator.  <a href="structcutlass_1_1TileLoadIterator.html#a93e166575be3b2f7489833ae5da23f23">More...</a><br /></td></tr>
-<tr class="separator:a93e166575be3b2f7489833ae5da23f23 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a53282fa4cb33cfcec79033d26e418af6 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a53282fa4cb33cfcec79033d26e418af6">TileLoadIterator</a> (Params const &amp;, <a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a> &amp;shared_storage, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>())</td></tr>
-<tr class="memdesc:a53282fa4cb33cfcec79033d26e418af6 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile load iterator.  <a href="structcutlass_1_1TileLoadIterator.html#a53282fa4cb33cfcec79033d26e418af6">More...</a><br /></td></tr>
-<tr class="separator:a53282fa4cb33cfcec79033d26e418af6 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afb6320b600f1f561594a9fb543b954e4 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> const *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4">data</a> () const</td></tr>
-<tr class="memdesc:afb6320b600f1f561594a9fb543b954e4 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the current pointer.  <a href="structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4">More...</a><br /></td></tr>
-<tr class="separator:afb6320b600f1f561594a9fb543b954e4 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0a93f37fd366a48c4ed6cc39aa850eb5 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5">inc_d</a> ()</td></tr>
-<tr class="memdesc:a0a93f37fd366a48c4ed6cc39aa850eb5 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the D dimension.  <a href="structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5">More...</a><br /></td></tr>
-<tr class="separator:a0a93f37fd366a48c4ed6cc39aa850eb5 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a228a95cf2c9c6089287984fcbf5cface inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface">inc_h</a> ()</td></tr>
-<tr class="memdesc:a228a95cf2c9c6089287984fcbf5cface inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the H dimension.  <a href="structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface">More...</a><br /></td></tr>
-<tr class="separator:a228a95cf2c9c6089287984fcbf5cface inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a49cf3ee608debebf451cdd8c2125d073 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">inc_w</a> ()</td></tr>
-<tr class="memdesc:a49cf3ee608debebf451cdd8c2125d073 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the W dimension.  <a href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">More...</a><br /></td></tr>
-<tr class="separator:a49cf3ee608debebf451cdd8c2125d073 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a91e13a7aad4b0acac002b6dd125abc37 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37">inc_advance</a> ()</td></tr>
-<tr class="memdesc:a91e13a7aad4b0acac002b6dd125abc37 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the next dimension.  <a href="structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37">More...</a><br /></td></tr>
-<tr class="separator:a91e13a7aad4b0acac002b6dd125abc37 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aeb3faf5e8f976f5a4d158ceb41a1cc64 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64">inc_stage</a> ()</td></tr>
-<tr class="memdesc:aeb3faf5e8f976f5a4d158ceb41a1cc64 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the stage.  <a href="structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64">More...</a><br /></td></tr>
-<tr class="separator:aeb3faf5e8f976f5a4d158ceb41a1cc64 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2716b9010d2902b90e63abb0531ee915 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment, PredicateIterator pred_it)</td></tr>
-<tr class="memdesc:a2716b9010d2902b90e63abb0531ee915 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915">More...</a><br /></td></tr>
-<tr class="separator:a2716b9010d2902b90e63abb0531ee915 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a195993d58ae0eeb53203116ac02ab38d inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment)</td></tr>
-<tr class="memdesc:a195993d58ae0eeb53203116ac02ab38d inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d">More...</a><br /></td></tr>
-<tr class="separator:a195993d58ae0eeb53203116ac02ab38d inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9c4b332857f419e6f789a93404dc2140 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment, PredicateIterator pred_it) const</td></tr>
-<tr class="memdesc:a9c4b332857f419e6f789a93404dc2140 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140">More...</a><br /></td></tr>
-<tr class="separator:a9c4b332857f419e6f789a93404dc2140 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1058cdec33393db9c16b28c21d8957db inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment) const</td></tr>
-<tr class="memdesc:a1058cdec33393db9c16b28c21d8957db inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db">More...</a><br /></td></tr>
-<tr class="separator:a1058cdec33393db9c16b28c21d8957db inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
-<tr class="memitem:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">More...</a><br /></td></tr>
-<tr class="separator:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60bbb4d4a6a5b8fb32e176e7d33f9e82 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td></tr>
+<tr class="memdesc:a60bbb4d4a6a5b8fb32e176e7d33f9e82 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector using a RegularTilePredicateFunctor.  <a href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">More...</a><br /></td></tr>
+<tr class="separator:a60bbb4d4a6a5b8fb32e176e7d33f9e82 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa566cf603a5c19c59946a41b04642e49 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;functor, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset)</td></tr>
+<tr class="memdesc:aa566cf603a5c19c59946a41b04642e49 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector using an arbitrary predicate functor.  <a href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">More...</a><br /></td></tr>
+<tr class="separator:aa566cf603a5c19c59946a41b04642e49 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:add962655973d5b8eff5673c04e053e4e inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">TileLoadIterator</a> ()</td></tr>
+<tr class="memdesc:add962655973d5b8eff5673c04e053e4e inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">More...</a><br /></td></tr>
+<tr class="separator:add962655973d5b8eff5673c04e053e4e inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4ffe90c974b260220fe0b44274095322 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">TileLoadIterator</a> (Params const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:a4ffe90c974b260220fe0b44274095322 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile load iterator.  <a href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">More...</a><br /></td></tr>
+<tr class="separator:a4ffe90c974b260220fe0b44274095322 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1636f4e15ca7f9f56bfccb93a2826c30 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">TileLoadIterator</a> (Params const &amp;, <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const *ptr, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:a1636f4e15ca7f9f56bfccb93a2826c30 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile load iterator.  <a href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">More...</a><br /></td></tr>
+<tr class="separator:a1636f4e15ca7f9f56bfccb93a2826c30 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb92092230ae933ff6cc4a36960d0674 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">inc_d</a> ()</td></tr>
+<tr class="memdesc:aeb92092230ae933ff6cc4a36960d0674 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the D dimension.  <a href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">More...</a><br /></td></tr>
+<tr class="separator:aeb92092230ae933ff6cc4a36960d0674 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1b94be88a160b21347c0eb58ed8e1b51 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">inc_h</a> ()</td></tr>
+<tr class="memdesc:a1b94be88a160b21347c0eb58ed8e1b51 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the H dimension.  <a href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">More...</a><br /></td></tr>
+<tr class="separator:a1b94be88a160b21347c0eb58ed8e1b51 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af4f964364fc54a2b9a431fa529f6c44c inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">inc_w</a> ()</td></tr>
+<tr class="memdesc:af4f964364fc54a2b9a431fa529f6c44c inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the W dimension.  <a href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">More...</a><br /></td></tr>
+<tr class="separator:af4f964364fc54a2b9a431fa529f6c44c inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9bda55335fb2e90af2ee7d20571f3d9b inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">inc_advance</a> ()</td></tr>
+<tr class="memdesc:a9bda55335fb2e90af2ee7d20571f3d9b inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the next dimension.  <a href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">More...</a><br /></td></tr>
+<tr class="separator:a9bda55335fb2e90af2ee7d20571f3d9b inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6f74b87df129693ee6ac9a6fcc0c8910 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">load_element</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &amp;value, int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a6f74b87df129693ee6ac9a6fcc0c8910 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a single fragment element from memory.  <a href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">More...</a><br /></td></tr>
+<tr class="separator:a6f74b87df129693ee6ac9a6fcc0c8910 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64ce59c5deb58e208529761a44c7661d inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">inc_stage</a> ()</td></tr>
+<tr class="memdesc:a64ce59c5deb58e208529761a44c7661d inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the stage.  <a href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">More...</a><br /></td></tr>
+<tr class="separator:a64ce59c5deb58e208529761a44c7661d inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a723041057b1e8212e075959a22c0c120 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:a723041057b1e8212e075959a22c0c120 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a vector offset to the iterator.  <a href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">More...</a><br /></td></tr>
+<tr class="separator:a723041057b1e8212e075959a22c0c120 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad65b7a0a5b4f42c590642ef7b269f232 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">add_pointer_offset</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> offset)</td></tr>
+<tr class="memdesc:ad65b7a0a5b4f42c590642ef7b269f232 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a raw offset to the pointer.  <a href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">More...</a><br /></td></tr>
+<tr class="separator:ad65b7a0a5b4f42c590642ef7b269f232 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a31a021d6c099e8027fa9bcb5fdc21c11 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11">stride_advance</a> (void)</td></tr>
+<tr class="separator:a31a021d6c099e8027fa9bcb5fdc21c11 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4d437597ae736c581a9ba0764f9d955f inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it)</td></tr>
+<tr class="memdesc:a4d437597ae736c581a9ba0764f9d955f inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">More...</a><br /></td></tr>
+<tr class="separator:a4d437597ae736c581a9ba0764f9d955f inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5c8a4318ffd400363d9c7572c07ff32a inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)</td></tr>
+<tr class="memdesc:a5c8a4318ffd400363d9c7572c07ff32a inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">More...</a><br /></td></tr>
+<tr class="separator:a5c8a4318ffd400363d9c7572c07ff32a inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa856180123f8d50a00222542fa6345cf inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it) const</td></tr>
+<tr class="memdesc:aa856180123f8d50a00222542fa6345cf inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">More...</a><br /></td></tr>
+<tr class="separator:aa856180123f8d50a00222542fa6345cf inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a83dadcea858a5e426dcea54400138480 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment) const</td></tr>
+<tr class="memdesc:a83dadcea858a5e426dcea54400138480 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">More...</a><br /></td></tr>
+<tr class="separator:a83dadcea858a5e426dcea54400138480 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1b070fc66109d372f5a45a5857594ac6 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, int d)</td></tr>
+<tr class="memdesc:a1b070fc66109d372f5a45a5857594ac6 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">More...</a><br /></td></tr>
+<tr class="separator:a1b070fc66109d372f5a45a5857594ac6 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
+<tr class="memitem:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">More...</a><br /></td></tr>
+<tr class="separator:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
@@ -328,15 +362,15 @@
 <tr class="memdesc:af323c9db74f0de3376edd35eb377bc9c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The predicates.  <a href="#af323c9db74f0de3376edd35eb377bc9c">More...</a><br /></td></tr>
 <tr class="separator:af323c9db74f0de3376edd35eb377bc9c"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_attribs_structcutlass_1_1TileLoadIterator"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileLoadIterator')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:aaafe35622751532971c1b7efc54c888b inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a></td></tr>
-<tr class="memdesc:aaafe35622751532971c1b7efc54c888b inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters structure.  <a href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">More...</a><br /></td></tr>
-<tr class="separator:aaafe35622751532971c1b7efc54c888b inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7726cdd4fe056c59bb04adb9e5504457 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">thread_offset</a></td></tr>
-<tr class="memdesc:a7726cdd4fe056c59bb04adb9e5504457 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Offset of an individual lane from the start of the tile.  <a href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">More...</a><br /></td></tr>
-<tr class="separator:a7726cdd4fe056c59bb04adb9e5504457 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa3fd9859de68d76e07ebee06c6ccee92 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a></td></tr>
-<tr class="memdesc:aa3fd9859de68d76e07ebee06c6ccee92 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stage argument enables wrapping after some number of tiles have been loaded.  <a href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">More...</a><br /></td></tr>
-<tr class="separator:aa3fd9859de68d76e07ebee06c6ccee92 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5561e676148200c2fc85a603847cc596 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a></td></tr>
+<tr class="memdesc:a5561e676148200c2fc85a603847cc596 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters structure.  <a href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">More...</a><br /></td></tr>
+<tr class="separator:a5561e676148200c2fc85a603847cc596 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7808588ce0b12017379dcbe1ba9c511f inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a></td></tr>
+<tr class="memdesc:a7808588ce0b12017379dcbe1ba9c511f inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Offset of an individual lane from the start of the tile.  <a href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">More...</a><br /></td></tr>
+<tr class="separator:a7808588ce0b12017379dcbe1ba9c511f inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad8e730768c1805d98e23886a492389d3 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a></td></tr>
+<tr class="memdesc:ad8e730768c1805d98e23886a492389d3 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stage argument enables wrapping after some number of tiles have been loaded.  <a href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">More...</a><br /></td></tr>
+<tr class="separator:ad8e730768c1805d98e23886a492389d3 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
@@ -347,38 +381,41 @@
 <tr class="memdesc:a8c1e871f17685b16a7a41fcc888f0125"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies in which dimension post-increment accesses advance.  <a href="#a8c1e871f17685b16a7a41fcc888f0125">More...</a><br /></td></tr>
 <tr class="separator:a8c1e871f17685b16a7a41fcc888f0125"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_static_attribs_structcutlass_1_1TileLoadIterator"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileLoadIterator')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:a69d2f21c8188fb3229af8c2dbe0a23b6 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">kAdvance</a></td></tr>
-<tr class="memdesc:a69d2f21c8188fb3229af8c2dbe0a23b6 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies in which dimension post-increment accesses advance.  <a href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">More...</a><br /></td></tr>
-<tr class="separator:a69d2f21c8188fb3229af8c2dbe0a23b6 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aba1d75a0cd5f11dee2aecf89b2b13d98 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98">kIteratorFragment</a></td></tr>
-<tr class="memdesc:aba1d75a0cd5f11dee2aecf89b2b13d98 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies type of iterator fragment storage (Salar or WmmaMatrix)  <a href="structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98">More...</a><br /></td></tr>
-<tr class="separator:aba1d75a0cd5f11dee2aecf89b2b13d98 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac21bd78b31c99c826f0eddb5aa033bf1 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1">kMemorySpace</a></td></tr>
-<tr class="memdesc:ac21bd78b31c99c826f0eddb5aa033bf1 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1">More...</a><br /></td></tr>
-<tr class="separator:ac21bd78b31c99c826f0eddb5aa033bf1 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_static_attribs_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
-<tr class="memitem:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a></td></tr>
-<tr class="memdesc:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">More...</a><br /></td></tr>
-<tr class="separator:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a></td></tr>
-<tr class="memdesc:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">More...</a><br /></td></tr>
-<tr class="separator:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">kMemorySpace</a></td></tr>
-<tr class="memdesc:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">More...</a><br /></td></tr>
-<tr class="separator:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a></td></tr>
-<tr class="memdesc:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">More...</a><br /></td></tr>
-<tr class="separator:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td></tr>
-<tr class="memdesc:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">More...</a><br /></td></tr>
-<tr class="separator:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea9fbc738003a7424cfa9b0527d4a352 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">kAdvance</a></td></tr>
+<tr class="memdesc:aea9fbc738003a7424cfa9b0527d4a352 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies in which dimension post-increment accesses advance.  <a href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">More...</a><br /></td></tr>
+<tr class="separator:aea9fbc738003a7424cfa9b0527d4a352 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2af872794b35a631f9c1a97df0c6d177 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">kFragmentElementType</a></td></tr>
+<tr class="memdesc:a2af872794b35a631f9c1a97df0c6d177 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies type of iterator fragment storage (Salar or WmmaMatrix)  <a href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">More...</a><br /></td></tr>
+<tr class="separator:a2af872794b35a631f9c1a97df0c6d177 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a44424164c9347f9916b2b86858706043 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">kMemorySpace</a></td></tr>
+<tr class="memdesc:a44424164c9347f9916b2b86858706043 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">More...</a><br /></td></tr>
+<tr class="separator:a44424164c9347f9916b2b86858706043 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a84f2f19069c3b003b1fcad438f690bc8 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">kAccessSize</a></td></tr>
+<tr class="memdesc:a84f2f19069c3b003b1fcad438f690bc8 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">More...</a><br /></td></tr>
+<tr class="separator:a84f2f19069c3b003b1fcad438f690bc8 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
+<tr class="memitem:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a></td></tr>
+<tr class="memdesc:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">More...</a><br /></td></tr>
+<tr class="separator:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a></td></tr>
+<tr class="memdesc:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">More...</a><br /></td></tr>
+<tr class="separator:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a></td></tr>
+<tr class="memdesc:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">More...</a><br /></td></tr>
+<tr class="separator:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a></td></tr>
+<tr class="memdesc:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">More...</a><br /></td></tr>
+<tr class="separator:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td></tr>
+<tr class="memdesc:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">More...</a><br /></td></tr>
+<tr class="separator:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_static_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, IteratorFragment::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
-<tr class="memitem:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset=make_Coord(0, 0, 0))</td></tr>
-<tr class="memdesc:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">More...</a><br /></td></tr>
-<tr class="separator:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
+<tr class="memitem:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">More...</a><br /></td></tr>
+<tr class="separator:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="ae13e0d30a941e16875f196b4844b03ed"></a>
@@ -422,7 +459,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2180cfbb482d300472ad2993
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">Base::Fragment</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">Base::Fragment</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -454,7 +491,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3dd74f6e12339a87c0eb8f75
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a>&lt;<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">Base::Iterations</a>&gt;::kCount&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a>&lt;<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">Base::Iterations</a>&gt;::kCount&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -523,11 +560,27 @@ <h2 class="memtitle"><span class="permalink"><a href="#a33e4dcd4449f324fed5ceaa2
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a646bd38ab95cdf0379ecb372839a9111"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a646bd38ab95cdf0379ecb372839a9111">&#9670;&nbsp;</a></span>Tile</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef TileTraits_::Tile <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">Tile</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="a34cb153d311377388e7819296a84d07e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a34cb153d311377388e7819296a84d07e">&#9670;&nbsp;</a></span>GemmGlobalIteratorAb()</h2>
+<a id="ab61ce6b04d72d2652ee3bffca3885fe5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab61ce6b04d72d2652ee3bffca3885fe5">&#9670;&nbsp;</a></span>GemmGlobalIteratorAb()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -538,7 +591,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a34cb153d311377388e781929
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a> </td>
           <td>(</td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a> const &amp;&#160;</td>
           <td class="paramname"><em>_params</em>, </td>
@@ -553,7 +606,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a34cb153d311377388e781929
           <td class="paramkey"></td>
           <td></td>
           <td class="paramtype">const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>block</em>, </td>
+          <td class="paramname"><em>threadblock_offset</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
@@ -577,8 +630,36 @@ <h2 class="memtitle"><span class="permalink"><a href="#a34cb153d311377388e781929
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a3af66b82b1a0cc5bf6141f940553e048"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3af66b82b1a0cc5bf6141f940553e048">&#9670;&nbsp;</a></span>data()</h2>
+<a id="a5940e491967e265630dc0a4b448791d6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5940e491967e265630dc0a4b448791d6">&#9670;&nbsp;</a></span>add_pointer_offset()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::add_pointer_offset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a>&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae3ecef6501f0761051f298eb7cefcacf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae3ecef6501f0761051f298eb7cefcacf">&#9670;&nbsp;</a></span>inc_advance()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -589,10 +670,10 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3af66b82b1a0cc5bf6141f94
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> const* <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::data </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::inc_advance </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
-          <td> const</td>
+          <td></td>
         </tr>
       </table>
   </td>
@@ -604,8 +685,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3af66b82b1a0cc5bf6141f94
 
 </div>
 </div>
-<a id="a9dea455aa86bb59517b4a4d0309e424b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9dea455aa86bb59517b4a4d0309e424b">&#9670;&nbsp;</a></span>inc_advance()</h2>
+<a id="a2ad473e8f2fa2694617ee39ead5c41b3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ad473e8f2fa2694617ee39ead5c41b3">&#9670;&nbsp;</a></span>inc_d()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -616,7 +697,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9dea455aa86bb59517b4a4d0
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::inc_advance </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::inc_d </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -631,8 +712,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9dea455aa86bb59517b4a4d0
 
 </div>
 </div>
-<a id="a1e42503e5a54cdc01308e9030aebdd35"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1e42503e5a54cdc01308e9030aebdd35">&#9670;&nbsp;</a></span>inc_d()</h2>
+<a id="a1d86f7e16bd11e10c94b0c14111c8c14"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1d86f7e16bd11e10c94b0c14111c8c14">&#9670;&nbsp;</a></span>inc_h()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -643,7 +724,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1e42503e5a54cdc01308e903
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::inc_d </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::inc_h </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -658,8 +739,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1e42503e5a54cdc01308e903
 
 </div>
 </div>
-<a id="aa24336597f4a3316d94df6ab0c20f714"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa24336597f4a3316d94df6ab0c20f714">&#9670;&nbsp;</a></span>inc_h()</h2>
+<a id="a760404b7879a38364d7eef47fc1fe209"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a760404b7879a38364d7eef47fc1fe209">&#9670;&nbsp;</a></span>inc_w()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -670,7 +751,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa24336597f4a3316d94df6ab
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::inc_h </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::inc_w </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -685,8 +766,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa24336597f4a3316d94df6ab
 
 </div>
 </div>
-<a id="ab9375d9e779dcda79a5cd561bb3762ff"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab9375d9e779dcda79a5cd561bb3762ff">&#9670;&nbsp;</a></span>initialize_predicates()</h2>
+<a id="aba8142a7a3b43da97f7968d98f3ba018"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba8142a7a3b43da97f7968d98f3ba018">&#9670;&nbsp;</a></span>initialize_predicates()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -697,7 +778,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab9375d9e779dcda79a5cd561
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::initialize_predicates </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::initialize_predicates </td>
           <td>(</td>
           <td class="paramtype">const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;&#160;</td>
           <td class="paramname"><em>bounds</em>, </td>
@@ -706,7 +787,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab9375d9e779dcda79a5cd561
           <td class="paramkey"></td>
           <td></td>
           <td class="paramtype">const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;&#160;</td>
-          <td class="paramname"><em>block</em>&#160;</td>
+          <td class="paramname"><em>block_offset</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -723,8 +804,122 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab9375d9e779dcda79a5cd561
 
 </div>
 </div>
-<a id="aab37ea6c47e34466371314ed3971dc7b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aab37ea6c47e34466371314ed3971dc7b">&#9670;&nbsp;</a></span>residue()</h2>
+<a id="a85afb31647e5cac591b76959a102cd06"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a85afb31647e5cac591b76959a102cd06">&#9670;&nbsp;</a></span>load_element()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::load_element </td>
+          <td>(</td>
+          <td class="paramtype">typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">Base::AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>c</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07989416829cbe7efecb56456c99adf7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07989416829cbe7efecb56456c99adf7">&#9670;&nbsp;</a></span>load_post_increment()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::load_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a32cd0a03868f52b172d031f23e2c08af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a32cd0a03868f52b172d031f23e2c08af">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&amp; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab2bad39cd9e9d27382cf8fb9e05ed593"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab2bad39cd9e9d27382cf8fb9e05ed593">&#9670;&nbsp;</a></span>residue()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -735,7 +930,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aab37ea6c47e34466371314ed
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::residue </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::residue </td>
           <td>(</td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a>&#160;</td>
           <td class="paramname"><em>k</em></td><td>)</td>
@@ -751,8 +946,36 @@ <h2 class="memtitle"><span class="permalink"><a href="#aab37ea6c47e34466371314ed
 
 </div>
 </div>
-<a id="ac4d2c293f9312b673ea29bf79b2882fd"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac4d2c293f9312b673ea29bf79b2882fd">&#9670;&nbsp;</a></span>valid()</h2>
+<a id="adfb9a7df1b900e4f6ee59c72aabdebd7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adfb9a7df1b900e4f6ee59c72aabdebd7">&#9670;&nbsp;</a></span>stride_advance()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::stride_advance </td>
+          <td>(</td>
+          <td class="paramtype">void&#160;</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6ebdbdce88f040fffd3eb60622c6d7e0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6ebdbdce88f040fffd3eb60622c6d7e0">&#9670;&nbsp;</a></span>valid()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -763,7 +986,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac4d2c293f9312b673ea29bf7
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE bool <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::valid </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::valid </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
@@ -904,7 +1127,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1864c5556529afdc8445021c
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.png b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.png
index f6dfb59583..06b073c800 100644
Binary files a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.png and b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params-members.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params-members.html
index 71243aedf0..af3680b9c5 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params-members.html
@@ -79,25 +79,35 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#a73091e07b6d4c99f6e0319fbf6bd1709">initialize</a>(Scalar const *ptr, Index stride_h)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76">cutlass::TileLoadIterator::Params::initialize</a>(SharedStorage const &amp;storage)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#afd9e82df76ad35fe883b7834457242b2">cutlass::TileLoadIterator::Params::initialize</a>(Scalar const *ptr, Index stride_d, Index stride_h, Index stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aa3922946bb0da0c0040dec44aa389ec1">cutlass::TileLoadIterator::Params::initialize</a>(Scalar const *ptr, Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8">cutlass::TileLoadIterator::Params::initialize</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">cutlass::TileIteratorBase::Params::initialize</a>(Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">cutlass::TileIteratorBase::Params::initialize</a>(Index _stride_d, Index _stride_h, Index _stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#ad0602cf5d322e98e3e5990c84ae1e3f3">initialize</a>(Scalar const *ptr, long long stride_d, Index stride_h)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803">cutlass::TileLoadIterator::Params::initialize</a>(TensorRef const &amp;ref)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a61b898051d0397b013407a4c90409aa0">cutlass::TileLoadIterator::Params::initialize</a>(SharedStorage const &amp;storage)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8869188d1c3b867fe6389aadf04837bf">cutlass::TileLoadIterator::Params::initialize</a>(Scalar const *ptr)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662">cutlass::TileLoadIterator::Params::initialize</a>(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a53917e002fd29a5650752c65f96b353d">cutlass::TileLoadIterator::Params::initialize</a>(Scalar const *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d">cutlass::TileLoadIterator::Params::initialize</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">cutlass::TileIteratorBase::Params::initialize</a>(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">cutlass::TileIteratorBase::Params::initialize</a>(Coord&lt; 4 &gt; const &amp;stride)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">cutlass::TileIteratorBase::Params::initialize</a>(long long _stride_d, Index _stride_h, Index _stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5">Params</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a88a90437f11d029ef109ebb4f828f282">Params</a>(Scalar const *ptr)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192">Params</a>(TensorRef const &amp;ref)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a78380e92553010656516400d51e14c7e">Params</a>(Scalar const *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8c9856709d3392d8b70dce9a13fa529a">Params</a>(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">cutlass::TileIteratorBase::Params::Params</a>(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">cutlass::TileIteratorBase::Params::Params</a>(Coord&lt; 4 &gt; const &amp;stride)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html
index d4517b31e9..8f3134b397 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html
@@ -87,62 +87,97 @@
  <div class="center">
   <img src="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.png" usemap="#cutlass::gemm::GemmGlobalIteratorAb_3C_20TileTraits_5F_2C_20Index_5F_20_3E::Params_map" alt=""/>
   <map id="cutlass::gemm::GemmGlobalIteratorAb_3C_20TileTraits_5F_2C_20Index_5F_20_3E::Params_map" name="cutlass::gemm::GemmGlobalIteratorAb_3C_20TileTraits_5F_2C_20Index_5F_20_3E::Params_map">
-<area href="structcutlass_1_1TileLoadIterator_1_1Params.html" title="Parameters. " alt="cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params" shape="rect" coords="0,56,780,80"/>
-<area href="structcutlass_1_1TileIteratorBase_1_1Params.html" title="Parameters to the iterator. " alt="cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params" shape="rect" coords="0,0,780,24"/>
+<area href="structcutlass_1_1TileLoadIterator_1_1Params.html" title="Parameters. " alt="cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params" shape="rect" coords="0,56,812,80"/>
+<area href="structcutlass_1_1TileIteratorBase_1_1Params.html" title="Parameters to the iterator. " alt="cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params" shape="rect" coords="0,0,812,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a73091e07b6d4c99f6e0319fbf6bd1709"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#a73091e07b6d4c99f6e0319fbf6bd1709">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> const *ptr, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>)</td></tr>
-<tr class="memdesc:a73091e07b6d4c99f6e0319fbf6bd1709"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to load a strip-mined tile, given pointer and stride_h.  <a href="#a73091e07b6d4c99f6e0319fbf6bd1709">More...</a><br /></td></tr>
-<tr class="separator:a73091e07b6d4c99f6e0319fbf6bd1709"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileLoadIterator_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
-<tr class="memitem:aeeea0f8bdee876553a4908b9b7cbaf76 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a> const &amp;storage)</td></tr>
-<tr class="memdesc:aeeea0f8bdee876553a4908b9b7cbaf76 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76">More...</a><br /></td></tr>
-<tr class="separator:aeeea0f8bdee876553a4908b9b7cbaf76 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afd9e82df76ad35fe883b7834457242b2 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#afd9e82df76ad35fe883b7834457242b2">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> const *ptr, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a>)</td></tr>
-<tr class="memdesc:afd9e82df76ad35fe883b7834457242b2 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to access a raw pointer.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#afd9e82df76ad35fe883b7834457242b2">More...</a><br /></td></tr>
-<tr class="separator:afd9e82df76ad35fe883b7834457242b2 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa3922946bb0da0c0040dec44aa389ec1 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aa3922946bb0da0c0040dec44aa389ec1">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> const *ptr, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_advance)</td></tr>
-<tr class="memdesc:aa3922946bb0da0c0040dec44aa389ec1 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#aa3922946bb0da0c0040dec44aa389ec1">More...</a><br /></td></tr>
-<tr class="separator:aa3922946bb0da0c0040dec44aa389ec1 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aebaecd0f971245ffc5a50fe5f7a9b4e8 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8">initialize</a> ()</td></tr>
-<tr class="separator:aebaecd0f971245ffc5a50fe5f7a9b4e8 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
-<tr class="memitem:ad2631ffcc963638aa5b016c66a2e2c55 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">initialize</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_advance)</td></tr>
-<tr class="memdesc:ad2631ffcc963638aa5b016c66a2e2c55 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">More...</a><br /></td></tr>
-<tr class="separator:ad2631ffcc963638aa5b016c66a2e2c55 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3ba93370bd4b2ede4bd4eb97ac0881be inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">initialize</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w)</td></tr>
-<tr class="separator:a3ba93370bd4b2ede4bd4eb97ac0881be inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af496afebb8983e5d346c681334955224 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">initialize</a> ()</td></tr>
-<tr class="separator:af496afebb8983e5d346c681334955224 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad0602cf5d322e98e3e5990c84ae1e3f3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html#ad0602cf5d322e98e3e5990c84ae1e3f3">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> const *ptr, long long <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>)</td></tr>
+<tr class="memdesc:ad0602cf5d322e98e3e5990c84ae1e3f3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to load a strip-mined tile, given pointer and stride_h.  <a href="#ad0602cf5d322e98e3e5990c84ae1e3f3">More...</a><br /></td></tr>
+<tr class="separator:ad0602cf5d322e98e3e5990c84ae1e3f3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileLoadIterator_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:a9a1098e6c7b8c7c377031fe59a18fbf5 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5">Params</a> ()</td></tr>
+<tr class="memdesc:a9a1098e6c7b8c7c377031fe59a18fbf5 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5">More...</a><br /></td></tr>
+<tr class="separator:a9a1098e6c7b8c7c377031fe59a18fbf5 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a88a90437f11d029ef109ebb4f828f282 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a88a90437f11d029ef109ebb4f828f282">Params</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr)</td></tr>
+<tr class="memdesc:a88a90437f11d029ef109ebb4f828f282 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a88a90437f11d029ef109ebb4f828f282">More...</a><br /></td></tr>
+<tr class="separator:a88a90437f11d029ef109ebb4f828f282 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2de32338814d0554b05ca985dbb7e192 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192">Params</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> const &amp;ref)</td></tr>
+<tr class="memdesc:a2de32338814d0554b05ca985dbb7e192 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs with a CompactTensorRef&lt;&gt;  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192">More...</a><br /></td></tr>
+<tr class="separator:a2de32338814d0554b05ca985dbb7e192 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a78380e92553010656516400d51e14c7e inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a78380e92553010656516400d51e14c7e">Params</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr, long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_advance)</td></tr>
+<tr class="memdesc:a78380e92553010656516400d51e14c7e inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a78380e92553010656516400d51e14c7e">More...</a><br /></td></tr>
+<tr class="separator:a78380e92553010656516400d51e14c7e inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8c9856709d3392d8b70dce9a13fa529a inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8c9856709d3392d8b70dce9a13fa529a">Params</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr, long long <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>)</td></tr>
+<tr class="memdesc:a8c9856709d3392d8b70dce9a13fa529a inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8c9856709d3392d8b70dce9a13fa529a">More...</a><br /></td></tr>
+<tr class="separator:a8c9856709d3392d8b70dce9a13fa529a inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac22d9229f3f8993d52b808dced173803 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> const &amp;ref)</td></tr>
+<tr class="memdesc:ac22d9229f3f8993d52b808dced173803 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to access a raw pointer.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803">More...</a><br /></td></tr>
+<tr class="separator:ac22d9229f3f8993d52b808dced173803 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a61b898051d0397b013407a4c90409aa0 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a61b898051d0397b013407a4c90409aa0">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a> const &amp;storage)</td></tr>
+<tr class="memdesc:a61b898051d0397b013407a4c90409aa0 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a61b898051d0397b013407a4c90409aa0">More...</a><br /></td></tr>
+<tr class="separator:a61b898051d0397b013407a4c90409aa0 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8869188d1c3b867fe6389aadf04837bf inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8869188d1c3b867fe6389aadf04837bf">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr)</td></tr>
+<tr class="memdesc:a8869188d1c3b867fe6389aadf04837bf inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize params to access storage object.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8869188d1c3b867fe6389aadf04837bf">More...</a><br /></td></tr>
+<tr class="separator:a8869188d1c3b867fe6389aadf04837bf inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9a40662ff01a14e0616ce1a0fbb70662 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr, long long <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>)</td></tr>
+<tr class="memdesc:a9a40662ff01a14e0616ce1a0fbb70662 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params to access a raw pointer.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662">More...</a><br /></td></tr>
+<tr class="separator:a9a40662ff01a14e0616ce1a0fbb70662 inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a53917e002fd29a5650752c65f96b353d inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a53917e002fd29a5650752c65f96b353d">initialize</a> (<a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const *ptr, long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_advance)</td></tr>
+<tr class="memdesc:a53917e002fd29a5650752c65f96b353d inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a53917e002fd29a5650752c65f96b353d">More...</a><br /></td></tr>
+<tr class="separator:a53917e002fd29a5650752c65f96b353d inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3175746438646453e93e6e08e954bc8d inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d">initialize</a> ()</td></tr>
+<tr class="separator:a3175746438646453e93e6e08e954bc8d inherit pub_methods_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:acc0341b88143aac4ffd9bc1dcfaafa71 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">Params</a> ()</td></tr>
+<tr class="memdesc:acc0341b88143aac4ffd9bc1dcfaafa71 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">More...</a><br /></td></tr>
+<tr class="separator:acc0341b88143aac4ffd9bc1dcfaafa71 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab04617136a3bf909ef27eb97ea5ef81c inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">Params</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, long long _inc_advance)</td></tr>
+<tr class="memdesc:ab04617136a3bf909ef27eb97ea5ef81c inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">More...</a><br /></td></tr>
+<tr class="separator:ab04617136a3bf909ef27eb97ea5ef81c inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac030ea4568fa2cb6d6661df75062cd1a inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">Params</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;stride)</td></tr>
+<tr class="memdesc:ac030ea4568fa2cb6d6661df75062cd1a inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs params with a stride vector.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">More...</a><br /></td></tr>
+<tr class="separator:ac030ea4568fa2cb6d6661df75062cd1a inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a802c270449da579ed8661e915d27ce60 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">initialize</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w, long long _inc_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w, long long _inc_advance)</td></tr>
+<tr class="memdesc:a802c270449da579ed8661e915d27ce60 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes params.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">More...</a><br /></td></tr>
+<tr class="separator:a802c270449da579ed8661e915d27ce60 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2ef70d9e13b5aa7e4a53233b153d7edd inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">initialize</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt; const &amp;stride)</td></tr>
+<tr class="memdesc:a2ef70d9e13b5aa7e4a53233b153d7edd inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes the parameters object from a vector of strides.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">More...</a><br /></td></tr>
+<tr class="separator:a2ef70d9e13b5aa7e4a53233b153d7edd inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a44870d45442ec45c8eaba46ab47a3ad9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">initialize</a> (long long _stride_d, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w)</td></tr>
+<tr class="memdesc:a44870d45442ec45c8eaba46ab47a3ad9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes the parameters object from a vector of strides.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">More...</a><br /></td></tr>
+<tr class="separator:a44870d45442ec45c8eaba46ab47a3ad9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1776bf51e1e23cde6c58529be58aafb9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">initialize</a> ()</td></tr>
+<tr class="memdesc:a1776bf51e1e23cde6c58529be58aafb9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Gotta have this.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">More...</a><br /></td></tr>
+<tr class="separator:a1776bf51e1e23cde6c58529be58aafb9 inherit pub_methods_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_attribs_structcutlass_1_1TileLoadIterator_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileLoadIterator_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
-<tr class="memitem:a6608f7027994aaebdefd004fe94153d9 inherit pub_attribs_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a></td></tr>
-<tr class="memdesc:a6608f7027994aaebdefd004fe94153d9 inherit pub_attribs_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Pointer to memory.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">More...</a><br /></td></tr>
-<tr class="separator:a6608f7027994aaebdefd004fe94153d9 inherit pub_attribs_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
-<tr class="memitem:ad67234ec264354a22032bb2519575dc1 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a></td></tr>
-<tr class="separator:ad67234ec264354a22032bb2519575dc1 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a58e8c883aea4cfdfa5a84c25a4704ebc inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a></td></tr>
-<tr class="separator:a58e8c883aea4cfdfa5a84c25a4704ebc inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a313984457c78eea66c980f6813047b9c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a></td></tr>
-<tr class="separator:a313984457c78eea66c980f6813047b9c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af95fa1b5102176a0fa9b17713fd48150 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a></td></tr>
-<tr class="separator:af95fa1b5102176a0fa9b17713fd48150 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aea591d4278a8338ae8b50fa0b8f3a366 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a></td></tr>
-<tr class="separator:aea591d4278a8338ae8b50fa0b8f3a366 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac6e81450a2d78555a6c2415dcc42b178 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a></td></tr>
-<tr class="separator:ac6e81450a2d78555a6c2415dcc42b178 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1187258cd4068a627e73bee0302f1fc2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a></td></tr>
-<tr class="separator:a1187258cd4068a627e73bee0302f1fc2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1TileLoadIterator_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileLoadIterator_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:a388d464c35cc1bcd509d22937f38dcf6 inherit pub_attribs_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> const  *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a></td></tr>
+<tr class="memdesc:a388d464c35cc1bcd509d22937f38dcf6 inherit pub_attribs_structcutlass_1_1TileLoadIterator_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Pointer to memory.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">More...</a><br /></td></tr>
+<tr class="separator:a388d464c35cc1bcd509d22937f38dcf6 inherit pub_attribs_structcutlass_1_1TileLoadIterator_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:a235647baff946e483dd61a2069aa01d2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a></td></tr>
+<tr class="separator:a235647baff946e483dd61a2069aa01d2 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4f029a268387bd63112d9074c185c623 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a></td></tr>
+<tr class="separator:a4f029a268387bd63112d9074c185c623 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af7e7a71a9fa41cc3f6d0e5963963339d inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a></td></tr>
+<tr class="separator:af7e7a71a9fa41cc3f6d0e5963963339d inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7b4293bf8291b0383dee695a60f2e0fd inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a></td></tr>
+<tr class="separator:a7b4293bf8291b0383dee695a60f2e0fd inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a15227102466522445261b6ea65c89c06 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a></td></tr>
+<tr class="separator:a15227102466522445261b6ea65c89c06 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af0be1271cfe6d6c03a9a76ff992d8a5c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a></td></tr>
+<tr class="separator:af0be1271cfe6d6c03a9a76ff992d8a5c inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6d8f1e07f286ed8d5761e2a878b807d3 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a></td></tr>
+<tr class="separator:a6d8f1e07f286ed8d5761e2a878b807d3 inherit pub_attribs_structcutlass_1_1TileIteratorBase_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a73091e07b6d4c99f6e0319fbf6bd1709"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a73091e07b6d4c99f6e0319fbf6bd1709">&#9670;&nbsp;</a></span>initialize()</h2>
+<a id="ad0602cf5d322e98e3e5990c84ae1e3f3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad0602cf5d322e98e3e5990c84ae1e3f3">&#9670;&nbsp;</a></span>initialize()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -158,6 +193,12 @@ <h2 class="memtitle"><span class="permalink"><a href="#a73091e07b6d4c99f6e0319fb
           <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> const *&#160;</td>
           <td class="paramname"><em>ptr</em>, </td>
         </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>stride_d</em>, </td>
+        </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
@@ -185,7 +226,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a73091e07b6d4c99f6e0319fb
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.png b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.png
index 0a3e71c3ee..9cce10a9a9 100644
Binary files a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.png and b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd-members.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd-members.html
index e77b99eb67..f19fdc17cd 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd-members.html
@@ -79,51 +79,55 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a0d3c1a58f23957f9850d1b22992a981a">data</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6fd4e62eb280a5b8c17eb79141414581">data</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6dae81995ab94c0b7f28eeeeb84a6c8d">GemmGlobalIteratorCd</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a64f1df43acb37a1901f0b55becaa9557">GemmGlobalIteratorCd</a>(Params const &amp;params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab4b8150f19c9f8649d75c69ec0a76e1a">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a12ead84ea9634e963d10c6df7b7792c9">inc_c</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad26ab8d8010c9a1d7f3b91f60940b460">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ae07fa10a53d44471a04275145201299e">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a622a4dd27162854ec96efea93cdd4380">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db">add_pointer_offset</a>(Index offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff">GemmGlobalIteratorCd</a>(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block_offset, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a15d3244546d1c8f4727e84b27a8b7fc6">GemmGlobalIteratorCd</a>(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316">inc_c</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a>(PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">load_element</a>(typename Base::AccessType &amp;value, int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec">operator+=</a>(Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">predicates</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d">store_element</a>(typename Base::AccessType const &amp;value, int d, int h, int w, int c)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a">store_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6594acc213fc8d4289c6c73631f60120">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html
index 6af473203d..8159a864ee 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html
@@ -92,6 +92,7 @@
   <img src="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.png" usemap="#cutlass::gemm::GemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map" alt=""/>
   <map id="cutlass::gemm::GemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map" name="cutlass::gemm::GemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map">
 <area href="structcutlass_1_1TileIteratorBase.html" alt="cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;" shape="rect" coords="0,0,643,24"/>
+<area href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html" alt="cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;" shape="rect" coords="0,112,643,136"/>
 </map>
  </div></div>
 <table class="memberdecls">
@@ -125,97 +126,112 @@
 <tr class="memdesc:a6d985f8e93be21e56f72ec1400d73df1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The thread offset.  <a href="#a6d985f8e93be21e56f72ec1400d73df1">More...</a><br /></td></tr>
 <tr class="separator:a6d985f8e93be21e56f72ec1400d73df1"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_types_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a></td></tr>
-<tr class="memdesc:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept TileTraits  <a href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">More...</a><br /></td></tr>
-<tr class="separator:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a></td></tr>
-<tr class="memdesc:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">More...</a><br /></td></tr>
-<tr class="separator:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a></td></tr>
-<tr class="memdesc:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment element.  <a href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">More...</a><br /></td></tr>
-<tr class="separator:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a></td></tr>
-<tr class="memdesc:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">More...</a><br /></td></tr>
-<tr class="separator:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a></td></tr>
-<tr class="memdesc:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">More...</a><br /></td></tr>
-<tr class="separator:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a></td></tr>
-<tr class="memdesc:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">More...</a><br /></td></tr>
-<tr class="separator:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a></td></tr>
-<tr class="memdesc:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">More...</a><br /></td></tr>
-<tr class="separator:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a></td></tr>
-<tr class="memdesc:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">More...</a><br /></td></tr>
-<tr class="separator:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a></td></tr>
-<tr class="memdesc:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">More...</a><br /></td></tr>
-<tr class="separator:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a></td></tr>
-<tr class="memdesc:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">More...</a><br /></td></tr>
-<tr class="separator:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a></td></tr>
-<tr class="memdesc:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">More...</a><br /></td></tr>
-<tr class="separator:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a></td></tr>
-<tr class="memdesc:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">More...</a><br /></td></tr>
-<tr class="separator:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a></td></tr>
-<tr class="memdesc:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">More...</a><br /></td></tr>
-<tr class="separator:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a></td></tr>
-<tr class="memdesc:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">More...</a><br /></td></tr>
-<tr class="separator:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a></td></tr>
-<tr class="memdesc:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">More...</a><br /></td></tr>
-<tr class="separator:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a></td></tr>
-<tr class="memdesc:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">More...</a><br /></td></tr>
-<tr class="separator:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a></td></tr>
-<tr class="memdesc:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">More...</a><br /></td></tr>
-<tr class="separator:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a></td></tr>
+<tr class="memdesc:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept TileTraits  <a href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">More...</a><br /></td></tr>
+<tr class="separator:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a></td></tr>
+<tr class="memdesc:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">More...</a><br /></td></tr>
+<tr class="separator:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a></td></tr>
+<tr class="memdesc:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment element.  <a href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">More...</a><br /></td></tr>
+<tr class="separator:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a></td></tr>
+<tr class="memdesc:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">More...</a><br /></td></tr>
+<tr class="separator:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a></td></tr>
+<tr class="memdesc:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">More...</a><br /></td></tr>
+<tr class="separator:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a></td></tr>
+<tr class="memdesc:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">More...</a><br /></td></tr>
+<tr class="separator:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a></td></tr>
+<tr class="memdesc:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">More...</a><br /></td></tr>
+<tr class="separator:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">More...</a><br /></td></tr>
+<tr class="separator:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a></td></tr>
+<tr class="memdesc:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">More...</a><br /></td></tr>
+<tr class="separator:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a></td></tr>
+<tr class="memdesc:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">More...</a><br /></td></tr>
+<tr class="separator:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a></td></tr>
+<tr class="memdesc:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">More...</a><br /></td></tr>
+<tr class="separator:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a></td></tr>
+<tr class="memdesc:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">More...</a><br /></td></tr>
+<tr class="separator:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a></td></tr>
+<tr class="memdesc:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">More...</a><br /></td></tr>
+<tr class="separator:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a></td></tr>
+<tr class="memdesc:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">More...</a><br /></td></tr>
+<tr class="separator:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">More...</a><br /></td></tr>
+<tr class="separator:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a></td></tr>
+<tr class="memdesc:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">More...</a><br /></td></tr>
+<tr class="separator:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a></td></tr>
+<tr class="memdesc:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">More...</a><br /></td></tr>
+<tr class="separator:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a6dae81995ab94c0b7f28eeeeb84a6c8d"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6dae81995ab94c0b7f28eeeeb84a6c8d">GemmGlobalIteratorCd</a> ()</td></tr>
-<tr class="memdesc:a6dae81995ab94c0b7f28eeeeb84a6c8d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a6dae81995ab94c0b7f28eeeeb84a6c8d">More...</a><br /></td></tr>
-<tr class="separator:a6dae81995ab94c0b7f28eeeeb84a6c8d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a64f1df43acb37a1901f0b55becaa9557"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a64f1df43acb37a1901f0b55becaa9557">GemmGlobalIteratorCd</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> const &amp;<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>())</td></tr>
-<tr class="memdesc:a64f1df43acb37a1901f0b55becaa9557"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a64f1df43acb37a1901f0b55becaa9557">More...</a><br /></td></tr>
-<tr class="separator:a64f1df43acb37a1901f0b55becaa9557"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a12ead84ea9634e963d10c6df7b7792c9"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a12ead84ea9634e963d10c6df7b7792c9">inc_c</a> ()</td></tr>
-<tr class="memdesc:a12ead84ea9634e963d10c6df7b7792c9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the C dimension.  <a href="#a12ead84ea9634e963d10c6df7b7792c9">More...</a><br /></td></tr>
-<tr class="separator:a12ead84ea9634e963d10c6df7b7792c9"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a622a4dd27162854ec96efea93cdd4380"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a622a4dd27162854ec96efea93cdd4380">inc_w</a> ()</td></tr>
-<tr class="memdesc:a622a4dd27162854ec96efea93cdd4380"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the W dimension.  <a href="#a622a4dd27162854ec96efea93cdd4380">More...</a><br /></td></tr>
-<tr class="separator:a622a4dd27162854ec96efea93cdd4380"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae07fa10a53d44471a04275145201299e"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ae07fa10a53d44471a04275145201299e">inc_h</a> ()</td></tr>
-<tr class="memdesc:ae07fa10a53d44471a04275145201299e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the H dimension.  <a href="#ae07fa10a53d44471a04275145201299e">More...</a><br /></td></tr>
-<tr class="separator:ae07fa10a53d44471a04275145201299e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad26ab8d8010c9a1d7f3b91f60940b460"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad26ab8d8010c9a1d7f3b91f60940b460">inc_d</a> ()</td></tr>
-<tr class="memdesc:ad26ab8d8010c9a1d7f3b91f60940b460"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the D dimension.  <a href="#ad26ab8d8010c9a1d7f3b91f60940b460">More...</a><br /></td></tr>
-<tr class="separator:ad26ab8d8010c9a1d7f3b91f60940b460"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab4b8150f19c9f8649d75c69ec0a76e1a"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab4b8150f19c9f8649d75c69ec0a76e1a">inc_advance</a> ()</td></tr>
-<tr class="memdesc:ab4b8150f19c9f8649d75c69ec0a76e1a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer to move to the next iteration.  <a href="#ab4b8150f19c9f8649d75c69ec0a76e1a">More...</a><br /></td></tr>
-<tr class="separator:ab4b8150f19c9f8649d75c69ec0a76e1a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6594acc213fc8d4289c6c73631f60120"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6594acc213fc8d4289c6c73631f60120">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:a6594acc213fc8d4289c6c73631f60120"><td class="mdescLeft">&#160;</td><td class="mdescRight">Test the validity of the iterator.  <a href="#a6594acc213fc8d4289c6c73631f60120">More...</a><br /></td></tr>
-<tr class="separator:a6594acc213fc8d4289c6c73631f60120"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0d3c1a58f23957f9850d1b22992a981a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a0d3c1a58f23957f9850d1b22992a981a">data</a> ()</td></tr>
-<tr class="memdesc:a0d3c1a58f23957f9850d1b22992a981a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the raw pointer.  <a href="#a0d3c1a58f23957f9850d1b22992a981a">More...</a><br /></td></tr>
-<tr class="separator:a0d3c1a58f23957f9850d1b22992a981a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6fd4e62eb280a5b8c17eb79141414581"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6fd4e62eb280a5b8c17eb79141414581">data</a> () const</td></tr>
-<tr class="separator:a6fd4e62eb280a5b8c17eb79141414581"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeeed9a3582a879d9da77191df88e83ff"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff">GemmGlobalIteratorCd</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> const &amp;_params, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block_offset, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:aeeed9a3582a879d9da77191df88e83ff"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#aeeed9a3582a879d9da77191df88e83ff">More...</a><br /></td></tr>
+<tr class="separator:aeeed9a3582a879d9da77191df88e83ff"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a15d3244546d1c8f4727e84b27a8b7fc6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a15d3244546d1c8f4727e84b27a8b7fc6">GemmGlobalIteratorCd</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> const &amp;_params, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:a15d3244546d1c8f4727e84b27a8b7fc6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a15d3244546d1c8f4727e84b27a8b7fc6">More...</a><br /></td></tr>
+<tr class="separator:a15d3244546d1c8f4727e84b27a8b7fc6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a365eb7c90a79c9ab32f603c6985a0316"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316">inc_c</a> ()</td></tr>
+<tr class="memdesc:a365eb7c90a79c9ab32f603c6985a0316"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the C dimension.  <a href="#a365eb7c90a79c9ab32f603c6985a0316">More...</a><br /></td></tr>
+<tr class="separator:a365eb7c90a79c9ab32f603c6985a0316"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab1d9e606a89d3dd315df3d3efa48bcc2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">inc_w</a> ()</td></tr>
+<tr class="memdesc:ab1d9e606a89d3dd315df3d3efa48bcc2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the W dimension.  <a href="#ab1d9e606a89d3dd315df3d3efa48bcc2">More...</a><br /></td></tr>
+<tr class="separator:ab1d9e606a89d3dd315df3d3efa48bcc2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a40144d869b56b46cf1dd8f9941e61e77"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">inc_h</a> ()</td></tr>
+<tr class="memdesc:a40144d869b56b46cf1dd8f9941e61e77"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the H dimension.  <a href="#a40144d869b56b46cf1dd8f9941e61e77">More...</a><br /></td></tr>
+<tr class="separator:a40144d869b56b46cf1dd8f9941e61e77"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a49d7db2dab7a6d1e496ebff0e67039bc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">inc_d</a> ()</td></tr>
+<tr class="memdesc:a49d7db2dab7a6d1e496ebff0e67039bc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the D dimension.  <a href="#a49d7db2dab7a6d1e496ebff0e67039bc">More...</a><br /></td></tr>
+<tr class="separator:a49d7db2dab7a6d1e496ebff0e67039bc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeac77cdc31ce151634b7c27ccdaf5552"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">inc_advance</a> ()</td></tr>
+<tr class="memdesc:aeac77cdc31ce151634b7c27ccdaf5552"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer to move to the next iteration.  <a href="#aeac77cdc31ce151634b7c27ccdaf5552">More...</a><br /></td></tr>
+<tr class="separator:aeac77cdc31ce151634b7c27ccdaf5552"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa6845b5a0fa36eb185caafea791e53ec"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:aa6845b5a0fa36eb185caafea791e53ec"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a vector offset to the iterator.  <a href="#aa6845b5a0fa36eb185caafea791e53ec">More...</a><br /></td></tr>
+<tr class="separator:aa6845b5a0fa36eb185caafea791e53ec"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6034b7229e4aca05f63c39560f219433"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">load_element</a> (typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> &amp;value, int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a6034b7229e4aca05f63c39560f219433"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a single fragment element from memory.  <a href="#a6034b7229e4aca05f63c39560f219433">More...</a><br /></td></tr>
+<tr class="separator:a6034b7229e4aca05f63c39560f219433"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5de982aed44932da3b265f8bb520249d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d">store_element</a> (typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> const &amp;value, int d, int h, int w, int c)</td></tr>
+<tr class="memdesc:a5de982aed44932da3b265f8bb520249d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a single fragment element into memory.  <a href="#a5de982aed44932da3b265f8bb520249d">More...</a><br /></td></tr>
+<tr class="separator:a5de982aed44932da3b265f8bb520249d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab224a0a6ab8ce7fc4e76b06fb7679fa0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:ab224a0a6ab8ce7fc4e76b06fb7679fa0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Test the validity of the.  <a href="#ab224a0a6ab8ce7fc4e76b06fb7679fa0">More...</a><br /></td></tr>
+<tr class="separator:ab224a0a6ab8ce7fc4e76b06fb7679fa0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8fd617565db6eb9c6fb99de868c389db"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db">add_pointer_offset</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> offset)</td></tr>
+<tr class="memdesc:a8fd617565db6eb9c6fb99de868c389db"><td class="mdescLeft">&#160;</td><td class="mdescRight">add pointer offset  <a href="#a8fd617565db6eb9c6fb99de868c389db">More...</a><br /></td></tr>
+<tr class="separator:a8fd617565db6eb9c6fb99de868c389db"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1a587af6edd528a02679c0decc31cdd1"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a1a587af6edd528a02679c0decc31cdd1"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)</td></tr>
+<tr class="memdesc:a1a587af6edd528a02679c0decc31cdd1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads and increments iterator.  <a href="#a1a587af6edd528a02679c0decc31cdd1">More...</a><br /></td></tr>
+<tr class="separator:a1a587af6edd528a02679c0decc31cdd1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aafa962f7e63da77c9904d438ab94347a"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:aafa962f7e63da77c9904d438ab94347a"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a">store_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)</td></tr>
+<tr class="separator:aafa962f7e63da77c9904d438ab94347a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">More...</a><br /></td></tr>
-<tr class="separator:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">More...</a><br /></td></tr>
+<tr class="separator:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
 <tr class="memitem:ac368b1ea1c5ad2209a6ac6bec597600f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a></td></tr>
+<tr class="memdesc:ac368b1ea1c5ad2209a6ac6bec597600f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters.  <a href="#ac368b1ea1c5ad2209a6ac6bec597600f">More...</a><br /></td></tr>
 <tr class="separator:ac368b1ea1c5ad2209a6ac6bec597600f"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a56601dc34e8f9a070db5dc48c37d55a0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a></td></tr>
 <tr class="memdesc:a56601dc34e8f9a070db5dc48c37d55a0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Offset of an individual lane from the start of the tile.  <a href="#a56601dc34e8f9a070db5dc48c37d55a0">More...</a><br /></td></tr>
@@ -230,28 +246,28 @@
 <tr class="memdesc:a27b88818f5b094372bf2c6e090c9148a"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="#a27b88818f5b094372bf2c6e090c9148a">More...</a><br /></td></tr>
 <tr class="separator:a27b88818f5b094372bf2c6e090c9148a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_static_attribs_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a></td></tr>
-<tr class="memdesc:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">More...</a><br /></td></tr>
-<tr class="separator:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a></td></tr>
-<tr class="memdesc:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">More...</a><br /></td></tr>
-<tr class="separator:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">kMemorySpace</a></td></tr>
-<tr class="memdesc:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">More...</a><br /></td></tr>
-<tr class="separator:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a></td></tr>
-<tr class="memdesc:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">More...</a><br /></td></tr>
-<tr class="separator:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td></tr>
-<tr class="memdesc:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">More...</a><br /></td></tr>
-<tr class="separator:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a></td></tr>
+<tr class="memdesc:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">More...</a><br /></td></tr>
+<tr class="separator:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a></td></tr>
+<tr class="memdesc:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">More...</a><br /></td></tr>
+<tr class="separator:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a></td></tr>
+<tr class="memdesc:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">More...</a><br /></td></tr>
+<tr class="separator:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a></td></tr>
+<tr class="memdesc:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">More...</a><br /></td></tr>
+<tr class="separator:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td></tr>
+<tr class="memdesc:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">More...</a><br /></td></tr>
+<tr class="separator:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
 <tr class="inherit_header pub_static_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset=make_Coord(0, 0, 0))</td></tr>
-<tr class="memdesc:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">More...</a><br /></td></tr>
-<tr class="separator:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">More...</a><br /></td></tr>
+<tr class="separator:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="a8f8fbb65070589769468c6b1ac6ba7a5"></a>
@@ -367,8 +383,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#afdd08b4f4c1feaa426f997d1
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="a6dae81995ab94c0b7f28eeeeb84a6c8d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6dae81995ab94c0b7f28eeeeb84a6c8d">&#9670;&nbsp;</a></span>GemmGlobalIteratorCd() <span class="overload">[1/2]</span></h2>
+<a id="aeeed9a3582a879d9da77191df88e83ff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeeed9a3582a879d9da77191df88e83ff">&#9670;&nbsp;</a></span>GemmGlobalIteratorCd() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -379,10 +395,33 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6dae81995ab94c0b7f28eeee
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>bounds</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
           <td></td>
+          <td class="paramtype">const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>block_offset</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>&#160;</td>
+          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>()</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
         </tr>
       </table>
   </td>
@@ -394,8 +433,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6dae81995ab94c0b7f28eeee
 
 </div>
 </div>
-<a id="a64f1df43acb37a1901f0b55becaa9557"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a64f1df43acb37a1901f0b55becaa9557">&#9670;&nbsp;</a></span>GemmGlobalIteratorCd() <span class="overload">[2/2]</span></h2>
+<a id="a15d3244546d1c8f4727e84b27a8b7fc6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a15d3244546d1c8f4727e84b27a8b7fc6">&#9670;&nbsp;</a></span>GemmGlobalIteratorCd() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -406,10 +445,10 @@ <h2 class="memtitle"><span class="permalink"><a href="#a64f1df43acb37a1901f0b55b
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> </td>
           <td>(</td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> const &amp;&#160;</td>
-          <td class="paramname"><em>params</em>, </td>
+          <td class="paramname"><em>_params</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
@@ -457,8 +496,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a64f1df43acb37a1901f0b55b
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a0d3c1a58f23957f9850d1b22992a981a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0d3c1a58f23957f9850d1b22992a981a">&#9670;&nbsp;</a></span>data() <span class="overload">[1/2]</span></h2>
+<a id="a8fd617565db6eb9c6fb99de868c389db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8fd617565db6eb9c6fb99de868c389db">&#9670;&nbsp;</a></span>add_pointer_offset()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -469,9 +508,10 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0d3c1a58f23957f9850d1b22
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::data </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::add_pointer_offset </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
           <td></td>
         </tr>
       </table>
@@ -484,8 +524,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0d3c1a58f23957f9850d1b22
 
 </div>
 </div>
-<a id="a6fd4e62eb280a5b8c17eb79141414581"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6fd4e62eb280a5b8c17eb79141414581">&#9670;&nbsp;</a></span>data() <span class="overload">[2/2]</span></h2>
+<a id="aeac77cdc31ce151634b7c27ccdaf5552"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeac77cdc31ce151634b7c27ccdaf5552">&#9670;&nbsp;</a></span>inc_advance()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -496,10 +536,10 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6fd4e62eb280a5b8c17eb791
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> const <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::data </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_advance </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
-          <td> const</td>
+          <td></td>
         </tr>
       </table>
   </td>
@@ -511,8 +551,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6fd4e62eb280a5b8c17eb791
 
 </div>
 </div>
-<a id="ab4b8150f19c9f8649d75c69ec0a76e1a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab4b8150f19c9f8649d75c69ec0a76e1a">&#9670;&nbsp;</a></span>inc_advance()</h2>
+<a id="a365eb7c90a79c9ab32f603c6985a0316"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a365eb7c90a79c9ab32f603c6985a0316">&#9670;&nbsp;</a></span>inc_c()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -523,7 +563,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab4b8150f19c9f8649d75c69e
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_advance </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_c </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -538,8 +578,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab4b8150f19c9f8649d75c69e
 
 </div>
 </div>
-<a id="a12ead84ea9634e963d10c6df7b7792c9"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a12ead84ea9634e963d10c6df7b7792c9">&#9670;&nbsp;</a></span>inc_c()</h2>
+<a id="a49d7db2dab7a6d1e496ebff0e67039bc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a49d7db2dab7a6d1e496ebff0e67039bc">&#9670;&nbsp;</a></span>inc_d()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -550,7 +590,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a12ead84ea9634e963d10c6df
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_c </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_d </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -565,8 +605,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a12ead84ea9634e963d10c6df
 
 </div>
 </div>
-<a id="ad26ab8d8010c9a1d7f3b91f60940b460"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad26ab8d8010c9a1d7f3b91f60940b460">&#9670;&nbsp;</a></span>inc_d()</h2>
+<a id="a40144d869b56b46cf1dd8f9941e61e77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a40144d869b56b46cf1dd8f9941e61e77">&#9670;&nbsp;</a></span>inc_h()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -577,7 +617,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad26ab8d8010c9a1d7f3b91f6
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_d </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_h </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -592,8 +632,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad26ab8d8010c9a1d7f3b91f6
 
 </div>
 </div>
-<a id="ae07fa10a53d44471a04275145201299e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae07fa10a53d44471a04275145201299e">&#9670;&nbsp;</a></span>inc_h()</h2>
+<a id="ab1d9e606a89d3dd315df3d3efa48bcc2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab1d9e606a89d3dd315df3d3efa48bcc2">&#9670;&nbsp;</a></span>inc_w()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -604,7 +644,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae07fa10a53d44471a0427514
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_h </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_w </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -619,8 +659,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae07fa10a53d44471a0427514
 
 </div>
 </div>
-<a id="a622a4dd27162854ec96efea93cdd4380"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a622a4dd27162854ec96efea93cdd4380">&#9670;&nbsp;</a></span>inc_w()</h2>
+<a id="a6034b7229e4aca05f63c39560f219433"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6034b7229e4aca05f63c39560f219433">&#9670;&nbsp;</a></span>load_element()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -631,9 +671,182 @@ <h2 class="memtitle"><span class="permalink"><a href="#a622a4dd27162854ec96efea9
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_w </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::load_element </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramtype">typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>c</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1a587af6edd528a02679c0decc31cdd1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1a587af6edd528a02679c0decc31cdd1">&#9670;&nbsp;</a></span>load_post_increment()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::load_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa6845b5a0fa36eb185caafea791e53ec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6845b5a0fa36eb185caafea791e53ec">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&amp; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5de982aed44932da3b265f8bb520249d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5de982aed44932da3b265f8bb520249d">&#9670;&nbsp;</a></span>store_element()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::store_element </td>
+          <td>(</td>
+          <td class="paramtype">typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> const &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>c</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aafa962f7e63da77c9904d438ab94347a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aafa962f7e63da77c9904d438ab94347a">&#9670;&nbsp;</a></span>store_post_increment()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::store_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
           <td></td>
         </tr>
       </table>
@@ -646,8 +859,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a622a4dd27162854ec96efea9
 
 </div>
 </div>
-<a id="a6594acc213fc8d4289c6c73631f60120"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6594acc213fc8d4289c6c73631f60120">&#9670;&nbsp;</a></span>valid()</h2>
+<a id="ab224a0a6ab8ce7fc4e76b06fb7679fa0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab224a0a6ab8ce7fc4e76b06fb7679fa0">&#9670;&nbsp;</a></span>valid()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -658,7 +871,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6594acc213fc8d4289c6c736
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE bool <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::valid </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::valid </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
@@ -775,7 +988,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a56601dc34e8f9a070db5dc48
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.png b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.png
index 13e8ac2aa9..24971967c7 100644
Binary files a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.png and b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params-members.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params-members.html
index aa6c60c858..2492594fe3 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params-members.html
@@ -81,16 +81,17 @@
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#af5a496f1b6a46ea6a9894512029add6a">initialize</a>(Pointer pointer, Index ld, Index bound, Index epilogue_stride_w, Index epilogue_delta_w)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5">initialize</a>(Pointer pointer, long long batch_stride, Index ldm, Index bound, Index epilogue_stride_w, Index epilogue_delta_w)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">predicate_inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">predicate_inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">stride_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html
index 9b30fd7844..7c1b105796 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html
@@ -85,18 +85,30 @@
 </p>
 
 <p><code>#include &lt;<a class="el" href="gemm__global__tile_8h_source.html">gemm_global_tile.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.png" usemap="#cutlass::gemm::GemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E::Params_map" alt=""/>
+  <map id="cutlass::gemm::GemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E::Params_map" name="cutlass::gemm::GemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E::Params_map">
+<area href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html" title="The params. " alt="cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params" shape="rect" coords="0,56,433,80"/>
+</map>
+ </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:af5a496f1b6a46ea6a9894512029add6a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#af5a496f1b6a46ea6a9894512029add6a">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> ld, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> bound, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_stride_w, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_delta_w)</td></tr>
-<tr class="memdesc:af5a496f1b6a46ea6a9894512029add6a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Setup the params.  <a href="#af5a496f1b6a46ea6a9894512029add6a">More...</a><br /></td></tr>
-<tr class="separator:af5a496f1b6a46ea6a9894512029add6a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae24453fcdf9f21385b2637476746bbe5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>, long long batch_stride, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> ldm, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> bound, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_stride_w, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_delta_w)</td></tr>
+<tr class="memdesc:ae24453fcdf9f21385b2637476746bbe5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Setup the params.  <a href="#ae24453fcdf9f21385b2637476746bbe5">More...</a><br /></td></tr>
+<tr class="separator:ae24453fcdf9f21385b2637476746bbe5"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
 <tr class="memitem:ad764f98e770d4685006e6888214dcd4d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a></td></tr>
 <tr class="memdesc:ad764f98e770d4685006e6888214dcd4d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="#ad764f98e770d4685006e6888214dcd4d">More...</a><br /></td></tr>
 <tr class="separator:ad764f98e770d4685006e6888214dcd4d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1a53695ce7f3cb267225d3ab86a0d5aa"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">stride_d</a></td></tr>
+<tr class="memdesc:a1a53695ce7f3cb267225d3ab86a0d5aa"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stride in the D dimension.  <a href="#a1a53695ce7f3cb267225d3ab86a0d5aa">More...</a><br /></td></tr>
+<tr class="separator:a1a53695ce7f3cb267225d3ab86a0d5aa"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a0c6b03c635e14ad4424a83f8c7f8025e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a></td></tr>
 <tr class="memdesc:a0c6b03c635e14ad4424a83f8c7f8025e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stride in the H dimension to setup the thread in the block.  <a href="#a0c6b03c635e14ad4424a83f8c7f8025e">More...</a><br /></td></tr>
 <tr class="separator:a0c6b03c635e14ad4424a83f8c7f8025e"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -115,8 +127,8 @@
 <tr class="separator:a3e8f6cf08d23318f3e3263b55cf3b84a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="af5a496f1b6a46ea6a9894512029add6a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af5a496f1b6a46ea6a9894512029add6a">&#9670;&nbsp;</a></span>initialize()</h2>
+<a id="ae24453fcdf9f21385b2637476746bbe5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae24453fcdf9f21385b2637476746bbe5">&#9670;&nbsp;</a></span>initialize()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -132,11 +144,17 @@ <h2 class="memtitle"><span class="permalink"><a href="#af5a496f1b6a46ea6a9894512
           <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a>&#160;</td>
           <td class="paramname"><em>pointer</em>, </td>
         </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>batch_stride</em>, </td>
+        </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td>
-          <td class="paramname"><em>ld</em>, </td>
+          <td class="paramname"><em>ldm</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
@@ -266,6 +284,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3e8f6cf08d23318f3e3263b5
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a1a53695ce7f3cb267225d3ab86a0d5aa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1a53695ce7f3cb267225d3ab86a0d5aa">&#9670;&nbsp;</a></span>stride_d</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">long long <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::Params::stride_d</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="a0c6b03c635e14ad4424a83f8c7f8025e"></a>
@@ -290,7 +324,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0c6b03c635e14ad4424a83f8
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.png b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.png
new file mode 100644
index 0000000000..a31a8a5a82
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits-members.html
index 92fd6a4c08..2cf66086a2 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits-members.html
@@ -93,11 +93,12 @@
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">ThreadsDelta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html
index 3aed66b5bb..9de76685a1 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html
@@ -107,11 +107,11 @@
 <tr class="memitem:aba61fb6e93a6423ab72c082c280f5db4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Base::Delta::kW</a>, <a class="el" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">Base::Delta::kC</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#aba61fb6e93a6423ab72c082c280f5db4">Delta</a></td></tr>
 <tr class="memdesc:aba61fb6e93a6423ab72c082c280f5db4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Override the strides in each dimension between different loads/stores.  <a href="#aba61fb6e93a6423ab72c082c280f5db4">More...</a><br /></td></tr>
 <tr class="separator:aba61fb6e93a6423ab72c082c280f5db4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a72eebc18d31900db57fa77508016f64a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Base::Iterations</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">Iterations</a></td></tr>
+<tr class="memitem:a72eebc18d31900db57fa77508016f64a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Base::Iterations</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">Iterations</a></td></tr>
 <tr class="separator:a72eebc18d31900db57fa77508016f64a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9aff3e2ff0db5a5169257e964e5895c6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Base::Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">Threads</a></td></tr>
+<tr class="memitem:a9aff3e2ff0db5a5169257e964e5895c6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Base::Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">Threads</a></td></tr>
 <tr class="separator:a9aff3e2ff0db5a5169257e964e5895c6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae2f8331619e735e620f8a8cf2cdde077"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">Base::ThreadsDelta</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">ThreadsDelta</a></td></tr>
+<tr class="memitem:ae2f8331619e735e620f8a8cf2cdde077"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">Base::ThreadsDelta</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">ThreadsDelta</a></td></tr>
 <tr class="separator:ae2f8331619e735e620f8a8cf2cdde077"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a14e9713b0cd34af433c3cae9b283b54c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">Base::ImmediateOffsetStrides</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a14e9713b0cd34af433c3cae9b283b54c">ImmediateOffsetStrides</a></td></tr>
 <tr class="separator:a14e9713b0cd34af433c3cae9b283b54c"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -122,25 +122,28 @@
 <tr class="memitem:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef Scalar_ *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a></td></tr>
 <tr class="memdesc:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">More...</a><br /></td></tr>
 <tr class="separator:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aebbf8834d0d88f0e5b3e1926db5e6758 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt; Tile_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a></td></tr>
-<tr class="memdesc:aebbf8834d0d88f0e5b3e1926db5e6758 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">More...</a><br /></td></tr>
-<tr class="separator:aebbf8834d0d88f0e5b3e1926db5e6758 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a29bd05960cc541bb67098f5483c84cf6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>, Threads_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a></td></tr>
-<tr class="memdesc:a29bd05960cc541bb67098f5483c84cf6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">More...</a><br /></td></tr>
-<tr class="separator:a29bd05960cc541bb67098f5483c84cf6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a65f9ccd630dde0c9db5358cfc951583d inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, Tile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">ThreadsDelta</a></td></tr>
-<tr class="memdesc:a65f9ccd630dde0c9db5358cfc951583d inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The relative offset between two elements in the H/W dimension in adjacent threads.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">More...</a><br /></td></tr>
-<tr class="separator:a65f9ccd630dde0c9db5358cfc951583d inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef Tile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a></td></tr>
+<tr class="memdesc:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">More...</a><br /></td></tr>
+<tr class="separator:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt; Tile_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a></td></tr>
+<tr class="memdesc:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The vectorized tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">More...</a><br /></td></tr>
+<tr class="separator:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a>, Threads_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a></td></tr>
+<tr class="memdesc:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">More...</a><br /></td></tr>
+<tr class="separator:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, VectorizedTile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a></td></tr>
+<tr class="memdesc:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The relative offset between two elements in the H/W dimension in adjacent threads.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">More...</a><br /></td></tr>
+<tr class="separator:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, Threads::kH, Threads::kW *<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">Delta</a></td></tr>
 <tr class="memdesc:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">More...</a><br /></td></tr>
 <tr class="separator:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, Threads::kW *ThreadsDelta::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a></td></tr>
 <tr class="memdesc:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Strides for immediate offset computation.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">More...</a><br /></td></tr>
 <tr class="separator:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aaf6410f99d7f995792d0ac34efd3a82f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, Tile::kH/Threads::kH, Tile::kW/Threads::kW, Tile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Iterations</a></td></tr>
-<tr class="memdesc:aaf6410f99d7f995792d0ac34efd3a82f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">More...</a><br /></td></tr>
-<tr class="separator:aaf6410f99d7f995792d0ac34efd3a82f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td></tr>
+<tr class="memitem:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, VectorizedTile::kH/Threads::kH, VectorizedTile::kW/Threads::kW, VectorizedTile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a></td></tr>
+<tr class="memdesc:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">More...</a><br /></td></tr>
+<tr class="separator:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td></tr>
 <tr class="separator:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
@@ -220,7 +223,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a72eebc18d31900db57fa7750
 template&lt;typename Scalar_ , typename Tile_ , typename Threads_ , int kStrideH_, int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Base::Iterations</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a>&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">Iterations</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Base::Iterations</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a>&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a72eebc18d31900db57fa77508016f64a">Iterations</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -236,7 +239,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9aff3e2ff0db5a5169257e96
 template&lt;typename Scalar_ , typename Tile_ , typename Threads_ , int kStrideH_, int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Base::Threads</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a>&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">Threads</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Base::Threads</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a>&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#a9aff3e2ff0db5a5169257e964e5895c6">Threads</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -252,7 +255,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae2f8331619e735e620f8a8cf
 template&lt;typename Scalar_ , typename Tile_ , typename Threads_ , int kStrideH_, int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">Base::ThreadsDelta</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a>&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">ThreadsDelta</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">Base::ThreadsDelta</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">cutlass::gemm::GemmGlobalTileCdTraits</a>&lt; Scalar_, Tile_, Threads_, kStrideH_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html#ae2f8331619e735e620f8a8cf2cdde077">ThreadsDelta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -290,7 +293,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a87918f4d67a9c1e19dcd3c6b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset-members.html
index 1510bcf26b..192e27a01c 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html
index 524a06aa49..8feee54ba0 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits_1_1ThreadOffset.html
@@ -124,7 +124,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#abaf0d4459a64b3e9533758b5
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits-members.html
index 6225081e82..652e9a86e7 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits-members.html
@@ -81,7 +81,7 @@
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
@@ -89,13 +89,14 @@
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">ThreadsDelta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html
index 4e61285ebf..7f8c05e726 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html
@@ -90,7 +90,7 @@
   <img src="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.png" usemap="#cutlass::gemm::GemmGlobalTileTraits_3C_20kOperand_5F_2C_20kLayout_5F_2C_20Scalar_5F_2C_20Tile_5F_2C_20Threads_5F_2C_20kAccessSize_5F_20_3E_map" alt=""/>
   <map id="cutlass::gemm::GemmGlobalTileTraits_3C_20kOperand_5F_2C_20kLayout_5F_2C_20Scalar_5F_2C_20Tile_5F_2C_20Threads_5F_2C_20kAccessSize_5F_20_3E_map" name="cutlass::gemm::GemmGlobalTileTraits_3C_20kOperand_5F_2C_20kLayout_5F_2C_20Scalar_5F_2C_20Tile_5F_2C_20Threads_5F_2C_20kAccessSize_5F_20_3E_map">
 <area href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html" alt="cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;" shape="rect" coords="0,56,667,80"/>
-<area href="structcutlass_1_1gemm_1_1IgemmContiguousGlobalTileTraits.html" alt="cutlass::gemm::IgemmContiguousGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;" shape="rect" coords="677,56,1344,80"/>
+<area href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html" alt="cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;" shape="rect" coords="677,56,1344,80"/>
 </map>
  </div></div>
 <table class="memberdecls">
@@ -108,25 +108,28 @@
 <tr class="memitem:a3ff6f630b6b317ace1cf6e13fdf3a0cd"><td class="memItemLeft" align="right" valign="top">typedef Scalar_ *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a></td></tr>
 <tr class="memdesc:a3ff6f630b6b317ace1cf6e13fdf3a0cd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="#a3ff6f630b6b317ace1cf6e13fdf3a0cd">More...</a><br /></td></tr>
 <tr class="separator:a3ff6f630b6b317ace1cf6e13fdf3a0cd"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aebbf8834d0d88f0e5b3e1926db5e6758"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt; Tile_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a></td></tr>
-<tr class="memdesc:aebbf8834d0d88f0e5b3e1926db5e6758"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile shape.  <a href="#aebbf8834d0d88f0e5b3e1926db5e6758">More...</a><br /></td></tr>
-<tr class="separator:aebbf8834d0d88f0e5b3e1926db5e6758"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a29bd05960cc541bb67098f5483c84cf6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>, Threads_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a></td></tr>
-<tr class="memdesc:a29bd05960cc541bb67098f5483c84cf6"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads shape.  <a href="#a29bd05960cc541bb67098f5483c84cf6">More...</a><br /></td></tr>
-<tr class="separator:a29bd05960cc541bb67098f5483c84cf6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a65f9ccd630dde0c9db5358cfc951583d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, Tile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">ThreadsDelta</a></td></tr>
-<tr class="memdesc:a65f9ccd630dde0c9db5358cfc951583d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The relative offset between two elements in the H/W dimension in adjacent threads.  <a href="#a65f9ccd630dde0c9db5358cfc951583d">More...</a><br /></td></tr>
-<tr class="separator:a65f9ccd630dde0c9db5358cfc951583d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a52ba72984ea8ce84eda28d07c6c8ec19"><td class="memItemLeft" align="right" valign="top">typedef Tile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a></td></tr>
+<tr class="memdesc:a52ba72984ea8ce84eda28d07c6c8ec19"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile shape.  <a href="#a52ba72984ea8ce84eda28d07c6c8ec19">More...</a><br /></td></tr>
+<tr class="separator:a52ba72984ea8ce84eda28d07c6c8ec19"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6cb3196f1fe3958d1656ba8b493c82ac"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt; Tile_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a></td></tr>
+<tr class="memdesc:a6cb3196f1fe3958d1656ba8b493c82ac"><td class="mdescLeft">&#160;</td><td class="mdescRight">The vectorized tile shape.  <a href="#a6cb3196f1fe3958d1656ba8b493c82ac">More...</a><br /></td></tr>
+<tr class="separator:a6cb3196f1fe3958d1656ba8b493c82ac"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aae7128f5522383c857d2639031b64c30"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a>, Threads_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a></td></tr>
+<tr class="memdesc:aae7128f5522383c857d2639031b64c30"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads shape.  <a href="#aae7128f5522383c857d2639031b64c30">More...</a><br /></td></tr>
+<tr class="separator:aae7128f5522383c857d2639031b64c30"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a428750e54eabd15b2a3f7ac2a96af0a9"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, VectorizedTile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a></td></tr>
+<tr class="memdesc:a428750e54eabd15b2a3f7ac2a96af0a9"><td class="mdescLeft">&#160;</td><td class="mdescRight">The relative offset between two elements in the H/W dimension in adjacent threads.  <a href="#a428750e54eabd15b2a3f7ac2a96af0a9">More...</a><br /></td></tr>
+<tr class="separator:a428750e54eabd15b2a3f7ac2a96af0a9"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a07bb48f99000256f04f00564a4371c2f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, Threads::kH, Threads::kW *<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">Delta</a></td></tr>
 <tr class="memdesc:a07bb48f99000256f04f00564a4371c2f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#a07bb48f99000256f04f00564a4371c2f">More...</a><br /></td></tr>
 <tr class="separator:a07bb48f99000256f04f00564a4371c2f"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:abc47717230ddde3edc88d2770f6841bf"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, Threads::kW *<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a></td></tr>
 <tr class="memdesc:abc47717230ddde3edc88d2770f6841bf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Strides for immediate offset computation.  <a href="#abc47717230ddde3edc88d2770f6841bf">More...</a><br /></td></tr>
 <tr class="separator:abc47717230ddde3edc88d2770f6841bf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aaf6410f99d7f995792d0ac34efd3a82f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, Tile::kH/Threads::kH, Tile::kW/Threads::kW, Tile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Iterations</a></td></tr>
-<tr class="memdesc:aaf6410f99d7f995792d0ac34efd3a82f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="#aaf6410f99d7f995792d0ac34efd3a82f">More...</a><br /></td></tr>
-<tr class="separator:aaf6410f99d7f995792d0ac34efd3a82f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a21a3524edaf002b5e5878df3c7eae7e7"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td></tr>
+<tr class="memitem:a893cb2cc67676b44c1f3ad5908a4ab0c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, VectorizedTile::kH/Threads::kH, VectorizedTile::kW/Threads::kW, VectorizedTile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a></td></tr>
+<tr class="memdesc:a893cb2cc67676b44c1f3ad5908a4ab0c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="#a893cb2cc67676b44c1f3ad5908a4ab0c">More...</a><br /></td></tr>
+<tr class="separator:a893cb2cc67676b44c1f3ad5908a4ab0c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a21a3524edaf002b5e5878df3c7eae7e7"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td></tr>
 <tr class="separator:a21a3524edaf002b5e5878df3c7eae7e7"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
@@ -177,8 +180,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#abc47717230ddde3edc88d277
 
 </div>
 </div>
-<a id="aaf6410f99d7f995792d0ac34efd3a82f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aaf6410f99d7f995792d0ac34efd3a82f">&#9670;&nbsp;</a></span>Iterations</h2>
+<a id="a893cb2cc67676b44c1f3ad5908a4ab0c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a893cb2cc67676b44c1f3ad5908a4ab0c">&#9670;&nbsp;</a></span>Iterations</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -186,7 +189,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aaf6410f99d7f995792d0ac34
 template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_, typename Tile_, typename Threads_, int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, Tile::kH / Threads::kH, Tile::kW / Threads::kW, Tile::kC / <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Iterations</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, VectorizedTile::kH / Threads::kH, VectorizedTile::kW / Threads::kW, VectorizedTile::kC / <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -202,7 +205,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a21a3524edaf002b5e5878df3
 template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_, typename Tile_, typename Threads_, int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -241,8 +244,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6894b653fffa59bcb847bc32
 
 </div>
 </div>
-<a id="a29bd05960cc541bb67098f5483c84cf6"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a29bd05960cc541bb67098f5483c84cf6">&#9670;&nbsp;</a></span>Threads</h2>
+<a id="aae7128f5522383c857d2639031b64c30"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aae7128f5522383c857d2639031b64c30">&#9670;&nbsp;</a></span>Threads</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -250,15 +253,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#a29bd05960cc541bb67098f54
 template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_, typename Tile_, typename Threads_, int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>, Threads_&gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a>, Threads_&gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a65f9ccd630dde0c9db5358cfc951583d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a65f9ccd630dde0c9db5358cfc951583d">&#9670;&nbsp;</a></span>ThreadsDelta</h2>
+<a id="a428750e54eabd15b2a3f7ac2a96af0a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a428750e54eabd15b2a3f7ac2a96af0a9">&#9670;&nbsp;</a></span>ThreadsDelta</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -266,15 +269,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#a65f9ccd630dde0c9db5358cf
 template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_, typename Tile_, typename Threads_, int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, Tile::kC&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">ThreadsDelta</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, VectorizedTile::kC&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aebbf8834d0d88f0e5b3e1926db5e6758"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aebbf8834d0d88f0e5b3e1926db5e6758">&#9670;&nbsp;</a></span>Tile</h2>
+<a id="a52ba72984ea8ce84eda28d07c6c8ec19"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a52ba72984ea8ce84eda28d07c6c8ec19">&#9670;&nbsp;</a></span>Tile</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -282,7 +285,23 @@ <h2 class="memtitle"><span class="permalink"><a href="#aebbf8834d0d88f0e5b3e1926
 template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_, typename Tile_, typename Threads_, int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt;Tile_, kAccessSize_&gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a></td>
+          <td class="memname">typedef Tile_ <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6cb3196f1fe3958d1656ba8b493c82ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6cb3196f1fe3958d1656ba8b493c82ac">&#9670;&nbsp;</a></span>VectorizedTile</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_, typename Tile_, typename Threads_, int kAccessSize_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt;Tile_, kAccessSize_&gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -392,7 +411,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae0bca976b7cfba8561db4ccc
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits.png b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits.png
index 4c9bada463..739d64830b 100644
Binary files a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits.png and b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset-members.html
index 634804a60f..4937c4fcce 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html
index 7b47addb66..50dc0a99f5 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmGlobalTileTraits_1_1ThreadOffset.html
@@ -124,7 +124,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab8adb983c0573a0015469f40
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmMultiplicandTraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmMultiplicandTraits-members.html
index db9bc1bc7c..bb83157310 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmMultiplicandTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmMultiplicandTraits-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html b/docs/structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html
index 121fe8cce1..ca9cf53710 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html
@@ -220,7 +220,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a962ffde3b3db78792b67dd1f
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmOperandTraitsAb-members.html b/docs/structcutlass_1_1gemm_1_1GemmOperandTraitsAb-members.html
index 03950b5a98..8ea3efa969 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmOperandTraitsAb-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmOperandTraitsAb-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html b/docs/structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html
index 39721d9540..68f5c1a442 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmOperandTraitsAb.html
@@ -121,7 +121,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#abe4eb7f9a0ed7d48a81029e8
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits-members.html
index a317e544fa..6cda4b9edb 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits-members.html
@@ -79,8 +79,8 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a2ee87510d2deccf8b9633aaa4f6340ea">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a8e767b5e2fb95b0b02a0ea3e8ea58368">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a134a02091bf4360d2cbca56624e52024">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ad012add21d9393d136720f609467e121">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4456e4c8048bfb378e5b80833a0d19e5">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
@@ -99,7 +99,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html
index 27c32f35e9..d309569a2e 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html
@@ -119,12 +119,11 @@
 <tr class="memitem:ae96e490d38ade6db4d853fb6c8f3378b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, TileWithoutSkew::kW/<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a>/<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ae96e490d38ade6db4d853fb6c8f3378b">Iterations</a></td></tr>
 <tr class="memdesc:ae96e490d38ade6db4d853fb6c8f3378b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="#ae96e490d38ade6db4d853fb6c8f3378b">More...</a><br /></td></tr>
 <tr class="separator:ae96e490d38ade6db4d853fb6c8f3378b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2ee87510d2deccf8b9633aaa4f6340ea"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a>, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a>, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a2ee87510d2deccf8b9633aaa4f6340ea">Delta</a></td></tr>
-<tr class="memdesc:a2ee87510d2deccf8b9633aaa4f6340ea"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#a2ee87510d2deccf8b9633aaa4f6340ea">More...</a><br /></td></tr>
-<tr class="separator:a2ee87510d2deccf8b9633aaa4f6340ea"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8e767b5e2fb95b0b02a0ea3e8ea58368"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a>, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a>, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a8e767b5e2fb95b0b02a0ea3e8ea58368">ImmediateOffsetStrides</a></td></tr>
-<tr class="memdesc:a8e767b5e2fb95b0b02a0ea3e8ea58368"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#a8e767b5e2fb95b0b02a0ea3e8ea58368">More...</a><br /></td></tr>
-<tr class="separator:a8e767b5e2fb95b0b02a0ea3e8ea58368"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad012add21d9393d136720f609467e121"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a> *Warps::kD, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a>, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ad012add21d9393d136720f609467e121">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:ad012add21d9393d136720f609467e121"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#ad012add21d9393d136720f609467e121">More...</a><br /></td></tr>
+<tr class="separator:ad012add21d9393d136720f609467e121"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a134a02091bf4360d2cbca56624e52024"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a> *Warps::kD, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a>, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a134a02091bf4360d2cbca56624e52024">Delta</a></td></tr>
+<tr class="separator:a134a02091bf4360d2cbca56624e52024"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
@@ -147,8 +146,8 @@
 <tr class="separator:a4246185b8279f245ef5d0650c1eec14f"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a2ee87510d2deccf8b9633aaa4f6340ea"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2ee87510d2deccf8b9633aaa4f6340ea">&#9670;&nbsp;</a></span>Delta</h2>
+<a id="a134a02091bf4360d2cbca56624e52024"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a134a02091bf4360d2cbca56624e52024">&#9670;&nbsp;</a></span>Delta</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -156,15 +155,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2ee87510d2deccf8b9633aaa
 template&lt;typename Scalar_ , typename OutputTile_ , typename Warps_ , typename ThreadsPerWarp_ , typename InstructionShape_ , int kStages_, int kScalarsPerLds_, int kSkew_ = 0&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a>, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a>, 0&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a2ee87510d2deccf8b9633aaa4f6340ea">Delta</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a> * Warps::kD, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a>, 0&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a134a02091bf4360d2cbca56624e52024">Delta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a8e767b5e2fb95b0b02a0ea3e8ea58368"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8e767b5e2fb95b0b02a0ea3e8ea58368">&#9670;&nbsp;</a></span>ImmediateOffsetStrides</h2>
+<a id="ad012add21d9393d136720f609467e121"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad012add21d9393d136720f609467e121">&#9670;&nbsp;</a></span>ImmediateOffsetStrides</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -172,7 +171,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8e767b5e2fb95b0b02a0ea3e
 template&lt;typename Scalar_ , typename OutputTile_ , typename Warps_ , typename ThreadsPerWarp_ , typename InstructionShape_ , int kStages_, int kScalarsPerLds_, int kSkew_ = 0&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a>, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a>, 0&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a8e767b5e2fb95b0b02a0ea3e8ea58368">ImmediateOffsetStrides</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a> * Warps::kD, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#af78a275086a297bd93aed920f57a17be">kWarps</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a4246185b8279f245ef5d0650c1eec14f">kThreadsPerWarp</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#a0a33d4289ed45e988d560b5f73ac997e">kAccessSize</a>, 0&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">cutlass::gemm::GemmSharedLoadTileATraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html#ad012add21d9393d136720f609467e121">ImmediateOffsetStrides</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -474,7 +473,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af78a275086a297bd93aed920
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset-members.html
index 3e308db63e..11c167a811 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html
index 0731bce879..53deb57df8 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits_1_1ThreadOffset.html
@@ -124,7 +124,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a51a325b435b9a53effaa003b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits-members.html
index 782aa8415e..4a08989998 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits-members.html
@@ -79,8 +79,8 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ad029d098ba13543bf99c728e6b93006d">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a5e4204b52ee081a37e824ca71c291c03">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#adcede218eec980903221feb664cad3a1">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a99017ecc737060f53fd9804ea6f9583f">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a7007093a4abf79a0b4bfb3fc85a02620">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
@@ -99,7 +99,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html
index 097ce43efa..a4f04fe772 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html
@@ -119,12 +119,11 @@
 <tr class="memitem:a27bc06b72a94e34d5da6fbfb950459b5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, TileWithoutSkew::kW/<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a>/<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a27bc06b72a94e34d5da6fbfb950459b5">Iterations</a></td></tr>
 <tr class="memdesc:a27bc06b72a94e34d5da6fbfb950459b5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="#a27bc06b72a94e34d5da6fbfb950459b5">More...</a><br /></td></tr>
 <tr class="separator:a27bc06b72a94e34d5da6fbfb950459b5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad029d098ba13543bf99c728e6b93006d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a>, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a>, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ad029d098ba13543bf99c728e6b93006d">Delta</a></td></tr>
-<tr class="memdesc:ad029d098ba13543bf99c728e6b93006d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#ad029d098ba13543bf99c728e6b93006d">More...</a><br /></td></tr>
-<tr class="separator:ad029d098ba13543bf99c728e6b93006d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5e4204b52ee081a37e824ca71c291c03"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a>, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a>, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a5e4204b52ee081a37e824ca71c291c03">ImmediateOffsetStrides</a></td></tr>
-<tr class="memdesc:a5e4204b52ee081a37e824ca71c291c03"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#a5e4204b52ee081a37e824ca71c291c03">More...</a><br /></td></tr>
-<tr class="separator:a5e4204b52ee081a37e824ca71c291c03"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a99017ecc737060f53fd9804ea6f9583f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a> *Warps::kD, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a>, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a99017ecc737060f53fd9804ea6f9583f">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:a99017ecc737060f53fd9804ea6f9583f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#a99017ecc737060f53fd9804ea6f9583f">More...</a><br /></td></tr>
+<tr class="separator:a99017ecc737060f53fd9804ea6f9583f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adcede218eec980903221feb664cad3a1"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; <a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a> *Warps::kD, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a>, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#adcede218eec980903221feb664cad3a1">Delta</a></td></tr>
+<tr class="separator:adcede218eec980903221feb664cad3a1"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
@@ -147,8 +146,8 @@
 <tr class="separator:a049b0bcdf8c5318ee84edeb1e42eaf78"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="ad029d098ba13543bf99c728e6b93006d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad029d098ba13543bf99c728e6b93006d">&#9670;&nbsp;</a></span>Delta</h2>
+<a id="adcede218eec980903221feb664cad3a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adcede218eec980903221feb664cad3a1">&#9670;&nbsp;</a></span>Delta</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -156,15 +155,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad029d098ba13543bf99c728e
 template&lt;typename Scalar_ , typename OutputTile_ , typename Warps_ , typename ThreadsPerWarp_ , typename InstructionShape_ , int kStages_, int kScalarsPerLds_, int kSkew_ = 0&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a>, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a>, 0&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#ad029d098ba13543bf99c728e6b93006d">Delta</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a> * Warps::kD, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a>, 0&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#adcede218eec980903221feb664cad3a1">Delta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5e4204b52ee081a37e824ca71c291c03"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5e4204b52ee081a37e824ca71c291c03">&#9670;&nbsp;</a></span>ImmediateOffsetStrides</h2>
+<a id="a99017ecc737060f53fd9804ea6f9583f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a99017ecc737060f53fd9804ea6f9583f">&#9670;&nbsp;</a></span>ImmediateOffsetStrides</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -172,7 +171,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5e4204b52ee081a37e824ca7
 template&lt;typename Scalar_ , typename OutputTile_ , typename Warps_ , typename ThreadsPerWarp_ , typename InstructionShape_ , int kStages_, int kScalarsPerLds_, int kSkew_ = 0&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a>, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a>, 0&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a5e4204b52ee081a37e824ca71c291c03">ImmediateOffsetStrides</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">TileWithSkew::kW</a> * Warps::kD, 0, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a8b8d6a26a29d5477f526d9ce8c27e3e2">kWarps</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a049b0bcdf8c5318ee84edeb1e42eaf78">kThreadsPerWarp</a> * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#aa41cc5dc82fe08457d103545f8f63081">kAccessSize</a>, 0&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">cutlass::gemm::GemmSharedLoadTileBTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, InstructionShape_, kStages_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html#a99017ecc737060f53fd9804ea6f9583f">ImmediateOffsetStrides</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -474,7 +473,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8b8d6a26a29d5477f526d9ce
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset-members.html
index 387441df03..e1be4227fd 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html
index 07f462ac6c..9fb5f6bf7c 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits_1_1ThreadOffset.html
@@ -124,7 +124,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5b4a635a521364357386259b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits-members.html
index afc22fe8e5..7caaf5c4f1 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits-members.html
@@ -79,9 +79,9 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#ac5578da2577cddd5a38cb628f894f644">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9cfb32f902593e7dc018ee802c3520b8">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a81ca35e0c5d9553d1dccc981cbd89d47">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a57b065abb737bee1c17398c90b5bc39b">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b33700f904dd15e3533fec15d9d71bd">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">kIterationsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
@@ -90,17 +90,18 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#abb5fdb164b09c8f74f92278f3d68b95f">kScalarsPerThread</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a7e9ce187e12575f0ecd39b2bfe13dddf">kSkew</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3">ThreadsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">kSplitK</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8325bc9d56155ecb6f2ddbd56f4ed23d">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#acb16feebdcad5bbebe9d4d3383c37899">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1e72b69cf2147e4d194893a64417b920">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9022ffc49b32503fd3639341e7e291a3">ThreadsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4764f70691cb3fee91ce47653363aa4f">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html
index 043d8c3ae2..191deeca66 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html
@@ -108,17 +108,16 @@
 <tr class="memdesc:a9022ffc49b32503fd3639341e7e291a3"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads in the warps.  <a href="#a9022ffc49b32503fd3639341e7e291a3">More...</a><br /></td></tr>
 <tr class="separator:a9022ffc49b32503fd3639341e7e291a3"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a63f980fea1ff3dd83ac276cfd83a4ce5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 2, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a>/<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a63f980fea1ff3dd83ac276cfd83a4ce5">Tile</a></td></tr>
-<tr class="memdesc:a63f980fea1ff3dd83ac276cfd83a4ce5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="#a63f980fea1ff3dd83ac276cfd83a4ce5">More...</a><br /></td></tr>
 <tr class="separator:a63f980fea1ff3dd83ac276cfd83a4ce5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a81ca35e0c5d9553d1dccc981cbd89d47"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">kIterationsD</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a>, OutputTile::kW/kWarpSize/<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a81ca35e0c5d9553d1dccc981cbd89d47">Iterations</a></td></tr>
-<tr class="memdesc:a81ca35e0c5d9553d1dccc981cbd89d47"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to store the tile.  <a href="#a81ca35e0c5d9553d1dccc981cbd89d47">More...</a><br /></td></tr>
-<tr class="separator:a81ca35e0c5d9553d1dccc981cbd89d47"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac5578da2577cddd5a38cb628f894f644"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; OutputTile::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a>, kWarpSize *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#ac5578da2577cddd5a38cb628f894f644">Delta</a></td></tr>
-<tr class="memdesc:ac5578da2577cddd5a38cb628f894f644"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#ac5578da2577cddd5a38cb628f894f644">More...</a><br /></td></tr>
-<tr class="separator:ac5578da2577cddd5a38cb628f894f644"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9cfb32f902593e7dc018ee802c3520b8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; OutputTile::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a>, kWarpSize *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9cfb32f902593e7dc018ee802c3520b8">ImmediateOffsetStrides</a></td></tr>
-<tr class="memdesc:a9cfb32f902593e7dc018ee802c3520b8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#a9cfb32f902593e7dc018ee802c3520b8">More...</a><br /></td></tr>
-<tr class="separator:a9cfb32f902593e7dc018ee802c3520b8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1b33700f904dd15e3533fec15d9d71bd"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">kIterationsD</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a>, OutputTile::kW/kWarpSize/<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>, Warps::kD &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b33700f904dd15e3533fec15d9d71bd">Iterations</a></td></tr>
+<tr class="memdesc:a1b33700f904dd15e3533fec15d9d71bd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to store the tile.  <a href="#a1b33700f904dd15e3533fec15d9d71bd">More...</a><br /></td></tr>
+<tr class="separator:a1b33700f904dd15e3533fec15d9d71bd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a57b065abb737bee1c17398c90b5bc39b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; OutputTile::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a>, kWarpSize *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">kSplitK</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a57b065abb737bee1c17398c90b5bc39b">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:a57b065abb737bee1c17398c90b5bc39b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#a57b065abb737bee1c17398c90b5bc39b">More...</a><br /></td></tr>
+<tr class="separator:a57b065abb737bee1c17398c90b5bc39b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2cd23d3b5e2cb64c6d5e9b1d6a78fbce"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; OutputTile::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a>, kWarpSize *<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">kSplitK</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce">Delta</a></td></tr>
+<tr class="memdesc:a2cd23d3b5e2cb64c6d5e9b1d6a78fbce"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce">More...</a><br /></td></tr>
+<tr class="separator:a2cd23d3b5e2cb64c6d5e9b1d6a78fbce"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
@@ -146,10 +145,12 @@
 <tr class="separator:a3b1a461c1dfbcd3817ab2d57bd0da9f1"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a8663311646210b690bb0c2a1012e82f0"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">kIterationsD</a> = <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a4b8d66df02ba1653aa6d1f23b967f237">kIterationsInHPerWarp</a> / <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a></td></tr>
 <tr class="separator:a8663311646210b690bb0c2a1012e82f0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a15438a44b588dc4cfd4b47c18af79cd2"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">kSplitK</a> = OutputTile::kW * ThreadsPerWarp::kH / 2 * Warps::kH</td></tr>
+<tr class="separator:a15438a44b588dc4cfd4b47c18af79cd2"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="ac5578da2577cddd5a38cb628f894f644"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac5578da2577cddd5a38cb628f894f644">&#9670;&nbsp;</a></span>Delta</h2>
+<a id="a2cd23d3b5e2cb64c6d5e9b1d6a78fbce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce">&#9670;&nbsp;</a></span>Delta</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -157,15 +158,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac5578da2577cddd5a38cb628
 template&lt;typename Scalar_ , typename OutputTile_ , typename Warps_ , typename ThreadsPerWarp_ , int kTileH_, int kScalarsPerLds_, int kSkew_ = 0&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;OutputTile::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a>, kWarpSize * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#ac5578da2577cddd5a38cb628f894f644">Delta</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;OutputTile::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a>, kWarpSize * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">kSplitK</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a2cd23d3b5e2cb64c6d5e9b1d6a78fbce">Delta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a9cfb32f902593e7dc018ee802c3520b8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9cfb32f902593e7dc018ee802c3520b8">&#9670;&nbsp;</a></span>ImmediateOffsetStrides</h2>
+<a id="a57b065abb737bee1c17398c90b5bc39b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57b065abb737bee1c17398c90b5bc39b">&#9670;&nbsp;</a></span>ImmediateOffsetStrides</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -173,15 +174,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9cfb32f902593e7dc018ee80
 template&lt;typename Scalar_ , typename OutputTile_ , typename Warps_ , typename ThreadsPerWarp_ , int kTileH_, int kScalarsPerLds_, int kSkew_ = 0&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;OutputTile::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a>, kWarpSize * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a9cfb32f902593e7dc018ee802c3520b8">ImmediateOffsetStrides</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;OutputTile::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#aa3e378cabce9ed7f199c179c15a12ca4">kScalarsPerRow</a>, kWarpSize * <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a15438a44b588dc4cfd4b47c18af79cd2">kSplitK</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a57b065abb737bee1c17398c90b5bc39b">ImmediateOffsetStrides</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a81ca35e0c5d9553d1dccc981cbd89d47"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a81ca35e0c5d9553d1dccc981cbd89d47">&#9670;&nbsp;</a></span>Iterations</h2>
+<a id="a1b33700f904dd15e3533fec15d9d71bd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1b33700f904dd15e3533fec15d9d71bd">&#9670;&nbsp;</a></span>Iterations</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -189,7 +190,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a81ca35e0c5d9553d1dccc981
 template&lt;typename Scalar_ , typename OutputTile_ , typename Warps_ , typename ThreadsPerWarp_ , int kTileH_, int kScalarsPerLds_, int kSkew_ = 0&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">kIterationsD</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a>, OutputTile::kW / kWarpSize / <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a81ca35e0c5d9553d1dccc981cbd89d47">Iterations</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8663311646210b690bb0c2a1012e82f0">kIterationsD</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a3b1a461c1dfbcd3817ab2d57bd0da9f1">kIterationsH</a>, OutputTile::kW / kWarpSize / <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a8d308d593b59624abe3e228d588be61d">kAccessSize</a>, Warps::kD&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b33700f904dd15e3533fec15d9d71bd">Iterations</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -273,6 +274,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a63f980fea1ff3dd83ac276cf
         </tr>
       </table>
 </div><div class="memdoc">
+<p>The tile. We have 2 rows of scalars. We use those two rows to make sure we do not have bank conflicts in the epilogue. </p>
 
 </div>
 </div>
@@ -483,6 +485,30 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7e9ce187e12575f0ecd39b2b
 </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a15438a44b588dc4cfd4b47c18af79cd2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a15438a44b588dc4cfd4b47c18af79cd2">&#9670;&nbsp;</a></span>kSplitK</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename OutputTile_ , typename Warps_ , typename ThreadsPerWarp_ , int kTileH_, int kScalarsPerLds_, int kSkew_ = 0&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">cutlass::gemm::GemmSharedLoadTileDTraits</a>&lt; Scalar_, OutputTile_, Warps_, ThreadsPerWarp_, kTileH_, kScalarsPerLds_, kSkew_ &gt;::kSplitK = OutputTile::kW * ThreadsPerWarp::kH / 2 * Warps::kH</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="a8325bc9d56155ecb6f2ddbd56f4ed23d"></a>
@@ -515,7 +541,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8325bc9d56155ecb6f2ddbd5
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset-members.html
index 1a9ffe26c4..56ad54c93f 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html
index d68dda08ba..16eb03b3f5 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits_1_1ThreadOffset.html
@@ -124,7 +124,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ace1b936cab289c6884e67331
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits-members.html
index eb2702a3f7..1638037a22 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits-members.html
@@ -93,7 +93,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html
index f755f52fca..28ec8e3e85 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html
@@ -336,7 +336,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ace14ca9ad11e2cdafcd4a4b6
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset-members.html
index 6157a4d397..0d4cc8a96b 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html
index 876eea666a..6fa883234e 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits_1_1ThreadOffset.html
@@ -121,7 +121,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1e357fe5bc1daef333e6be77
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits-members.html
index 5749940cee..7b95fb3213 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits-members.html
@@ -97,7 +97,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html
index a5e0b8d6ce..73f9f0a046 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html
@@ -437,7 +437,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a05039ba8b7d9890903064b1a
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset-members.html
index 8a28c51900..7f16e8200c 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html
index 673f9afb92..e47cf125f1 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits_1_1ThreadOffset.html
@@ -124,7 +124,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4f9cca16303ac9ae29a0eaa1
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits-members.html
index 0a64b450cb..48ea29a014 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits-members.html
@@ -94,7 +94,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html
index ed1fb90bd4..daf80596fd 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html
@@ -367,7 +367,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aba6decf87d770becaadd610d
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset-members.html
index 1298ee529a..6c10a6407c 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html
index cc55e56e80..f5067a3519 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits_1_1ThreadOffset.html
@@ -121,7 +121,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4e35f0b2ca63a6b981230b73
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html
index 8c1ffaf9e4..942c110dbc 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html
@@ -84,7 +84,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html
index 9bca290fbb..a8bf4cb25e 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html
@@ -88,7 +88,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html
index 7affa6ef61..5987120289 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html
@@ -88,7 +88,7 @@
  <div class="center">
   <img src="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.png" usemap="#cutlass::gemm::GemmTileTraitsHelperA_3C_20MatrixLayout::kColumnMajor_2C_20GemmConfig_5F_20_3E_map" alt=""/>
   <map id="cutlass::gemm::GemmTileTraitsHelperA_3C_20MatrixLayout::kColumnMajor_2C_20GemmConfig_5F_20_3E_map" name="cutlass::gemm::GemmTileTraitsHelperA_3C_20MatrixLayout::kColumnMajor_2C_20GemmConfig_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" alt="cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;" shape="rect" coords="0,56,499,80"/>
+<area href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html" alt="cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;" shape="rect" coords="0,56,545,80"/>
 </map>
  </div></div>
 <table class="memberdecls">
@@ -103,7 +103,7 @@
 <tr class="memitem:adc95f4a8617cdf28e5b5d7d2d1aefec2"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">Scalar</a> const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgA &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">GlobalTileTraits</a></td></tr>
 <tr class="memdesc:adc95f4a8617cdf28e5b5d7d2d1aefec2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for A^N.  <a href="#adc95f4a8617cdf28e5b5d7d2d1aefec2">More...</a><br /></td></tr>
 <tr class="separator:adc95f4a8617cdf28e5b5d7d2d1aefec2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aaa198fed841af6bf26bf2e9544d0a877"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsA &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">SharedStoreTileTraits</a></td></tr>
+<tr class="memitem:aaa198fed841af6bf26bf2e9544d0a877"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsA &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">SharedStoreTileTraits</a></td></tr>
 <tr class="memdesc:aaa198fed841af6bf26bf2e9544d0a877"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for A^N.  <a href="#aaa198fed841af6bf26bf2e9544d0a877">More...</a><br /></td></tr>
 <tr class="separator:aaa198fed841af6bf26bf2e9544d0a877"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:af534fc5698513af3c6724b68ae03316d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a> const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsA, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">SharedLoadTileTraits</a></td></tr>
@@ -190,7 +190,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aaa198fed841af6bf26bf2e95
 template&lt;typename GemmConfig_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW * GemmConfig_::InstructionShape::kD&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsA&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">SharedStoreTileTraits</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW * GemmConfig_::InstructionShape::kD&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsA&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">SharedStoreTileTraits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -228,7 +228,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad2010686bceb21aec9a1924a
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.png b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.png
index 9ce259eb1e..f9de5952a5 100644
Binary files a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.png and b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html
index 09585beb23..e4d88e7b7d 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html
@@ -82,14 +82,13 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d">GlobalTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">kScalarsIn4B</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9c296924f9a6c6908f09830bbbf6a775">kSkewA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html
index 809d799b13..f325dcd5a9 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html
@@ -103,12 +103,6 @@
 <tr class="memitem:a8160a260acce2362e90d43bce733c69d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a> const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgA &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d">GlobalTileTraits</a></td></tr>
 <tr class="memdesc:a8160a260acce2362e90d43bce733c69d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for A^T.  <a href="#a8160a260acce2362e90d43bce733c69d">More...</a><br /></td></tr>
 <tr class="separator:a8160a260acce2362e90d43bce733c69d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad6511b7c2d84a9f6c3ed3639269ac44f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsA, 128/sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>)/GemmConfig_::kScalarsPerStsA/GlobalTileTraits::Threads::kW *<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">kScalarsIn4B</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f">SharedStoreTileTraits</a></td></tr>
-<tr class="memdesc:ad6511b7c2d84a9f6c3ed3639269ac44f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for A^T.  <a href="#ad6511b7c2d84a9f6c3ed3639269ac44f">More...</a><br /></td></tr>
-<tr class="separator:ad6511b7c2d84a9f6c3ed3639269ac44f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1125408805bc697755f2b16594c6c8e1"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a> const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsA, SharedStoreTileTraits::kSkew &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">SharedLoadTileTraits</a></td></tr>
-<tr class="memdesc:a1125408805bc697755f2b16594c6c8e1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for A^T.  <a href="#a1125408805bc697755f2b16594c6c8e1">More...</a><br /></td></tr>
-<tr class="separator:a1125408805bc697755f2b16594c6c8e1"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
@@ -118,6 +112,9 @@
 <tr class="memitem:ad77b9084720ad7378e033e54bfb74ce7"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">kScalarsIn4B</a> = sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>)</td></tr>
 <tr class="memdesc:ad77b9084720ad7378e033e54bfb74ce7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars in 4B.  <a href="#ad77b9084720ad7378e033e54bfb74ce7">More...</a><br /></td></tr>
 <tr class="separator:ad77b9084720ad7378e033e54bfb74ce7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9c296924f9a6c6908f09830bbbf6a775"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9c296924f9a6c6908f09830bbbf6a775">kSkewA</a></td></tr>
+<tr class="memdesc:a9c296924f9a6c6908f09830bbbf6a775"><td class="mdescLeft">&#160;</td><td class="mdescRight">The skew for A.  <a href="#a9c296924f9a6c6908f09830bbbf6a775">More...</a><br /></td></tr>
+<tr class="separator:a9c296924f9a6c6908f09830bbbf6a775"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="a8160a260acce2362e90d43bce733c69d"></a>
@@ -168,41 +165,33 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac618881d66790e4c280dc569
 
 </div>
 </div>
-<a id="a1125408805bc697755f2b16594c6c8e1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1125408805bc697755f2b16594c6c8e1">&#9670;&nbsp;</a></span>SharedLoadTileTraits</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename GemmConfig_ &gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a> const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsA, SharedStoreTileTraits::kSkew&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">SharedLoadTileTraits</a></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="ad6511b7c2d84a9f6c3ed3639269ac44f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad6511b7c2d84a9f6c3ed3639269ac44f">&#9670;&nbsp;</a></span>SharedStoreTileTraits</h2>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="aedd49525e2c849baecf88cdfd9e3515c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aedd49525e2c849baecf88cdfd9e3515c">&#9670;&nbsp;</a></span>kLayout</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
 template&lt;typename GemmConfig_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW * GemmConfig_::InstructionShape::kD&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsA, 128 / sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>) / GemmConfig_::kScalarsPerStsA / GlobalTileTraits::Threads::kW * <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">kScalarsIn4B</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f">SharedStoreTileTraits</a></td>
+          <td class="memname"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::kLayout = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<h2 class="groupheader">Member Data Documentation</h2>
-<a id="aedd49525e2c849baecf88cdfd9e3515c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aedd49525e2c849baecf88cdfd9e3515c">&#9670;&nbsp;</a></span>kLayout</h2>
+<a id="ad77b9084720ad7378e033e54bfb74ce7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad77b9084720ad7378e033e54bfb74ce7">&#9670;&nbsp;</a></span>kScalarsIn4B</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -213,7 +202,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aedd49525e2c849baecf88cdf
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::kLayout = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a></td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::kScalarsIn4B = sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>)</td>
         </tr>
       </table>
   </td>
@@ -225,8 +214,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#aedd49525e2c849baecf88cdf
 
 </div>
 </div>
-<a id="ad77b9084720ad7378e033e54bfb74ce7"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad77b9084720ad7378e033e54bfb74ce7">&#9670;&nbsp;</a></span>kScalarsIn4B</h2>
+<a id="a9c296924f9a6c6908f09830bbbf6a775"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9c296924f9a6c6908f09830bbbf6a775">&#9670;&nbsp;</a></span>kSkewA</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -237,7 +226,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad77b9084720ad7378e033e54
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::kScalarsIn4B = sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>)</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">cutlass::gemm::GemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::kSkewA</td>
         </tr>
       </table>
   </td>
@@ -246,7 +235,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad77b9084720ad7378e033e54
   </tr>
 </table>
 </div><div class="memdoc">
-
+<b>Initial value:</b><div class="fragment"><div class="line">= 128 / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>) / GemmConfig_::kScalarsPerStsA /</div><div class="line">                            GlobalTileTraits::Threads::kW * <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">kScalarsIn4B</a></div></div><!-- fragment -->
 </div>
 </div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
@@ -255,7 +244,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad77b9084720ad7378e033e54
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html
index 60b2921a45..3ebeac83cd 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html
@@ -84,7 +84,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html
index be5a0a9b1e..7ff002906d 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html
@@ -82,14 +82,13 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064">GlobalTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">kScalarsIn4B</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab35a6b3ff04e4128e4ca4a8cc0459b16">kSkewB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html
index fc90114c00..370667fb63 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html
@@ -103,12 +103,6 @@
 <tr class="memitem:a5fee0ed52326c0685e8d8295e40ce064"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a> const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgB &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064">GlobalTileTraits</a></td></tr>
 <tr class="memdesc:a5fee0ed52326c0685e8d8295e40ce064"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for B^N.  <a href="#a5fee0ed52326c0685e8d8295e40ce064">More...</a><br /></td></tr>
 <tr class="separator:a5fee0ed52326c0685e8d8295e40ce064"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1884cbc21987aec651fa8149d4ed1a06"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsB, 128/sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>)/GemmConfig_::kScalarsPerStsB/GlobalTileTraits::Threads::kW *<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">kScalarsIn4B</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06">SharedStoreTileTraits</a></td></tr>
-<tr class="memdesc:a1884cbc21987aec651fa8149d4ed1a06"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for B^N.  <a href="#a1884cbc21987aec651fa8149d4ed1a06">More...</a><br /></td></tr>
-<tr class="separator:a1884cbc21987aec651fa8149d4ed1a06"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a118bb34a6f58c3e5a989773b4b597d8c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a> const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsB, SharedStoreTileTraits::kSkew &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">SharedLoadTileTraits</a></td></tr>
-<tr class="memdesc:a118bb34a6f58c3e5a989773b4b597d8c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for B^N.  <a href="#a118bb34a6f58c3e5a989773b4b597d8c">More...</a><br /></td></tr>
-<tr class="separator:a118bb34a6f58c3e5a989773b4b597d8c"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
@@ -118,6 +112,9 @@
 <tr class="memitem:a774a052f0f98f50e46dda933c81badd5"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">kScalarsIn4B</a> = sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>)</td></tr>
 <tr class="memdesc:a774a052f0f98f50e46dda933c81badd5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars in 4B.  <a href="#a774a052f0f98f50e46dda933c81badd5">More...</a><br /></td></tr>
 <tr class="separator:a774a052f0f98f50e46dda933c81badd5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab35a6b3ff04e4128e4ca4a8cc0459b16"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab35a6b3ff04e4128e4ca4a8cc0459b16">kSkewB</a></td></tr>
+<tr class="memdesc:ab35a6b3ff04e4128e4ca4a8cc0459b16"><td class="mdescLeft">&#160;</td><td class="mdescRight">The skew for B.  <a href="#ab35a6b3ff04e4128e4ca4a8cc0459b16">More...</a><br /></td></tr>
+<tr class="separator:ab35a6b3ff04e4128e4ca4a8cc0459b16"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="a5fee0ed52326c0685e8d8295e40ce064"></a>
@@ -168,41 +165,33 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8ae7db3f2f0c57779729d500
 
 </div>
 </div>
-<a id="a118bb34a6f58c3e5a989773b4b597d8c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a118bb34a6f58c3e5a989773b4b597d8c">&#9670;&nbsp;</a></span>SharedLoadTileTraits</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename GemmConfig_ &gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a> const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsB, SharedStoreTileTraits::kSkew&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">SharedLoadTileTraits</a></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a1884cbc21987aec651fa8149d4ed1a06"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1884cbc21987aec651fa8149d4ed1a06">&#9670;&nbsp;</a></span>SharedStoreTileTraits</h2>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="afbd350793888a7e7b299548dca854c13"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afbd350793888a7e7b299548dca854c13">&#9670;&nbsp;</a></span>kLayout</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
 template&lt;typename GemmConfig_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH * GemmConfig_::InstructionShape::kD&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsB, 128 / sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>) / GemmConfig_::kScalarsPerStsB / GlobalTileTraits::Threads::kW * <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">kScalarsIn4B</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06">SharedStoreTileTraits</a></td>
+          <td class="memname"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::kLayout = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<h2 class="groupheader">Member Data Documentation</h2>
-<a id="afbd350793888a7e7b299548dca854c13"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#afbd350793888a7e7b299548dca854c13">&#9670;&nbsp;</a></span>kLayout</h2>
+<a id="a774a052f0f98f50e46dda933c81badd5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a774a052f0f98f50e46dda933c81badd5">&#9670;&nbsp;</a></span>kScalarsIn4B</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -213,7 +202,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#afbd350793888a7e7b299548d
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::kLayout = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a></td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::kScalarsIn4B = sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>)</td>
         </tr>
       </table>
   </td>
@@ -225,8 +214,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#afbd350793888a7e7b299548d
 
 </div>
 </div>
-<a id="a774a052f0f98f50e46dda933c81badd5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a774a052f0f98f50e46dda933c81badd5">&#9670;&nbsp;</a></span>kScalarsIn4B</h2>
+<a id="ab35a6b3ff04e4128e4ca4a8cc0459b16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab35a6b3ff04e4128e4ca4a8cc0459b16">&#9670;&nbsp;</a></span>kSkewB</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -237,7 +226,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a774a052f0f98f50e46dda933
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::kScalarsIn4B = sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>)</td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::kSkewB</td>
         </tr>
       </table>
   </td>
@@ -246,7 +235,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a774a052f0f98f50e46dda933
   </tr>
 </table>
 </div><div class="memdoc">
-
+<b>Initial value:</b><div class="fragment"><div class="line">= 128 / <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>) / GemmConfig_::kScalarsPerStsB /</div><div class="line">                            GlobalTileTraits::Threads::kW * <a class="code" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">kScalarsIn4B</a></div></div><!-- fragment -->
 </div>
 </div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
@@ -255,7 +244,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a774a052f0f98f50e46dda933
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html
index 04d0fed09e..a3e42a5f09 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html
@@ -88,7 +88,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html
index d2976060d6..3b077381d8 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html
@@ -88,7 +88,7 @@
  <div class="center">
   <img src="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.png" usemap="#cutlass::gemm::GemmTileTraitsHelperB_3C_20MatrixLayout::kRowMajor_2C_20GemmConfig_5F_20_3E_map" alt=""/>
   <map id="cutlass::gemm::GemmTileTraitsHelperB_3C_20MatrixLayout::kRowMajor_2C_20GemmConfig_5F_20_3E_map" name="cutlass::gemm::GemmTileTraitsHelperB_3C_20MatrixLayout::kRowMajor_2C_20GemmConfig_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" alt="cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;" shape="rect" coords="0,56,480,80"/>
+<area href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html" alt="cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;" shape="rect" coords="0,56,526,80"/>
 </map>
  </div></div>
 <table class="memberdecls">
@@ -103,7 +103,7 @@
 <tr class="memitem:afbc41e7b98097b153fd27a48f073a877"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">Scalar</a> const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgB &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">GlobalTileTraits</a></td></tr>
 <tr class="memdesc:afbc41e7b98097b153fd27a48f073a877"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for B^T.  <a href="#afbc41e7b98097b153fd27a48f073a877">More...</a><br /></td></tr>
 <tr class="separator:afbc41e7b98097b153fd27a48f073a877"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:acbeea56f0ce95ddd632db3482c1021e5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsB &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">SharedStoreTileTraits</a></td></tr>
+<tr class="memitem:acbeea56f0ce95ddd632db3482c1021e5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsB &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">SharedStoreTileTraits</a></td></tr>
 <tr class="memdesc:acbeea56f0ce95ddd632db3482c1021e5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for B^T.  <a href="#acbeea56f0ce95ddd632db3482c1021e5">More...</a><br /></td></tr>
 <tr class="separator:acbeea56f0ce95ddd632db3482c1021e5"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a9335aca8b152ff1167763de8ff8fb882"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a> const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsB, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">SharedLoadTileTraits</a></td></tr>
@@ -190,7 +190,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#acbeea56f0ce95ddd632db348
 template&lt;typename GemmConfig_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH * GemmConfig_::InstructionShape::kD&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsB&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">SharedStoreTileTraits</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH * GemmConfig_::InstructionShape::kD&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsB&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">cutlass::gemm::GemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">SharedStoreTileTraits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -228,7 +228,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a31fa28168811e2d04fbd7402
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.png b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.png
index f291cad7a3..b0f8b6c70f 100644
Binary files a/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.png and b/docs/structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTraits-members.html b/docs/structcutlass_1_1gemm_1_1GemmTraits-members.html
index 05cab0611a..0a2041245b 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTraits-members.html
@@ -83,9 +83,11 @@
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
@@ -98,12 +100,13 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a>(bool in_loop)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTraits.html b/docs/structcutlass_1_1gemm_1_1GemmTraits.html
index 7153c8237a..a97a8d4a8d 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTraits.html
@@ -87,29 +87,27 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html">GlobalLoadStream</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the global load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits_1_1GlobalLoadStream.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">MainLoopSharedStorage</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">Params</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params.  <a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html">SharedLoadStream</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the shared load stream for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits_1_1SharedLoadStream.html#details">More...</a><br /></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object constructable on the host.  <a href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html">SharedStorage</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage in shared memory.  <a href="unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
+<tr class="memitem:aa6214a0ad09d155ed79feadc6647b989"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a></td></tr>
+<tr class="memdesc:aa6214a0ad09d155ed79feadc6647b989"><td class="mdescLeft">&#160;</td><td class="mdescRight">This traits.  <a href="#aa6214a0ad09d155ed79feadc6647b989">More...</a><br /></td></tr>
+<tr class="separator:aa6214a0ad09d155ed79feadc6647b989"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a28c32832f0353f00e93e867373cf6cae"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a></td></tr>
+<tr class="memdesc:a28c32832f0353f00e93e867373cf6cae"><td class="mdescLeft">&#160;</td><td class="mdescRight">The struct that consumes this Traits.  <a href="#a28c32832f0353f00e93e867373cf6cae">More...</a><br /></td></tr>
+<tr class="separator:a28c32832f0353f00e93e867373cf6cae"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a4efe5d156abca056ef8b5334fb574dd5"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a></td></tr>
 <tr class="memdesc:a4efe5d156abca056ef8b5334fb574dd5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The configuration.  <a href="#a4efe5d156abca056ef8b5334fb574dd5">More...</a><br /></td></tr>
 <tr class="separator:a4efe5d156abca056ef8b5334fb574dd5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a97d7ee63e5d180410b370f095648f367"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
+<tr class="memitem:a97d7ee63e5d180410b370f095648f367"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
 <tr class="memdesc:a97d7ee63e5d180410b370f095648f367"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="#a97d7ee63e5d180410b370f095648f367">More...</a><br /></td></tr>
 <tr class="separator:a97d7ee63e5d180410b370f095648f367"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a9cd6c3fddfb4315eb52b672900462c47"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamA_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a></td></tr>
@@ -130,13 +128,7 @@
 <tr class="memitem:acaeb27063a444e2a3b93f3cb70e3c290"><td class="memItemLeft" align="right" valign="top">typedef SharedLoadStreamB_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a></td></tr>
 <tr class="memdesc:acaeb27063a444e2a3b93f3cb70e3c290"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for B to load from shared memory.  <a href="#acaeb27063a444e2a3b93f3cb70e3c290">More...</a><br /></td></tr>
 <tr class="separator:acaeb27063a444e2a3b93f3cb70e3c290"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8d49ad32fc9d8c14f6141690962c3f9c"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamA::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a></td></tr>
-<tr class="memdesc:a8d49ad32fc9d8c14f6141690962c3f9c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for A.  <a href="#a8d49ad32fc9d8c14f6141690962c3f9c">More...</a><br /></td></tr>
-<tr class="separator:a8d49ad32fc9d8c14f6141690962c3f9c"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a438b80cd8d8df0e74014ae47a162f7ed"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamB::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a></td></tr>
-<tr class="memdesc:a438b80cd8d8df0e74014ae47a162f7ed"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for B.  <a href="#a438b80cd8d8df0e74014ae47a162f7ed">More...</a><br /></td></tr>
-<tr class="separator:a438b80cd8d8df0e74014ae47a162f7ed"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af810544e956b04830c5be7ce41d3b45c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
+<tr class="memitem:af810544e956b04830c5be7ce41d3b45c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
 <tr class="memdesc:af810544e956b04830c5be7ce41d3b45c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The multiply-add functor.  <a href="#af810544e956b04830c5be7ce41d3b45c">More...</a><br /></td></tr>
 <tr class="separator:af810544e956b04830c5be7ce41d3b45c"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a424f1ac14e1e7ad37428edd0cf13e7fe"><td class="memItemLeft" align="right" valign="top">typedef Epilogue_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a></td></tr>
@@ -156,6 +148,15 @@
 <tr class="memitem:ae1cf7988c9cff79a2c3252aaf91fc165"><td class="memItemLeft" align="right" valign="top">typedef ClearAccumulators_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a></td></tr>
 <tr class="memdesc:ae1cf7988c9cff79a2c3252aaf91fc165"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear the accumulators.  <a href="#ae1cf7988c9cff79a2c3252aaf91fc165">More...</a><br /></td></tr>
 <tr class="separator:ae1cf7988c9cff79a2c3252aaf91fc165"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a367aa0bd4be33d90ffe752274c728ef8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">GemmConfig::kResidueInProlog</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a></td></tr>
+<tr class="memdesc:a367aa0bd4be33d90ffe752274c728ef8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the global load streams for A/B.  <a href="#a367aa0bd4be33d90ffe752274c728ef8">More...</a><br /></td></tr>
+<tr class="separator:a367aa0bd4be33d90ffe752274c728ef8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abfecd4a57dfbf82e8fa74a50e01fc4ee"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">GlobalLoadStream::ThreadblockTileStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a></td></tr>
+<tr class="memdesc:abfecd4a57dfbf82e8fa74a50e01fc4ee"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory needed to store the threadblock-scoped GEMM tile.  <a href="#abfecd4a57dfbf82e8fa74a50e01fc4ee">More...</a><br /></td></tr>
+<tr class="separator:abfecd4a57dfbf82e8fa74a50e01fc4ee"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7864969e774c0f7155951e1ab599ed17"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a></td></tr>
+<tr class="memdesc:a7864969e774c0f7155951e1ab599ed17"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the shared load streams for A/B.  <a href="#a7864969e774c0f7155951e1ab599ed17">More...</a><br /></td></tr>
+<tr class="separator:a7864969e774c0f7155951e1ab599ed17"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
 Static Public Member Functions</h2></td></tr>
@@ -182,7 +183,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a50672b5fa67d858aeff8f254
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef BlockSwizzle_ <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a></td>
@@ -198,7 +199,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae1cf7988c9cff79a2c3252aa
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef ClearAccumulators_ <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a></td>
@@ -214,7 +215,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a424f1ac14e1e7ad37428edd0
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef Epilogue_ <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a></td>
@@ -230,7 +231,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4efe5d156abca056ef8b5334
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef GemmConfig_ <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a></td>
@@ -238,6 +239,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4efe5d156abca056ef8b5334
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a367aa0bd4be33d90ffe752274c728ef8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a367aa0bd4be33d90ffe752274c728ef8">&#9670;&nbsp;</a></span>GlobalLoadStream</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">GemmConfig::kResidueInProlog</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="a9cd6c3fddfb4315eb52b672900462c47"></a>
@@ -246,7 +263,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9cd6c3fddfb4315eb52b6729
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef GlobalLoadStreamA_ <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a></td>
@@ -262,7 +279,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac393b07e780629fc8254fc22
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef GlobalLoadStreamB_ <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a></td>
@@ -278,7 +295,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae67227cecbe84f5c8497d9a7
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a></td>
@@ -286,6 +303,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae67227cecbe84f5c8497d9a7
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a28c32832f0353f00e93e867373cf6cae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a28c32832f0353f00e93e867373cf6cae">&#9670;&nbsp;</a></span>KernelClass</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="af810544e956b04830c5be7ce41d3b45c"></a>
@@ -294,10 +327,10 @@ <h2 class="memtitle"><span class="permalink"><a href="#af810544e956b04830c5be7ce
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -310,10 +343,10 @@ <h2 class="memtitle"><span class="permalink"><a href="#a97d7ee63e5d180410b370f09
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">GemmConfig::OutputTile</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">GemmConfig::OutputTile</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -326,7 +359,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a96d64bdc48db4971798b620d
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef GlobalLoadStreamA_::Scalar <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a></td>
@@ -342,7 +375,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa0e8fd28f5247764dfb7843f
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef GlobalLoadStreamB_::Scalar <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a></td>
@@ -358,7 +391,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8f78d4a68817760099081523
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef Epilogue::ScalarC <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a></td>
@@ -374,7 +407,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3129be75ee087603170f8367
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef Epilogue::ScalarD <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a></td>
@@ -390,7 +423,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae01371eb31b88fa83c492656
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef SharedLoadStreamA_ <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a></td>
@@ -406,7 +439,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#acaeb27063a444e2a3b93f3cb
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef SharedLoadStreamB_ <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a></td>
@@ -416,32 +449,48 @@ <h2 class="memtitle"><span class="permalink"><a href="#acaeb27063a444e2a3b93f3cb
 
 </div>
 </div>
-<a id="a8d49ad32fc9d8c14f6141690962c3f9c"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8d49ad32fc9d8c14f6141690962c3f9c">&#9670;&nbsp;</a></span>SharedStoreStorageA</h2>
+<a id="a7864969e774c0f7155951e1ab599ed17"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7864969e774c0f7155951e1ab599ed17">&#9670;&nbsp;</a></span>SharedStream</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa6214a0ad09d155ed79feadc6647b989"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6214a0ad09d155ed79feadc6647b989">&#9670;&nbsp;</a></span>This_</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef GlobalLoadStreamA::SharedStoreStorage <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt;GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a438b80cd8d8df0e74014ae47a162f7ed"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a438b80cd8d8df0e74014ae47a162f7ed">&#9670;&nbsp;</a></span>SharedStoreStorageB</h2>
+<a id="abfecd4a57dfbf82e8fa74a50e01fc4ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abfecd4a57dfbf82e8fa74a50e01fc4ee">&#9670;&nbsp;</a></span>ThreadblockTileStorage</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef GlobalLoadStreamB::SharedStoreStorage <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">GlobalLoadStream::ThreadblockTileStorage</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -455,7 +504,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a475463c1e3af71598e22da89
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
@@ -483,7 +532,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac3c840a3d90c0da43301761a
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
@@ -512,7 +561,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac5bb5931a707ed7672f69267
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
@@ -536,7 +585,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a078e8d9cfa1b182e1b96a2cc
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
@@ -560,7 +609,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a078e8d9cfa1b182e1b96a2cc
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage-members.html b/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage-members.html
index 5f36220360..fd59ce9278 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage-members.html
@@ -80,12 +80,12 @@
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a>, including all inherited members.</p>
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325">clear</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a62d3dcf5d97a0a896b2033e55dfb0811">stream_a</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a0173fcc8856b17a52cc5eee845f101fa">stream_b</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a61fcc63cb0df6754eef16f5cf138f3a2">global_to_shared_stream</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#af8f0050e818b788402526857afc7c919">threadblock_tile</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html b/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html
index 95f9a8291c..6dd16c31a6 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html
@@ -84,11 +84,14 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:a62d3dcf5d97a0a896b2033e55dfb0811"><td class="memItemLeft" align="right" valign="top"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a62d3dcf5d97a0a896b2033e55dfb0811">stream_a</a></td></tr>
-<tr class="separator:a62d3dcf5d97a0a896b2033e55dfb0811"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0173fcc8856b17a52cc5eee845f101fa"><td class="memItemLeft" align="right" valign="top"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a0173fcc8856b17a52cc5eee845f101fa">stream_b</a></td></tr>
-<tr class="separator:a0173fcc8856b17a52cc5eee845f101fa"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af8f0050e818b788402526857afc7c919"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#af8f0050e818b788402526857afc7c919">threadblock_tile</a></td></tr>
+<tr class="memdesc:af8f0050e818b788402526857afc7c919"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores the threadblock tile.  <a href="#af8f0050e818b788402526857afc7c919">More...</a><br /></td></tr>
+<tr class="separator:af8f0050e818b788402526857afc7c919"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a61fcc63cb0df6754eef16f5cf138f3a2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">GlobalLoadStream::SharedStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a61fcc63cb0df6754eef16f5cf138f3a2">global_to_shared_stream</a></td></tr>
+<tr class="memdesc:a61fcc63cb0df6754eef16f5cf138f3a2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage for GEMM global stream.  <a href="#a61fcc63cb0df6754eef16f5cf138f3a2">More...</a><br /></td></tr>
+<tr class="separator:a61fcc63cb0df6754eef16f5cf138f3a2"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a5513254af1f9979b6d0b9f236c3e7325"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">ClearAccumulators::SharedStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html#a5513254af1f9979b6d0b9f236c3e7325">clear</a></td></tr>
+<tr class="memdesc:a5513254af1f9979b6d0b9f236c3e7325"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage for clearing accumulators.  <a href="#a5513254af1f9979b6d0b9f236c3e7325">More...</a><br /></td></tr>
 <tr class="separator:a5513254af1f9979b6d0b9f236c3e7325"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Data Documentation</h2>
@@ -98,7 +101,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5513254af1f9979b6d0b9f23
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1ClearAccumulators_1_1SharedStorage.html">ClearAccumulators::SharedStorage</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage::clear</td>
@@ -108,32 +111,32 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5513254af1f9979b6d0b9f23
 
 </div>
 </div>
-<a id="a62d3dcf5d97a0a896b2033e55dfb0811"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a62d3dcf5d97a0a896b2033e55dfb0811">&#9670;&nbsp;</a></span>stream_a</h2>
+<a id="a61fcc63cb0df6754eef16f5cf138f3a2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a61fcc63cb0df6754eef16f5cf138f3a2">&#9670;&nbsp;</a></span>global_to_shared_stream</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage::stream_a</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">GlobalLoadStream::SharedStorage</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage::global_to_shared_stream</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a0173fcc8856b17a52cc5eee845f101fa"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0173fcc8856b17a52cc5eee845f101fa">&#9670;&nbsp;</a></span>stream_b</h2>
+<a id="af8f0050e818b788402526857afc7c919"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af8f0050e818b788402526857afc7c919">&#9670;&nbsp;</a></span>threadblock_tile</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="unioncutlass_1_1gemm_1_1GemmTraits_1_1StreamSharedStorage.html">StreamSharedStorage</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage::stream_b</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::MainLoopSharedStorage::threadblock_tile</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -146,7 +149,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0173fcc8856b17a52cc5eee8
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params-members.html b/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params-members.html
index 05de1ce4e7..dc6d1859fb 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params-members.html
@@ -79,19 +79,21 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a>, including all inherited members.</p>
 <table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">block</a></td><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">dynamic_smem</a></td><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8">epilogue</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a575bcff901d69ae3f46987222f23ab64">global_stream_a</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a46affe35cb16874de5a2b9777aedf596">global_stream_b</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3">global_to_shared_stream</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">grid</a></td><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">initialize</a>(GemmDesc_ const &amp;desc)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aae3a008b39f9678a03192f6ff54152d8">k</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aaf27c0f2f4ab730ed5c865e9f7d2373b">m</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a437d4b6f1f149849c5ae635a5993e7ac">n</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aa9937ec51d18aad02398d95095117978">shared_stream_a</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a78f22007632937bbd5f3dab7b097477d">shared_stream_b</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#ac4cd0b74130ffc09e4ccb7b0acba87f8">initialize</a>(Index m, Index n, Index k, typename Epilogue::Scalar alpha, ScalarA const *d_a, Index lda, ScalarB const *d_b, Index ldb, typename Epilogue::Scalar beta, ScalarC const *d_c, Index ldc, ScalarD *d_d, Index ldd)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a95314e9a9279c4870f37f68a2357e064">initialize</a>(Index m, Index n, Index k, typename Epilogue::Scalar alpha, ScalarA const *d_a, Index lda, long long int batch_stride_A, ScalarB const *d_b, Index ldb, long long int batch_stride_B, typename Epilogue::Scalar beta, ScalarC const *d_c, Index ldc, long long int batch_stride_C, ScalarD *d_d, Index ldd, long long int batch_stride_D, Index batch_count)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa">KernelLaunchConfiguration</a>(dim3 _grid=dim3(1, 1, 1), dim3 _block=dim3(1, 1, 1), size_t _dynamic_smem=0)</td><td class="entry"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90">problem_size</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a50e9cc382a32abd5beab299a79b30b27">shared_stream</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html b/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html
index ffeb872b17..22a9ff40d2 100644
--- a/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html
+++ b/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html
@@ -81,10 +81,19 @@
 </div><!--header-->
 <div class="contents">
 
-<p>The params.  
+<p>Parameters object constructable on the host.  
 </p>
 
 <p><code>#include &lt;<a class="el" href="gemm__traits_8h_source.html">gemm_traits.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::GemmTraits&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.png" usemap="#cutlass::gemm::GemmTraits_3C_20GemmConfig_5F_2C_20GlobalLoadStreamA_5F_2C_20GlobalLoadStreamB_5F_2C_20SharedLoadStreamA_5F_2C_20SharedLoadStreamB_5F_2C_20Epilogue_5F_2C_20BlockSwizzle_5F_2C_20Index_5F_2C_20ClearAccumulators_5F_20_3E::Params_map" alt=""/>
+  <map id="cutlass::gemm::GemmTraits_3C_20GemmConfig_5F_2C_20GlobalLoadStreamA_5F_2C_20GlobalLoadStreamB_5F_2C_20SharedLoadStreamA_5F_2C_20SharedLoadStreamB_5F_2C_20Epilogue_5F_2C_20BlockSwizzle_5F_2C_20Index_5F_2C_20ClearAccumulators_5F_20_3E::Params_map" name="cutlass::gemm::GemmTraits_3C_20GemmConfig_5F_2C_20GlobalLoadStreamA_5F_2C_20GlobalLoadStreamB_5F_2C_20SharedLoadStreamA_5F_2C_20SharedLoadStreamB_5F_2C_20Epilogue_5F_2C_20BlockSwizzle_5F_2C_20Index_5F_2C_20ClearAccumulators_5F_20_3E::Params_map">
+<area href="structcutlass_1_1KernelLaunchConfiguration.html" title="Structure containing the basic launch configuration of a CUDA kernel. " alt="cutlass::KernelLaunchConfiguration" shape="rect" coords="0,0,1154,24"/>
+</map>
+ </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
@@ -92,40 +101,50 @@
 <tr class="memitem:a40023f0ffdd8bee4ccbcaac28222e983"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a40023f0ffdd8bee4ccbcaac28222e983">initialize</a> (GemmDesc_ const &amp;desc)</td></tr>
 <tr class="memdesc:a40023f0ffdd8bee4ccbcaac28222e983"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize the parameters.  <a href="#a40023f0ffdd8bee4ccbcaac28222e983">More...</a><br /></td></tr>
 <tr class="separator:a40023f0ffdd8bee4ccbcaac28222e983"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac4cd0b74130ffc09e4ccb7b0acba87f8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#ac4cd0b74130ffc09e4ccb7b0acba87f8">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> m, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> n, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> k, typename Epilogue::Scalar alpha, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a> const *d_a, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> lda, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a> const *d_b, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldb, typename Epilogue::Scalar beta, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a> const *d_c, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldc, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a> *d_d, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldd)</td></tr>
+<tr class="memdesc:ac4cd0b74130ffc09e4ccb7b0acba87f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct a GEMM params using a BLAS-like API.  <a href="#ac4cd0b74130ffc09e4ccb7b0acba87f8">More...</a><br /></td></tr>
+<tr class="separator:ac4cd0b74130ffc09e4ccb7b0acba87f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a95314e9a9279c4870f37f68a2357e064"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a95314e9a9279c4870f37f68a2357e064">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> m, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> n, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> k, typename Epilogue::Scalar alpha, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a> const *d_a, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> lda, long long int batch_stride_A, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a> const *d_b, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldb, long long int batch_stride_B, typename Epilogue::Scalar beta, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a> const *d_c, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldc, long long int batch_stride_C, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a> *d_d, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> ldd, long long int batch_stride_D, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> batch_count)</td></tr>
+<tr class="memdesc:a95314e9a9279c4870f37f68a2357e064"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct a batched GEMM params.  <a href="#a95314e9a9279c4870f37f68a2357e064">More...</a><br /></td></tr>
+<tr class="separator:a95314e9a9279c4870f37f68a2357e064"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1KernelLaunchConfiguration"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1KernelLaunchConfiguration')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td></tr>
+<tr class="memitem:a726db328ccc8f5e186ff8e7cef568eaa inherit pub_methods_structcutlass_1_1KernelLaunchConfiguration"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa">KernelLaunchConfiguration</a> (dim3 _grid=dim3(1, 1, 1), dim3 _block=dim3(1, 1, 1), size_t _dynamic_smem=0)</td></tr>
+<tr class="memdesc:a726db328ccc8f5e186ff8e7cef568eaa inherit pub_methods_structcutlass_1_1KernelLaunchConfiguration"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a KernellaunchConfiguration object.  <a href="structcutlass_1_1KernelLaunchConfiguration.html#a726db328ccc8f5e186ff8e7cef568eaa">More...</a><br /></td></tr>
+<tr class="separator:a726db328ccc8f5e186ff8e7cef568eaa inherit pub_methods_structcutlass_1_1KernelLaunchConfiguration"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:aaf27c0f2f4ab730ed5c865e9f7d2373b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aaf27c0f2f4ab730ed5c865e9f7d2373b">m</a></td></tr>
-<tr class="memdesc:aaf27c0f2f4ab730ed5c865e9f7d2373b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The dimensions of the GEMM.  <a href="#aaf27c0f2f4ab730ed5c865e9f7d2373b">More...</a><br /></td></tr>
-<tr class="separator:aaf27c0f2f4ab730ed5c865e9f7d2373b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a437d4b6f1f149849c5ae635a5993e7ac"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a437d4b6f1f149849c5ae635a5993e7ac">n</a></td></tr>
-<tr class="separator:a437d4b6f1f149849c5ae635a5993e7ac"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aae3a008b39f9678a03192f6ff54152d8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aae3a008b39f9678a03192f6ff54152d8">k</a></td></tr>
-<tr class="separator:aae3a008b39f9678a03192f6ff54152d8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a575bcff901d69ae3f46987222f23ab64"><td class="memItemLeft" align="right" valign="top">GlobalLoadStreamA::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a575bcff901d69ae3f46987222f23ab64">global_stream_a</a></td></tr>
-<tr class="memdesc:a575bcff901d69ae3f46987222f23ab64"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the A stream.  <a href="#a575bcff901d69ae3f46987222f23ab64">More...</a><br /></td></tr>
-<tr class="separator:a575bcff901d69ae3f46987222f23ab64"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a46affe35cb16874de5a2b9777aedf596"><td class="memItemLeft" align="right" valign="top">GlobalLoadStreamB::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a46affe35cb16874de5a2b9777aedf596">global_stream_b</a></td></tr>
-<tr class="memdesc:a46affe35cb16874de5a2b9777aedf596"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the B stream.  <a href="#a46affe35cb16874de5a2b9777aedf596">More...</a><br /></td></tr>
-<tr class="separator:a46affe35cb16874de5a2b9777aedf596"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa9937ec51d18aad02398d95095117978"><td class="memItemLeft" align="right" valign="top">SharedLoadStreamA::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#aa9937ec51d18aad02398d95095117978">shared_stream_a</a></td></tr>
-<tr class="memdesc:aa9937ec51d18aad02398d95095117978"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the A stream from shared memory.  <a href="#aa9937ec51d18aad02398d95095117978">More...</a><br /></td></tr>
-<tr class="separator:aa9937ec51d18aad02398d95095117978"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a78f22007632937bbd5f3dab7b097477d"><td class="memItemLeft" align="right" valign="top">SharedLoadStreamB::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a78f22007632937bbd5f3dab7b097477d">shared_stream_b</a></td></tr>
-<tr class="memdesc:a78f22007632937bbd5f3dab7b097477d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the B stream from shared memory.  <a href="#a78f22007632937bbd5f3dab7b097477d">More...</a><br /></td></tr>
-<tr class="separator:a78f22007632937bbd5f3dab7b097477d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af2233a6ebf39788e27f051f8c614ab90"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#af2233a6ebf39788e27f051f8c614ab90">problem_size</a></td></tr>
+<tr class="memdesc:af2233a6ebf39788e27f051f8c614ab90"><td class="mdescLeft">&#160;</td><td class="mdescRight">GEMM problem size.  <a href="#af2233a6ebf39788e27f051f8c614ab90">More...</a><br /></td></tr>
+<tr class="separator:af2233a6ebf39788e27f051f8c614ab90"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8dba1bcd9ddab830bc121afc728296c3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">GlobalLoadStream::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a8dba1bcd9ddab830bc121afc728296c3">global_to_shared_stream</a></td></tr>
+<tr class="memdesc:a8dba1bcd9ddab830bc121afc728296c3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object for the global load stream.  <a href="#a8dba1bcd9ddab830bc121afc728296c3">More...</a><br /></td></tr>
+<tr class="separator:a8dba1bcd9ddab830bc121afc728296c3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a50e9cc382a32abd5beab299a79b30b27"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">SharedStream::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a50e9cc382a32abd5beab299a79b30b27">shared_stream</a></td></tr>
+<tr class="memdesc:a50e9cc382a32abd5beab299a79b30b27"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object for the shared load stream.  <a href="#a50e9cc382a32abd5beab299a79b30b27">More...</a><br /></td></tr>
+<tr class="separator:a50e9cc382a32abd5beab299a79b30b27"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a073430a1e8b124aec8a1f1e00f262bc8"><td class="memItemLeft" align="right" valign="top">Epilogue::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1Params.html#a073430a1e8b124aec8a1f1e00f262bc8">epilogue</a></td></tr>
 <tr class="memdesc:a073430a1e8b124aec8a1f1e00f262bc8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params for the epilogue.  <a href="#a073430a1e8b124aec8a1f1e00f262bc8">More...</a><br /></td></tr>
 <tr class="separator:a073430a1e8b124aec8a1f1e00f262bc8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1KernelLaunchConfiguration"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1KernelLaunchConfiguration')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html">cutlass::KernelLaunchConfiguration</a></td></tr>
+<tr class="memitem:ab86ba1464dd9c6cd15ae0de4a552201b inherit pub_attribs_structcutlass_1_1KernelLaunchConfiguration"><td class="memItemLeft" align="right" valign="top">dim3&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">grid</a></td></tr>
+<tr class="memdesc:ab86ba1464dd9c6cd15ae0de4a552201b inherit pub_attribs_structcutlass_1_1KernelLaunchConfiguration"><td class="mdescLeft">&#160;</td><td class="mdescRight">CUDA grid dimensions.  <a href="structcutlass_1_1KernelLaunchConfiguration.html#ab86ba1464dd9c6cd15ae0de4a552201b">More...</a><br /></td></tr>
+<tr class="separator:ab86ba1464dd9c6cd15ae0de4a552201b inherit pub_attribs_structcutlass_1_1KernelLaunchConfiguration"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a09535026bf08f94c6940c358d95d1edd inherit pub_attribs_structcutlass_1_1KernelLaunchConfiguration"><td class="memItemLeft" align="right" valign="top">dim3&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">block</a></td></tr>
+<tr class="memdesc:a09535026bf08f94c6940c358d95d1edd inherit pub_attribs_structcutlass_1_1KernelLaunchConfiguration"><td class="mdescLeft">&#160;</td><td class="mdescRight">CUDA threablock dimensions.  <a href="structcutlass_1_1KernelLaunchConfiguration.html#a09535026bf08f94c6940c358d95d1edd">More...</a><br /></td></tr>
+<tr class="separator:a09535026bf08f94c6940c358d95d1edd inherit pub_attribs_structcutlass_1_1KernelLaunchConfiguration"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4a6ac693d4284c84301279219623e2bc inherit pub_attribs_structcutlass_1_1KernelLaunchConfiguration"><td class="memItemLeft" align="right" valign="top">size_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">dynamic_smem</a></td></tr>
+<tr class="memdesc:a4a6ac693d4284c84301279219623e2bc inherit pub_attribs_structcutlass_1_1KernelLaunchConfiguration"><td class="mdescLeft">&#160;</td><td class="mdescRight">Bytes of dynamically allocated SMEM in addition to static SMEM.  <a href="structcutlass_1_1KernelLaunchConfiguration.html#a4a6ac693d4284c84301279219623e2bc">More...</a><br /></td></tr>
+<tr class="separator:a4a6ac693d4284c84301279219623e2bc inherit pub_attribs_structcutlass_1_1KernelLaunchConfiguration"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Function Documentation</h2>
 <a id="a40023f0ffdd8bee4ccbcaac28222e983"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a40023f0ffdd8bee4ccbcaac28222e983">&#9670;&nbsp;</a></span>initialize()</h2>
+<h2 class="memtitle"><span class="permalink"><a href="#a40023f0ffdd8bee4ccbcaac28222e983">&#9670;&nbsp;</a></span>initialize() <span class="overload">[1/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename GemmDesc_ &gt; </div>
 <table class="mlabels">
@@ -149,129 +168,303 @@ <h2 class="memtitle"><span class="permalink"><a href="#a40023f0ffdd8bee4ccbcaac2
 
 </div>
 </div>
-<h2 class="groupheader">Member Data Documentation</h2>
-<a id="a073430a1e8b124aec8a1f1e00f262bc8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a073430a1e8b124aec8a1f1e00f262bc8">&#9670;&nbsp;</a></span>epilogue</h2>
+<a id="ac4cd0b74130ffc09e4ccb7b0acba87f8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4cd0b74130ffc09e4ccb7b0acba87f8">&#9670;&nbsp;</a></span>initialize() <span class="overload">[2/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">Epilogue::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::epilogue</td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>m</em>, </td>
         </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a575bcff901d69ae3f46987222f23ab64"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a575bcff901d69ae3f46987222f23ab64">&#9670;&nbsp;</a></span>global_stream_a</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
-      <table class="memname">
         <tr>
-          <td class="memname">GlobalLoadStreamA::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::global_stream_a</td>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>n</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>k</em>, </td>
         </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a46affe35cb16874de5a2b9777aedf596"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a46affe35cb16874de5a2b9777aedf596">&#9670;&nbsp;</a></span>global_stream_b</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
-      <table class="memname">
         <tr>
-          <td class="memname">GlobalLoadStreamB::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::global_stream_b</td>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename Epilogue::Scalar&#160;</td>
+          <td class="paramname"><em>alpha</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a> const *&#160;</td>
+          <td class="paramname"><em>d_a</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>lda</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a> const *&#160;</td>
+          <td class="paramname"><em>d_b</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>ldb</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename Epilogue::Scalar&#160;</td>
+          <td class="paramname"><em>beta</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a> const *&#160;</td>
+          <td class="paramname"><em>d_c</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>ldc</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a> *&#160;</td>
+          <td class="paramname"><em>d_d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>ldd</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aae3a008b39f9678a03192f6ff54152d8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aae3a008b39f9678a03192f6ff54152d8">&#9670;&nbsp;</a></span>k</h2>
+<a id="a95314e9a9279c4870f37f68a2357e064"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a95314e9a9279c4870f37f68a2357e064">&#9670;&nbsp;</a></span>initialize() <span class="overload">[3/3]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::k</td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>m</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>n</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>k</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename Epilogue::Scalar&#160;</td>
+          <td class="paramname"><em>alpha</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a> const *&#160;</td>
+          <td class="paramname"><em>d_a</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>lda</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long int&#160;</td>
+          <td class="paramname"><em>batch_stride_A</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a> const *&#160;</td>
+          <td class="paramname"><em>d_b</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>ldb</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long int&#160;</td>
+          <td class="paramname"><em>batch_stride_B</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename Epilogue::Scalar&#160;</td>
+          <td class="paramname"><em>beta</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a> const *&#160;</td>
+          <td class="paramname"><em>d_c</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>ldc</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long int&#160;</td>
+          <td class="paramname"><em>batch_stride_C</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a> *&#160;</td>
+          <td class="paramname"><em>d_d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>ldd</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long int&#160;</td>
+          <td class="paramname"><em>batch_stride_D</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a>&#160;</td>
+          <td class="paramname"><em>batch_count</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aaf27c0f2f4ab730ed5c865e9f7d2373b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aaf27c0f2f4ab730ed5c865e9f7d2373b">&#9670;&nbsp;</a></span>m</h2>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a073430a1e8b124aec8a1f1e00f262bc8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a073430a1e8b124aec8a1f1e00f262bc8">&#9670;&nbsp;</a></span>epilogue</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::m</td>
+          <td class="memname">Epilogue::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::epilogue</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a437d4b6f1f149849c5ae635a5993e7ac"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a437d4b6f1f149849c5ae635a5993e7ac">&#9670;&nbsp;</a></span>n</h2>
+<a id="a8dba1bcd9ddab830bc121afc728296c3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8dba1bcd9ddab830bc121afc728296c3">&#9670;&nbsp;</a></span>global_to_shared_stream</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::n</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">GlobalLoadStream::Params</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::global_to_shared_stream</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aa9937ec51d18aad02398d95095117978"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa9937ec51d18aad02398d95095117978">&#9670;&nbsp;</a></span>shared_stream_a</h2>
+<a id="af2233a6ebf39788e27f051f8c614ab90"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af2233a6ebf39788e27f051f8c614ab90">&#9670;&nbsp;</a></span>problem_size</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">SharedLoadStreamA::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::shared_stream_a</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::problem_size</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a78f22007632937bbd5f3dab7b097477d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a78f22007632937bbd5f3dab7b097477d">&#9670;&nbsp;</a></span>shared_stream_b</h2>
+<a id="a50e9cc382a32abd5beab299a79b30b27"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a50e9cc382a32abd5beab299a79b30b27">&#9670;&nbsp;</a></span>shared_stream</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">SharedLoadStreamB::Params <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::shared_stream_b</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">SharedStream::Params</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::Params::shared_stream</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -284,7 +477,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a78f22007632937bbd5f3dab7
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params.png b/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params.png
new file mode 100644
index 0000000000..6d6c416a37
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1GemmTraits_1_1Params.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1GetExtent.html b/docs/structcutlass_1_1gemm_1_1GetExtent.html
index c955db6565..c84e02823d 100644
--- a/docs/structcutlass_1_1gemm_1_1GetExtent.html
+++ b/docs/structcutlass_1_1gemm_1_1GetExtent.html
@@ -84,7 +84,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4-members.html b/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4-members.html
index 725806f650..351a7645b2 100644
--- a/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html b/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html
index 4e613ddc9a..2f4be77a31 100644
--- a/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kA_00_01Tile___01_4.html
@@ -118,7 +118,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a881f84951bc9e47ab2be9ef3
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4-members.html b/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4-members.html
index d17a7e7c5f..1be152115c 100644
--- a/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html b/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html
index 172db999e2..a982badec8 100644
--- a/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1GetExtent_3_01GemmOperand_1_1kB_00_01Tile___01_4.html
@@ -118,7 +118,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a82ff9b447e4a58164b5f7d53
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStream-members.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStream-members.html
index f3b227eb8c..9cdc4c82f1 100644
--- a/docs/structcutlass_1_1gemm_1_1GlobalLoadStream-members.html
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStream-members.html
@@ -73,38 +73,46 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a507f825824e624d80a34ea9395934160">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6ce2c6e81d159d8e9ab736cb263f44ae">commit</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#af7a15b4456cda01c1ffbb2fdc532e87e">copy</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">fetched_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36">FetchedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a32687e2aa49dfa251eab14d5cd2036be">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a4dd11a75375b6b9d7b8dcbd4d402d8d6">GlobalLoadStream</a>(typename Base::Params const &amp;params, typename Base::SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0fdc0f56d1352b5ad41fd4985edd3278">GlobalLoadStreamBase</a>(Params const &amp;params, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const bounds, Coord&lt; 3 &gt; const &amp;block)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a807cffc6f69f8d30a2fc94cf49fb904c">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">load_iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe">LoadIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aae1adef6312e069e59a83d38c03116f9">residue</a>(Index k, bool skip_clear=false)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afbbf15a7b5e4c38e59bf1debf67f04d6">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa">SharedStoreStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">store_iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834">StoreIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf">transformed_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">TransformedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe">Transformer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9">transformer</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab39c82ac1a8138c4b6d69dab9d48bdbc">commit</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a3784dbb3efe0865ffa946419111c824a">copy</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">fetched_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">FetchedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab7e315253b3301c191581bce05644106">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aec86bdf5d7d4ad1f7b6ebebcf2da8395">GlobalLoadStream</a>(Params const &amp;_params, SharedStorage &amp;shared_storage, ThreadblockTileRef const &amp;threadblock_tile_ref, Coord&lt; 3 &gt; const bounds, Coord&lt; 3 &gt; const &amp;_threadblock_offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a30113b850dfd3de60f8778bc7a66f700">kOperand</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">LoadIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac269a9280a55d3988ca60f571bdf7f29">move_to_residue</a>(Index k, Index kTileK)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1">multiplicand_bounds</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a8e79a153de72eef10d90bfd02b5dd27e">operator+=</a>(Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">project_coordinate</a>(Coord&lt; 3 &gt; const &amp;coord, Index d_offset=0)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a235adaea5d4f01232c79cb6109dc6d17">residue</a>(Index k, bool skip_clear=false)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1e2eecdba1871fc11aa43a06edf6ed34">rollback</a>(void)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7073b32c2cc62ffcad70a9ca46995c4c">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">store_iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">StoreIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a">threadblock_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">ThreadblockTileRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a17804b01904a9a4ee7a857905833f7a8">ThreadblockTileStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a260543a618fb187c2da40c9f630925ec">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1">transformed_fragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">TransformedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4">transformer</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">Transformer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStream.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStream.html
index 99cbcad5da..b359559570 100644
--- a/docs/structcutlass_1_1gemm_1_1GlobalLoadStream.html
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStream.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -73,115 +73,321 @@
 </div><!-- top -->
 <div class="header">
   <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
 <a href="#pub-types">Public Types</a> &#124;
 <a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-static-methods">Static Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="structcutlass_1_1gemm_1_1GlobalLoadStream-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="gemm__global__stream_8h_source.html">gemm_global_stream.h</a>&gt;</code></p>
-<div class="dynheader">
-Inheritance diagram for cutlass::gemm::GlobalLoadStream&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;:</div>
-<div class="dyncontent">
- <div class="center">
-  <img src="structcutlass_1_1gemm_1_1GlobalLoadStream.png" usemap="#cutlass::gemm::GlobalLoadStream_3C_20LoadIterator_5F_2C_20StoreIterator_5F_2C_20Transformer_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::GlobalLoadStream_3C_20LoadIterator_5F_2C_20StoreIterator_5F_2C_20Transformer_5F_20_3E_map" name="cutlass::gemm::GlobalLoadStream_3C_20LoadIterator_5F_2C_20StoreIterator_5F_2C_20Transformer_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html" alt="cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;" shape="rect" coords="0,0,496,24"/>
-</map>
- </div></div>
 <table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The params.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html">SharedStorage</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:a507f825824e624d80a34ea9395934160"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">GlobalLoadStreamBase</a>&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a507f825824e624d80a34ea9395934160">Base</a></td></tr>
-<tr class="memdesc:a507f825824e624d80a34ea9395934160"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base class.  <a href="#a507f825824e624d80a34ea9395934160">More...</a><br /></td></tr>
-<tr class="separator:a507f825824e624d80a34ea9395934160"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td></tr>
-<tr class="memitem:acff2a1ab180eec672714cd587a28f9fe inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe">LoadIterator</a></td></tr>
-<tr class="memdesc:acff2a1ab180eec672714cd587a28f9fe inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load iterator.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe">More...</a><br /></td></tr>
-<tr class="separator:acff2a1ab180eec672714cd587a28f9fe inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa24bd9f94bea04a148b49b2a97b63fbe inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">typedef Transformer_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe">Transformer</a></td></tr>
-<tr class="memdesc:aa24bd9f94bea04a148b49b2a97b63fbe inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe">More...</a><br /></td></tr>
-<tr class="separator:aa24bd9f94bea04a148b49b2a97b63fbe inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a15eee5bf6367a36a5b5c8024437f4834 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">typedef StoreIterator_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834">StoreIterator</a></td></tr>
-<tr class="memdesc:a15eee5bf6367a36a5b5c8024437f4834 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store iterator to write to shared memory.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834">More...</a><br /></td></tr>
-<tr class="separator:a15eee5bf6367a36a5b5c8024437f4834 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0a7f6ae85cfb162b1facf24dff8bab36 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator::Fragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36">FetchedFragment</a></td></tr>
-<tr class="memdesc:a0a7f6ae85cfb162b1facf24dff8bab36 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment that is copied from shared memory.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36">More...</a><br /></td></tr>
-<tr class="separator:a0a7f6ae85cfb162b1facf24dff8bab36 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afe7503a3304eefd633581d6bc73a0108 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">typedef Transformer::OutputFragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">TransformedFragment</a></td></tr>
-<tr class="memdesc:afe7503a3304eefd633581d6bc73a0108 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment that is obtained after the transformation by the transformer.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">More...</a><br /></td></tr>
-<tr class="separator:afe7503a3304eefd633581d6bc73a0108 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a32687e2aa49dfa251eab14d5cd2036be inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a32687e2aa49dfa251eab14d5cd2036be">Fragment</a></td></tr>
-<tr class="memdesc:a32687e2aa49dfa251eab14d5cd2036be inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Make sure the fragments match.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a32687e2aa49dfa251eab14d5cd2036be">More...</a><br /></td></tr>
-<tr class="separator:a32687e2aa49dfa251eab14d5cd2036be inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afbbf15a7b5e4c38e59bf1debf67f04d6 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afbbf15a7b5e4c38e59bf1debf67f04d6">Scalar</a></td></tr>
-<tr class="memdesc:afbbf15a7b5e4c38e59bf1debf67f04d6 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar type of the iterator.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afbbf15a7b5e4c38e59bf1debf67f04d6">More...</a><br /></td></tr>
-<tr class="separator:afbbf15a7b5e4c38e59bf1debf67f04d6 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:adcbf24c1b7f45ab5fe8f3ad94154b4d1 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator::Pointer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1">Pointer</a></td></tr>
-<tr class="memdesc:adcbf24c1b7f45ab5fe8f3ad94154b4d1 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#adcbf24c1b7f45ab5fe8f3ad94154b4d1">More...</a><br /></td></tr>
-<tr class="separator:adcbf24c1b7f45ab5fe8f3ad94154b4d1 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6a6e38022606dd8d41cf7264fb059cc2 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">Index</a></td></tr>
-<tr class="memdesc:a6a6e38022606dd8d41cf7264fb059cc2 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">More...</a><br /></td></tr>
-<tr class="separator:a6a6e38022606dd8d41cf7264fb059cc2 inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a69092e298d5723028fc24235d72f87fa inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">typedef StoreIterator::SharedStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa">SharedStoreStorage</a></td></tr>
-<tr class="memdesc:a69092e298d5723028fc24235d72f87fa inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The amount of storage in shared memory needed to store the tile.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a69092e298d5723028fc24235d72f87fa">More...</a><br /></td></tr>
-<tr class="separator:a69092e298d5723028fc24235d72f87fa inherit pub_types_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a905c219287a7342b2ddb58b84e413d64"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">LoadIterator</a></td></tr>
+<tr class="memdesc:a905c219287a7342b2ddb58b84e413d64"><td class="mdescLeft">&#160;</td><td class="mdescRight">The load iterator.  <a href="#a905c219287a7342b2ddb58b84e413d64">More...</a><br /></td></tr>
+<tr class="separator:a905c219287a7342b2ddb58b84e413d64"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa79a27cbe2420882fbaca55e42803f02"><td class="memItemLeft" align="right" valign="top">typedef Transformer_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">Transformer</a></td></tr>
+<tr class="memdesc:aa79a27cbe2420882fbaca55e42803f02"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer.  <a href="#aa79a27cbe2420882fbaca55e42803f02">More...</a><br /></td></tr>
+<tr class="separator:aa79a27cbe2420882fbaca55e42803f02"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac16e31930c346068d7522dd8de9d93d2"><td class="memItemLeft" align="right" valign="top">typedef StoreIterator_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">StoreIterator</a></td></tr>
+<tr class="memdesc:ac16e31930c346068d7522dd8de9d93d2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store iterator to write to shared memory.  <a href="#ac16e31930c346068d7522dd8de9d93d2">More...</a><br /></td></tr>
+<tr class="separator:ac16e31930c346068d7522dd8de9d93d2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7d9b4339129c1ab4f21f1df1144faddf"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator::Fragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">FetchedFragment</a></td></tr>
+<tr class="memdesc:a7d9b4339129c1ab4f21f1df1144faddf"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment that is copied from shared memory.  <a href="#a7d9b4339129c1ab4f21f1df1144faddf">More...</a><br /></td></tr>
+<tr class="separator:a7d9b4339129c1ab4f21f1df1144faddf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9eb2fb49698d0d018c04e7712e239ce9"><td class="memItemLeft" align="right" valign="top">typedef Transformer::OutputFragment&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">TransformedFragment</a></td></tr>
+<tr class="memdesc:a9eb2fb49698d0d018c04e7712e239ce9"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment that is obtained after the transformation by the transformer.  <a href="#a9eb2fb49698d0d018c04e7712e239ce9">More...</a><br /></td></tr>
+<tr class="separator:a9eb2fb49698d0d018c04e7712e239ce9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab7e315253b3301c191581bce05644106"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab7e315253b3301c191581bce05644106">Fragment</a></td></tr>
+<tr class="memdesc:ab7e315253b3301c191581bce05644106"><td class="mdescLeft">&#160;</td><td class="mdescRight">Make sure the fragments match.  <a href="#ab7e315253b3301c191581bce05644106">More...</a><br /></td></tr>
+<tr class="separator:ab7e315253b3301c191581bce05644106"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7073b32c2cc62ffcad70a9ca46995c4c"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7073b32c2cc62ffcad70a9ca46995c4c">Scalar</a></td></tr>
+<tr class="memdesc:a7073b32c2cc62ffcad70a9ca46995c4c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar type of the iterator.  <a href="#a7073b32c2cc62ffcad70a9ca46995c4c">More...</a><br /></td></tr>
+<tr class="separator:a7073b32c2cc62ffcad70a9ca46995c4c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac4452df991f57f9bb0b86dfd380179b2"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator::Pointer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">Pointer</a></td></tr>
+<tr class="memdesc:ac4452df991f57f9bb0b86dfd380179b2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="#ac4452df991f57f9bb0b86dfd380179b2">More...</a><br /></td></tr>
+<tr class="separator:ac4452df991f57f9bb0b86dfd380179b2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7c46d6eb83b43e099d53784bb2a09f02"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a></td></tr>
+<tr class="memdesc:a7c46d6eb83b43e099d53784bb2a09f02"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="#a7c46d6eb83b43e099d53784bb2a09f02">More...</a><br /></td></tr>
+<tr class="separator:a7c46d6eb83b43e099d53784bb2a09f02"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a260543a618fb187c2da40c9f630925ec"><td class="memItemLeft" align="right" valign="top">typedef LoadIterator::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a260543a618fb187c2da40c9f630925ec">Tile</a></td></tr>
+<tr class="memdesc:a260543a618fb187c2da40c9f630925ec"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="#a260543a618fb187c2da40c9f630925ec">More...</a><br /></td></tr>
+<tr class="separator:a260543a618fb187c2da40c9f630925ec"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a17804b01904a9a4ee7a857905833f7a8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileAllocation.html">TileAllocation</a>&lt; typename StoreIterator::Scalar, typename StoreIterator::Tile &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a17804b01904a9a4ee7a857905833f7a8">ThreadblockTileStorage</a></td></tr>
+<tr class="memdesc:a17804b01904a9a4ee7a857905833f7a8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Shared memory allocation for the tile.  <a href="#a17804b01904a9a4ee7a857905833f7a8">More...</a><br /></td></tr>
+<tr class="separator:a17804b01904a9a4ee7a857905833f7a8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a011287c8289b7b026f9993da663abd77"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">ThreadblockTileStorage::TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">ThreadblockTileRef</a></td></tr>
+<tr class="memdesc:a011287c8289b7b026f9993da663abd77"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference to threadblock tile.  <a href="#a011287c8289b7b026f9993da663abd77">More...</a><br /></td></tr>
+<tr class="separator:a011287c8289b7b026f9993da663abd77"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a4dd11a75375b6b9d7b8dcbd4d402d8d6"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a4dd11a75375b6b9d7b8dcbd4d402d8d6">GlobalLoadStream</a> (typename <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html">Base::Params</a> const &amp;params, typename <a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html">Base::SharedStorage</a> &amp;shared_storage, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block)</td></tr>
-<tr class="memdesc:a4dd11a75375b6b9d7b8dcbd4d402d8d6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a4dd11a75375b6b9d7b8dcbd4d402d8d6">More...</a><br /></td></tr>
-<tr class="separator:a4dd11a75375b6b9d7b8dcbd4d402d8d6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td></tr>
-<tr class="memitem:a0fdc0f56d1352b5ad41fd4985edd3278 inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0fdc0f56d1352b5ad41fd4985edd3278">GlobalLoadStreamBase</a> (<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html">Params</a> const &amp;params, <a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html">SharedStorage</a> &amp;shared_storage, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block)</td></tr>
-<tr class="memdesc:a0fdc0f56d1352b5ad41fd4985edd3278 inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0fdc0f56d1352b5ad41fd4985edd3278">More...</a><br /></td></tr>
-<tr class="separator:a0fdc0f56d1352b5ad41fd4985edd3278 inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af7a15b4456cda01c1ffbb2fdc532e87e inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#af7a15b4456cda01c1ffbb2fdc532e87e">copy</a> ()</td></tr>
-<tr class="memdesc:af7a15b4456cda01c1ffbb2fdc532e87e inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Load.html">Load</a> the data from shared memory to the fetch fragment.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#af7a15b4456cda01c1ffbb2fdc532e87e">More...</a><br /></td></tr>
-<tr class="separator:af7a15b4456cda01c1ffbb2fdc532e87e inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6ce2c6e81d159d8e9ab736cb263f44ae inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6ce2c6e81d159d8e9ab736cb263f44ae">commit</a> ()</td></tr>
-<tr class="memdesc:a6ce2c6e81d159d8e9ab736cb263f44ae inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commit the data.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6ce2c6e81d159d8e9ab736cb263f44ae">More...</a><br /></td></tr>
-<tr class="separator:a6ce2c6e81d159d8e9ab736cb263f44ae inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aae1adef6312e069e59a83d38c03116f9 inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aae1adef6312e069e59a83d38c03116f9">residue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a6a6e38022606dd8d41cf7264fb059cc2">Index</a> k, bool skip_clear=false)</td></tr>
-<tr class="memdesc:aae1adef6312e069e59a83d38c03116f9 inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Execute the residue code.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aae1adef6312e069e59a83d38c03116f9">More...</a><br /></td></tr>
-<tr class="separator:aae1adef6312e069e59a83d38c03116f9 inherit pub_methods_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aec86bdf5d7d4ad1f7b6ebebcf2da8395"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aec86bdf5d7d4ad1f7b6ebebcf2da8395">GlobalLoadStream</a> (<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">Params</a> const &amp;_params, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html">SharedStorage</a> &amp;shared_storage, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">ThreadblockTileRef</a> const &amp;threadblock_tile_ref, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;_threadblock_offset)</td></tr>
+<tr class="memdesc:aec86bdf5d7d4ad1f7b6ebebcf2da8395"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#aec86bdf5d7d4ad1f7b6ebebcf2da8395">More...</a><br /></td></tr>
+<tr class="separator:aec86bdf5d7d4ad1f7b6ebebcf2da8395"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3784dbb3efe0865ffa946419111c824a"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a3784dbb3efe0865ffa946419111c824a">copy</a> ()</td></tr>
+<tr class="memdesc:a3784dbb3efe0865ffa946419111c824a"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Load.html">Load</a> the data from shared memory to the fetch fragment.  <a href="#a3784dbb3efe0865ffa946419111c824a">More...</a><br /></td></tr>
+<tr class="separator:a3784dbb3efe0865ffa946419111c824a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab39c82ac1a8138c4b6d69dab9d48bdbc"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab39c82ac1a8138c4b6d69dab9d48bdbc">commit</a> ()</td></tr>
+<tr class="memdesc:ab39c82ac1a8138c4b6d69dab9d48bdbc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commit the data.  <a href="#ab39c82ac1a8138c4b6d69dab9d48bdbc">More...</a><br /></td></tr>
+<tr class="separator:ab39c82ac1a8138c4b6d69dab9d48bdbc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a235adaea5d4f01232c79cb6109dc6d17"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a235adaea5d4f01232c79cb6109dc6d17">residue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> k, bool skip_clear=false)</td></tr>
+<tr class="memdesc:a235adaea5d4f01232c79cb6109dc6d17"><td class="mdescLeft">&#160;</td><td class="mdescRight">Execute the residue code.  <a href="#a235adaea5d4f01232c79cb6109dc6d17">More...</a><br /></td></tr>
+<tr class="separator:a235adaea5d4f01232c79cb6109dc6d17"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac269a9280a55d3988ca60f571bdf7f29"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac269a9280a55d3988ca60f571bdf7f29">move_to_residue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> k, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> kTileK)</td></tr>
+<tr class="memdesc:ac269a9280a55d3988ca60f571bdf7f29"><td class="mdescLeft">&#160;</td><td class="mdescRight">Move to the residue portion.  <a href="#ac269a9280a55d3988ca60f571bdf7f29">More...</a><br /></td></tr>
+<tr class="separator:ac269a9280a55d3988ca60f571bdf7f29"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e2eecdba1871fc11aa43a06edf6ed34"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1e2eecdba1871fc11aa43a06edf6ed34">rollback</a> (void)</td></tr>
+<tr class="memdesc:a1e2eecdba1871fc11aa43a06edf6ed34"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rollback to the beginning of the first tile.  <a href="#a1e2eecdba1871fc11aa43a06edf6ed34">More...</a><br /></td></tr>
+<tr class="separator:a1e2eecdba1871fc11aa43a06edf6ed34"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8e79a153de72eef10d90bfd02b5dd27e"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a8e79a153de72eef10d90bfd02b5dd27e">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:a8e79a153de72eef10d90bfd02b5dd27e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a <a class="el" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> to the underlying global load iterator.  <a href="#a8e79a153de72eef10d90bfd02b5dd27e">More...</a><br /></td></tr>
+<tr class="separator:a8e79a153de72eef10d90bfd02b5dd27e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-methods"></a>
+Static Public Member Functions</h2></td></tr>
+<tr class="memitem:aa634e3f786d5bf5707b94e522a10a001"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa634e3f786d5bf5707b94e522a10a001">project_coordinate</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;coord, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> d_offset=0)</td></tr>
+<tr class="memdesc:aa634e3f786d5bf5707b94e522a10a001"><td class="mdescLeft">&#160;</td><td class="mdescRight">Maps a coordinate in the GEMM's (K, N, M) coordinate system to global memory.  <a href="#aa634e3f786d5bf5707b94e522a10a001">More...</a><br /></td></tr>
+<tr class="separator:aa634e3f786d5bf5707b94e522a10a001"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
-<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
-Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td></tr>
-<tr class="memitem:ad2381f2311ee8400a2dc57c19084ef5e inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#acff2a1ab180eec672714cd587a28f9fe">LoadIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">load_iterator</a></td></tr>
-<tr class="memdesc:ad2381f2311ee8400a2dc57c19084ef5e inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#ad2381f2311ee8400a2dc57c19084ef5e">More...</a><br /></td></tr>
-<tr class="separator:ad2381f2311ee8400a2dc57c19084ef5e inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a26aa580a2697ad02c27f868e7779348d inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0a7f6ae85cfb162b1facf24dff8bab36">FetchedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">fetched_fragment</a></td></tr>
-<tr class="memdesc:a26aa580a2697ad02c27f868e7779348d inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment to fetch from shared memory.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a26aa580a2697ad02c27f868e7779348d">More...</a><br /></td></tr>
-<tr class="separator:a26aa580a2697ad02c27f868e7779348d inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a868f82ee87aba37b05721fe8210221c9 inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#aa24bd9f94bea04a148b49b2a97b63fbe">Transformer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9">transformer</a></td></tr>
-<tr class="memdesc:a868f82ee87aba37b05721fe8210221c9 inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a868f82ee87aba37b05721fe8210221c9">More...</a><br /></td></tr>
-<tr class="separator:a868f82ee87aba37b05721fe8210221c9 inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afa97cb1cfebca0d6977b1c8318bedddf inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afe7503a3304eefd633581d6bc73a0108">TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf">transformed_fragment</a></td></tr>
-<tr class="memdesc:afa97cb1cfebca0d6977b1c8318bedddf inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment to convert the data after it has been fetched from shared memory.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#afa97cb1cfebca0d6977b1c8318bedddf">More...</a><br /></td></tr>
-<tr class="separator:afa97cb1cfebca0d6977b1c8318bedddf inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0eafd1e245946bd1b9d228ad7d2d0dae inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a15eee5bf6367a36a5b5c8024437f4834">StoreIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">store_iterator</a></td></tr>
-<tr class="memdesc:a0eafd1e245946bd1b9d228ad7d2d0dae inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store iterator.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a0eafd1e245946bd1b9d228ad7d2d0dae">More...</a><br /></td></tr>
-<tr class="separator:a0eafd1e245946bd1b9d228ad7d2d0dae inherit pub_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">cutlass::gemm::GlobalLoadStreamBase&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;</a></td></tr>
-<tr class="memitem:a807cffc6f69f8d30a2fc94cf49fb904c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a807cffc6f69f8d30a2fc94cf49fb904c">kLayout</a> = LoadIterator::kLayout</td></tr>
-<tr class="memdesc:a807cffc6f69f8d30a2fc94cf49fb904c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Make sure the transformed fragment is the same as the store fragment.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html#a807cffc6f69f8d30a2fc94cf49fb904c">More...</a><br /></td></tr>
-<tr class="separator:a807cffc6f69f8d30a2fc94cf49fb904c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GlobalLoadStreamBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:ac8ff1a3e10b25c212cd3cf5ed997fc0e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac8ff1a3e10b25c212cd3cf5ed997fc0e">params</a></td></tr>
+<tr class="memdesc:ac8ff1a3e10b25c212cd3cf5ed997fc0e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters.  <a href="#ac8ff1a3e10b25c212cd3cf5ed997fc0e">More...</a><br /></td></tr>
+<tr class="separator:ac8ff1a3e10b25c212cd3cf5ed997fc0e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a386f2f4d2e239075f0fe1489ed7788c1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a386f2f4d2e239075f0fe1489ed7788c1">multiplicand_bounds</a></td></tr>
+<tr class="memdesc:a386f2f4d2e239075f0fe1489ed7788c1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiplicand bounds.  <a href="#a386f2f4d2e239075f0fe1489ed7788c1">More...</a><br /></td></tr>
+<tr class="separator:a386f2f4d2e239075f0fe1489ed7788c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a563961c326d2e55f5b8682a30b64a24a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a563961c326d2e55f5b8682a30b64a24a">threadblock_offset</a></td></tr>
+<tr class="memdesc:a563961c326d2e55f5b8682a30b64a24a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Threadblock offset.  <a href="#a563961c326d2e55f5b8682a30b64a24a">More...</a><br /></td></tr>
+<tr class="separator:a563961c326d2e55f5b8682a30b64a24a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5ef4cc42c7cec73523550e5ea56df88c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">LoadIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a5ef4cc42c7cec73523550e5ea56df88c">load_iterator</a></td></tr>
+<tr class="memdesc:a5ef4cc42c7cec73523550e5ea56df88c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator.  <a href="#a5ef4cc42c7cec73523550e5ea56df88c">More...</a><br /></td></tr>
+<tr class="separator:a5ef4cc42c7cec73523550e5ea56df88c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1c117b87024937f1dc3da128795b6e03"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">FetchedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a1c117b87024937f1dc3da128795b6e03">fetched_fragment</a></td></tr>
+<tr class="memdesc:a1c117b87024937f1dc3da128795b6e03"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment to fetch from shared memory.  <a href="#a1c117b87024937f1dc3da128795b6e03">More...</a><br /></td></tr>
+<tr class="separator:a1c117b87024937f1dc3da128795b6e03"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab68ba57fe69430c557379b3457faebc4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">Transformer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab68ba57fe69430c557379b3457faebc4">transformer</a></td></tr>
+<tr class="memdesc:ab68ba57fe69430c557379b3457faebc4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer.  <a href="#ab68ba57fe69430c557379b3457faebc4">More...</a><br /></td></tr>
+<tr class="separator:ab68ba57fe69430c557379b3457faebc4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7d7042e60aaab0dd00772b239e1f1db1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d7042e60aaab0dd00772b239e1f1db1">transformed_fragment</a></td></tr>
+<tr class="memdesc:a7d7042e60aaab0dd00772b239e1f1db1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment to convert the data after it has been fetched from shared memory.  <a href="#a7d7042e60aaab0dd00772b239e1f1db1">More...</a><br /></td></tr>
+<tr class="separator:a7d7042e60aaab0dd00772b239e1f1db1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a45a4bceb72fcb856e32eaa20eec11e9d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">StoreIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a45a4bceb72fcb856e32eaa20eec11e9d">store_iterator</a></td></tr>
+<tr class="memdesc:a45a4bceb72fcb856e32eaa20eec11e9d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The store iterator.  <a href="#a45a4bceb72fcb856e32eaa20eec11e9d">More...</a><br /></td></tr>
+<tr class="separator:a45a4bceb72fcb856e32eaa20eec11e9d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a30113b850dfd3de60f8778bc7a66f700"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a30113b850dfd3de60f8778bc7a66f700">kOperand</a> = Operand</td></tr>
+<tr class="memdesc:a30113b850dfd3de60f8778bc7a66f700"><td class="mdescLeft">&#160;</td><td class="mdescRight">Indicates the type of GEMM operand.  <a href="#a30113b850dfd3de60f8778bc7a66f700">More...</a><br /></td></tr>
+<tr class="separator:a30113b850dfd3de60f8778bc7a66f700"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac29cd1ba94e802762d665c300e22e7db"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac29cd1ba94e802762d665c300e22e7db">kLayout</a> = LoadIterator::kLayout</td></tr>
+<tr class="memdesc:ac29cd1ba94e802762d665c300e22e7db"><td class="mdescLeft">&#160;</td><td class="mdescRight">Make sure the transformed fragment is the same as the store fragment.  <a href="#ac29cd1ba94e802762d665c300e22e7db">More...</a><br /></td></tr>
+<tr class="separator:ac29cd1ba94e802762d665c300e22e7db"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a507f825824e624d80a34ea9395934160"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a507f825824e624d80a34ea9395934160">&#9670;&nbsp;</a></span>Base</h2>
+<a id="a7d9b4339129c1ab4f21f1df1144faddf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d9b4339129c1ab4f21f1df1144faddf">&#9670;&nbsp;</a></span>FetchedFragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef LoadIterator::Fragment <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">FetchedFragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab7e315253b3301c191581bce05644106"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab7e315253b3301c191581bce05644106">&#9670;&nbsp;</a></span>Fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">TransformedFragment</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ab7e315253b3301c191581bce05644106">Fragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<p>The output fragment. </p>
+
+</div>
+</div>
+<a id="a7c46d6eb83b43e099d53784bb2a09f02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7c46d6eb83b43e099d53784bb2a09f02">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef LoadIterator::Index <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a905c219287a7342b2ddb58b84e413d64"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a905c219287a7342b2ddb58b84e413d64">&#9670;&nbsp;</a></span>LoadIterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef LoadIterator_ <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">LoadIterator</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac4452df991f57f9bb0b86dfd380179b2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac4452df991f57f9bb0b86dfd380179b2">&#9670;&nbsp;</a></span>Pointer</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef LoadIterator::Pointer <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">Pointer</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7073b32c2cc62ffcad70a9ca46995c4c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7073b32c2cc62ffcad70a9ca46995c4c">&#9670;&nbsp;</a></span>Scalar</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename LoadIterator_ , typename StoreIterator_ , typename Transformer_  = Copy&lt;typename LoadIterator_::Fragment&gt;&gt; </div>
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase.html">GlobalLoadStreamBase</a>&lt;LoadIterator_, StoreIterator_, Transformer_&gt; <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a507f825824e624d80a34ea9395934160">Base</a></td>
+          <td class="memname">typedef LoadIterator::Scalar <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7073b32c2cc62ffcad70a9ca46995c4c">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac16e31930c346068d7522dd8de9d93d2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac16e31930c346068d7522dd8de9d93d2">&#9670;&nbsp;</a></span>StoreIterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef StoreIterator_ <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">StoreIterator</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a011287c8289b7b026f9993da663abd77"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a011287c8289b7b026f9993da663abd77">&#9670;&nbsp;</a></span>ThreadblockTileRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">ThreadblockTileStorage::TensorRef</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">ThreadblockTileRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a17804b01904a9a4ee7a857905833f7a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a17804b01904a9a4ee7a857905833f7a8">&#9670;&nbsp;</a></span>ThreadblockTileStorage</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileAllocation.html">TileAllocation</a>&lt;typename StoreIterator::Scalar, typename StoreIterator::Tile&gt; <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a17804b01904a9a4ee7a857905833f7a8">ThreadblockTileStorage</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a260543a618fb187c2da40c9f630925ec"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a260543a618fb187c2da40c9f630925ec">&#9670;&nbsp;</a></span>Tile</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef LoadIterator::Tile <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a260543a618fb187c2da40c9f630925ec">Tile</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9eb2fb49698d0d018c04e7712e239ce9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9eb2fb49698d0d018c04e7712e239ce9">&#9670;&nbsp;</a></span>TransformedFragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Transformer::OutputFragment <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">TransformedFragment</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa79a27cbe2420882fbaca55e42803f02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa79a27cbe2420882fbaca55e42803f02">&#9670;&nbsp;</a></span>Transformer</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Transformer_ <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">Transformer</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -189,40 +395,46 @@ <h2 class="memtitle"><span class="permalink"><a href="#a507f825824e624d80a34ea93
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="a4dd11a75375b6b9d7b8dcbd4d402d8d6"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4dd11a75375b6b9d7b8dcbd4d402d8d6">&#9670;&nbsp;</a></span>GlobalLoadStream()</h2>
+<a id="aec86bdf5d7d4ad1f7b6ebebcf2da8395"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aec86bdf5d7d4ad1f7b6ebebcf2da8395">&#9670;&nbsp;</a></span>GlobalLoadStream()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename LoadIterator_ , typename StoreIterator_ , typename Transformer_  = Copy&lt;typename LoadIterator_::Fragment&gt;&gt; </div>
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a> </td>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a> </td>
           <td>(</td>
-          <td class="paramtype">typename <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1Params.html">Base::Params</a> const &amp;&#160;</td>
-          <td class="paramname"><em>params</em>, </td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">typename <a class="el" href="unioncutlass_1_1gemm_1_1GlobalLoadStreamBase_1_1SharedStorage.html">Base::SharedStorage</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html">SharedStorage</a> &amp;&#160;</td>
           <td class="paramname"><em>shared_storage</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a011287c8289b7b026f9993da663abd77">ThreadblockTileRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>threadblock_tile_ref</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const&#160;</td>
           <td class="paramname"><em>bounds</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
-          <td class="paramname"><em>block</em>&#160;</td>
+          <td class="paramname"><em>_threadblock_offset</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -237,6 +449,409 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4dd11a75375b6b9d7b8dcbd4
 </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ab39c82ac1a8138c4b6d69dab9d48bdbc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab39c82ac1a8138c4b6d69dab9d48bdbc">&#9670;&nbsp;</a></span>commit()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::commit </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3784dbb3efe0865ffa946419111c824a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3784dbb3efe0865ffa946419111c824a">&#9670;&nbsp;</a></span>copy()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::copy </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac269a9280a55d3988ca60f571bdf7f29"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac269a9280a55d3988ca60f571bdf7f29">&#9670;&nbsp;</a></span>move_to_residue()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::move_to_residue </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a>&#160;</td>
+          <td class="paramname"><em>k</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a>&#160;</td>
+          <td class="paramname"><em>kTileK</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8e79a153de72eef10d90bfd02b5dd27e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8e79a153de72eef10d90bfd02b5dd27e">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&amp; <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa634e3f786d5bf5707b94e522a10a001"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa634e3f786d5bf5707b94e522a10a001">&#9670;&nbsp;</a></span>project_coordinate()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">static CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::project_coordinate </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>coord</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a>&#160;</td>
+          <td class="paramname"><em>d_offset</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a235adaea5d4f01232c79cb6109dc6d17"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a235adaea5d4f01232c79cb6109dc6d17">&#9670;&nbsp;</a></span>residue()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::residue </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a>&#160;</td>
+          <td class="paramname"><em>k</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool&#160;</td>
+          <td class="paramname"><em>skip_clear</em> = <code>false</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1e2eecdba1871fc11aa43a06edf6ed34"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e2eecdba1871fc11aa43a06edf6ed34">&#9670;&nbsp;</a></span>rollback()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::rollback </td>
+          <td>(</td>
+          <td class="paramtype">void&#160;</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a1c117b87024937f1dc3da128795b6e03"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1c117b87024937f1dc3da128795b6e03">&#9670;&nbsp;</a></span>fetched_fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7d9b4339129c1ab4f21f1df1144faddf">FetchedFragment</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::fetched_fragment</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac29cd1ba94e802762d665c300e22e7db"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac29cd1ba94e802762d665c300e22e7db">&#9670;&nbsp;</a></span>kLayout</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::kLayout = LoadIterator::kLayout</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<p>The layout. </p>
+
+</div>
+</div>
+<a id="a30113b850dfd3de60f8778bc7a66f700"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a30113b850dfd3de60f8778bc7a66f700">&#9670;&nbsp;</a></span>kOperand</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> const <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::kOperand = Operand</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5ef4cc42c7cec73523550e5ea56df88c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5ef4cc42c7cec73523550e5ea56df88c">&#9670;&nbsp;</a></span>load_iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a905c219287a7342b2ddb58b84e413d64">LoadIterator</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::load_iterator</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a386f2f4d2e239075f0fe1489ed7788c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a386f2f4d2e239075f0fe1489ed7788c1">&#9670;&nbsp;</a></span>multiplicand_bounds</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::multiplicand_bounds</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac8ff1a3e10b25c212cd3cf5ed997fc0e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac8ff1a3e10b25c212cd3cf5ed997fc0e">&#9670;&nbsp;</a></span>params</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">Params</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::params</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a45a4bceb72fcb856e32eaa20eec11e9d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a45a4bceb72fcb856e32eaa20eec11e9d">&#9670;&nbsp;</a></span>store_iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac16e31930c346068d7522dd8de9d93d2">StoreIterator</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::store_iterator</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a563961c326d2e55f5b8682a30b64a24a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a563961c326d2e55f5b8682a30b64a24a">&#9670;&nbsp;</a></span>threadblock_offset</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::threadblock_offset</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a7d7042e60aaab0dd00772b239e1f1db1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7d7042e60aaab0dd00772b239e1f1db1">&#9670;&nbsp;</a></span>transformed_fragment</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a9eb2fb49698d0d018c04e7712e239ce9">TransformedFragment</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::transformed_fragment</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab68ba57fe69430c557379b3457faebc4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab68ba57fe69430c557379b3457faebc4">&#9670;&nbsp;</a></span>transformer</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#aa79a27cbe2420882fbaca55e42803f02">Transformer</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::transformer</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
@@ -245,7 +860,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4dd11a75375b6b9d7b8dcbd4
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair-members.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair-members.html
new file mode 100644
index 0000000000..9b6ec8bba9
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair-members.html
@@ -0,0 +1,104 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6699714c357f2714df011f58c1c48861">commit</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5c0efc259bb3bd1675f5d395dab71e95">copy</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab97442e24a1d6d64727b6320ab901ad1">GlobalLoadStreamPair</a>(Params const &amp;params, SharedStorage &amp;shared_storage, ThreadblockTileRef const &amp;threadblock_tile_ref, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab94c0c95d6d4e019563ba8a142f9d410">move_to_residue</a>(Index k, Index kTileK)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a769813dcffe1767aab49ac30b838a5f4">operator+=</a>(Coord&lt; 3 &gt; const offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a1b1ec121cbd17ee61d58ea843b900e9a">residue</a>(Index k, bool skip_clear=false)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6a9287a2cd87ca8a96cbf6b6d29199da">rollback</a>(bool kRollback)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">StreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">StreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be">ThreadblockTileRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">ThreadblockTileStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html
new file mode 100644
index 0000000000..7e7384fab1
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html
@@ -0,0 +1,519 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Collect the global load streams for multiplicands.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="gemm__stream__pair_8h_source.html">gemm_stream_pair.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">SharedStorage</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines a structure containing shared storage for each pair.  <a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ae2c4829f874ef9e83aaa52c412fa1227"><td class="memItemLeft" align="right" valign="top">typedef StreamA_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">StreamA</a></td></tr>
+<tr class="memdesc:ae2c4829f874ef9e83aaa52c412fa1227"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stream for A multiplicand.  <a href="#ae2c4829f874ef9e83aaa52c412fa1227">More...</a><br /></td></tr>
+<tr class="separator:ae2c4829f874ef9e83aaa52c412fa1227"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a08171f4eae2442c98f81acc88e8bd55c"><td class="memItemLeft" align="right" valign="top">typedef StreamB_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">StreamB</a></td></tr>
+<tr class="memdesc:a08171f4eae2442c98f81acc88e8bd55c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stream for B multiplicand.  <a href="#a08171f4eae2442c98f81acc88e8bd55c">More...</a><br /></td></tr>
+<tr class="separator:a08171f4eae2442c98f81acc88e8bd55c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3e22454d24cadb7d335f2a0152caae2a"><td class="memItemLeft" align="right" valign="top">typedef StreamA::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a></td></tr>
+<tr class="memdesc:a3e22454d24cadb7d335f2a0152caae2a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assumes the A stream defines the index type.  <a href="#a3e22454d24cadb7d335f2a0152caae2a">More...</a><br /></td></tr>
+<tr class="separator:a3e22454d24cadb7d335f2a0152caae2a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5eef540f82acea5d9cb12965707ba158"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ZipTileAllocation.html">ZipTileAllocation</a>&lt; typename StreamA::ThreadblockTileStorage, typename StreamB::ThreadblockTileStorage &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">ThreadblockTileStorage</a></td></tr>
+<tr class="memdesc:a5eef540f82acea5d9cb12965707ba158"><td class="mdescLeft">&#160;</td><td class="mdescRight">Shared memory allocation for threadblock-scoped GEMM tile.  <a href="#a5eef540f82acea5d9cb12965707ba158">More...</a><br /></td></tr>
+<tr class="separator:a5eef540f82acea5d9cb12965707ba158"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a79b783f02eaa4cf8fc8f929448e121be"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">ThreadblockTileStorage::TensorRef</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be">ThreadblockTileRef</a></td></tr>
+<tr class="memdesc:a79b783f02eaa4cf8fc8f929448e121be"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a> to threadblock tiles.  <a href="#a79b783f02eaa4cf8fc8f929448e121be">More...</a><br /></td></tr>
+<tr class="separator:a79b783f02eaa4cf8fc8f929448e121be"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:ab97442e24a1d6d64727b6320ab901ad1"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab97442e24a1d6d64727b6320ab901ad1">GlobalLoadStreamPair</a> (<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">Params</a> const &amp;params, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">SharedStorage</a> &amp;shared_storage, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be">ThreadblockTileRef</a> const &amp;threadblock_tile_ref, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</td></tr>
+<tr class="memdesc:ab97442e24a1d6d64727b6320ab901ad1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ab97442e24a1d6d64727b6320ab901ad1">More...</a><br /></td></tr>
+<tr class="separator:ab97442e24a1d6d64727b6320ab901ad1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a769813dcffe1767aab49ac30b838a5f4"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a769813dcffe1767aab49ac30b838a5f4">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const offset)</td></tr>
+<tr class="separator:a769813dcffe1767aab49ac30b838a5f4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5c0efc259bb3bd1675f5d395dab71e95"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5c0efc259bb3bd1675f5d395dab71e95">copy</a> ()</td></tr>
+<tr class="memdesc:a5c0efc259bb3bd1675f5d395dab71e95"><td class="mdescLeft">&#160;</td><td class="mdescRight">Trigger the copies from shared memory to registers.  <a href="#a5c0efc259bb3bd1675f5d395dab71e95">More...</a><br /></td></tr>
+<tr class="separator:a5c0efc259bb3bd1675f5d395dab71e95"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6699714c357f2714df011f58c1c48861"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6699714c357f2714df011f58c1c48861">commit</a> ()</td></tr>
+<tr class="memdesc:a6699714c357f2714df011f58c1c48861"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commit the data.  <a href="#a6699714c357f2714df011f58c1c48861">More...</a><br /></td></tr>
+<tr class="separator:a6699714c357f2714df011f58c1c48861"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1b1ec121cbd17ee61d58ea843b900e9a"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a1b1ec121cbd17ee61d58ea843b900e9a">residue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a> k, bool skip_clear=false)</td></tr>
+<tr class="memdesc:a1b1ec121cbd17ee61d58ea843b900e9a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Execute the residue code.  <a href="#a1b1ec121cbd17ee61d58ea843b900e9a">More...</a><br /></td></tr>
+<tr class="separator:a1b1ec121cbd17ee61d58ea843b900e9a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab94c0c95d6d4e019563ba8a142f9d410"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ab94c0c95d6d4e019563ba8a142f9d410">move_to_residue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a> k, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a> kTileK)</td></tr>
+<tr class="memdesc:ab94c0c95d6d4e019563ba8a142f9d410"><td class="mdescLeft">&#160;</td><td class="mdescRight">Move to residue.  <a href="#ab94c0c95d6d4e019563ba8a142f9d410">More...</a><br /></td></tr>
+<tr class="separator:ab94c0c95d6d4e019563ba8a142f9d410"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6a9287a2cd87ca8a96cbf6b6d29199da"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a6a9287a2cd87ca8a96cbf6b6d29199da">rollback</a> (bool kRollback)</td></tr>
+<tr class="memdesc:a6a9287a2cd87ca8a96cbf6b6d29199da"><td class="mdescLeft">&#160;</td><td class="mdescRight">Rollback to beginning of first tile.  <a href="#a6a9287a2cd87ca8a96cbf6b6d29199da">More...</a><br /></td></tr>
+<tr class="separator:a6a9287a2cd87ca8a96cbf6b6d29199da"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a93cde16f4aef554603fcf27fa23d5127"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">StreamA</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a93cde16f4aef554603fcf27fa23d5127">stream_a</a></td></tr>
+<tr class="memdesc:a93cde16f4aef554603fcf27fa23d5127"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stream for A multiplicand.  <a href="#a93cde16f4aef554603fcf27fa23d5127">More...</a><br /></td></tr>
+<tr class="separator:a93cde16f4aef554603fcf27fa23d5127"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aeaeabd4f8af2d864f28c76c6a301d9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">StreamB</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a9aeaeabd4f8af2d864f28c76c6a301d9">stream_b</a></td></tr>
+<tr class="memdesc:a9aeaeabd4f8af2d864f28c76c6a301d9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stream for B multiplicand.  <a href="#a9aeaeabd4f8af2d864f28c76c6a301d9">More...</a><br /></td></tr>
+<tr class="separator:a9aeaeabd4f8af2d864f28c76c6a301d9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a3e22454d24cadb7d335f2a0152caae2a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3e22454d24cadb7d335f2a0152caae2a">&#9670;&nbsp;</a></span>Index</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef StreamA::Index <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae2c4829f874ef9e83aaa52c412fa1227"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae2c4829f874ef9e83aaa52c412fa1227">&#9670;&nbsp;</a></span>StreamA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef StreamA_ <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">StreamA</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a08171f4eae2442c98f81acc88e8bd55c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a08171f4eae2442c98f81acc88e8bd55c">&#9670;&nbsp;</a></span>StreamB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef StreamB_ <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">StreamB</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a79b783f02eaa4cf8fc8f929448e121be"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a79b783f02eaa4cf8fc8f929448e121be">&#9670;&nbsp;</a></span>ThreadblockTileRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">ThreadblockTileStorage::TensorRef</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be">ThreadblockTileRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5eef540f82acea5d9cb12965707ba158"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5eef540f82acea5d9cb12965707ba158">&#9670;&nbsp;</a></span>ThreadblockTileStorage</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ZipTileAllocation.html">ZipTileAllocation</a>&lt;typename StreamA::ThreadblockTileStorage, typename StreamB::ThreadblockTileStorage&gt; <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">ThreadblockTileStorage</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ab97442e24a1d6d64727b6320ab901ad1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab97442e24a1d6d64727b6320ab901ad1">&#9670;&nbsp;</a></span>GlobalLoadStreamPair()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">SharedStorage</a> &amp;&#160;</td>
+          <td class="paramname"><em>shared_storage</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a79b783f02eaa4cf8fc8f929448e121be">ThreadblockTileRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>threadblock_tile_ref</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>bounds</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>block_offset</em> = <code><a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,&#160;0,&#160;0)</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a6699714c357f2714df011f58c1c48861"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6699714c357f2714df011f58c1c48861">&#9670;&nbsp;</a></span>commit()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::commit </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5c0efc259bb3bd1675f5d395dab71e95"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5c0efc259bb3bd1675f5d395dab71e95">&#9670;&nbsp;</a></span>copy()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::copy </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab94c0c95d6d4e019563ba8a142f9d410"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab94c0c95d6d4e019563ba8a142f9d410">&#9670;&nbsp;</a></span>move_to_residue()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::move_to_residue </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a>&#160;</td>
+          <td class="paramname"><em>k</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a>&#160;</td>
+          <td class="paramname"><em>kTileK</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a769813dcffe1767aab49ac30b838a5f4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a769813dcffe1767aab49ac30b838a5f4">&#9670;&nbsp;</a></span>operator+=()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&amp; <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::operator+= </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const&#160;</td>
+          <td class="paramname"><em>offset</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1b1ec121cbd17ee61d58ea843b900e9a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1b1ec121cbd17ee61d58ea843b900e9a">&#9670;&nbsp;</a></span>residue()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::residue </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a3e22454d24cadb7d335f2a0152caae2a">Index</a>&#160;</td>
+          <td class="paramname"><em>k</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">bool&#160;</td>
+          <td class="paramname"><em>skip_clear</em> = <code>false</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a9287a2cd87ca8a96cbf6b6d29199da"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a9287a2cd87ca8a96cbf6b6d29199da">&#9670;&nbsp;</a></span>rollback()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::rollback </td>
+          <td>(</td>
+          <td class="paramtype">bool&#160;</td>
+          <td class="paramname"><em>kRollback</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a93cde16f4aef554603fcf27fa23d5127"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a93cde16f4aef554603fcf27fa23d5127">&#9670;&nbsp;</a></span>stream_a</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#ae2c4829f874ef9e83aaa52c412fa1227">StreamA</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::stream_a</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9aeaeabd4f8af2d864f28c76c6a301d9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9aeaeabd4f8af2d864f28c76c6a301d9">&#9670;&nbsp;</a></span>stream_b</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a08171f4eae2442c98f81acc88e8bd55c">StreamB</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::stream_b</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="gemm__stream__pair_8h_source.html">gemm_stream_pair.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params-members.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params-members.html
new file mode 100644
index 0000000000..9ada3e664b
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params-members.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#afb39229d0ad334834cd2ba0c1fcc9412">Params</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#ab26c1aaa2b7709c32bab39801d6c7772">Params</a>(typename StreamA::Params const &amp;_params_A, typename StreamB::Params const &amp;_params_B)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705">stream_a</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258">stream_b</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html
new file mode 100644
index 0000000000..2fbf71e128
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html
@@ -0,0 +1,217 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Parameters object.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="gemm__stream__pair_8h_source.html">gemm_stream_pair.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:afb39229d0ad334834cd2ba0c1fcc9412"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#afb39229d0ad334834cd2ba0c1fcc9412">Params</a> ()</td></tr>
+<tr class="memdesc:afb39229d0ad334834cd2ba0c1fcc9412"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="#afb39229d0ad334834cd2ba0c1fcc9412">More...</a><br /></td></tr>
+<tr class="separator:afb39229d0ad334834cd2ba0c1fcc9412"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab26c1aaa2b7709c32bab39801d6c7772"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#ab26c1aaa2b7709c32bab39801d6c7772">Params</a> (typename StreamA::Params const &amp;_params_A, typename StreamB::Params const &amp;_params_B)</td></tr>
+<tr class="memdesc:ab26c1aaa2b7709c32bab39801d6c7772"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a global load stream pair <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html" title="Parameters object. ">Params</a> object.  <a href="#ab26c1aaa2b7709c32bab39801d6c7772">More...</a><br /></td></tr>
+<tr class="separator:ab26c1aaa2b7709c32bab39801d6c7772"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a235c77b257b93dace812d2f7b9340705"><td class="memItemLeft" align="right" valign="top">StreamA::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a235c77b257b93dace812d2f7b9340705">stream_a</a></td></tr>
+<tr class="memdesc:a235c77b257b93dace812d2f7b9340705"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object for StreamA.  <a href="#a235c77b257b93dace812d2f7b9340705">More...</a><br /></td></tr>
+<tr class="separator:a235c77b257b93dace812d2f7b9340705"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a12b5e3e21137480047b8b0f55cbf7258"><td class="memItemLeft" align="right" valign="top">StreamB::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1Params.html#a12b5e3e21137480047b8b0f55cbf7258">stream_b</a></td></tr>
+<tr class="memdesc:a12b5e3e21137480047b8b0f55cbf7258"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object for StreamB.  <a href="#a12b5e3e21137480047b8b0f55cbf7258">More...</a><br /></td></tr>
+<tr class="separator:a12b5e3e21137480047b8b0f55cbf7258"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="afb39229d0ad334834cd2ba0c1fcc9412"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afb39229d0ad334834cd2ba0c1fcc9412">&#9670;&nbsp;</a></span>Params() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ab26c1aaa2b7709c32bab39801d6c7772"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab26c1aaa2b7709c32bab39801d6c7772">&#9670;&nbsp;</a></span>Params() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype">typename StreamA::Params const &amp;&#160;</td>
+          <td class="paramname"><em>_params_A</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">typename StreamB::Params const &amp;&#160;</td>
+          <td class="paramname"><em>_params_B</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a235c77b257b93dace812d2f7b9340705"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a235c77b257b93dace812d2f7b9340705">&#9670;&nbsp;</a></span>stream_a</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">StreamA::Params <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params::stream_a</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a12b5e3e21137480047b8b0f55cbf7258"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12b5e3e21137480047b8b0f55cbf7258">&#9670;&nbsp;</a></span>stream_b</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">StreamB::Params <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::Params::stream_b</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="gemm__stream__pair_8h_source.html">gemm_stream_pair.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage-members.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage-members.html
new file mode 100644
index 0000000000..fb27011519
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage-members.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">SharedStorage</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a87d507b703a0eb654265f4529ed18f66">stream_a</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a6d9444ed13ed544febe196e3e835ea16">stream_b</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html
new file mode 100644
index 0000000000..1677548a4a
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html
@@ -0,0 +1,139 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html">SharedStorage</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GlobalLoadStreamPair&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Defines a structure containing shared storage for each pair.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="gemm__stream__pair_8h_source.html">gemm_stream_pair.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a87d507b703a0eb654265f4529ed18f66"><td class="memItemLeft" align="right" valign="top">StreamA::SharedStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a87d507b703a0eb654265f4529ed18f66">stream_a</a></td></tr>
+<tr class="separator:a87d507b703a0eb654265f4529ed18f66"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6d9444ed13ed544febe196e3e835ea16"><td class="memItemLeft" align="right" valign="top">StreamB::SharedStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair_1_1SharedStorage.html#a6d9444ed13ed544febe196e3e835ea16">stream_b</a></td></tr>
+<tr class="separator:a6d9444ed13ed544febe196e3e835ea16"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a87d507b703a0eb654265f4529ed18f66"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a87d507b703a0eb654265f4529ed18f66">&#9670;&nbsp;</a></span>stream_a</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">StreamA::SharedStorage <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage::stream_a</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6d9444ed13ed544febe196e3e835ea16"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6d9444ed13ed544febe196e3e835ea16">&#9670;&nbsp;</a></span>stream_b</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ , bool kResidueInProlog_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">StreamB::SharedStorage <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">cutlass::gemm::GlobalLoadStreamPair</a>&lt; StreamA_, StreamB_, kResidueInProlog_ &gt;::SharedStorage::stream_b</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="gemm__stream__pair_8h_source.html">gemm_stream_pair.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params-members.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params-members.html
new file mode 100644
index 0000000000..52a1f28b28
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params-members.html
@@ -0,0 +1,94 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a054aee5b4bf288cc1f5945f2521ef835">initialize</a>(Pointer pointer, long long batch_stride, Index ldm, Index _offset_to_residue)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a46f2546f9b88f4fc87f1396d0f08b065">load_iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1">offset_to_residue</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a289ac736c0c098ae6da6a21c9abfe63f">store_iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html
new file mode 100644
index 0000000000..58971af3e2
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html
@@ -0,0 +1,215 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>The params.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="gemm__global__stream_8h_source.html">gemm_global_stream.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a054aee5b4bf288cc1f5945f2521ef835"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a054aee5b4bf288cc1f5945f2521ef835">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">Pointer</a> pointer, long long batch_stride, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> ldm, <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> _offset_to_residue)</td></tr>
+<tr class="memdesc:a054aee5b4bf288cc1f5945f2521ef835"><td class="mdescLeft">&#160;</td><td class="mdescRight">Setup the params.  <a href="#a054aee5b4bf288cc1f5945f2521ef835">More...</a><br /></td></tr>
+<tr class="separator:a054aee5b4bf288cc1f5945f2521ef835"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a46f2546f9b88f4fc87f1396d0f08b065"><td class="memItemLeft" align="right" valign="top">LoadIterator::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a46f2546f9b88f4fc87f1396d0f08b065">load_iterator</a></td></tr>
+<tr class="separator:a46f2546f9b88f4fc87f1396d0f08b065"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a289ac736c0c098ae6da6a21c9abfe63f"><td class="memItemLeft" align="right" valign="top">StoreIterator::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a289ac736c0c098ae6da6a21c9abfe63f">store_iterator</a></td></tr>
+<tr class="separator:a289ac736c0c098ae6da6a21c9abfe63f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a73bb518f85aee62310b3c886a1fba3f1"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1Params.html#a73bb518f85aee62310b3c886a1fba3f1">offset_to_residue</a></td></tr>
+<tr class="separator:a73bb518f85aee62310b3c886a1fba3f1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a054aee5b4bf288cc1f5945f2521ef835"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a054aee5b4bf288cc1f5945f2521ef835">&#9670;&nbsp;</a></span>initialize()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#ac4452df991f57f9bb0b86dfd380179b2">Pointer</a>&#160;</td>
+          <td class="paramname"><em>pointer</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>batch_stride</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a>&#160;</td>
+          <td class="paramname"><em>ldm</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a>&#160;</td>
+          <td class="paramname"><em>_offset_to_residue</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a46f2546f9b88f4fc87f1396d0f08b065"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46f2546f9b88f4fc87f1396d0f08b065">&#9670;&nbsp;</a></span>load_iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">LoadIterator::Params <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params::load_iterator</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a73bb518f85aee62310b3c886a1fba3f1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a73bb518f85aee62310b3c886a1fba3f1">&#9670;&nbsp;</a></span>offset_to_residue</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html#a7c46d6eb83b43e099d53784bb2a09f02">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params::offset_to_residue</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a289ac736c0c098ae6da6a21c9abfe63f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a289ac736c0c098ae6da6a21c9abfe63f">&#9670;&nbsp;</a></span>store_iterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind Operand, typename LoadIterator_ , typename StoreIterator_ , typename Transformer_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">StoreIterator::Params <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">cutlass::gemm::GlobalLoadStream</a>&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::Params::store_iterator</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="gemm__global__stream_8h_source.html">gemm_global_stream.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html b/docs/structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html
new file mode 100644
index 0000000000..dfba504207
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html
@@ -0,0 +1,97 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream_1_1SharedStorage.html">SharedStorage</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="gemm__global__stream_8h_source.html">gemm_global_stream.h</a>&gt;</code></p>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;GemmOperand::Kind Operand, typename LoadIterator_, typename StoreIterator_, typename Transformer_&gt;<br />
+struct cutlass::gemm::GlobalLoadStream&lt; Operand, LoadIterator_, StoreIterator_, Transformer_ &gt;::SharedStorage</h3>
+
+<p>Contains private storage in shared memory needed by the objects within this class. Note, this is <em>NOT</em> the shared memory allocation for the GEMM threadblock tile. That necessarily exists outside this class, as it is also needed by the warp-level shared=&gt;RF stream. </p>
+</div><hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="gemm__global__stream_8h_source.html">gemm_global_stream.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmConfig-members.html b/docs/structcutlass_1_1gemm_1_1HgemmConfig-members.html
index 07ccbe6df3..92df70717d 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmConfig-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmConfig-members.html
@@ -73,41 +73,44 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::HgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::HgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">cutlass::gemm::HgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">cutlass::gemm::HgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmConfig.html b/docs/structcutlass_1_1gemm_1_1HgemmConfig.html
index b5879328f2..d3f695cc0c 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmConfig.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmConfig.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::HgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::HgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -75,93 +75,102 @@
   <div class="summary">
 <a href="structcutlass_1_1gemm_1_1HgemmConfig-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::HgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::HgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="hgemm__traits_8h_source.html">hgemm_traits.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::gemm::HgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;:</div>
+Inheritance diagram for cutlass::gemm::HgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1gemm_1_1HgemmConfig.png" usemap="#cutlass::gemm::HgemmConfig_3C_20OutputTile_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::HgemmConfig_3C_20OutputTile_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" name="cutlass::gemm::HgemmConfig_3C_20OutputTile_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1GemmConfig.html" alt="cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;" shape="rect" coords="0,0,1410,24"/>
+  <img src="structcutlass_1_1gemm_1_1HgemmConfig.png" usemap="#cutlass::gemm::HgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::HgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" name="cutlass::gemm::HgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmConfig.html" alt="cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;" shape="rect" coords="0,0,1486,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td></tr>
-<tr class="memitem:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a></td></tr>
-<tr class="memdesc:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">More...</a><br /></td></tr>
-<tr class="separator:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a></td></tr>
-<tr class="memdesc:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">More...</a><br /></td></tr>
-<tr class="separator:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a></td></tr>
-<tr class="memdesc:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">More...</a><br /></td></tr>
-<tr class="separator:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a></td></tr>
-<tr class="memdesc:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">More...</a><br /></td></tr>
-<tr class="separator:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a></td></tr>
-<tr class="memdesc:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">More...</a><br /></td></tr>
-<tr class="separator:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, 8 &gt;, half, half, half &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a></td></tr>
-<tr class="memdesc:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">More...</a><br /></td></tr>
-<tr class="separator:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">MultiplyAdd::InstructionShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a></td></tr>
-<tr class="memdesc:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">More...</a><br /></td></tr>
-<tr class="separator:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">MultiplyAdd::AccumulatorsPerWarp</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a></td></tr>
-<tr class="memdesc:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per warp.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">More...</a><br /></td></tr>
-<tr class="separator:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">MultiplyAdd::Accumulators</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a></td></tr>
-<tr class="memdesc:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">More...</a><br /></td></tr>
-<tr class="separator:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a></td></tr>
-<tr class="memdesc:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">More...</a><br /></td></tr>
-<tr class="separator:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2 &gt;</a></td></tr>
-<tr class="memitem:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td></tr>
-<tr class="memdesc:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">More...</a><br /></td></tr>
-<tr class="separator:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a></td></tr>
-<tr class="memdesc:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">More...</a><br /></td></tr>
-<tr class="separator:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a></td></tr>
-<tr class="memdesc:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">More...</a><br /></td></tr>
-<tr class="separator:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:accc95abc55880abdab92253367b4b186 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a></td></tr>
-<tr class="separator:accc95abc55880abdab92253367b4b186 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa1b75484138923a52b32888fef608d9b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a></td></tr>
-<tr class="separator:aa1b75484138923a52b32888fef608d9b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a></td></tr>
-<tr class="memdesc:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">More...</a><br /></td></tr>
-<tr class="separator:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac0c8c027e3ede14b62d7c7d519551f21 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a></td></tr>
-<tr class="separator:ac0c8c027e3ede14b62d7c7d519551f21 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a86470d3a44e2b50ee31ec3c9f79927ef inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a></td></tr>
-<tr class="separator:a86470d3a44e2b50ee31ec3c9f79927ef inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a></td></tr>
-<tr class="memdesc:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">More...</a><br /></td></tr>
-<tr class="separator:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a></td></tr>
-<tr class="memdesc:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">More...</a><br /></td></tr>
-<tr class="separator:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3087cdd38e2c65ad0dffdd0587d2cce0 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a></td></tr>
-<tr class="separator:a3087cdd38e2c65ad0dffdd0587d2cce0 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:adaf2ee5b8e6f7bdb9939cd45a186ca56 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a></td></tr>
-<tr class="separator:adaf2ee5b8e6f7bdb9939cd45a186ca56 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a></td></tr>
-<tr class="memdesc:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">More...</a><br /></td></tr>
-<tr class="separator:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9dd092bca2f1f2c039f367b23bafa9c1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a></td></tr>
-<tr class="separator:a9dd092bca2f1f2c039f367b23bafa9c1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a></td></tr>
-<tr class="memdesc:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">More...</a><br /></td></tr>
-<tr class="separator:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td></tr>
+<tr class="memitem:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a></td></tr>
+<tr class="memdesc:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">More...</a><br /></td></tr>
+<tr class="separator:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a></td></tr>
+<tr class="memdesc:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">More...</a><br /></td></tr>
+<tr class="separator:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a></td></tr>
+<tr class="memdesc:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">More...</a><br /></td></tr>
+<tr class="separator:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a></td></tr>
+<tr class="memdesc:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">More...</a><br /></td></tr>
+<tr class="separator:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a></td></tr>
+<tr class="memdesc:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">More...</a><br /></td></tr>
+<tr class="separator:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, 8 &gt;, half, half, half &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a></td></tr>
+<tr class="memdesc:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">More...</a><br /></td></tr>
+<tr class="separator:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">MultiplyAdd::InstructionShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a></td></tr>
+<tr class="memdesc:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">More...</a><br /></td></tr>
+<tr class="separator:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">MultiplyAdd::AccumulatorsPerWarp</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of warp-level GEMM.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">More...</a><br /></td></tr>
+<tr class="separator:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">MultiplyAdd::Accumulators</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a></td></tr>
+<tr class="memdesc:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">More...</a><br /></td></tr>
+<tr class="separator:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a></td></tr>
+<tr class="memdesc:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">More...</a><br /></td></tr>
+<tr class="separator:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; half, half, half, half, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, half, half, half &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 8, kScalarsPerLdgB_, kScalarsPerLdgB_, 8, 2, 8, 2, 2, false, true, false &gt;</a></td></tr>
+<tr class="memitem:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td></tr>
+<tr class="memdesc:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">More...</a><br /></td></tr>
+<tr class="separator:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td></tr>
+<tr class="memdesc:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">More...</a><br /></td></tr>
+<tr class="separator:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td></tr>
+<tr class="memdesc:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">More...</a><br /></td></tr>
+<tr class="separator:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td></tr>
+<tr class="separator:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td></tr>
+<tr class="separator:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td></tr>
+<tr class="memdesc:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">More...</a><br /></td></tr>
+<tr class="separator:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td></tr>
+<tr class="separator:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td></tr>
+<tr class="separator:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td></tr>
+<tr class="memdesc:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">More...</a><br /></td></tr>
+<tr class="separator:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td></tr>
+<tr class="memdesc:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">More...</a><br /></td></tr>
+<tr class="separator:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td></tr>
+<tr class="separator:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td></tr>
+<tr class="separator:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td></tr>
+<tr class="memdesc:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">More...</a><br /></td></tr>
+<tr class="separator:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td></tr>
+<tr class="separator:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td></tr>
+<tr class="memdesc:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">More...</a><br /></td></tr>
+<tr class="separator:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td></tr>
+<tr class="memdesc:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, mainloop is instantiated twice. The first instantiation contains no predicate.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">More...</a><br /></td></tr>
+<tr class="separator:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td></tr>
+<tr class="memdesc:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, residue is computed in the prologue.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">More...</a><br /></td></tr>
+<tr class="separator:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td></tr>
+<tr class="memdesc:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, kernel is launched with launch bounds specified.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">More...</a><br /></td></tr>
+<tr class="separator:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <hr/>The documentation for this struct was generated from the following file:<ul>
 <li><a class="el" href="hgemm__traits_8h_source.html">hgemm_traits.h</a></li>
@@ -169,7 +178,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmConfig.png b/docs/structcutlass_1_1gemm_1_1HgemmConfig.png
index cf90457b12..6854e679f0 100644
Binary files a/docs/structcutlass_1_1gemm_1_1HgemmConfig.png and b/docs/structcutlass_1_1gemm_1_1HgemmConfig.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits-members.html b/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits-members.html
index f1a365e8e4..9de26dca7f 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits-members.html
@@ -82,7 +82,7 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#aa9b46937bea47d071d277aa212dd610b">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a2dc8573498bcda33273b86db76dbd511">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
@@ -91,12 +91,13 @@
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a6eee97f03dcea1c441116e143cf58018">ThreadsDelta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a61907b1afa07c12de74545d2e23a4281">ThreadsDelta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html b/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html
index eca01a3cb6..3696c45338 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html
@@ -103,18 +103,18 @@
 <tr class="memitem:ac0c372c24c4c5340153b11edab874741"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ac0c372c24c4c5340153b11edab874741">Base</a></td></tr>
 <tr class="memdesc:ac0c372c24c4c5340153b11edab874741"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base class.  <a href="#ac0c372c24c4c5340153b11edab874741">More...</a><br /></td></tr>
 <tr class="separator:ac0c372c24c4c5340153b11edab874741"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae7a4f120805421ac0712604723612b7e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Base::Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e">Threads</a></td></tr>
+<tr class="memitem:ae7a4f120805421ac0712604723612b7e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Base::Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#ae7a4f120805421ac0712604723612b7e">Threads</a></td></tr>
 <tr class="memdesc:ae7a4f120805421ac0712604723612b7e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads.  <a href="#ae7a4f120805421ac0712604723612b7e">More...</a><br /></td></tr>
 <tr class="separator:ae7a4f120805421ac0712604723612b7e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6eee97f03dcea1c441116e143cf58018"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 2, Base::Tile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a6eee97f03dcea1c441116e143cf58018">ThreadsDelta</a></td></tr>
-<tr class="memdesc:a6eee97f03dcea1c441116e143cf58018"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads strides.  <a href="#a6eee97f03dcea1c441116e143cf58018">More...</a><br /></td></tr>
-<tr class="separator:a6eee97f03dcea1c441116e143cf58018"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a61907b1afa07c12de74545d2e23a4281"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 2, Base::VectorizedTile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a61907b1afa07c12de74545d2e23a4281">ThreadsDelta</a></td></tr>
+<tr class="memdesc:a61907b1afa07c12de74545d2e23a4281"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads strides.  <a href="#a61907b1afa07c12de74545d2e23a4281">More...</a><br /></td></tr>
+<tr class="separator:a61907b1afa07c12de74545d2e23a4281"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a8f8de5a6811b77f0c721cd78a237223e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; Base::Threads::kH *2, 1, Base::Threads::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a8f8de5a6811b77f0c721cd78a237223e">Delta</a></td></tr>
 <tr class="memdesc:a8f8de5a6811b77f0c721cd78a237223e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#a8f8de5a6811b77f0c721cd78a237223e">More...</a><br /></td></tr>
 <tr class="separator:a8f8de5a6811b77f0c721cd78a237223e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa9b46937bea47d071d277aa212dd610b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; Base::Tile::kH/Base::Threads::kH/2, 2, Base::Tile::kW/Base::Threads::kW, Base::Tile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#aa9b46937bea47d071d277aa212dd610b">Iterations</a></td></tr>
-<tr class="memdesc:aa9b46937bea47d071d277aa212dd610b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="#aa9b46937bea47d071d277aa212dd610b">More...</a><br /></td></tr>
-<tr class="separator:aa9b46937bea47d071d277aa212dd610b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2dc8573498bcda33273b86db76dbd511"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; Base::VectorizedTile::kH/Base::Threads::kH/2, 2, Base::VectorizedTile::kW/Base::Threads::kW, Base::VectorizedTile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html#a2dc8573498bcda33273b86db76dbd511">Iterations</a></td></tr>
+<tr class="memdesc:a2dc8573498bcda33273b86db76dbd511"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="#a2dc8573498bcda33273b86db76dbd511">More...</a><br /></td></tr>
+<tr class="separator:a2dc8573498bcda33273b86db76dbd511"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td></tr>
 <tr class="memitem:a6894b653fffa59bcb847bc3295643d6b inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; Scalar_ &gt;::type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">Scalar</a></td></tr>
 <tr class="memdesc:a6894b653fffa59bcb847bc3295643d6b inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">More...</a><br /></td></tr>
@@ -122,25 +122,28 @@
 <tr class="memitem:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef Scalar_ *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a></td></tr>
 <tr class="memdesc:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">More...</a><br /></td></tr>
 <tr class="separator:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aebbf8834d0d88f0e5b3e1926db5e6758 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt; Tile_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a></td></tr>
-<tr class="memdesc:aebbf8834d0d88f0e5b3e1926db5e6758 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">More...</a><br /></td></tr>
-<tr class="separator:aebbf8834d0d88f0e5b3e1926db5e6758 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a29bd05960cc541bb67098f5483c84cf6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>, Threads_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a></td></tr>
-<tr class="memdesc:a29bd05960cc541bb67098f5483c84cf6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">More...</a><br /></td></tr>
-<tr class="separator:a29bd05960cc541bb67098f5483c84cf6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a65f9ccd630dde0c9db5358cfc951583d inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, Tile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">ThreadsDelta</a></td></tr>
-<tr class="memdesc:a65f9ccd630dde0c9db5358cfc951583d inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The relative offset between two elements in the H/W dimension in adjacent threads.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">More...</a><br /></td></tr>
-<tr class="separator:a65f9ccd630dde0c9db5358cfc951583d inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef Tile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a></td></tr>
+<tr class="memdesc:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">More...</a><br /></td></tr>
+<tr class="separator:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt; Tile_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a></td></tr>
+<tr class="memdesc:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The vectorized tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">More...</a><br /></td></tr>
+<tr class="separator:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a>, Threads_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a></td></tr>
+<tr class="memdesc:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">More...</a><br /></td></tr>
+<tr class="separator:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, VectorizedTile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a></td></tr>
+<tr class="memdesc:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The relative offset between two elements in the H/W dimension in adjacent threads.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">More...</a><br /></td></tr>
+<tr class="separator:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, Threads::kH, Threads::kW *<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">Delta</a></td></tr>
 <tr class="memdesc:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">More...</a><br /></td></tr>
 <tr class="separator:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, Threads::kW *<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a></td></tr>
 <tr class="memdesc:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Strides for immediate offset computation.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">More...</a><br /></td></tr>
 <tr class="separator:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aaf6410f99d7f995792d0ac34efd3a82f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, Tile::kH/Threads::kH, Tile::kW/Threads::kW, Tile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Iterations</a></td></tr>
-<tr class="memdesc:aaf6410f99d7f995792d0ac34efd3a82f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">More...</a><br /></td></tr>
-<tr class="separator:aaf6410f99d7f995792d0ac34efd3a82f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td></tr>
+<tr class="memitem:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, VectorizedTile::kH/Threads::kH, VectorizedTile::kW/Threads::kW, VectorizedTile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a></td></tr>
+<tr class="memdesc:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">More...</a><br /></td></tr>
+<tr class="separator:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td></tr>
 <tr class="separator:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
@@ -192,8 +195,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8f8de5a6811b77f0c721cd78
 
 </div>
 </div>
-<a id="aa9b46937bea47d071d277aa212dd610b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa9b46937bea47d071d277aa212dd610b">&#9670;&nbsp;</a></span>Iterations</h2>
+<a id="a2dc8573498bcda33273b86db76dbd511"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2dc8573498bcda33273b86db76dbd511">&#9670;&nbsp;</a></span>Iterations</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -201,7 +204,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa9b46937bea47d071d277aa2
 template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_ , typename Tile_ , typename Threads_ , int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;Base::Tile::kH / Base::Threads::kH / 2, 2, Base::Tile::kW / Base::Threads::kW, Base::Tile::kC / <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Iterations</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;Base::VectorizedTile::kH / Base::Threads::kH / 2, 2, Base::VectorizedTile::kW / Base::Threads::kW, Base::VectorizedTile::kC / <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -217,15 +220,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae7a4f120805421ac07126047
 template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_ , typename Tile_ , typename Threads_ , int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Base::Threads</a> <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Base::Threads</a> <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a6eee97f03dcea1c441116e143cf58018"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6eee97f03dcea1c441116e143cf58018">&#9670;&nbsp;</a></span>ThreadsDelta</h2>
+<a id="a61907b1afa07c12de74545d2e23a4281"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a61907b1afa07c12de74545d2e23a4281">&#9670;&nbsp;</a></span>ThreadsDelta</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -233,7 +236,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6eee97f03dcea1c441116e14
 template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_ , typename Tile_ , typename Threads_ , int kAccessSize_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 2, Base::Tile::kC&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">ThreadsDelta</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 2, Base::VectorizedTile::kC&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">cutlass::gemm::HgemmCrosswiseGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -246,7 +249,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6eee97f03dcea1c441116e14
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset-members.html
index 2fa9bb6b9c..ab8b8df39d 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html
index b9fb35edc8..40b60dcc86 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits_1_1ThreadOffset.html
@@ -124,7 +124,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9fc1ca09733113f80fe5fe45
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmSwizzle-members.html b/docs/structcutlass_1_1gemm_1_1HgemmSwizzle-members.html
index 1abd2b9094..aac9bd0aad 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmSwizzle-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmSwizzle-members.html
@@ -89,7 +89,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmSwizzle.html b/docs/structcutlass_1_1gemm_1_1HgemmSwizzle.html
index 495f144598..9f09fffe8a 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmSwizzle.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmSwizzle.html
@@ -265,7 +265,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad467ce744bf9d478900fb266
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html
index 6d21685c97..289cb4bc49 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html
@@ -93,7 +93,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html
index 854339353e..101e43491e 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html
@@ -83,14 +83,13 @@
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314">GlobalTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">kScalarsIn4B</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a458cbcc16fc296d024f2a1a95fb926c1">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a2aad3b2454d956f20dac1bb0ad75a2f8">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac8da30393042cf6e785bdd54b11d9408">kSkewA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html
index 9e370edb33..b6500a957e 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html
@@ -74,6 +74,7 @@
 <div class="header">
   <div class="summary">
 <a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4-members.html">List of all members</a>  </div>
   <div class="headertitle">
 <div class="title">cutlass::gemm::HgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt; Struct Template Reference</div>  </div>
@@ -99,12 +100,6 @@
 <tr class="memitem:a36e082b2da22d17eeb73af6bd0632314"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">HgemmCrosswiseGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, half const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgA &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a36e082b2da22d17eeb73af6bd0632314">GlobalTileTraits</a></td></tr>
 <tr class="memdesc:a36e082b2da22d17eeb73af6bd0632314"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for A^T.  <a href="#a36e082b2da22d17eeb73af6bd0632314">More...</a><br /></td></tr>
 <tr class="separator:a36e082b2da22d17eeb73af6bd0632314"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2aad3b2454d956f20dac1bb0ad75a2f8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; half, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, 2, 128/sizeof(half)/GlobalTileTraits::Threads::kW/2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a2aad3b2454d956f20dac1bb0ad75a2f8">SharedStoreTileTraits</a></td></tr>
-<tr class="memdesc:a2aad3b2454d956f20dac1bb0ad75a2f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for A^T.  <a href="#a2aad3b2454d956f20dac1bb0ad75a2f8">More...</a><br /></td></tr>
-<tr class="separator:a2aad3b2454d956f20dac1bb0ad75a2f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a458cbcc16fc296d024f2a1a95fb926c1"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt; half const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 8, SharedStoreTileTraits::kSkew &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a458cbcc16fc296d024f2a1a95fb926c1">SharedLoadTileTraits</a></td></tr>
-<tr class="memdesc:a458cbcc16fc296d024f2a1a95fb926c1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for A^T.  <a href="#a458cbcc16fc296d024f2a1a95fb926c1">More...</a><br /></td></tr>
-<tr class="separator:a458cbcc16fc296d024f2a1a95fb926c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td></tr>
 <tr class="memitem:ac618881d66790e4c280dc5692e5ddf95 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_::ScalarA&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a></td></tr>
 <tr class="memdesc:ac618881d66790e4c280dc5692e5ddf95 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The input scalar.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">More...</a><br /></td></tr>
@@ -115,15 +110,11 @@
 <tr class="memitem:a8160a260acce2362e90d43bce733c69d inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac618881d66790e4c280dc5692e5ddf95">Scalar</a> const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgA &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d">GlobalTileTraits</a></td></tr>
 <tr class="memdesc:a8160a260acce2362e90d43bce733c69d inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for A^T.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a8160a260acce2362e90d43bce733c69d">More...</a><br /></td></tr>
 <tr class="separator:a8160a260acce2362e90d43bce733c69d inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad6511b7c2d84a9f6c3ed3639269ac44f inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsA, 128/sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>)/GemmConfig_::kScalarsPerStsA/GlobalTileTraits::Threads::kW *<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">kScalarsIn4B</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f">SharedStoreTileTraits</a></td></tr>
-<tr class="memdesc:ad6511b7c2d84a9f6c3ed3639269ac44f inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for A^T.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f">More...</a><br /></td></tr>
-<tr class="separator:ad6511b7c2d84a9f6c3ed3639269ac44f inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1125408805bc697755f2b16594c6c8e1 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a> const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsA, SharedStoreTileTraits::kSkew &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">SharedLoadTileTraits</a></td></tr>
-<tr class="memdesc:a1125408805bc697755f2b16594c6c8e1 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for A^T.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">More...</a><br /></td></tr>
-<tr class="separator:a1125408805bc697755f2b16594c6c8e1 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
-<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
-Additional Inherited Members</h2></td></tr>
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:ac8da30393042cf6e785bdd54b11d9408"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ac8da30393042cf6e785bdd54b11d9408">kSkewA</a> = 128 / sizeof(half) / GlobalTileTraits::Threads::kW / 2</td></tr>
+<tr class="separator:ac8da30393042cf6e785bdd54b11d9408"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td></tr>
 <tr class="memitem:aedd49525e2c849baecf88cdfd9e3515c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c">kLayout</a> = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a></td></tr>
 <tr class="memdesc:aedd49525e2c849baecf88cdfd9e3515c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aedd49525e2c849baecf88cdfd9e3515c">More...</a><br /></td></tr>
@@ -131,6 +122,9 @@
 <tr class="memitem:ad77b9084720ad7378e033e54bfb74ce7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">kScalarsIn4B</a> = sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afac6f7a62b24396ea6861e6fd10779cc">MultiplyAddScalar</a>)</td></tr>
 <tr class="memdesc:ad77b9084720ad7378e033e54bfb74ce7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars in 4B.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad77b9084720ad7378e033e54bfb74ce7">More...</a><br /></td></tr>
 <tr class="separator:ad77b9084720ad7378e033e54bfb74ce7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9c296924f9a6c6908f09830bbbf6a775 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9c296924f9a6c6908f09830bbbf6a775">kSkewA</a></td></tr>
+<tr class="memdesc:a9c296924f9a6c6908f09830bbbf6a775 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The skew for A.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9c296924f9a6c6908f09830bbbf6a775">More...</a><br /></td></tr>
+<tr class="separator:a9c296924f9a6c6908f09830bbbf6a775 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="a7ec19bf90207a7f598f2ec5166649495"></a>
@@ -165,34 +159,27 @@ <h2 class="memtitle"><span class="permalink"><a href="#a36e082b2da22d17eeb73af6b
 
 </div>
 </div>
-<a id="a458cbcc16fc296d024f2a1a95fb926c1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a458cbcc16fc296d024f2a1a95fb926c1">&#9670;&nbsp;</a></span>SharedLoadTileTraits</h2>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="ac8da30393042cf6e785bdd54b11d9408"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac8da30393042cf6e785bdd54b11d9408">&#9670;&nbsp;</a></span>kSkewA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
 template&lt;typename GemmConfig_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt; half const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 8, SharedStoreTileTraits::kSkew&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">cutlass::gemm::HgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a1125408805bc697755f2b16594c6c8e1">SharedLoadTileTraits</a></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a2aad3b2454d956f20dac1bb0ad75a2f8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2aad3b2454d956f20dac1bb0ad75a2f8">&#9670;&nbsp;</a></span>SharedStoreTileTraits</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename GemmConfig_ &gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; half, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW * GemmConfig_::InstructionShape::kD&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, 2, 128 / sizeof(half) / GlobalTileTraits::Threads::kW / 2&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">cutlass::gemm::HgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#ad6511b7c2d84a9f6c3ed3639269ac44f">SharedStoreTileTraits</a></td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">cutlass::gemm::HgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;::kSkewA = 128 / sizeof(half) / GlobalTileTraits::Threads::kW / 2</td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
@@ -203,7 +190,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2aad3b2454d956f20dac1bb0
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html
index b331b74bc3..e98065e5ab 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html
@@ -93,7 +93,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html
index 273311c271..b7fa3515cd 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html
@@ -83,14 +83,13 @@
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145">GlobalTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">kScalarsIn4B</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af1bc7f7c26db3399201cd95f35a56790">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab1ae3d51f65f7af60147da1c51a7a0c2">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a6d0f50e83067373b249b38444eb7fe65">kSkewB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html
index 8a59bc287c..f15d401f0d 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html
@@ -74,6 +74,7 @@
 <div class="header">
   <div class="summary">
 <a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4-members.html">List of all members</a>  </div>
   <div class="headertitle">
 <div class="title">cutlass::gemm::HgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt; Struct Template Reference</div>  </div>
@@ -99,12 +100,6 @@
 <tr class="memitem:a1e6356bf5c87271ab9794fcc79edc145"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmCrosswiseGlobalTileTraits.html">HgemmCrosswiseGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, half const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgB &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1e6356bf5c87271ab9794fcc79edc145">GlobalTileTraits</a></td></tr>
 <tr class="memdesc:a1e6356bf5c87271ab9794fcc79edc145"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for B^N.  <a href="#a1e6356bf5c87271ab9794fcc79edc145">More...</a><br /></td></tr>
 <tr class="separator:a1e6356bf5c87271ab9794fcc79edc145"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab1ae3d51f65f7af60147da1c51a7a0c2"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; half, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, 2, 128/sizeof(half)/GlobalTileTraits::Threads::kW/2 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab1ae3d51f65f7af60147da1c51a7a0c2">SharedStoreTileTraits</a></td></tr>
-<tr class="memdesc:ab1ae3d51f65f7af60147da1c51a7a0c2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for B^N.  <a href="#ab1ae3d51f65f7af60147da1c51a7a0c2">More...</a><br /></td></tr>
-<tr class="separator:ab1ae3d51f65f7af60147da1c51a7a0c2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af1bc7f7c26db3399201cd95f35a56790"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt; half const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 8, SharedStoreTileTraits::kSkew &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af1bc7f7c26db3399201cd95f35a56790">SharedLoadTileTraits</a></td></tr>
-<tr class="memdesc:af1bc7f7c26db3399201cd95f35a56790"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for B^N.  <a href="#af1bc7f7c26db3399201cd95f35a56790">More...</a><br /></td></tr>
-<tr class="separator:af1bc7f7c26db3399201cd95f35a56790"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td></tr>
 <tr class="memitem:a8ae7db3f2f0c57779729d500386c004c inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_::ScalarB&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a></td></tr>
 <tr class="memdesc:a8ae7db3f2f0c57779729d500386c004c inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The input scalar.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">More...</a><br /></td></tr>
@@ -115,15 +110,11 @@
 <tr class="memitem:a5fee0ed52326c0685e8d8295e40ce064 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a8ae7db3f2f0c57779729d500386c004c">Scalar</a> const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::kThreads/GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD &gt;, GemmConfig_::kScalarsPerLdgB &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064">GlobalTileTraits</a></td></tr>
 <tr class="memdesc:a5fee0ed52326c0685e8d8295e40ce064 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for B^N.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a5fee0ed52326c0685e8d8295e40ce064">More...</a><br /></td></tr>
 <tr class="separator:a5fee0ed52326c0685e8d8295e40ce064 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1884cbc21987aec651fa8149d4ed1a06 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsB, 128/sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>)/GemmConfig_::kScalarsPerStsB/GlobalTileTraits::Threads::kW *<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">kScalarsIn4B</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06">SharedStoreTileTraits</a></td></tr>
-<tr class="memdesc:a1884cbc21987aec651fa8149d4ed1a06 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for B^N.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06">More...</a><br /></td></tr>
-<tr class="separator:a1884cbc21987aec651fa8149d4ed1a06 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a118bb34a6f58c3e5a989773b4b597d8c inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a> const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsB, SharedStoreTileTraits::kSkew &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">SharedLoadTileTraits</a></td></tr>
-<tr class="memdesc:a118bb34a6f58c3e5a989773b4b597d8c inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for B^N.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">More...</a><br /></td></tr>
-<tr class="separator:a118bb34a6f58c3e5a989773b4b597d8c inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
-<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
-Additional Inherited Members</h2></td></tr>
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a6d0f50e83067373b249b38444eb7fe65"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a6d0f50e83067373b249b38444eb7fe65">kSkewB</a> = 128 / sizeof(half) / GlobalTileTraits::Threads::kW / 2</td></tr>
+<tr class="separator:a6d0f50e83067373b249b38444eb7fe65"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td></tr>
 <tr class="memitem:afbd350793888a7e7b299548dca854c13 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13">kLayout</a> = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a></td></tr>
 <tr class="memdesc:afbd350793888a7e7b299548dca854c13 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#afbd350793888a7e7b299548dca854c13">More...</a><br /></td></tr>
@@ -131,6 +122,9 @@
 <tr class="memitem:a774a052f0f98f50e46dda933c81badd5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">kScalarsIn4B</a> = sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>) &gt; 4 ? 1 : 4 / sizeof(<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a42dd312d4cf5bb53b472389897f9deeb">MultiplyAddScalar</a>)</td></tr>
 <tr class="memdesc:a774a052f0f98f50e46dda933c81badd5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars in 4B.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a774a052f0f98f50e46dda933c81badd5">More...</a><br /></td></tr>
 <tr class="separator:a774a052f0f98f50e46dda933c81badd5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab35a6b3ff04e4128e4ca4a8cc0459b16 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab35a6b3ff04e4128e4ca4a8cc0459b16">kSkewB</a></td></tr>
+<tr class="memdesc:ab35a6b3ff04e4128e4ca4a8cc0459b16 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The skew for B.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ab35a6b3ff04e4128e4ca4a8cc0459b16">More...</a><br /></td></tr>
+<tr class="separator:ab35a6b3ff04e4128e4ca4a8cc0459b16 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="aca63ec1099444c555299dc144282dded"></a>
@@ -165,34 +159,27 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1e6356bf5c87271ab9794fcc
 
 </div>
 </div>
-<a id="af1bc7f7c26db3399201cd95f35a56790"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af1bc7f7c26db3399201cd95f35a56790">&#9670;&nbsp;</a></span>SharedLoadTileTraits</h2>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a6d0f50e83067373b249b38444eb7fe65"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6d0f50e83067373b249b38444eb7fe65">&#9670;&nbsp;</a></span>kSkewB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
 template&lt;typename GemmConfig_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt; half const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 8, SharedStoreTileTraits::kSkew&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">cutlass::gemm::HgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a118bb34a6f58c3e5a989773b4b597d8c">SharedLoadTileTraits</a></td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="ab1ae3d51f65f7af60147da1c51a7a0c2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab1ae3d51f65f7af60147da1c51a7a0c2">&#9670;&nbsp;</a></span>SharedStoreTileTraits</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename GemmConfig_ &gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; half, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH * GemmConfig_::InstructionShape::kD&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">GlobalTileTraits::Threads</a>, 2, 128 / sizeof(half) / GlobalTileTraits::Threads::kW / 2&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">cutlass::gemm::HgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a1884cbc21987aec651fa8149d4ed1a06">SharedStoreTileTraits</a></td>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">cutlass::gemm::HgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;::kSkewB = 128 / sizeof(half) / GlobalTileTraits::Threads::kW / 2</td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
@@ -203,7 +190,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab1ae3d51f65f7af60147da1c
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTraits-members.html b/docs/structcutlass_1_1gemm_1_1HgemmTraits-members.html
index 2a51feb222..ec460a2e73 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTraits-members.html
@@ -73,19 +73,21 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraits.html">cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraits.html">cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
@@ -98,12 +100,13 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a>(bool in_loop)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTraits.html b/docs/structcutlass_1_1gemm_1_1HgemmTraits.html
index a9e4c26963..35affe7548 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTraits.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -75,17 +75,17 @@
   <div class="summary">
 <a href="structcutlass_1_1gemm_1_1HgemmTraits-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="hgemm__traits_8h_source.html">hgemm_traits.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt;:</div>
+Inheritance diagram for cutlass::gemm::HgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, Helper_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1gemm_1_1HgemmTraits.png" usemap="#cutlass::gemm::HgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::HgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" name="cutlass::gemm::HgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map">
+  <img src="structcutlass_1_1gemm_1_1HgemmTraits.png" usemap="#cutlass::gemm::HgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::HgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" name="cutlass::gemm::HgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map">
 <area href="structcutlass_1_1gemm_1_1GemmTraits.html" alt="cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;" shape="rect" coords="0,0,1447,24"/>
 </map>
  </div></div>
@@ -93,10 +93,16 @@
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
 <tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td></tr>
+<tr class="memitem:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>, Index_, Helper_::ClearAccumulators &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a></td></tr>
+<tr class="memdesc:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">This traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">More...</a><br /></td></tr>
+<tr class="separator:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a></td></tr>
+<tr class="memdesc:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The struct that consumes this Traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">More...</a><br /></td></tr>
+<tr class="separator:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GemmConfig&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a></td></tr>
 <tr class="memdesc:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The configuration.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">More...</a><br /></td></tr>
 <tr class="separator:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
+<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
 <tr class="memdesc:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">More...</a><br /></td></tr>
 <tr class="separator:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalLoadStreamA&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a></td></tr>
@@ -117,13 +123,7 @@
 <tr class="memitem:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedLoadStreamB&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a></td></tr>
 <tr class="memdesc:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for B to load from shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">More...</a><br /></td></tr>
 <tr class="separator:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamA::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a></td></tr>
-<tr class="memdesc:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for A.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">More...</a><br /></td></tr>
-<tr class="separator:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamB::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a></td></tr>
-<tr class="memdesc:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">More...</a><br /></td></tr>
-<tr class="separator:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
+<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
 <tr class="memdesc:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The multiply-add functor.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">More...</a><br /></td></tr>
 <tr class="separator:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::Epilogue&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a></td></tr>
@@ -143,6 +143,15 @@
 <tr class="memitem:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::ClearAccumulators&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a></td></tr>
 <tr class="memdesc:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear the accumulators.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">More...</a><br /></td></tr>
 <tr class="separator:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, GemmConfig::kResidueInProlog &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a></td></tr>
+<tr class="memdesc:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the global load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">More...</a><br /></td></tr>
+<tr class="separator:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">GlobalLoadStream::ThreadblockTileStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a></td></tr>
+<tr class="memdesc:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory needed to store the threadblock-scoped GEMM tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">More...</a><br /></td></tr>
+<tr class="separator:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a></td></tr>
+<tr class="memdesc:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the shared load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">More...</a><br /></td></tr>
+<tr class="separator:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td></tr>
 <tr class="memitem:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a> (bool in_loop)</td></tr>
 <tr class="memdesc:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared loads.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">More...</a><br /></td></tr>
@@ -164,7 +173,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTraits.png b/docs/structcutlass_1_1gemm_1_1HgemmTraits.png
index 03fc4145b8..96fbe77ed4 100644
Binary files a/docs/structcutlass_1_1gemm_1_1HgemmTraits.png and b/docs/structcutlass_1_1gemm_1_1HgemmTraits.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTraitsHelper-members.html b/docs/structcutlass_1_1gemm_1_1HgemmTraitsHelper-members.html
index 78f0782570..504d831084 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTraitsHelper-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTraitsHelper-members.html
@@ -73,35 +73,35 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a234ae6065d5ab56135e10119d3ad2d98">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">GemmEpilogueTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a5557c86a530f5d20a35d3fa620adf417">GemmTileTraitsHelperA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8768c2b03bea0c3601c47dde2bc7ca89">GemmTileTraitsHelperB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">GlobalLoadIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">GlobalLoadIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2aaece6093100c71c4d587994200e3bb">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abaf5f16ab0b215b406766ecadab29394">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647">GlobalTransformerA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de">GlobalTransformerB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae9facf63912d98e597883bf7efb56cc8">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620">SharedLoadIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303">SharedLoadIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a21c860cc877df13d22dd30eeb5e2b06b">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac5eeca1e91f0e0d4dd48d432d5213215">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4">SharedStoreIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448">SharedStoreIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada2812153440cf1e678ca4c795a6e8ae">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047">GemmEpilogueTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4f3afb4b1f37a2c43a1935a3000b2a02">GemmTileTraitsHelperA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada910ee63493bc3c70f7395127268a1d">GemmTileTraitsHelperB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">GlobalLoadIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">GlobalLoadIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a80e36b583ccd9aa9b37d52faa090cbca">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2c46c11f5fddb865645f555547c823ba">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">GlobalTransformerA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">GlobalTransformerB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae82826fde376748cf67ff2e1bcaa8cef">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64">SharedLoadIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a">SharedLoadIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aaa35c4d2a90f137f50c9ccd24d5c4f5c">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1d458fe1e416ddc4565f2b802592268b">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">SharedStoreIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">SharedStoreIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTraitsHelper.html b/docs/structcutlass_1_1gemm_1_1HgemmTraitsHelper.html
index 1ec8904e71..e7fabe587d 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTraitsHelper.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTraitsHelper.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -76,7 +76,7 @@
 <a href="#pub-types">Public Types</a> &#124;
 <a href="structcutlass_1_1gemm_1_1HgemmTraitsHelper-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::HgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -84,362 +84,362 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:a1597c776238f35bcb1acc0a8f8f9c118"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig</a>&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">GemmConfig</a></td></tr>
-<tr class="memdesc:a1597c776238f35bcb1acc0a8f8f9c118"><td class="mdescLeft">&#160;</td><td class="mdescRight">The HGEMM config.  <a href="#a1597c776238f35bcb1acc0a8f8f9c118">More...</a><br /></td></tr>
-<tr class="separator:a1597c776238f35bcb1acc0a8f8f9c118"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5557c86a530f5d20a35d3fa620adf417"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA</a>&lt; kLayoutA_, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">GemmConfig</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a5557c86a530f5d20a35d3fa620adf417">GemmTileTraitsHelperA</a></td></tr>
-<tr class="memdesc:a5557c86a530f5d20a35d3fa620adf417"><td class="mdescLeft">&#160;</td><td class="mdescRight">The GEMM config for A.  <a href="#a5557c86a530f5d20a35d3fa620adf417">More...</a><br /></td></tr>
-<tr class="separator:a5557c86a530f5d20a35d3fa620adf417"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8768c2b03bea0c3601c47dde2bc7ca89"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB</a>&lt; kLayoutB_, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">GemmConfig</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8768c2b03bea0c3601c47dde2bc7ca89">GemmTileTraitsHelperB</a></td></tr>
-<tr class="memdesc:a8768c2b03bea0c3601c47dde2bc7ca89"><td class="mdescLeft">&#160;</td><td class="mdescRight">The GEMM config for B.  <a href="#a8768c2b03bea0c3601c47dde2bc7ca89">More...</a><br /></td></tr>
-<tr class="separator:a8768c2b03bea0c3601c47dde2bc7ca89"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab8a3def34300afb5745453d0b33204aa"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; typename GemmTileTraitsHelperA::GlobalTileTraits, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">GlobalLoadIteratorA</a></td></tr>
-<tr class="memdesc:ab8a3def34300afb5745453d0b33204aa"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load A from global memory.  <a href="#ab8a3def34300afb5745453d0b33204aa">More...</a><br /></td></tr>
-<tr class="separator:ab8a3def34300afb5745453d0b33204aa"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3fb86b6d3e353df6b752510d64c5e647"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a>&lt; GemmTileTraitsHelperA::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">GlobalLoadIteratorA</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647">GlobalTransformerA</a></td></tr>
-<tr class="memdesc:a3fb86b6d3e353df6b752510d64c5e647"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default transformer for A.  <a href="#a3fb86b6d3e353df6b752510d64c5e647">More...</a><br /></td></tr>
-<tr class="separator:a3fb86b6d3e353df6b752510d64c5e647"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7f022d423d42d4081cefa7eb26b4d5b4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4">SharedStoreIteratorA</a></td></tr>
-<tr class="memdesc:a7f022d423d42d4081cefa7eb26b4d5b4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store A to shared memory.  <a href="#a7f022d423d42d4081cefa7eb26b4d5b4">More...</a><br /></td></tr>
-<tr class="separator:a7f022d423d42d4081cefa7eb26b4d5b4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2aaece6093100c71c4d587994200e3bb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647">GlobalTransformerA</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2aaece6093100c71c4d587994200e3bb">GlobalLoadStreamA</a></td></tr>
-<tr class="memdesc:a2aaece6093100c71c4d587994200e3bb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from global memory to shared memory.  <a href="#a2aaece6093100c71c4d587994200e3bb">More...</a><br /></td></tr>
-<tr class="separator:a2aaece6093100c71c4d587994200e3bb"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a95559f28cab076da723e4cb24351116e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; typename GemmTileTraitsHelperB::GlobalTileTraits, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">GlobalLoadIteratorB</a></td></tr>
-<tr class="memdesc:a95559f28cab076da723e4cb24351116e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load B from global memory.  <a href="#a95559f28cab076da723e4cb24351116e">More...</a><br /></td></tr>
-<tr class="separator:a95559f28cab076da723e4cb24351116e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7b4de712868095200a338802c1fbb3de"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a>&lt; GemmTileTraitsHelperB::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">GlobalLoadIteratorB</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de">GlobalTransformerB</a></td></tr>
-<tr class="separator:a7b4de712868095200a338802c1fbb3de"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abe3383e7338c08841fd8f0bfb1090448"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448">SharedStoreIteratorB</a></td></tr>
-<tr class="memdesc:abe3383e7338c08841fd8f0bfb1090448"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store B to shared memory.  <a href="#abe3383e7338c08841fd8f0bfb1090448">More...</a><br /></td></tr>
-<tr class="separator:abe3383e7338c08841fd8f0bfb1090448"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abaf5f16ab0b215b406766ecadab29394"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de">GlobalTransformerB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abaf5f16ab0b215b406766ecadab29394">GlobalLoadStreamB</a></td></tr>
-<tr class="memdesc:abaf5f16ab0b215b406766ecadab29394"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from global memory to shared memory.  <a href="#abaf5f16ab0b215b406766ecadab29394">More...</a><br /></td></tr>
-<tr class="separator:abaf5f16ab0b215b406766ecadab29394"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1bbb198a50b5f01a0502df44bb678620"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620">SharedLoadIteratorA</a></td></tr>
-<tr class="memdesc:a1bbb198a50b5f01a0502df44bb678620"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load A from shared memory.  <a href="#a1bbb198a50b5f01a0502df44bb678620">More...</a><br /></td></tr>
-<tr class="separator:a1bbb198a50b5f01a0502df44bb678620"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a21c860cc877df13d22dd30eeb5e2b06b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620">SharedLoadIteratorA</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a21c860cc877df13d22dd30eeb5e2b06b">SharedLoadStreamA</a></td></tr>
-<tr class="memdesc:a21c860cc877df13d22dd30eeb5e2b06b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from shared memory.  <a href="#a21c860cc877df13d22dd30eeb5e2b06b">More...</a><br /></td></tr>
-<tr class="separator:a21c860cc877df13d22dd30eeb5e2b06b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8d09409973094ca2a17633776a64a303"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303">SharedLoadIteratorB</a></td></tr>
-<tr class="memdesc:a8d09409973094ca2a17633776a64a303"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load B from shared memory.  <a href="#a8d09409973094ca2a17633776a64a303">More...</a><br /></td></tr>
-<tr class="separator:a8d09409973094ca2a17633776a64a303"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac5eeca1e91f0e0d4dd48d432d5213215"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303">SharedLoadIteratorB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac5eeca1e91f0e0d4dd48d432d5213215">SharedLoadStreamB</a></td></tr>
-<tr class="memdesc:ac5eeca1e91f0e0d4dd48d432d5213215"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from shared memory.  <a href="#ac5eeca1e91f0e0d4dd48d432d5213215">More...</a><br /></td></tr>
-<tr class="separator:ac5eeca1e91f0e0d4dd48d432d5213215"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae9facf63912d98e597883bf7efb56cc8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae9facf63912d98e597883bf7efb56cc8">MultiplyAdd</a></td></tr>
-<tr class="memdesc:ae9facf63912d98e597883bf7efb56cc8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do the multiply-add in the main loop.  <a href="#ae9facf63912d98e597883bf7efb56cc8">More...</a><br /></td></tr>
-<tr class="separator:ae9facf63912d98e597883bf7efb56cc8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aba2366bec386c74df47dfd0426b07041"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">ClearAccumulators</a>&lt; typename <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">MultiplyAdd::ScalarC</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">ClearAccumulators</a></td></tr>
-<tr class="memdesc:aba2366bec386c74df47dfd0426b07041"><td class="mdescLeft">&#160;</td><td class="mdescRight">The object to clear accumulators.  <a href="#aba2366bec386c74df47dfd0426b07041">More...</a><br /></td></tr>
-<tr class="separator:aba2366bec386c74df47dfd0426b07041"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4a0f361b5c47d0ab5f3308cd3b3b6ef6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">GemmConfig</a>, EpilogueFunctor_, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">GemmEpilogueTraits</a></td></tr>
-<tr class="memdesc:a4a0f361b5c47d0ab5f3308cd3b3b6ef6"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class for the epilogue.  <a href="#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">More...</a><br /></td></tr>
-<tr class="separator:a4a0f361b5c47d0ab5f3308cd3b3b6ef6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a234ae6065d5ab56135e10119d3ad2d98"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">GemmEpilogueTraits</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a234ae6065d5ab56135e10119d3ad2d98">Epilogue</a></td></tr>
-<tr class="memdesc:a234ae6065d5ab56135e10119d3ad2d98"><td class="mdescLeft">&#160;</td><td class="mdescRight">The epilogue.  <a href="#a234ae6065d5ab56135e10119d3ad2d98">More...</a><br /></td></tr>
-<tr class="separator:a234ae6065d5ab56135e10119d3ad2d98"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0cb18b7857c88f600c6977a1bdb3f4e4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig</a>&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">GemmConfig</a></td></tr>
+<tr class="memdesc:a0cb18b7857c88f600c6977a1bdb3f4e4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The HGEMM config.  <a href="#a0cb18b7857c88f600c6977a1bdb3f4e4">More...</a><br /></td></tr>
+<tr class="separator:a0cb18b7857c88f600c6977a1bdb3f4e4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4f3afb4b1f37a2c43a1935a3000b2a02"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA</a>&lt; kLayoutA_, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">GemmConfig</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4f3afb4b1f37a2c43a1935a3000b2a02">GemmTileTraitsHelperA</a></td></tr>
+<tr class="memdesc:a4f3afb4b1f37a2c43a1935a3000b2a02"><td class="mdescLeft">&#160;</td><td class="mdescRight">The GEMM config for A.  <a href="#a4f3afb4b1f37a2c43a1935a3000b2a02">More...</a><br /></td></tr>
+<tr class="separator:a4f3afb4b1f37a2c43a1935a3000b2a02"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada910ee63493bc3c70f7395127268a1d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB</a>&lt; kLayoutB_, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">GemmConfig</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada910ee63493bc3c70f7395127268a1d">GemmTileTraitsHelperB</a></td></tr>
+<tr class="memdesc:ada910ee63493bc3c70f7395127268a1d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The GEMM config for B.  <a href="#ada910ee63493bc3c70f7395127268a1d">More...</a><br /></td></tr>
+<tr class="separator:ada910ee63493bc3c70f7395127268a1d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac6eac542d9d994509f931804b8b85ff5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; typename GemmTileTraitsHelperA::GlobalTileTraits, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">GlobalLoadIteratorA</a></td></tr>
+<tr class="memdesc:ac6eac542d9d994509f931804b8b85ff5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load A from global memory.  <a href="#ac6eac542d9d994509f931804b8b85ff5">More...</a><br /></td></tr>
+<tr class="separator:ac6eac542d9d994509f931804b8b85ff5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae324b03601b97a22f2ac6db077280c60"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a>&lt; GemmTileTraitsHelperA::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">GlobalLoadIteratorA</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">GlobalTransformerA</a></td></tr>
+<tr class="memdesc:ae324b03601b97a22f2ac6db077280c60"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default transformer for A.  <a href="#ae324b03601b97a22f2ac6db077280c60">More...</a><br /></td></tr>
+<tr class="separator:ae324b03601b97a22f2ac6db077280c60"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a366c89f8ecfbf0aef894cfb6fae25be9"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">SharedStoreIteratorA</a></td></tr>
+<tr class="memdesc:a366c89f8ecfbf0aef894cfb6fae25be9"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store A to shared memory.  <a href="#a366c89f8ecfbf0aef894cfb6fae25be9">More...</a><br /></td></tr>
+<tr class="separator:a366c89f8ecfbf0aef894cfb6fae25be9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a80e36b583ccd9aa9b37d52faa090cbca"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">GlobalTransformerA</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a80e36b583ccd9aa9b37d52faa090cbca">GlobalLoadStreamA</a></td></tr>
+<tr class="memdesc:a80e36b583ccd9aa9b37d52faa090cbca"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from global memory to shared memory.  <a href="#a80e36b583ccd9aa9b37d52faa090cbca">More...</a><br /></td></tr>
+<tr class="separator:a80e36b583ccd9aa9b37d52faa090cbca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa190538ab678c82e379db4038af665ee"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; typename GemmTileTraitsHelperB::GlobalTileTraits, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">GlobalLoadIteratorB</a></td></tr>
+<tr class="memdesc:aa190538ab678c82e379db4038af665ee"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load B from global memory.  <a href="#aa190538ab678c82e379db4038af665ee">More...</a><br /></td></tr>
+<tr class="separator:aa190538ab678c82e379db4038af665ee"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2ca7dcd4b5157db9b9c2f92740e44184"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a>&lt; GemmTileTraitsHelperB::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">GlobalLoadIteratorB</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">GlobalTransformerB</a></td></tr>
+<tr class="separator:a2ca7dcd4b5157db9b9c2f92740e44184"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a463dddee069606fd4ecf7c386ff23fce"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">SharedStoreIteratorB</a></td></tr>
+<tr class="memdesc:a463dddee069606fd4ecf7c386ff23fce"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store B to shared memory.  <a href="#a463dddee069606fd4ecf7c386ff23fce">More...</a><br /></td></tr>
+<tr class="separator:a463dddee069606fd4ecf7c386ff23fce"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2c46c11f5fddb865645f555547c823ba"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">GlobalTransformerB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2c46c11f5fddb865645f555547c823ba">GlobalLoadStreamB</a></td></tr>
+<tr class="memdesc:a2c46c11f5fddb865645f555547c823ba"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from global memory to shared memory.  <a href="#a2c46c11f5fddb865645f555547c823ba">More...</a><br /></td></tr>
+<tr class="separator:a2c46c11f5fddb865645f555547c823ba"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8978603203221020113ec79e3f2c0d64"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64">SharedLoadIteratorA</a></td></tr>
+<tr class="memdesc:a8978603203221020113ec79e3f2c0d64"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load A from shared memory.  <a href="#a8978603203221020113ec79e3f2c0d64">More...</a><br /></td></tr>
+<tr class="separator:a8978603203221020113ec79e3f2c0d64"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaa35c4d2a90f137f50c9ccd24d5c4f5c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64">SharedLoadIteratorA</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aaa35c4d2a90f137f50c9ccd24d5c4f5c">SharedLoadStreamA</a></td></tr>
+<tr class="memdesc:aaa35c4d2a90f137f50c9ccd24d5c4f5c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from shared memory.  <a href="#aaa35c4d2a90f137f50c9ccd24d5c4f5c">More...</a><br /></td></tr>
+<tr class="separator:aaa35c4d2a90f137f50c9ccd24d5c4f5c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a14b4720b7522684a98b653d70353233a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a">SharedLoadIteratorB</a></td></tr>
+<tr class="memdesc:a14b4720b7522684a98b653d70353233a"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load B from shared memory.  <a href="#a14b4720b7522684a98b653d70353233a">More...</a><br /></td></tr>
+<tr class="separator:a14b4720b7522684a98b653d70353233a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1d458fe1e416ddc4565f2b802592268b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a">SharedLoadIteratorB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1d458fe1e416ddc4565f2b802592268b">SharedLoadStreamB</a></td></tr>
+<tr class="memdesc:a1d458fe1e416ddc4565f2b802592268b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from shared memory.  <a href="#a1d458fe1e416ddc4565f2b802592268b">More...</a><br /></td></tr>
+<tr class="separator:a1d458fe1e416ddc4565f2b802592268b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae82826fde376748cf67ff2e1bcaa8cef"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae82826fde376748cf67ff2e1bcaa8cef">MultiplyAdd</a></td></tr>
+<tr class="memdesc:ae82826fde376748cf67ff2e1bcaa8cef"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do the multiply-add in the main loop.  <a href="#ae82826fde376748cf67ff2e1bcaa8cef">More...</a><br /></td></tr>
+<tr class="separator:ae82826fde376748cf67ff2e1bcaa8cef"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8574faffd18e4aa8420a4e32e07b62d6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">ClearAccumulators</a>&lt; typename <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">MultiplyAdd::ScalarC</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">ClearAccumulators</a></td></tr>
+<tr class="memdesc:a8574faffd18e4aa8420a4e32e07b62d6"><td class="mdescLeft">&#160;</td><td class="mdescRight">The object to clear accumulators.  <a href="#a8574faffd18e4aa8420a4e32e07b62d6">More...</a><br /></td></tr>
+<tr class="separator:a8574faffd18e4aa8420a4e32e07b62d6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb825b6575955a714ff24df2e142c047"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">GemmConfig</a>, EpilogueFunctor_, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047">GemmEpilogueTraits</a></td></tr>
+<tr class="memdesc:aeb825b6575955a714ff24df2e142c047"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class for the epilogue.  <a href="#aeb825b6575955a714ff24df2e142c047">More...</a><br /></td></tr>
+<tr class="separator:aeb825b6575955a714ff24df2e142c047"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada2812153440cf1e678ca4c795a6e8ae"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047">GemmEpilogueTraits</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada2812153440cf1e678ca4c795a6e8ae">Epilogue</a></td></tr>
+<tr class="memdesc:ada2812153440cf1e678ca4c795a6e8ae"><td class="mdescLeft">&#160;</td><td class="mdescRight">The epilogue.  <a href="#ada2812153440cf1e678ca4c795a6e8ae">More...</a><br /></td></tr>
+<tr class="separator:ada2812153440cf1e678ca4c795a6e8ae"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="aba2366bec386c74df47dfd0426b07041"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aba2366bec386c74df47dfd0426b07041">&#9670;&nbsp;</a></span>ClearAccumulators</h2>
+<a id="a8574faffd18e4aa8420a4e32e07b62d6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8574faffd18e4aa8420a4e32e07b62d6">&#9670;&nbsp;</a></span>ClearAccumulators</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">ClearAccumulators</a>&lt;typename <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">MultiplyAdd::ScalarC</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aba2366bec386c74df47dfd0426b07041">ClearAccumulators</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">ClearAccumulators</a>&lt;typename <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">MultiplyAdd::ScalarC</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8574faffd18e4aa8420a4e32e07b62d6">ClearAccumulators</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a234ae6065d5ab56135e10119d3ad2d98"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a234ae6065d5ab56135e10119d3ad2d98">&#9670;&nbsp;</a></span>Epilogue</h2>
+<a id="ada2812153440cf1e678ca4c795a6e8ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada2812153440cf1e678ca4c795a6e8ae">&#9670;&nbsp;</a></span>Epilogue</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">GemmEpilogueTraits</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a234ae6065d5ab56135e10119d3ad2d98">Epilogue</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047">GemmEpilogueTraits</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada2812153440cf1e678ca4c795a6e8ae">Epilogue</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a1597c776238f35bcb1acc0a8f8f9c118"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1597c776238f35bcb1acc0a8f8f9c118">&#9670;&nbsp;</a></span>GemmConfig</h2>
+<a id="a0cb18b7857c88f600c6977a1bdb3f4e4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0cb18b7857c88f600c6977a1bdb3f4e4">&#9670;&nbsp;</a></span>GemmConfig</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig</a>&lt;OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">GemmConfig</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmConfig.html">HgemmConfig</a>&lt;OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">GemmConfig</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a4a0f361b5c47d0ab5f3308cd3b3b6ef6"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">&#9670;&nbsp;</a></span>GemmEpilogueTraits</h2>
+<a id="aeb825b6575955a714ff24df2e142c047"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aeb825b6575955a714ff24df2e142c047">&#9670;&nbsp;</a></span>GemmEpilogueTraits</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">GemmConfig</a>, EpilogueFunctor_, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4a0f361b5c47d0ab5f3308cd3b3b6ef6">GemmEpilogueTraits</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">SimplifiedGemmEpilogueTraits</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">GemmConfig</a>, EpilogueFunctor_, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aeb825b6575955a714ff24df2e142c047">GemmEpilogueTraits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5557c86a530f5d20a35d3fa620adf417"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5557c86a530f5d20a35d3fa620adf417">&#9670;&nbsp;</a></span>GemmTileTraitsHelperA</h2>
+<a id="a4f3afb4b1f37a2c43a1935a3000b2a02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f3afb4b1f37a2c43a1935a3000b2a02">&#9670;&nbsp;</a></span>GemmTileTraitsHelperA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA</a>&lt;kLayoutA_, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">GemmConfig</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a5557c86a530f5d20a35d3fa620adf417">GemmTileTraitsHelperA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperA.html">HgemmTileTraitsHelperA</a>&lt;kLayoutA_, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">GemmConfig</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a4f3afb4b1f37a2c43a1935a3000b2a02">GemmTileTraitsHelperA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a8768c2b03bea0c3601c47dde2bc7ca89"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8768c2b03bea0c3601c47dde2bc7ca89">&#9670;&nbsp;</a></span>GemmTileTraitsHelperB</h2>
+<a id="ada910ee63493bc3c70f7395127268a1d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ada910ee63493bc3c70f7395127268a1d">&#9670;&nbsp;</a></span>GemmTileTraitsHelperB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB</a>&lt;kLayoutB_, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1597c776238f35bcb1acc0a8f8f9c118">GemmConfig</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8768c2b03bea0c3601c47dde2bc7ca89">GemmTileTraitsHelperB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTileTraitsHelperB.html">HgemmTileTraitsHelperB</a>&lt;kLayoutB_, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a0cb18b7857c88f600c6977a1bdb3f4e4">GemmConfig</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ada910ee63493bc3c70f7395127268a1d">GemmTileTraitsHelperB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ab8a3def34300afb5745453d0b33204aa"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab8a3def34300afb5745453d0b33204aa">&#9670;&nbsp;</a></span>GlobalLoadIteratorA</h2>
+<a id="ac6eac542d9d994509f931804b8b85ff5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac6eac542d9d994509f931804b8b85ff5">&#9670;&nbsp;</a></span>GlobalLoadIteratorA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt;typename GemmTileTraitsHelperA::GlobalTileTraits, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">GlobalLoadIteratorA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt;typename GemmTileTraitsHelperA::GlobalTileTraits, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">GlobalLoadIteratorA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a95559f28cab076da723e4cb24351116e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a95559f28cab076da723e4cb24351116e">&#9670;&nbsp;</a></span>GlobalLoadIteratorB</h2>
+<a id="aa190538ab678c82e379db4038af665ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa190538ab678c82e379db4038af665ee">&#9670;&nbsp;</a></span>GlobalLoadIteratorB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt;typename GemmTileTraitsHelperB::GlobalTileTraits, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">GlobalLoadIteratorB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt;typename GemmTileTraitsHelperB::GlobalTileTraits, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">GlobalLoadIteratorB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a2aaece6093100c71c4d587994200e3bb"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2aaece6093100c71c4d587994200e3bb">&#9670;&nbsp;</a></span>GlobalLoadStreamA</h2>
+<a id="a80e36b583ccd9aa9b37d52faa090cbca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a80e36b583ccd9aa9b37d52faa090cbca">&#9670;&nbsp;</a></span>GlobalLoadStreamA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647">GlobalTransformerA</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2aaece6093100c71c4d587994200e3bb">GlobalLoadStreamA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">GlobalTransformerA</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a80e36b583ccd9aa9b37d52faa090cbca">GlobalLoadStreamA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="abaf5f16ab0b215b406766ecadab29394"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abaf5f16ab0b215b406766ecadab29394">&#9670;&nbsp;</a></span>GlobalLoadStreamB</h2>
+<a id="a2c46c11f5fddb865645f555547c823ba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2c46c11f5fddb865645f555547c823ba">&#9670;&nbsp;</a></span>GlobalLoadStreamB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de">GlobalTransformerB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abaf5f16ab0b215b406766ecadab29394">GlobalLoadStreamB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">GlobalTransformerB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2c46c11f5fddb865645f555547c823ba">GlobalLoadStreamB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a3fb86b6d3e353df6b752510d64c5e647"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3fb86b6d3e353df6b752510d64c5e647">&#9670;&nbsp;</a></span>GlobalTransformerA</h2>
+<a id="ae324b03601b97a22f2ac6db077280c60"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae324b03601b97a22f2ac6db077280c60">&#9670;&nbsp;</a></span>GlobalTransformerA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a>&lt;GemmTileTraitsHelperA::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ab8a3def34300afb5745453d0b33204aa">GlobalLoadIteratorA</a>&gt;::Transformer <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a3fb86b6d3e353df6b752510d64c5e647">GlobalTransformerA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerA.html">HgemmTransformerA</a>&lt;GemmTileTraitsHelperA::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac6eac542d9d994509f931804b8b85ff5">GlobalLoadIteratorA</a>&gt;::Transformer <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae324b03601b97a22f2ac6db077280c60">GlobalTransformerA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7b4de712868095200a338802c1fbb3de"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7b4de712868095200a338802c1fbb3de">&#9670;&nbsp;</a></span>GlobalTransformerB</h2>
+<a id="a2ca7dcd4b5157db9b9c2f92740e44184"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2ca7dcd4b5157db9b9c2f92740e44184">&#9670;&nbsp;</a></span>GlobalTransformerB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a>&lt;GemmTileTraitsHelperB::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a95559f28cab076da723e4cb24351116e">GlobalLoadIteratorB</a>&gt;::Transformer <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7b4de712868095200a338802c1fbb3de">GlobalTransformerB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1HgemmTransformerB.html">HgemmTransformerB</a>&lt;GemmTileTraitsHelperB::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aa190538ab678c82e379db4038af665ee">GlobalLoadIteratorB</a>&gt;::Transformer <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a2ca7dcd4b5157db9b9c2f92740e44184">GlobalTransformerB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ae9facf63912d98e597883bf7efb56cc8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae9facf63912d98e597883bf7efb56cc8">&#9670;&nbsp;</a></span>MultiplyAdd</h2>
+<a id="ae82826fde376748cf67ff2e1bcaa8cef"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae82826fde376748cf67ff2e1bcaa8cef">&#9670;&nbsp;</a></span>MultiplyAdd</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a> <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae9facf63912d98e597883bf7efb56cc8">MultiplyAdd</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a> <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ae82826fde376748cf67ff2e1bcaa8cef">MultiplyAdd</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a1bbb198a50b5f01a0502df44bb678620"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1bbb198a50b5f01a0502df44bb678620">&#9670;&nbsp;</a></span>SharedLoadIteratorA</h2>
+<a id="a8978603203221020113ec79e3f2c0d64"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8978603203221020113ec79e3f2c0d64">&#9670;&nbsp;</a></span>SharedLoadIteratorA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620">SharedLoadIteratorA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64">SharedLoadIteratorA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a8d09409973094ca2a17633776a64a303"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8d09409973094ca2a17633776a64a303">&#9670;&nbsp;</a></span>SharedLoadIteratorB</h2>
+<a id="a14b4720b7522684a98b653d70353233a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a14b4720b7522684a98b653d70353233a">&#9670;&nbsp;</a></span>SharedLoadIteratorB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303">SharedLoadIteratorB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a">SharedLoadIteratorB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a21c860cc877df13d22dd30eeb5e2b06b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a21c860cc877df13d22dd30eeb5e2b06b">&#9670;&nbsp;</a></span>SharedLoadStreamA</h2>
+<a id="aaa35c4d2a90f137f50c9ccd24d5c4f5c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa35c4d2a90f137f50c9ccd24d5c4f5c">&#9670;&nbsp;</a></span>SharedLoadStreamA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1bbb198a50b5f01a0502df44bb678620">SharedLoadIteratorA</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a21c860cc877df13d22dd30eeb5e2b06b">SharedLoadStreamA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8978603203221020113ec79e3f2c0d64">SharedLoadIteratorA</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#aaa35c4d2a90f137f50c9ccd24d5c4f5c">SharedLoadStreamA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ac5eeca1e91f0e0d4dd48d432d5213215"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac5eeca1e91f0e0d4dd48d432d5213215">&#9670;&nbsp;</a></span>SharedLoadStreamB</h2>
+<a id="a1d458fe1e416ddc4565f2b802592268b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1d458fe1e416ddc4565f2b802592268b">&#9670;&nbsp;</a></span>SharedLoadStreamB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a8d09409973094ca2a17633776a64a303">SharedLoadIteratorB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#ac5eeca1e91f0e0d4dd48d432d5213215">SharedLoadStreamB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a14b4720b7522684a98b653d70353233a">SharedLoadIteratorB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a1d458fe1e416ddc4565f2b802592268b">SharedLoadStreamB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7f022d423d42d4081cefa7eb26b4d5b4"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7f022d423d42d4081cefa7eb26b4d5b4">&#9670;&nbsp;</a></span>SharedStoreIteratorA</h2>
+<a id="a366c89f8ecfbf0aef894cfb6fae25be9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a366c89f8ecfbf0aef894cfb6fae25be9">&#9670;&nbsp;</a></span>SharedStoreIteratorA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a7f022d423d42d4081cefa7eb26b4d5b4">SharedStoreIteratorA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a366c89f8ecfbf0aef894cfb6fae25be9">SharedStoreIteratorA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="abe3383e7338c08841fd8f0bfb1090448"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abe3383e7338c08841fd8f0bfb1090448">&#9670;&nbsp;</a></span>SharedStoreIteratorB</h2>
+<a id="a463dddee069606fd4ecf7c386ff23fce"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a463dddee069606fd4ecf7c386ff23fce">&#9670;&nbsp;</a></span>SharedStoreIteratorB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename EpilogueFunctor_ , typename ThreadGemmShape_ , int kScalarsPerLdgA_ = 2, int kScalarsPerLdgB_ = 2, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#abe3383e7338c08841fd8f0bfb1090448">SharedStoreIteratorB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html">cutlass::gemm::HgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1HgemmTraitsHelper.html#a463dddee069606fd4ecf7c386ff23fce">SharedStoreIteratorB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -452,7 +452,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#abe3383e7338c08841fd8f0bf
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTransformerA.html b/docs/structcutlass_1_1gemm_1_1HgemmTransformerA.html
index 505f08a55a..971b592707 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTransformerA.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTransformerA.html
@@ -84,7 +84,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html b/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
index 7846aeebf5..13fdca496d 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html b/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
index 092d948b91..162e5cd232 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a882c10bed18f62ece97f5f20
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html b/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
index 4877f00119..69a96f49fc 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html b/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
index 8837b6996e..540f7a7d16 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a42c5bafcb226623b3326dbd0
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTransformerB.html b/docs/structcutlass_1_1gemm_1_1HgemmTransformerB.html
index 99325439a4..acddad07a2 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTransformerB.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTransformerB.html
@@ -84,7 +84,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html b/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
index fdfc6a0035..007e2fd31f 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html b/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
index 93727e2762..73c853d113 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae66bb2c1f87e19278ff471c3
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html b/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
index e655326e55..1f1b6e2451 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html b/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
index 013566c2f1..d1d5706b15 100644
--- a/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1HgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aaaccb3f02a857e0c80d2891c
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IdentityBlockSwizzle-members.html b/docs/structcutlass_1_1gemm_1_1IdentityBlockSwizzle-members.html
index 748a3a4955..120fa5588c 100644
--- a/docs/structcutlass_1_1gemm_1_1IdentityBlockSwizzle-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IdentityBlockSwizzle-members.html
@@ -79,12 +79,15 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#abfde9b316173b1c0b8622cf22ffb6d68">IdentityBlockSwizzle</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">swizzle</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a8f84a2b830caecff3edd052dc24635e6">get_batch_id</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#afc20f302a5cc5b736cfc1c91dfcaa57c">get_grid_layout</a>(GemmCoord const &amp;problem_size, Coord&lt; 3 &gt; const &amp;OutputTile)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a386e5cf702b0dcc3d57f9fdb4ab5d236">get_threadblock_offset</a>(Coord&lt; 3 &gt; const &amp;OutputTile)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a046a5dfd01164df2abd514e9a52987c3">IdentityBlockSwizzle</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">swizzle</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html b/docs/structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html
index 68a70c7b38..02f1b0715b 100644
--- a/docs/structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html
+++ b/docs/structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html
@@ -80,20 +80,26 @@
 </div><!--header-->
 <div class="contents">
 
-<p><code>#include &lt;<a class="el" href="identity__block__swizzle_8h_source.html">identity_block_swizzle.h</a>&gt;</code></p>
+<p><code>#include &lt;<a class="el" href="threadblock__swizzle_8h_source.html">threadblock_swizzle.h</a>&gt;</code></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:abfde9b316173b1c0b8622cf22ffb6d68"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#abfde9b316173b1c0b8622cf22ffb6d68">IdentityBlockSwizzle</a> ()</td></tr>
-<tr class="memdesc:abfde9b316173b1c0b8622cf22ffb6d68"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#abfde9b316173b1c0b8622cf22ffb6d68">More...</a><br /></td></tr>
-<tr class="separator:abfde9b316173b1c0b8622cf22ffb6d68"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a046a5dfd01164df2abd514e9a52987c3"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a046a5dfd01164df2abd514e9a52987c3">IdentityBlockSwizzle</a> ()</td></tr>
+<tr class="memdesc:a046a5dfd01164df2abd514e9a52987c3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor. aka ColumnMajorBlockSwizzle&lt;1&gt;  <a href="#a046a5dfd01164df2abd514e9a52987c3">More...</a><br /></td></tr>
+<tr class="separator:a046a5dfd01164df2abd514e9a52987c3"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a0a366c072ee66bbcb390acd7b8bbe5f8"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE dim3&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">swizzle</a> ()</td></tr>
 <tr class="memdesc:a0a366c072ee66bbcb390acd7b8bbe5f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Swizzle the block index.  <a href="#a0a366c072ee66bbcb390acd7b8bbe5f8">More...</a><br /></td></tr>
 <tr class="separator:a0a366c072ee66bbcb390acd7b8bbe5f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afc20f302a5cc5b736cfc1c91dfcaa57c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dim3&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#afc20f302a5cc5b736cfc1c91dfcaa57c">get_grid_layout</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> const &amp;problem_size, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;OutputTile)</td></tr>
+<tr class="separator:afc20f302a5cc5b736cfc1c91dfcaa57c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a386e5cf702b0dcc3d57f9fdb4ab5d236"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a386e5cf702b0dcc3d57f9fdb4ab5d236">get_threadblock_offset</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;OutputTile)</td></tr>
+<tr class="separator:a386e5cf702b0dcc3d57f9fdb4ab5d236"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f84a2b830caecff3edd052dc24635e6"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a8f84a2b830caecff3edd052dc24635e6">get_batch_id</a> ()</td></tr>
+<tr class="separator:a8f84a2b830caecff3edd052dc24635e6"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="abfde9b316173b1c0b8622cf22ffb6d68"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#abfde9b316173b1c0b8622cf22ffb6d68">&#9670;&nbsp;</a></span>IdentityBlockSwizzle()</h2>
+<a id="a046a5dfd01164df2abd514e9a52987c3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a046a5dfd01164df2abd514e9a52987c3">&#9670;&nbsp;</a></span>IdentityBlockSwizzle()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -102,7 +108,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#abfde9b316173b1c0b8622cf2
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE cutlass::gemm::IdentityBlockSwizzle::IdentityBlockSwizzle </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> cutlass::gemm::IdentityBlockSwizzle::IdentityBlockSwizzle </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -118,6 +124,93 @@ <h2 class="memtitle"><span class="permalink"><a href="#abfde9b316173b1c0b8622cf2
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
+<a id="a8f84a2b830caecff3edd052dc24635e6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8f84a2b830caecff3edd052dc24635e6">&#9670;&nbsp;</a></span>get_batch_id()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE int cutlass::gemm::IdentityBlockSwizzle::get_batch_id </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afc20f302a5cc5b736cfc1c91dfcaa57c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afc20f302a5cc5b736cfc1c91dfcaa57c">&#9670;&nbsp;</a></span>get_grid_layout()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dim3 cutlass::gemm::IdentityBlockSwizzle::get_grid_layout </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>problem_size</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>OutputTile</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a386e5cf702b0dcc3d57f9fdb4ab5d236"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a386e5cf702b0dcc3d57f9fdb4ab5d236">&#9670;&nbsp;</a></span>get_threadblock_offset()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; cutlass::gemm::IdentityBlockSwizzle::get_threadblock_offset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>OutputTile</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <a id="a0a366c072ee66bbcb390acd7b8bbe5f8"></a>
 <h2 class="memtitle"><span class="permalink"><a href="#a0a366c072ee66bbcb390acd7b8bbe5f8">&#9670;&nbsp;</a></span>swizzle()</h2>
 
@@ -144,12 +237,12 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0a366c072ee66bbcb390acd7
 </div>
 </div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
-<li><a class="el" href="identity__block__swizzle_8h_source.html">identity_block_swizzle.h</a></li>
+<li><a class="el" href="threadblock__swizzle_8h_source.html">threadblock_swizzle.h</a></li>
 </ul>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmConfig-members.html b/docs/structcutlass_1_1gemm_1_1IgemmConfig-members.html
index bb78c951e8..a3ae8ada2f 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmConfig-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmConfig-members.html
@@ -73,41 +73,44 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, AccumulatorsPerThread_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, ThreadGemmShape_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, AccumulatorsPerThread_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, ThreadGemmShape_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmConfig.html b/docs/structcutlass_1_1gemm_1_1IgemmConfig.html
index cbcfef4564..89ac24e89b 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmConfig.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmConfig.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, AccumulatorsPerThread_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, ThreadGemmShape_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -75,93 +75,102 @@
   <div class="summary">
 <a href="structcutlass_1_1gemm_1_1IgemmConfig-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, AccumulatorsPerThread_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, ThreadGemmShape_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, AccumulatorsPerThread_ &gt;:</div>
+Inheritance diagram for cutlass::gemm::IgemmConfig&lt; OutputTile_, ScalarD_, ThreadGemmShape_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1gemm_1_1IgemmConfig.png" usemap="#cutlass::gemm::IgemmConfig_3C_20OutputTile_5F_2C_20ScalarD_5F_2C_20AccumulatorsPerThread_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::IgemmConfig_3C_20OutputTile_5F_2C_20ScalarD_5F_2C_20AccumulatorsPerThread_5F_20_3E_map" name="cutlass::gemm::IgemmConfig_3C_20OutputTile_5F_2C_20ScalarD_5F_2C_20AccumulatorsPerThread_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1GemmConfig.html" alt="cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;" shape="rect" coords="0,0,1122,24"/>
+  <img src="structcutlass_1_1gemm_1_1IgemmConfig.png" usemap="#cutlass::gemm::IgemmConfig_3C_20OutputTile_5F_2C_20ScalarD_5F_2C_20ThreadGemmShape_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::IgemmConfig_3C_20OutputTile_5F_2C_20ScalarD_5F_2C_20ThreadGemmShape_5F_20_3E_map" name="cutlass::gemm::IgemmConfig_3C_20OutputTile_5F_2C_20ScalarD_5F_2C_20ThreadGemmShape_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmConfig.html" alt="cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;" shape="rect" coords="0,0,1203,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td></tr>
-<tr class="memitem:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a></td></tr>
-<tr class="memdesc:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">More...</a><br /></td></tr>
-<tr class="separator:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a></td></tr>
-<tr class="memdesc:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">More...</a><br /></td></tr>
-<tr class="separator:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef ScalarD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a></td></tr>
-<tr class="memdesc:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">More...</a><br /></td></tr>
-<tr class="separator:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef ScalarD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a></td></tr>
-<tr class="memdesc:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">More...</a><br /></td></tr>
-<tr class="separator:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a></td></tr>
-<tr class="memdesc:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">More...</a><br /></td></tr>
-<tr class="separator:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a></td></tr>
-<tr class="memdesc:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">More...</a><br /></td></tr>
-<tr class="separator:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">MultiplyAdd::InstructionShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a></td></tr>
-<tr class="memdesc:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">More...</a><br /></td></tr>
-<tr class="separator:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">MultiplyAdd::AccumulatorsPerWarp</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a></td></tr>
-<tr class="memdesc:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per warp.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">More...</a><br /></td></tr>
-<tr class="separator:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">MultiplyAdd::Accumulators</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a></td></tr>
-<tr class="memdesc:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">More...</a><br /></td></tr>
-<tr class="separator:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a></td></tr>
-<tr class="memdesc:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">More...</a><br /></td></tr>
-<tr class="separator:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2 &gt;</a></td></tr>
-<tr class="memitem:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td></tr>
-<tr class="memdesc:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">More...</a><br /></td></tr>
-<tr class="separator:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a></td></tr>
-<tr class="memdesc:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">More...</a><br /></td></tr>
-<tr class="separator:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a></td></tr>
-<tr class="memdesc:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">More...</a><br /></td></tr>
-<tr class="separator:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:accc95abc55880abdab92253367b4b186 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a></td></tr>
-<tr class="separator:accc95abc55880abdab92253367b4b186 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa1b75484138923a52b32888fef608d9b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a></td></tr>
-<tr class="separator:aa1b75484138923a52b32888fef608d9b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a></td></tr>
-<tr class="memdesc:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">More...</a><br /></td></tr>
-<tr class="separator:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac0c8c027e3ede14b62d7c7d519551f21 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a></td></tr>
-<tr class="separator:ac0c8c027e3ede14b62d7c7d519551f21 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a86470d3a44e2b50ee31ec3c9f79927ef inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a></td></tr>
-<tr class="separator:a86470d3a44e2b50ee31ec3c9f79927ef inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a></td></tr>
-<tr class="memdesc:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">More...</a><br /></td></tr>
-<tr class="separator:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a></td></tr>
-<tr class="memdesc:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">More...</a><br /></td></tr>
-<tr class="separator:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3087cdd38e2c65ad0dffdd0587d2cce0 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a></td></tr>
-<tr class="separator:a3087cdd38e2c65ad0dffdd0587d2cce0 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:adaf2ee5b8e6f7bdb9939cd45a186ca56 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a></td></tr>
-<tr class="separator:adaf2ee5b8e6f7bdb9939cd45a186ca56 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a></td></tr>
-<tr class="memdesc:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">More...</a><br /></td></tr>
-<tr class="separator:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9dd092bca2f1f2c039f367b23bafa9c1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a></td></tr>
-<tr class="separator:a9dd092bca2f1f2c039f367b23bafa9c1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a></td></tr>
-<tr class="memdesc:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">More...</a><br /></td></tr>
-<tr class="separator:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td></tr>
+<tr class="memitem:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a></td></tr>
+<tr class="memdesc:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">More...</a><br /></td></tr>
+<tr class="separator:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a></td></tr>
+<tr class="memdesc:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">More...</a><br /></td></tr>
+<tr class="separator:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef ScalarD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a></td></tr>
+<tr class="memdesc:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">More...</a><br /></td></tr>
+<tr class="separator:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef ScalarD_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a></td></tr>
+<tr class="memdesc:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">More...</a><br /></td></tr>
+<tr class="separator:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a></td></tr>
+<tr class="memdesc:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">More...</a><br /></td></tr>
+<tr class="separator:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a></td></tr>
+<tr class="memdesc:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">More...</a><br /></td></tr>
+<tr class="separator:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">MultiplyAdd::InstructionShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a></td></tr>
+<tr class="memdesc:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">More...</a><br /></td></tr>
+<tr class="separator:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">MultiplyAdd::AccumulatorsPerWarp</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of warp-level GEMM.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">More...</a><br /></td></tr>
+<tr class="separator:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">MultiplyAdd::Accumulators</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a></td></tr>
+<tr class="memdesc:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">More...</a><br /></td></tr>
+<tr class="separator:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a></td></tr>
+<tr class="memdesc:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">More...</a><br /></td></tr>
+<tr class="separator:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, ScalarD_, ScalarD_, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 1, 4, 1, 2, false, false, false &gt;</a></td></tr>
+<tr class="memitem:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td></tr>
+<tr class="memdesc:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">More...</a><br /></td></tr>
+<tr class="separator:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td></tr>
+<tr class="memdesc:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">More...</a><br /></td></tr>
+<tr class="separator:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td></tr>
+<tr class="memdesc:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">More...</a><br /></td></tr>
+<tr class="separator:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td></tr>
+<tr class="separator:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td></tr>
+<tr class="separator:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td></tr>
+<tr class="memdesc:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">More...</a><br /></td></tr>
+<tr class="separator:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td></tr>
+<tr class="separator:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td></tr>
+<tr class="separator:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td></tr>
+<tr class="memdesc:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">More...</a><br /></td></tr>
+<tr class="separator:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td></tr>
+<tr class="memdesc:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">More...</a><br /></td></tr>
+<tr class="separator:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td></tr>
+<tr class="separator:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td></tr>
+<tr class="separator:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td></tr>
+<tr class="memdesc:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">More...</a><br /></td></tr>
+<tr class="separator:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td></tr>
+<tr class="separator:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td></tr>
+<tr class="memdesc:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">More...</a><br /></td></tr>
+<tr class="separator:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td></tr>
+<tr class="memdesc:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, mainloop is instantiated twice. The first instantiation contains no predicate.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">More...</a><br /></td></tr>
+<tr class="separator:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td></tr>
+<tr class="memdesc:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, residue is computed in the prologue.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">More...</a><br /></td></tr>
+<tr class="separator:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td></tr>
+<tr class="memdesc:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, kernel is launched with launch bounds specified.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">More...</a><br /></td></tr>
+<tr class="separator:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <hr/>The documentation for this struct was generated from the following file:<ul>
 <li><a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a></li>
@@ -169,7 +178,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmConfig.png b/docs/structcutlass_1_1gemm_1_1IgemmConfig.png
index 13377f8425..75e0a6a4e4 100644
Binary files a/docs/structcutlass_1_1gemm_1_1IgemmConfig.png and b/docs/structcutlass_1_1gemm_1_1IgemmConfig.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4-members.html
new file mode 100644
index 0000000000..3dde63bd1d
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4-members.html
@@ -0,0 +1,118 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html">IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html">cutlass::gemm::IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html
new file mode 100644
index 0000000000..d5162c70a2
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html
@@ -0,0 +1,186 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.html">IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::IgemmConfig&lt; OutputTile_, int8_t, ThreadGemmShape_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.png" usemap="#cutlass::gemm::IgemmConfig_3C_20OutputTile_5F_2C_20int8_5Ft_2C_20ThreadGemmShape_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::IgemmConfig_3C_20OutputTile_5F_2C_20int8_5Ft_2C_20ThreadGemmShape_5F_20_3E_map" name="cutlass::gemm::IgemmConfig_3C_20OutputTile_5F_2C_20int8_5Ft_2C_20ThreadGemmShape_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmConfig.html" alt="cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;" shape="rect" coords="0,0,1152,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td></tr>
+<tr class="memitem:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a></td></tr>
+<tr class="memdesc:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">More...</a><br /></td></tr>
+<tr class="separator:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a></td></tr>
+<tr class="memdesc:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">More...</a><br /></td></tr>
+<tr class="separator:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a></td></tr>
+<tr class="memdesc:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">More...</a><br /></td></tr>
+<tr class="separator:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a></td></tr>
+<tr class="memdesc:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">More...</a><br /></td></tr>
+<tr class="separator:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a></td></tr>
+<tr class="memdesc:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">More...</a><br /></td></tr>
+<tr class="separator:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a></td></tr>
+<tr class="memdesc:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">More...</a><br /></td></tr>
+<tr class="separator:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">MultiplyAdd::InstructionShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a></td></tr>
+<tr class="memdesc:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">More...</a><br /></td></tr>
+<tr class="separator:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">MultiplyAdd::AccumulatorsPerWarp</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of warp-level GEMM.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">More...</a><br /></td></tr>
+<tr class="separator:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">MultiplyAdd::Accumulators</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a></td></tr>
+<tr class="memdesc:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">More...</a><br /></td></tr>
+<tr class="separator:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a></td></tr>
+<tr class="memdesc:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">More...</a><br /></td></tr>
+<tr class="separator:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; int8_t, int8_t, int8_t, int8_t, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, int8_t, int8_t, int &gt;, 4, 4, 16, 4, 4, 16, 4, 4, 4, 2, false, true, false &gt;</a></td></tr>
+<tr class="memitem:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td></tr>
+<tr class="memdesc:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">More...</a><br /></td></tr>
+<tr class="separator:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td></tr>
+<tr class="memdesc:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">More...</a><br /></td></tr>
+<tr class="separator:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td></tr>
+<tr class="memdesc:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">More...</a><br /></td></tr>
+<tr class="separator:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td></tr>
+<tr class="separator:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td></tr>
+<tr class="separator:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td></tr>
+<tr class="memdesc:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">More...</a><br /></td></tr>
+<tr class="separator:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td></tr>
+<tr class="separator:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td></tr>
+<tr class="separator:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td></tr>
+<tr class="memdesc:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">More...</a><br /></td></tr>
+<tr class="separator:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td></tr>
+<tr class="memdesc:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">More...</a><br /></td></tr>
+<tr class="separator:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td></tr>
+<tr class="separator:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td></tr>
+<tr class="separator:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td></tr>
+<tr class="memdesc:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">More...</a><br /></td></tr>
+<tr class="separator:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td></tr>
+<tr class="separator:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td></tr>
+<tr class="memdesc:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">More...</a><br /></td></tr>
+<tr class="separator:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td></tr>
+<tr class="memdesc:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, mainloop is instantiated twice. The first instantiation contains no predicate.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">More...</a><br /></td></tr>
+<tr class="separator:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td></tr>
+<tr class="memdesc:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, residue is computed in the prologue.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">More...</a><br /></td></tr>
+<tr class="separator:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td></tr>
+<tr class="memdesc:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, kernel is launched with launch bounds specified.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">More...</a><br /></td></tr>
+<tr class="separator:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.png b/docs/structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.png
new file mode 100644
index 0000000000..b4981222d5
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1IgemmConfig_3_01OutputTile___00_01int8__t_00_01ThreadGemmShape___01_4.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogue-members.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogue-members.html
index 73d16eaeb6..d3a37d1fca 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogue-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogue-members.html
@@ -81,38 +81,37 @@
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a07f9a934f04610db41aa1aac2f4cdf04">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">epilogue</a>(Coord&lt; 3 &gt; const &amp;block, Accumulators &amp;accumulators)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">epilogue_with_or_without_beta</a>(Coord&lt; 3 &gt; const &amp;block, Accumulators &amp;accumulators)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">epilogue</a>(Accumulators &amp;accumulators, Coord&lt; 3 &gt; const &amp;block=make_Coord(0, 0, 0), int batch_id=0)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">epilogue_with_or_without_beta</a>(Accumulators &amp;accumulators, Coord&lt; 3 &gt; const &amp;block, int batch_id)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">GemmEpilogue</a>(Params const &amp;params_, SharedStorage &amp;shared_storage_, Index m_, Index n_)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#ab7a51121d24250d6441ee538e6521dc2">IgemmEpilogue</a>(typename Base::Params const &amp;params_, typename Base::SharedStorage &amp;shared_storage_, typename Base::Index m_, typename Base::Index n_)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">m</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">n</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">GemmEpilogue</a>(Params const &amp;params_, SharedStorage &amp;shared_storage_, Coord&lt; 3 &gt; const &amp;_problem_size)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a599a50becefed561d063c1b834188aca">IgemmEpilogue</a>(typename Base::Params const &amp;params_, typename Base::SharedStorage &amp;shared_storage_, Coord&lt; 3 &gt; const &amp;_problem_size)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, bool &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">problem_size</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">shared_load_fence</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">shared_store_fence</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">SharedLoadIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">SharedLoadTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">SharedLoadStreamD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogue.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogue.html
index fdd93ee440..4c0d3cd5f2 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogue.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogue.html
@@ -140,12 +140,9 @@
 <tr class="memitem:a9063e7fc044a679652d5a3a31aa77e7c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">typedef Traits::SharedStoreTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a></td></tr>
 <tr class="memdesc:a9063e7fc044a679652d5a3a31aa77e7c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">More...</a><br /></td></tr>
 <tr class="separator:a9063e7fc044a679652d5a3a31aa77e7c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4a0b439f8a57d8e67174ecbd96183070 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">typedef Traits::SharedLoadIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">SharedLoadIteratorD</a></td></tr>
-<tr class="memdesc:a4a0b439f8a57d8e67174ecbd96183070 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">More...</a><br /></td></tr>
-<tr class="separator:a4a0b439f8a57d8e67174ecbd96183070 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a132cabbc1402c87c7b35dea427001a13 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename SharedLoadIteratorD::Fragment &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">SharedLoadTransformerD</a></td></tr>
-<tr class="memdesc:a132cabbc1402c87c7b35dea427001a13 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared load transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">More...</a><br /></td></tr>
-<tr class="separator:a132cabbc1402c87c7b35dea427001a13 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8e5d38a7795b50a021fc43dc7424288b inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">typedef Traits::SharedLoadStreamD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">SharedLoadStreamD</a></td></tr>
+<tr class="memdesc:a8e5d38a7795b50a021fc43dc7424288b inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">More...</a><br /></td></tr>
+<tr class="separator:a8e5d38a7795b50a021fc43dc7424288b inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a07c93d583bfddd8f916fba6ef809832e inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">typedef Traits::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a></td></tr>
 <tr class="memdesc:a07c93d583bfddd8f916fba6ef809832e inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">More...</a><br /></td></tr>
 <tr class="separator:a07c93d583bfddd8f916fba6ef809832e inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -158,19 +155,19 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:ab7a51121d24250d6441ee538e6521dc2"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#ab7a51121d24250d6441ee538e6521dc2">IgemmEpilogue</a> (typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Base::Params</a> const &amp;params_, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">Base::SharedStorage</a> &amp;shared_storage_, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a> m_, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a> n_)</td></tr>
-<tr class="memdesc:ab7a51121d24250d6441ee538e6521dc2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ab7a51121d24250d6441ee538e6521dc2">More...</a><br /></td></tr>
-<tr class="separator:ab7a51121d24250d6441ee538e6521dc2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a599a50becefed561d063c1b834188aca"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html#a599a50becefed561d063c1b834188aca">IgemmEpilogue</a> (typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Base::Params</a> const &amp;params_, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">Base::SharedStorage</a> &amp;shared_storage_, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;_problem_size)</td></tr>
+<tr class="memdesc:a599a50becefed561d063c1b834188aca"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a599a50becefed561d063c1b834188aca">More...</a><br /></td></tr>
+<tr class="separator:a599a50becefed561d063c1b834188aca"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td></tr>
-<tr class="memitem:ab10147070c3a38fca75397f55dc51925 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">GemmEpilogue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> const &amp;params_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> &amp;shared_storage_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> m_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> n_)</td></tr>
-<tr class="memdesc:ab10147070c3a38fca75397f55dc51925 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">More...</a><br /></td></tr>
-<tr class="separator:ab10147070c3a38fca75397f55dc51925 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae1983e37454ed14272b23b964614c54c inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">epilogue</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators)</td></tr>
-<tr class="memdesc:ae1983e37454ed14272b23b964614c54c inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">Execute the epilogue.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">More...</a><br /></td></tr>
-<tr class="separator:ae1983e37454ed14272b23b964614c54c inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0c24dce365565f75e7edc1de1cb50ea4 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memTemplParams" colspan="2">template&lt;bool kBetaIsZero_&gt; </td></tr>
-<tr class="memitem:a0c24dce365565f75e7edc1de1cb50ea4 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">epilogue_with_or_without_beta</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators)</td></tr>
-<tr class="separator:a0c24dce365565f75e7edc1de1cb50ea4 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af91ebe8d2ed73808b9ea8846c140d3f8 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">GemmEpilogue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> const &amp;params_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> &amp;shared_storage_, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;_problem_size)</td></tr>
+<tr class="memdesc:af91ebe8d2ed73808b9ea8846c140d3f8 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">More...</a><br /></td></tr>
+<tr class="separator:af91ebe8d2ed73808b9ea8846c140d3f8 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6f1f96715425b7196e960907676a7db3 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">epilogue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0), int batch_id=0)</td></tr>
+<tr class="memdesc:a6f1f96715425b7196e960907676a7db3 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">Execute the epilogue.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">More...</a><br /></td></tr>
+<tr class="separator:a6f1f96715425b7196e960907676a7db3 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7af2eb421840e037263e6a144cca5c32 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memTemplParams" colspan="2">template&lt;bool kSourceRequired&gt; </td></tr>
+<tr class="memitem:a7af2eb421840e037263e6a144cca5c32 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">epilogue_with_or_without_beta</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block, int batch_id)</td></tr>
+<tr class="separator:a7af2eb421840e037263e6a144cca5c32 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a9b5e42f222fec98ff479bc1650221b84 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">shared_load_fence</a> ()</td></tr>
 <tr class="memdesc:a9b5e42f222fec98ff479bc1650221b84 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared loads.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">More...</a><br /></td></tr>
 <tr class="separator:a9b5e42f222fec98ff479bc1650221b84 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -187,11 +184,11 @@
 <tr class="memitem:a442b5b5688cd658c3b3476650c00281e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a></td></tr>
 <tr class="memdesc:a442b5b5688cd658c3b3476650c00281e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">More...</a><br /></td></tr>
 <tr class="separator:a442b5b5688cd658c3b3476650c00281e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac344bf5ca318dc343bd6fa6bf52d2e22 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">m</a></td></tr>
-<tr class="memdesc:ac344bf5ca318dc343bd6fa6bf52d2e22 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The dimensions of the GEMM.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">More...</a><br /></td></tr>
-<tr class="separator:ac344bf5ca318dc343bd6fa6bf52d2e22 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9cc371cd2f1a9485583afdacbb7403ea inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">n</a></td></tr>
-<tr class="separator:a9cc371cd2f1a9485583afdacbb7403ea inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6bea57249e3645a4b08a11619cb1687e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">problem_size</a></td></tr>
+<tr class="memdesc:a6bea57249e3645a4b08a11619cb1687e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The dimensions of the GEMM.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">More...</a><br /></td></tr>
+<tr class="separator:a6bea57249e3645a4b08a11619cb1687e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5aa254702fcf24630e04ceb174aa3d57 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a></td></tr>
+<tr class="separator:a5aa254702fcf24630e04ceb174aa3d57 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="a07f9a934f04610db41aa1aac2f4cdf04"></a>
@@ -211,8 +208,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a07f9a934f04610db41aa1aac
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="ab7a51121d24250d6441ee538e6521dc2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab7a51121d24250d6441ee538e6521dc2">&#9670;&nbsp;</a></span>IgemmEpilogue()</h2>
+<a id="a599a50becefed561d063c1b834188aca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a599a50becefed561d063c1b834188aca">&#9670;&nbsp;</a></span>IgemmEpilogue()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -237,14 +234,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab7a51121d24250d6441ee538
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a>&#160;</td>
-          <td class="paramname"><em>m_</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a>&#160;</td>
-          <td class="paramname"><em>n_</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>_problem_size</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -267,7 +258,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab7a51121d24250d6441ee538
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar-members.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar-members.html
index 9d49d21c8a..5e14e09e2a 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html
index 9ae00dbd48..aef95638f2 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab1068ba72468f9ede1d05ba4
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4-members.html
index b7179e432d..d21ec8326e 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html
index ab260d7082..660d766b87 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueScalar_3_01int_01_4.html
@@ -108,7 +108,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0983fd25494f6a7ed5af37a0
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits-members.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits-members.html
index fc77b4b7b1..138a0c2dc3 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits-members.html
@@ -79,27 +79,27 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">cutlass::gemm::IgemmEpilogueTraits&lt; IgemmConfig_, EpilogueFunctor_, Index_, Helper_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">Functor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">Functor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html#a8609af98d1e43cd25688bae6f33feed4">kInt8Output</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">cutlass::gemm::IgemmEpilogueTraits&lt; IgemmConfig_, EpilogueFunctor_, Index_, Helper_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">SharedLoadIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">SharedLoadStreamD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html
index 16b5df0431..d36c461acb 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html
@@ -87,7 +87,7 @@
  <div class="center">
   <img src="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.png" usemap="#cutlass::gemm::IgemmEpilogueTraits_3C_20IgemmConfig_5F_2C_20EpilogueFunctor_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" alt=""/>
   <map id="cutlass::gemm::IgemmEpilogueTraits_3C_20IgemmConfig_5F_2C_20EpilogueFunctor_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" name="cutlass::gemm::IgemmEpilogueTraits_3C_20IgemmConfig_5F_2C_20EpilogueFunctor_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" alt="cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;" shape="rect" coords="0,0,2164,24"/>
+<area href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" alt="cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;" shape="rect" coords="0,0,2163,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
@@ -99,54 +99,54 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td></tr>
-<tr class="memitem:aed1bd9df5ff579ba3e36ae5ba781c075 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef IgemmConfig_::OutputTile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">OutputTile</a></td></tr>
-<tr class="memdesc:aed1bd9df5ff579ba3e36ae5ba781c075 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">More...</a><br /></td></tr>
-<tr class="separator:aed1bd9df5ff579ba3e36ae5ba781c075 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af7ff579ccb4269bfa5e9ae297260f7a2 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef IgemmConfig_::Accumulators&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">Accumulators</a></td></tr>
-<tr class="separator:af7ff579ccb4269bfa5e9ae297260f7a2 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8409d84ee282a4d6953bd41149d8b9c2 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalLoadIteratorC&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">GlobalLoadIteratorC</a></td></tr>
-<tr class="memdesc:a8409d84ee282a4d6953bd41149d8b9c2 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for C in global memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">More...</a><br /></td></tr>
-<tr class="separator:a8409d84ee282a4d6953bd41149d8b9c2 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a051f25a4aa3ea71ff400582228adbdaa inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalTransformerC&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">GlobalTransformerC</a></td></tr>
-<tr class="memdesc:a051f25a4aa3ea71ff400582228adbdaa inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for C.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">More...</a><br /></td></tr>
-<tr class="separator:a051f25a4aa3ea71ff400582228adbdaa inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a261e526c6a8e832bc483bf4e486cc9d7 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">GlobalTransformerD</a></td></tr>
-<tr class="memdesc:a261e526c6a8e832bc483bf4e486cc9d7 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">More...</a><br /></td></tr>
-<tr class="separator:a261e526c6a8e832bc483bf4e486cc9d7 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aeef5745d149770c9f79e12f6d97ffce1 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalStoreIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">GlobalStoreIteratorD</a></td></tr>
-<tr class="memdesc:aeef5745d149770c9f79e12f6d97ffce1 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for D in global memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">More...</a><br /></td></tr>
-<tr class="separator:aeef5745d149770c9f79e12f6d97ffce1 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a74f4beb86447f6b613e9b60234cb27bc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedStoreIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">SharedStoreIteratorD</a></td></tr>
-<tr class="memdesc:a74f4beb86447f6b613e9b60234cb27bc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">More...</a><br /></td></tr>
-<tr class="separator:a74f4beb86447f6b613e9b60234cb27bc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0b8ac1972b2f2cff48070f8b862ed25c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedStoreTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">SharedStoreTransformerD</a></td></tr>
-<tr class="memdesc:a0b8ac1972b2f2cff48070f8b862ed25c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">More...</a><br /></td></tr>
-<tr class="separator:a0b8ac1972b2f2cff48070f8b862ed25c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9822fa405b32cc2f471c9fdd37585cb5 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedLoadIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">SharedLoadIteratorD</a></td></tr>
-<tr class="memdesc:a9822fa405b32cc2f471c9fdd37585cb5 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">More...</a><br /></td></tr>
-<tr class="separator:a9822fa405b32cc2f471c9fdd37585cb5 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab00969bdda930eeb7b82985c476adf7d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">Iterations</a></td></tr>
-<tr class="memdesc:ab00969bdda930eeb7b82985c476adf7d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">typedef typename GemmConfig::EpilogueIterations Iterations;  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">More...</a><br /></td></tr>
-<tr class="separator:ab00969bdda930eeb7b82985c476adf7d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af1f105d4712f01880b0944666e2f81ae inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">Delta</a></td></tr>
-<tr class="memdesc:af1f105d4712f01880b0944666e2f81ae inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterations strides.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">More...</a><br /></td></tr>
-<tr class="separator:af1f105d4712f01880b0944666e2f81ae inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7cdb30f17692e8fdb3dd4cf4c0b8e9ee inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef EpilogueFunctor_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">Functor</a></td></tr>
-<tr class="memdesc:a7cdb30f17692e8fdb3dd4cf4c0b8e9ee inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor in charge of the math.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">More...</a><br /></td></tr>
-<tr class="separator:a7cdb30f17692e8fdb3dd4cf4c0b8e9ee inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab430d05bd17efd60c28077c87b5ca331 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a></td></tr>
-<tr class="memdesc:ab430d05bd17efd60c28077c87b5ca331 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">More...</a><br /></td></tr>
-<tr class="separator:ab430d05bd17efd60c28077c87b5ca331 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a006e50cf5fb67407d41c60d6d08b8b66 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Functor::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">Scalar</a></td></tr>
-<tr class="memdesc:a006e50cf5fb67407d41c60d6d08b8b66 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">We do not support 3D or 4D shapes.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">More...</a><br /></td></tr>
-<tr class="separator:a006e50cf5fb67407d41c60d6d08b8b66 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abf97949c238d72854225c1c6131b5cbc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadIteratorC::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">ScalarC</a></td></tr>
-<tr class="memdesc:abf97949c238d72854225c1c6131b5cbc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">More...</a><br /></td></tr>
-<tr class="separator:abf97949c238d72854225c1c6131b5cbc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1ee74d6f89b044578e1cd6dd210ce5fe inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalStoreIteratorD::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">ScalarD</a></td></tr>
-<tr class="memdesc:a1ee74d6f89b044578e1cd6dd210ce5fe inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">More...</a><br /></td></tr>
-<tr class="separator:a1ee74d6f89b044578e1cd6dd210ce5fe inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; IgemmConfig_::OutputTile, IgemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td></tr>
+<tr class="memitem:af4d17d3774382fc0ba63d329bd12772c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef IgemmConfig_::OutputTile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">OutputTile</a></td></tr>
+<tr class="memdesc:af4d17d3774382fc0ba63d329bd12772c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">More...</a><br /></td></tr>
+<tr class="separator:af4d17d3774382fc0ba63d329bd12772c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af27cfae15beafcfbaf6d660781cbe5c4 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef IgemmConfig_::Accumulators&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">Accumulators</a></td></tr>
+<tr class="separator:af27cfae15beafcfbaf6d660781cbe5c4 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4de6207ce3843d6c4325abc7d7abcf24 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalLoadIteratorC&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">GlobalLoadIteratorC</a></td></tr>
+<tr class="memdesc:a4de6207ce3843d6c4325abc7d7abcf24 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for C in global memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">More...</a><br /></td></tr>
+<tr class="separator:a4de6207ce3843d6c4325abc7d7abcf24 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a853b7ad3afb06fd720afc4559df2198d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalTransformerC&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">GlobalTransformerC</a></td></tr>
+<tr class="memdesc:a853b7ad3afb06fd720afc4559df2198d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for C.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">More...</a><br /></td></tr>
+<tr class="separator:a853b7ad3afb06fd720afc4559df2198d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adb4eb47c84dc1c6df2556e72ff5800e6 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">GlobalTransformerD</a></td></tr>
+<tr class="memdesc:adb4eb47c84dc1c6df2556e72ff5800e6 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">More...</a><br /></td></tr>
+<tr class="separator:adb4eb47c84dc1c6df2556e72ff5800e6 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada036c0457773a42fb18bc0463071d02 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalStoreIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">GlobalStoreIteratorD</a></td></tr>
+<tr class="memdesc:ada036c0457773a42fb18bc0463071d02 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for D in global memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">More...</a><br /></td></tr>
+<tr class="separator:ada036c0457773a42fb18bc0463071d02 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a48dee5c2aafb86e999732a1347c9f668 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedStoreIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">SharedStoreIteratorD</a></td></tr>
+<tr class="memdesc:a48dee5c2aafb86e999732a1347c9f668 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">More...</a><br /></td></tr>
+<tr class="separator:a48dee5c2aafb86e999732a1347c9f668 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a685d59ee03a226e62660e83c4c60ca69 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedStoreTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">SharedStoreTransformerD</a></td></tr>
+<tr class="memdesc:a685d59ee03a226e62660e83c4c60ca69 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">More...</a><br /></td></tr>
+<tr class="separator:a685d59ee03a226e62660e83c4c60ca69 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5bb3232a2f15d8263d058c69b0839e2f inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedLoadStreamD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">SharedLoadStreamD</a></td></tr>
+<tr class="memdesc:a5bb3232a2f15d8263d058c69b0839e2f inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to store D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">More...</a><br /></td></tr>
+<tr class="separator:a5bb3232a2f15d8263d058c69b0839e2f inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7cf2e703f78b877ad551d0516982da10 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">Iterations</a></td></tr>
+<tr class="memdesc:a7cf2e703f78b877ad551d0516982da10 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">typedef typename GemmConfig::EpilogueIterations Iterations;  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">More...</a><br /></td></tr>
+<tr class="separator:a7cf2e703f78b877ad551d0516982da10 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a84b89d856f548a26fa1dc15bfd2940da inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">Delta</a></td></tr>
+<tr class="memdesc:a84b89d856f548a26fa1dc15bfd2940da inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterations strides.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">More...</a><br /></td></tr>
+<tr class="separator:a84b89d856f548a26fa1dc15bfd2940da inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8acbe7bfa905258a964ef56e634d4c99 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef EpilogueFunctor_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">Functor</a></td></tr>
+<tr class="memdesc:a8acbe7bfa905258a964ef56e634d4c99 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor in charge of the math.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">More...</a><br /></td></tr>
+<tr class="separator:a8acbe7bfa905258a964ef56e634d4c99 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a23b0e6a448e51f2e0837af95802c23b0 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a></td></tr>
+<tr class="memdesc:a23b0e6a448e51f2e0837af95802c23b0 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">More...</a><br /></td></tr>
+<tr class="separator:a23b0e6a448e51f2e0837af95802c23b0 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f15d59a7571d406d5ef593c342f0d4a inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Functor::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">Scalar</a></td></tr>
+<tr class="memdesc:a8f15d59a7571d406d5ef593c342f0d4a inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">We do not support 3D or 4D shapes.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">More...</a><br /></td></tr>
+<tr class="separator:a8f15d59a7571d406d5ef593c342f0d4a inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa794b5f04ce736cdba0d778861ce3a9c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadIteratorC::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">ScalarC</a></td></tr>
+<tr class="memdesc:aa794b5f04ce736cdba0d778861ce3a9c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">More...</a><br /></td></tr>
+<tr class="separator:aa794b5f04ce736cdba0d778861ce3a9c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad9a81c3ff36a4f3aa376e2cff94cbb50 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalStoreIteratorD::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a></td></tr>
+<tr class="memdesc:ad9a81c3ff36a4f3aa376e2cff94cbb50 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">More...</a><br /></td></tr>
+<tr class="separator:ad9a81c3ff36a4f3aa376e2cff94cbb50 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Data Documentation</h2>
 <a id="a8609af98d1e43cd25688bae6f33feed4"></a>
@@ -179,7 +179,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8609af98d1e43cd25688bae6
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits.png b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits.png
index ed357320db..e06e833365 100644
Binary files a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits.png and b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraits.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper-members.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper-members.html
index 66ddf397db..716396c2cc 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper-members.html
@@ -95,15 +95,16 @@
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa">SharedLoadIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">SharedLoadStreamD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html">cutlass::gemm::GemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html
index 555b0ce9b5..e5a31537cc 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html
@@ -114,7 +114,7 @@
 <tr class="memitem:a24826f99d097eea0298e6be12a6327b9"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#aaa009025dcd6360ead1dc18005688821">GlobalLoadTileTraits</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a24826f99d097eea0298e6be12a6327b9">GlobalLoadIteratorC</a></td></tr>
 <tr class="memdesc:a24826f99d097eea0298e6be12a6327b9"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store to shared memory.  <a href="#a24826f99d097eea0298e6be12a6327b9">More...</a><br /></td></tr>
 <tr class="separator:a24826f99d097eea0298e6be12a6327b9"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad8e5337f3d19437e9c4cafcfcc3e3d3e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalLoadIteratorC::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">GlobalFragmentC</a></td></tr>
+<tr class="memitem:ad8e5337f3d19437e9c4cafcfcc3e3d3e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalLoadIteratorC::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">GlobalFragmentC</a></td></tr>
 <tr class="memdesc:ad8e5337f3d19437e9c4cafcfcc3e3d3e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment that needs to be produced by the load iterator.  <a href="#ad8e5337f3d19437e9c4cafcfcc3e3d3e">More...</a><br /></td></tr>
 <tr class="separator:ad8e5337f3d19437e9c4cafcfcc3e3d3e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:ad0116b2e7b2ca1526246e2ff7e73fd2f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html">IgemmGlobalLoadTransformer</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">GlobalFragmentC</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00">Scalar</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad0116b2e7b2ca1526246e2ff7e73fd2f">GlobalTransformerC</a></td></tr>
@@ -126,25 +126,25 @@
 <tr class="memitem:ad3e937c15bfac443b0e3b94d702f46b2"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a16b06a1611dbd22adaa0c9ee5e1b15bd">GlobalStoreTileTraits</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad3e937c15bfac443b0e3b94d702f46b2">GlobalStoreIteratorD</a></td></tr>
 <tr class="memdesc:ad3e937c15bfac443b0e3b94d702f46b2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store to shared memory.  <a href="#ad3e937c15bfac443b0e3b94d702f46b2">More...</a><br /></td></tr>
 <tr class="separator:ad3e937c15bfac443b0e3b94d702f46b2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a723cd69ee4d5c26579b36e02c531ea88"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalStoreIteratorD::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88">GlobalFragmentD</a></td></tr>
+<tr class="memitem:a723cd69ee4d5c26579b36e02c531ea88"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalStoreIteratorD::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88">GlobalFragmentD</a></td></tr>
 <tr class="memdesc:a723cd69ee4d5c26579b36e02c531ea88"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment that needs to be passed to that store iterator.  <a href="#a723cd69ee4d5c26579b36e02c531ea88">More...</a><br /></td></tr>
 <tr class="separator:a723cd69ee4d5c26579b36e02c531ea88"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a880293ef6a48a0f4941c8f984c36f591"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html">IgemmGlobalStoreTransformer</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ae4128bba3f1df6ef7824e2db79745b00">Scalar</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88">GlobalFragmentD</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a880293ef6a48a0f4941c8f984c36f591">GlobalTransformerD</a></td></tr>
 <tr class="memdesc:a880293ef6a48a0f4941c8f984c36f591"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer from accumulators to shared memory fragments.  <a href="#a880293ef6a48a0f4941c8f984c36f591">More...</a><br /></td></tr>
 <tr class="separator:a880293ef6a48a0f4941c8f984c36f591"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad7659dc0eaa491447ad127ef7098924f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">Base::SharedStoreTileTraits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a></td></tr>
+<tr class="memitem:ad7659dc0eaa491447ad127ef7098924f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">Base::SharedStoreTileTraits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a></td></tr>
 <tr class="memdesc:ad7659dc0eaa491447ad127ef7098924f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class for the shared iterator to store D to shared memory.  <a href="#ad7659dc0eaa491447ad127ef7098924f">More...</a><br /></td></tr>
 <tr class="separator:ad7659dc0eaa491447ad127ef7098924f"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:af7024128202d642d3535e1ae5cf5f43d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#af7024128202d642d3535e1ae5cf5f43d">SharedStoreIteratorD</a></td></tr>
 <tr class="memdesc:af7024128202d642d3535e1ae5cf5f43d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared iterator to store D to shared memory.  <a href="#af7024128202d642d3535e1ae5cf5f43d">More...</a><br /></td></tr>
 <tr class="separator:af7024128202d642d3535e1ae5cf5f43d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5e64440830b36899f9c0ed8b369665c8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">SharedStoreIteratorD::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a></td></tr>
+<tr class="memitem:a5e64440830b36899f9c0ed8b369665c8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">SharedStoreIteratorD::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a></td></tr>
 <tr class="memdesc:a5e64440830b36899f9c0ed8b369665c8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment that needs to be passed to that store iterator.  <a href="#a5e64440830b36899f9c0ed8b369665c8">More...</a><br /></td></tr>
 <tr class="separator:a5e64440830b36899f9c0ed8b369665c8"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a00000e0cd14b9e6e242eafb5133af8cf"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html">IgemmSharedStoreTransformer</a>&lt; typename <a class="el" href="structcutlass_1_1Fragment.html#a9c67fa5bbd0b8b49bd6ec002dee3cbab">IgemmConfig::Accumulators::Element</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a00000e0cd14b9e6e242eafb5133af8cf">SharedStoreTransformerD</a></td></tr>
 <tr class="memdesc:a00000e0cd14b9e6e242eafb5133af8cf"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer from accumulators to shared memory fragments.  <a href="#a00000e0cd14b9e6e242eafb5133af8cf">More...</a><br /></td></tr>
 <tr class="separator:a00000e0cd14b9e6e242eafb5133af8cf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a851113bffb5b656c5c649845852b3b8d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">Base::SharedLoadTileTraits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a></td></tr>
+<tr class="memitem:a851113bffb5b656c5c649845852b3b8d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">Base::SharedLoadTileTraits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a></td></tr>
 <tr class="memdesc:a851113bffb5b656c5c649845852b3b8d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class for the shared iterator to load D from shared memory.  <a href="#a851113bffb5b656c5c649845852b3b8d">More...</a><br /></td></tr>
 <tr class="separator:a851113bffb5b656c5c649845852b3b8d"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:ad33ee44527a7fcfd41b4e677927fd4fa"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad33ee44527a7fcfd41b4e677927fd4fa">SharedLoadIteratorD</a></td></tr>
@@ -165,28 +165,31 @@
 <tr class="memitem:a981134cf87d85aa28570a62d9e878b10 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef EpilogueFunctor_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">Functor</a></td></tr>
 <tr class="memdesc:a981134cf87d85aa28570a62d9e878b10 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do the math in the epilogue.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a981134cf87d85aa28570a62d9e878b10">More...</a><br /></td></tr>
 <tr class="separator:a981134cf87d85aa28570a62d9e878b10 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3a0fb3a914bfd009ff2e3918bcd231a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a>&lt; typename Functor::Scalar, typename IgemmConfig_ ::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">OutputTile</a>, typename IgemmConfig_ ::Warps, typename IgemmConfig_ ::MultiplyAdd::ThreadsPerWarp, IgemmConfig_ ::kScalarsPerStsD, 128/sizeof(typename IgemmConfig_ ::ScalarD)/IgemmConfig_ ::kScalarsPerStsD/2 *IgemmConfig_ ::kScalarsPerStsD &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">SharedStoreTileTraits</a></td></tr>
-<tr class="memdesc:a3a0fb3a914bfd009ff2e3918bcd231a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store to shared memory for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">More...</a><br /></td></tr>
-<tr class="separator:a3a0fb3a914bfd009ff2e3918bcd231a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a02a517fd246fb961727d3bd1b4f954be inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">SharedStoreTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>, IteratorAdvance::kH, MemorySpace::kShared &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">SharedStoreIteratorD</a></td></tr>
+<tr class="memitem:aad9a6190cccbc5c23a86f09c45c0e507 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html">GemmSharedStoreTileDTraits</a>&lt; typename Functor::ScalarAccum, typename IgemmConfig_ ::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">OutputTile</a>, typename IgemmConfig_ ::Warps, typename IgemmConfig_ ::MultiplyAdd::ThreadsPerWarp, IgemmConfig_ ::kScalarsPerStsD, 128/sizeof(typename IgemmConfig_ ::ScalarD)/IgemmConfig_ ::kScalarsPerStsD/2 *IgemmConfig_ ::kScalarsPerStsD &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">SharedStoreTileTraits</a></td></tr>
+<tr class="memdesc:aad9a6190cccbc5c23a86f09c45c0e507 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store to shared memory for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">More...</a><br /></td></tr>
+<tr class="separator:aad9a6190cccbc5c23a86f09c45c0e507 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a02a517fd246fb961727d3bd1b4f954be inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">SharedStoreTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileDTraits.html#a9a2218b570dada2f1e3ccd8004c47856">SharedStoreTileTraits::Scalar</a>, IteratorAdvance::kH, MemorySpace::kShared &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">SharedStoreIteratorD</a></td></tr>
 <tr class="memdesc:a02a517fd246fb961727d3bd1b4f954be inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D to shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a02a517fd246fb961727d3bd1b4f954be">More...</a><br /></td></tr>
 <tr class="separator:a02a517fd246fb961727d3bd1b4f954be inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa5cea8dbebda9a12a503ae1416c4da33 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">SharedStoreIteratorD::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">SharedStoreTransformerD</a></td></tr>
+<tr class="memitem:aa5cea8dbebda9a12a503ae1416c4da33 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">SharedStoreIteratorD::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">SharedStoreTransformerD</a></td></tr>
 <tr class="memdesc:aa5cea8dbebda9a12a503ae1416c4da33 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aa5cea8dbebda9a12a503ae1416c4da33">More...</a><br /></td></tr>
 <tr class="separator:aa5cea8dbebda9a12a503ae1416c4da33 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab8ba28fd1da48fcabbafc0de91281b46 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a>&lt; typename Functor::Scalar, typename IgemmConfig_ ::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">OutputTile</a>, typename IgemmConfig_ ::Warps, typename IgemmConfig_ ::MultiplyAdd::ThreadsPerWarp, IgemmConfig_ ::OutputTile::kH/<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a> &gt;::kCount, IgemmConfig_ ::kScalarsPerLdsD, SharedStoreTileTraits::kSkew &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">SharedLoadTileTraits</a></td></tr>
-<tr class="memdesc:ab8ba28fd1da48fcabbafc0de91281b46 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">More...</a><br /></td></tr>
-<tr class="separator:ab8ba28fd1da48fcabbafc0de91281b46 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:adbff60de6f90ef4d5ae0c7096692e2c0 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">SharedLoadTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>, IteratorAdvance::kH, MemorySpace::kShared &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a></td></tr>
+<tr class="memitem:a076ea17d901d22d3b69bf9c621858235 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html">GemmSharedLoadTileDTraits</a>&lt; typename Functor::ScalarAccum, typename IgemmConfig_ ::<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ac30a062bed1a65e45961c4f301b69101">OutputTile</a>, typename IgemmConfig_ ::Warps, typename IgemmConfig_ ::MultiplyAdd::ThreadsPerWarp, IgemmConfig_ ::OutputTile::kH/<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a> &gt;::kCount, IgemmConfig_ ::kScalarsPerLdsD, SharedStoreTileTraits::kSkew &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">SharedLoadTileTraits</a></td></tr>
+<tr class="memdesc:a076ea17d901d22d3b69bf9c621858235 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">More...</a><br /></td></tr>
+<tr class="separator:a076ea17d901d22d3b69bf9c621858235 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adbff60de6f90ef4d5ae0c7096692e2c0 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">SharedLoadTileTraits</a>, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileDTraits.html#a1b025cb056729706f36469e74a9799dc">SharedLoadTileTraits::Scalar</a>, IteratorAdvance::kH, MemorySpace::kShared &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a></td></tr>
 <tr class="memdesc:adbff60de6f90ef4d5ae0c7096692e2c0 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load D from shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">More...</a><br /></td></tr>
 <tr class="separator:adbff60de6f90ef4d5ae0c7096692e2c0 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9e511e1852668e0a242315c24888dee3 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#adbff60de6f90ef4d5ae0c7096692e2c0">SharedLoadIteratorD</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">SharedLoadStreamD</a></td></tr>
+<tr class="memdesc:a9e511e1852668e0a242315c24888dee3 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a9e511e1852668e0a242315c24888dee3">More...</a><br /></td></tr>
+<tr class="separator:a9e511e1852668e0a242315c24888dee3 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a94f00f94a88588522ca3f9f0197a5a9b inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a>&lt; typename IgemmConfig_ ::ScalarC const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, IgemmConfig_ ::OutputTile::kH/<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a> &gt;::kCount, IgemmConfig_ ::OutputTile::kW &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename IgemmConfig_ ::Warps &gt;::kCount, IgemmConfig_ ::kWarpSize &gt;, Iterations::kW, IgemmConfig_ ::kScalarsPerLdgC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">GlobalLoadTileTraits</a></td></tr>
 <tr class="memdesc:a94f00f94a88588522ca3f9f0197a5a9b inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for C^N.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">More...</a><br /></td></tr>
 <tr class="separator:a94f00f94a88588522ca3f9f0197a5a9b inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:aeea13630bb281834b717f8d9d13a9319 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a94f00f94a88588522ca3f9f0197a5a9b">GlobalLoadTileTraits</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">GlobalLoadIteratorC</a></td></tr>
 <tr class="memdesc:aeea13630bb281834b717f8d9d13a9319 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load C.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aeea13630bb281834b717f8d9d13a9319">More...</a><br /></td></tr>
 <tr class="separator:aeea13630bb281834b717f8d9d13a9319 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0682b61d1a1a951026ff026bff9361bb inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalLoadIteratorC::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">GlobalTransformerC</a></td></tr>
+<tr class="memitem:a0682b61d1a1a951026ff026bff9361bb inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalLoadIteratorC::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">GlobalTransformerC</a></td></tr>
 <tr class="memdesc:a0682b61d1a1a951026ff026bff9361bb inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for C.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a0682b61d1a1a951026ff026bff9361bb">More...</a><br /></td></tr>
 <tr class="separator:a0682b61d1a1a951026ff026bff9361bb inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a16d7df2934c3c59d9b8f36f7a2137aee inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileCdTraits.html">GemmGlobalTileCdTraits</a>&lt; typename IgemmConfig_ ::ScalarD, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, IgemmConfig_ ::OutputTile::kH/<a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ad7b23352072b1509d3383ee775756d2a">Iterations</a> &gt;::kCount, IgemmConfig_ ::OutputTile::kW &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename IgemmConfig_ ::Warps &gt;::kCount, IgemmConfig_ ::kWarpSize &gt;, Iterations::kW, IgemmConfig_ ::kScalarsPerStgD &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee">GlobalStoreTileTraits</a></td></tr>
@@ -195,7 +198,7 @@
 <tr class="memitem:a23be7b4b498c17f9235a2b4896f1bffb inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a16d7df2934c3c59d9b8f36f7a2137aee">GlobalStoreTileTraits</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">GlobalStoreIteratorD</a></td></tr>
 <tr class="memdesc:a23be7b4b498c17f9235a2b4896f1bffb inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a23be7b4b498c17f9235a2b4896f1bffb">More...</a><br /></td></tr>
 <tr class="separator:a23be7b4b498c17f9235a2b4896f1bffb inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae96c5a3d58dc7a95543f8749f762ca43 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalStoreIteratorD::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">GlobalTransformerD</a></td></tr>
+<tr class="memitem:ae96c5a3d58dc7a95543f8749f762ca43 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalStoreIteratorD::Fragment</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">GlobalTransformerD</a></td></tr>
 <tr class="memdesc:ae96c5a3d58dc7a95543f8749f762ca43 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ae96c5a3d58dc7a95543f8749f762ca43">More...</a><br /></td></tr>
 <tr class="separator:ae96c5a3d58dc7a95543f8749f762ca43 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
@@ -241,7 +244,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad8e5337f3d19437e9c4cafcf
 template&lt;typename IgemmConfig_ , typename EpilogueFunctor_ , typename Index_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalLoadIteratorC::Fragment</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a>&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">GlobalFragmentC</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalLoadIteratorC::Fragment</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a>&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad8e5337f3d19437e9c4cafcfcc3e3d3e">GlobalFragmentC</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -257,7 +260,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a723cd69ee4d5c26579b36e02
 template&lt;typename IgemmConfig_ , typename EpilogueFunctor_ , typename Index_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">GlobalStoreIteratorD::Fragment</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a>&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88">GlobalFragmentD</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">GlobalStoreIteratorD::Fragment</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a>&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a723cd69ee4d5c26579b36e02c531ea88">GlobalFragmentD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -433,7 +436,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a851113bffb5b656c5c649845
 template&lt;typename IgemmConfig_ , typename EpilogueFunctor_ , typename Index_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#ab8ba28fd1da48fcabbafc0de91281b46">Base::SharedLoadTileTraits</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a>&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a076ea17d901d22d3b69bf9c621858235">Base::SharedLoadTileTraits</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a>&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a851113bffb5b656c5c649845852b3b8d">SharedLoadTileTraits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -449,7 +452,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5e64440830b36899f9c0ed8b
 template&lt;typename IgemmConfig_ , typename EpilogueFunctor_ , typename Index_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">SharedStoreIteratorD::Fragment</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a>&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">SharedStoreIteratorD::Fragment</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a>&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#a5e64440830b36899f9c0ed8b369665c8">SharedStoreFragmentD</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -481,7 +484,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad7659dc0eaa491447ad127ef
 template&lt;typename IgemmConfig_ , typename EpilogueFunctor_ , typename Index_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#a3a0fb3a914bfd009ff2e3918bcd231a9">Base::SharedStoreTileTraits</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a>&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraitsHelper.html#aad9a6190cccbc5c23a86f09c45c0e507">Base::SharedStoreTileTraits</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html">cutlass::gemm::IgemmEpilogueTraitsHelper</a>&lt; IgemmConfig_, EpilogueFunctor_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraitsHelper.html#ad7659dc0eaa491447ad127ef7098924f">SharedStoreTileTraits</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -510,7 +513,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a00000e0cd14b9e6e242eafb5
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4-members.html
index 7b975671b2..de8fb76c5e 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4-members.html
@@ -81,38 +81,37 @@
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a98b415dbe6f7b6cb0c41a4e6b3ad5abf">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">epilogue</a>(Coord&lt; 3 &gt; const &amp;block, Accumulators &amp;accumulators)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">epilogue_with_or_without_beta</a>(Coord&lt; 3 &gt; const &amp;block, Accumulators &amp;accumulators)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">epilogue</a>(Accumulators &amp;accumulators, Coord&lt; 3 &gt; const &amp;block=make_Coord(0, 0, 0), int batch_id=0)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">epilogue_with_or_without_beta</a>(Accumulators &amp;accumulators, Coord&lt; 3 &gt; const &amp;block, int batch_id)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">GemmEpilogue</a>(Params const &amp;params_, SharedStorage &amp;shared_storage_, Index m_, Index n_)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a49ac00bed1532707aacd3ff108c84623">IgemmEpilogue</a>(typename Base::Params const &amp;params_, typename Base::SharedStorage &amp;shared_storage_, typename Base::Index m_, typename Base::Index n_)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">m</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">n</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">GemmEpilogue</a>(Params const &amp;params_, SharedStorage &amp;shared_storage_, Coord&lt; 3 &gt; const &amp;_problem_size)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aecb5429363c7156ee3ad596fe250120a">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a1c766374d900535c944cf2a2de6925f4">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a41edfd24b7dd2759f8b72ae8534182a9">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a32f618ff19d984447fba7355d46a69a7">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a0a1be1aab827127161406871ca75cbe0">IgemmEpilogue</a>(typename Base::Params const &amp;params_, typename Base::SharedStorage &amp;shared_storage_, Coord&lt; 3 &gt; const &amp;_problem_size)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html">cutlass::gemm::IgemmEpilogue&lt; GemmEpilogueTraits_, true &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e3c978da6ed56239783bf4db0a936ae">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a92a135fac401d43a8d2f14982d90274b">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a81b028a18df51d3caa1b0ba0c990e362">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">problem_size</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0d38914bf97084e04102e7897aee4295">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">shared_load_fence</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac1b2a16b4ccf3e9617faf4d8a2c43691">shared_store_fence</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">SharedLoadIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">SharedLoadTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">SharedLoadStreamD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#aab0a964efe223c5c29bc816c393b5a9a">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a645ab6e9e63163ee6bf536717a30fb1b">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html
index 37e7daa84f..a6ad3ab6ea 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html
@@ -140,12 +140,9 @@
 <tr class="memitem:a9063e7fc044a679652d5a3a31aa77e7c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">typedef Traits::SharedStoreTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">SharedStoreTransformerD</a></td></tr>
 <tr class="memdesc:a9063e7fc044a679652d5a3a31aa77e7c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9063e7fc044a679652d5a3a31aa77e7c">More...</a><br /></td></tr>
 <tr class="separator:a9063e7fc044a679652d5a3a31aa77e7c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4a0b439f8a57d8e67174ecbd96183070 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">typedef Traits::SharedLoadIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">SharedLoadIteratorD</a></td></tr>
-<tr class="memdesc:a4a0b439f8a57d8e67174ecbd96183070 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4a0b439f8a57d8e67174ecbd96183070">More...</a><br /></td></tr>
-<tr class="separator:a4a0b439f8a57d8e67174ecbd96183070 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a132cabbc1402c87c7b35dea427001a13 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename SharedLoadIteratorD::Fragment &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">SharedLoadTransformerD</a></td></tr>
-<tr class="memdesc:a132cabbc1402c87c7b35dea427001a13 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared load transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a132cabbc1402c87c7b35dea427001a13">More...</a><br /></td></tr>
-<tr class="separator:a132cabbc1402c87c7b35dea427001a13 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8e5d38a7795b50a021fc43dc7424288b inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">typedef Traits::SharedLoadStreamD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">SharedLoadStreamD</a></td></tr>
+<tr class="memdesc:a8e5d38a7795b50a021fc43dc7424288b inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a8e5d38a7795b50a021fc43dc7424288b">More...</a><br /></td></tr>
+<tr class="separator:a8e5d38a7795b50a021fc43dc7424288b inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a07c93d583bfddd8f916fba6ef809832e inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">typedef Traits::Index&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a></td></tr>
 <tr class="memdesc:a07c93d583bfddd8f916fba6ef809832e inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">More...</a><br /></td></tr>
 <tr class="separator:a07c93d583bfddd8f916fba6ef809832e inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -158,19 +155,19 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a49ac00bed1532707aacd3ff108c84623"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a49ac00bed1532707aacd3ff108c84623">IgemmEpilogue</a> (typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Base::Params</a> const &amp;params_, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">Base::SharedStorage</a> &amp;shared_storage_, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a> m_, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a> n_)</td></tr>
-<tr class="memdesc:a49ac00bed1532707aacd3ff108c84623"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a49ac00bed1532707aacd3ff108c84623">More...</a><br /></td></tr>
-<tr class="separator:a49ac00bed1532707aacd3ff108c84623"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0a1be1aab827127161406871ca75cbe0"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue_3_01GemmEpilogueTraits___00_01true_01_4.html#a0a1be1aab827127161406871ca75cbe0">IgemmEpilogue</a> (typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Base::Params</a> const &amp;params_, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">Base::SharedStorage</a> &amp;shared_storage_, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;_problem_size)</td></tr>
+<tr class="memdesc:a0a1be1aab827127161406871ca75cbe0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a0a1be1aab827127161406871ca75cbe0">More...</a><br /></td></tr>
+<tr class="separator:a0a1be1aab827127161406871ca75cbe0"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">cutlass::gemm::GemmEpilogue&lt; GemmEpilogueTraits_ &gt;</a></td></tr>
-<tr class="memitem:ab10147070c3a38fca75397f55dc51925 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">GemmEpilogue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> const &amp;params_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> &amp;shared_storage_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> m_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a> n_)</td></tr>
-<tr class="memdesc:ab10147070c3a38fca75397f55dc51925 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ab10147070c3a38fca75397f55dc51925">More...</a><br /></td></tr>
-<tr class="separator:ab10147070c3a38fca75397f55dc51925 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae1983e37454ed14272b23b964614c54c inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">epilogue</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators)</td></tr>
-<tr class="memdesc:ae1983e37454ed14272b23b964614c54c inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">Execute the epilogue.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae1983e37454ed14272b23b964614c54c">More...</a><br /></td></tr>
-<tr class="separator:ae1983e37454ed14272b23b964614c54c inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0c24dce365565f75e7edc1de1cb50ea4 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memTemplParams" colspan="2">template&lt;bool kBetaIsZero_&gt; </td></tr>
-<tr class="memitem:a0c24dce365565f75e7edc1de1cb50ea4 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a0c24dce365565f75e7edc1de1cb50ea4">epilogue_with_or_without_beta</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators)</td></tr>
-<tr class="separator:a0c24dce365565f75e7edc1de1cb50ea4 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af91ebe8d2ed73808b9ea8846c140d3f8 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">GemmEpilogue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ae5209fa80705442693833c63d535161e">Params</a> const &amp;params_, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> &amp;shared_storage_, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;_problem_size)</td></tr>
+<tr class="memdesc:af91ebe8d2ed73808b9ea8846c140d3f8 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#af91ebe8d2ed73808b9ea8846c140d3f8">More...</a><br /></td></tr>
+<tr class="separator:af91ebe8d2ed73808b9ea8846c140d3f8 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6f1f96715425b7196e960907676a7db3 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">epilogue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block=<a class="el" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0), int batch_id=0)</td></tr>
+<tr class="memdesc:a6f1f96715425b7196e960907676a7db3 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">Execute the epilogue.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6f1f96715425b7196e960907676a7db3">More...</a><br /></td></tr>
+<tr class="separator:a6f1f96715425b7196e960907676a7db3 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7af2eb421840e037263e6a144cca5c32 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memTemplParams" colspan="2">template&lt;bool kSourceRequired&gt; </td></tr>
+<tr class="memitem:a7af2eb421840e037263e6a144cca5c32 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a7af2eb421840e037263e6a144cca5c32">epilogue_with_or_without_beta</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#afe6bebd94e3379c94054d04c5196edce">Accumulators</a> &amp;accumulators, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block, int batch_id)</td></tr>
+<tr class="separator:a7af2eb421840e037263e6a144cca5c32 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a9b5e42f222fec98ff479bc1650221b84 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">shared_load_fence</a> ()</td></tr>
 <tr class="memdesc:a9b5e42f222fec98ff479bc1650221b84 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared loads.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9b5e42f222fec98ff479bc1650221b84">More...</a><br /></td></tr>
 <tr class="separator:a9b5e42f222fec98ff479bc1650221b84 inherit pub_methods_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -187,11 +184,11 @@
 <tr class="memitem:a442b5b5688cd658c3b3476650c00281e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac36dad8a7b6bc7fc6ef88e44068468dc">SharedStorage</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">shared_storage</a></td></tr>
 <tr class="memdesc:a442b5b5688cd658c3b3476650c00281e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a442b5b5688cd658c3b3476650c00281e">More...</a><br /></td></tr>
 <tr class="separator:a442b5b5688cd658c3b3476650c00281e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac344bf5ca318dc343bd6fa6bf52d2e22 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">m</a></td></tr>
-<tr class="memdesc:ac344bf5ca318dc343bd6fa6bf52d2e22 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The dimensions of the GEMM.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#ac344bf5ca318dc343bd6fa6bf52d2e22">More...</a><br /></td></tr>
-<tr class="separator:ac344bf5ca318dc343bd6fa6bf52d2e22 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9cc371cd2f1a9485583afdacbb7403ea inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a9cc371cd2f1a9485583afdacbb7403ea">n</a></td></tr>
-<tr class="separator:a9cc371cd2f1a9485583afdacbb7403ea inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6bea57249e3645a4b08a11619cb1687e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">problem_size</a></td></tr>
+<tr class="memdesc:a6bea57249e3645a4b08a11619cb1687e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="mdescLeft">&#160;</td><td class="mdescRight">The dimensions of the GEMM.  <a href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6bea57249e3645a4b08a11619cb1687e">More...</a><br /></td></tr>
+<tr class="separator:a6bea57249e3645a4b08a11619cb1687e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5aa254702fcf24630e04ceb174aa3d57 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a6c30bea1b2a1bd2e981025851d5b12d1">Functor</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a5aa254702fcf24630e04ceb174aa3d57">functor</a></td></tr>
+<tr class="separator:a5aa254702fcf24630e04ceb174aa3d57 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmEpilogue"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="a98b415dbe6f7b6cb0c41a4e6b3ad5abf"></a>
@@ -211,8 +208,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a98b415dbe6f7b6cb0c41a4e6
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="a49ac00bed1532707aacd3ff108c84623"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a49ac00bed1532707aacd3ff108c84623">&#9670;&nbsp;</a></span>IgemmEpilogue()</h2>
+<a id="a0a1be1aab827127161406871ca75cbe0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0a1be1aab827127161406871ca75cbe0">&#9670;&nbsp;</a></span>IgemmEpilogue()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -237,14 +234,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a49ac00bed1532707aacd3ff1
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a>&#160;</td>
-          <td class="paramname"><em>m_</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
-          <td></td>
-          <td class="paramtype">typename <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a07c93d583bfddd8f916fba6ef809832e">Base::Index</a>&#160;</td>
-          <td class="paramname"><em>n_</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>_problem_size</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -267,7 +258,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a49ac00bed1532707aacd3ff1
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter-members.html b/docs/structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter-members.html
index 95e068d13f..0cc8c21c1d 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html b/docs/structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html
index 35a75abea8..8a66295fca 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmFloatToInt8Converter.html
@@ -257,7 +257,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a819fd33db88a68521108bab2
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb-members.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb-members.html
new file mode 100644
index 0000000000..a24dde73be
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb-members.html
@@ -0,0 +1,151 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6">add_pointer_offset</a>(Index offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a82a9cfc61ecc117592bdb30f57bd35c9">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">BaseParams</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5">GemmGlobalIteratorAb</a>(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;threadblock_offset, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a489fe448cd7f7e1f3805d33504f9d336">IgemmGlobalIteratorAb</a>(typename Base::Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;threadblock_offset, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">inc_stage</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018">initialize_predicates</a>(const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block_offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::initialize_predicates</a>(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">kFragmentElementType</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126">kRequiresLoadFence</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">load</a>(Fragment &amp;fragment, PredicateIterator pred_it) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">load</a>(Fragment &amp;fragment) const</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">load</a>(Fragment &amp;fragment, int d)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a5cbda0dea8c87ca55499c97cc80b1ccf">load_element</a>(typename Base::AccessType &amp;value, int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7">load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::load_post_increment</a>(Fragment &amp;fragment, PredicateIterator pred_it)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762">mask_</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af">operator+=</a>(Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593">residue</a>(Index k)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7">stride_advance</a>(void)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a07ff2f97fdd57c4df05ef8e817265b30">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">TileLoadIterator</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">TileLoadIterator</a>(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">TileLoadIterator</a>(Params const &amp;, Scalar const *ptr, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html
new file mode 100644
index 0000000000..ea16c63b2d
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html
@@ -0,0 +1,597 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="igemm__global__tile_8h_source.html">igemm_global_tile.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::IgemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.png" usemap="#cutlass::gemm::IgemmGlobalIteratorAb_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::IgemmGlobalIteratorAb_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map" name="cutlass::gemm::IgemmGlobalIteratorAb_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html" alt="cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;" shape="rect" coords="0,112,1003,136"/>
+<area href="structcutlass_1_1TileLoadIterator.html" alt="cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;" shape="rect" coords="0,56,1003,80"/>
+<area href="structcutlass_1_1TileIteratorBase.html" alt="cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;" shape="rect" coords="0,0,1003,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a82a9cfc61ecc117592bdb30f57bd35c9"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a82a9cfc61ecc117592bdb30f57bd35c9">Base</a></td></tr>
+<tr class="memdesc:a82a9cfc61ecc117592bdb30f57bd35c9"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base class.  <a href="#a82a9cfc61ecc117592bdb30f57bd35c9">More...</a><br /></td></tr>
+<tr class="separator:a82a9cfc61ecc117592bdb30f57bd35c9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07ff2f97fdd57c4df05ef8e817265b30"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a07ff2f97fdd57c4df05ef8e817265b30">ThreadOffset</a></td></tr>
+<tr class="memdesc:a07ff2f97fdd57c4df05ef8e817265b30"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to compute the thread offset.  <a href="#a07ff2f97fdd57c4df05ef8e817265b30">More...</a><br /></td></tr>
+<tr class="separator:a07ff2f97fdd57c4df05ef8e817265b30"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td></tr>
+<tr class="memitem:a2892be253a3de5bffc3edcef2890d3a8 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">This_</a></td></tr>
+<tr class="memdesc:a2892be253a3de5bffc3edcef2890d3a8 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">This class.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2892be253a3de5bffc3edcef2890d3a8">More...</a><br /></td></tr>
+<tr class="separator:a2892be253a3de5bffc3edcef2890d3a8 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae13e0d30a941e16875f196b4844b03ed inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; TileTraits_, typename TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a> :<a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">IteratorAdvance::kW</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">Base</a></td></tr>
+<tr class="memdesc:ae13e0d30a941e16875f196b4844b03ed inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base class.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">More...</a><br /></td></tr>
+<tr class="separator:ae13e0d30a941e16875f196b4844b03ed inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a646bd38ab95cdf0379ecb372839a9111 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">Tile</a></td></tr>
+<tr class="memdesc:a646bd38ab95cdf0379ecb372839a9111 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a646bd38ab95cdf0379ecb372839a9111">More...</a><br /></td></tr>
+<tr class="separator:a646bd38ab95cdf0379ecb372839a9111 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2180cfbb482d300472ad2993e4b555d4 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a></td></tr>
+<tr class="memdesc:a2180cfbb482d300472ad2993e4b555d4 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Fragment.html" title="A template defining Fragment Concept. ">Fragment</a> type loaded by the iterator.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">More...</a><br /></td></tr>
+<tr class="separator:a2180cfbb482d300472ad2993e4b555d4 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5817b81c7013db9a3f7394ad4b1db79a inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">Scalar</a></td></tr>
+<tr class="memdesc:a5817b81c7013db9a3f7394ad4b1db79a inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5817b81c7013db9a3f7394ad4b1db79a">More...</a><br /></td></tr>
+<tr class="separator:a5817b81c7013db9a3f7394ad4b1db79a inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a33e4dcd4449f324fed5ceaa2cde01b50 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Threads&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">Threads</a></td></tr>
+<tr class="memdesc:a33e4dcd4449f324fed5ceaa2cde01b50 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a33e4dcd4449f324fed5ceaa2cde01b50">More...</a><br /></td></tr>
+<tr class="separator:a33e4dcd4449f324fed5ceaa2cde01b50 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ff9cae930c8a6bb9c8ee6d81cb1953f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a></td></tr>
+<tr class="memdesc:a7ff9cae930c8a6bb9c8ee6d81cb1953f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">More...</a><br /></td></tr>
+<tr class="separator:a7ff9cae930c8a6bb9c8ee6d81cb1953f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afd09d3b8e5ca04eab7edc2e5723816e5 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a></td></tr>
+<tr class="memdesc:afd09d3b8e5ca04eab7edc2e5723816e5 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The thread offset.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">More...</a><br /></td></tr>
+<tr class="separator:afd09d3b8e5ca04eab7edc2e5723816e5 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3dd74f6e12339a87c0eb8f75fbdc7b9c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">Base::Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a></td></tr>
+<tr class="separator:a3dd74f6e12339a87c0eb8f75fbdc7b9c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a09268125f1e323874f6c12b50185c517 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Base::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">BaseParams</a></td></tr>
+<tr class="memdesc:a09268125f1e323874f6c12b50185c517 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterator parameters type.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a09268125f1e323874f6c12b50185c517">More...</a><br /></td></tr>
+<tr class="separator:a09268125f1e323874f6c12b50185c517 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1TileLoadIterator"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileLoadIterator')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
+<tr class="memitem:a1f3601c595f12e7083919ece9b1ec84e inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"></td></tr>
+<tr class="memdesc:a1f3601c595f12e7083919ece9b1ec84e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Do we require a fence?  <a href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84e">More...</a><br /></td></tr>
+<tr class="separator:a1f3601c595f12e7083919ece9b1ec84e inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1dcbf633eac61ff06980e4992fbe8264 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt; TileTraits_, TileTraits_::Scalar, Advance_, <a class="el" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">Base</a></td></tr>
+<tr class="memdesc:a1dcbf633eac61ff06980e4992fbe8264 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base class.  <a href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">More...</a><br /></td></tr>
+<tr class="separator:a1dcbf633eac61ff06980e4992fbe8264 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6a5d065939282fa1b9454b28a1e73948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Base::Traits</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">Traits</a></td></tr>
+<tr class="memdesc:a6a5d065939282fa1b9454b28a1e73948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept TileTraits  <a href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">More...</a><br /></td></tr>
+<tr class="separator:a6a5d065939282fa1b9454b28a1e73948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aafbb7a2137a07f0e07a12838b66bd511 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Base::Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a></td></tr>
+<tr class="memdesc:aafbb7a2137a07f0e07a12838b66bd511 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">More...</a><br /></td></tr>
+<tr class="separator:aafbb7a2137a07f0e07a12838b66bd511 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a70dfd0b62feb082d8da34af09d9524a6 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">FragmentElement</a></td></tr>
+<tr class="memdesc:a70dfd0b62feb082d8da34af09d9524a6 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment element.  <a href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">More...</a><br /></td></tr>
+<tr class="separator:a70dfd0b62feb082d8da34af09d9524a6 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaa5d98b72576478ba04e4ad554faa827 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Base::Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">Index</a></td></tr>
+<tr class="memdesc:aaa5d98b72576478ba04e4ad554faa827 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">More...</a><br /></td></tr>
+<tr class="separator:aaa5d98b72576478ba04e4ad554faa827 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb6cc0e2990c06c83b789b579a03b15f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Base::Skew</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">Skew</a></td></tr>
+<tr class="memdesc:aeb6cc0e2990c06c83b789b579a03b15f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">More...</a><br /></td></tr>
+<tr class="separator:aeb6cc0e2990c06c83b789b579a03b15f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a88eaa581e0b5419b98ee5a71073d0539 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Base::Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">Tile</a></td></tr>
+<tr class="memdesc:a88eaa581e0b5419b98ee5a71073d0539 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">More...</a><br /></td></tr>
+<tr class="separator:a88eaa581e0b5419b98ee5a71073d0539 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afc68649cb9bb32931b27e711c7ce2604 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Base::Delta</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">Delta</a></td></tr>
+<tr class="memdesc:afc68649cb9bb32931b27e711c7ce2604 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Delta.  <a href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">More...</a><br /></td></tr>
+<tr class="separator:afc68649cb9bb32931b27e711c7ce2604 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6c570dfa1cb68d436d8da6bd23cce6ce inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Base::Iterations</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">Iterations</a></td></tr>
+<tr class="memdesc:a6c570dfa1cb68d436d8da6bd23cce6ce inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">More...</a><br /></td></tr>
+<tr class="separator:a6c570dfa1cb68d436d8da6bd23cce6ce inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae8cb43a98cd2fa28f6457afbda8ec58a inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">Base::ThreadOffset</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">ThreadOffset</a></td></tr>
+<tr class="memdesc:ae8cb43a98cd2fa28f6457afbda8ec58a inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">ThreadOffset functor.  <a href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">More...</a><br /></td></tr>
+<tr class="separator:ae8cb43a98cd2fa28f6457afbda8ec58a inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a46a2cbf407d3f43a7441323d150d96f1 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">Base::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">FragmentShape</a></td></tr>
+<tr class="memdesc:a46a2cbf407d3f43a7441323d150d96f1 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment type.  <a href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">More...</a><br /></td></tr>
+<tr class="separator:a46a2cbf407d3f43a7441323d150d96f1 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae8f2c93ec43646be70d4b9f32d034125 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">AccessType</a></td></tr>
+<tr class="memdesc:ae8f2c93ec43646be70d4b9f32d034125 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory access type.  <a href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">More...</a><br /></td></tr>
+<tr class="separator:ae8f2c93ec43646be70d4b9f32d034125 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4604b230174b11bc7ddf5f3e9a922139 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Base::Fragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">Fragment</a></td></tr>
+<tr class="memdesc:a4604b230174b11bc7ddf5f3e9a922139 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment definition.  <a href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">More...</a><br /></td></tr>
+<tr class="separator:a4604b230174b11bc7ddf5f3e9a922139 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad9c77ca0521d18a90dd3542a3941f016 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">Base::FragmentIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">FragmentIterator</a></td></tr>
+<tr class="memdesc:ad9c77ca0521d18a90dd3542a3941f016 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment iterator definition.  <a href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">More...</a><br /></td></tr>
+<tr class="separator:ad9c77ca0521d18a90dd3542a3941f016 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad272502e5a54615584bb037a33ff1dca inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">Base::FragmentConstIterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:ad272502e5a54615584bb037a33ff1dca inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment const iterator definition.  <a href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">More...</a><br /></td></tr>
+<tr class="separator:ad272502e5a54615584bb037a33ff1dca inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad71f865c61f02eba981c056ef71653f5 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">Base::PredicateVector</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">PredicateVector</a></td></tr>
+<tr class="memdesc:ad71f865c61f02eba981c056ef71653f5 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">More...</a><br /></td></tr>
+<tr class="separator:ad71f865c61f02eba981c056ef71653f5 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a57eff980f6b1086abe39dd617de5b948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Base::Storage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a></td></tr>
+<tr class="memdesc:a57eff980f6b1086abe39dd617de5b948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Storage object that may be loaded from.  <a href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">More...</a><br /></td></tr>
+<tr class="separator:a57eff980f6b1086abe39dd617de5b948 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aebb9153659320f1391671c215c519e inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef Base::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">BaseParams</a></td></tr>
+<tr class="memdesc:a9aebb9153659320f1391671c215c519e inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">IteratorBase parameters.  <a href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">More...</a><br /></td></tr>
+<tr class="separator:a9aebb9153659320f1391671c215c519e inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a39acc5c35c8db019a3aeef79e8005b7f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">Pointer</a></td></tr>
+<tr class="memdesc:a39acc5c35c8db019a3aeef79e8005b7f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer type.  <a href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">More...</a><br /></td></tr>
+<tr class="separator:a39acc5c35c8db019a3aeef79e8005b7f inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a146adfb1951efd70995b05a7a31fd548 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const, 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a></td></tr>
+<tr class="memdesc:a146adfb1951efd70995b05a7a31fd548 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tensor reference for the load iterator.  <a href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">More...</a><br /></td></tr>
+<tr class="separator:a146adfb1951efd70995b05a7a31fd548 inherit pub_types_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
+<tr class="memitem:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a></td></tr>
+<tr class="memdesc:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept TileTraits  <a href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">More...</a><br /></td></tr>
+<tr class="separator:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a></td></tr>
+<tr class="memdesc:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">More...</a><br /></td></tr>
+<tr class="separator:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a></td></tr>
+<tr class="memdesc:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment element.  <a href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">More...</a><br /></td></tr>
+<tr class="separator:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a></td></tr>
+<tr class="memdesc:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">More...</a><br /></td></tr>
+<tr class="separator:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a></td></tr>
+<tr class="memdesc:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">More...</a><br /></td></tr>
+<tr class="separator:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a></td></tr>
+<tr class="memdesc:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">More...</a><br /></td></tr>
+<tr class="separator:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a></td></tr>
+<tr class="memdesc:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">More...</a><br /></td></tr>
+<tr class="separator:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">More...</a><br /></td></tr>
+<tr class="separator:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a></td></tr>
+<tr class="memdesc:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">More...</a><br /></td></tr>
+<tr class="separator:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a></td></tr>
+<tr class="memdesc:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">More...</a><br /></td></tr>
+<tr class="separator:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a></td></tr>
+<tr class="memdesc:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">More...</a><br /></td></tr>
+<tr class="separator:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a></td></tr>
+<tr class="memdesc:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">More...</a><br /></td></tr>
+<tr class="separator:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a></td></tr>
+<tr class="memdesc:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">More...</a><br /></td></tr>
+<tr class="separator:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a></td></tr>
+<tr class="memdesc:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">More...</a><br /></td></tr>
+<tr class="separator:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">More...</a><br /></td></tr>
+<tr class="separator:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a></td></tr>
+<tr class="memdesc:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">More...</a><br /></td></tr>
+<tr class="separator:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a></td></tr>
+<tr class="memdesc:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">More...</a><br /></td></tr>
+<tr class="separator:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a489fe448cd7f7e1f3805d33504f9d336"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a489fe448cd7f7e1f3805d33504f9d336">IgemmGlobalIteratorAb</a> (typename <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Base::Params</a> const &amp;_params, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;threadblock_offset, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:a489fe448cd7f7e1f3805d33504f9d336"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor.  <a href="#a489fe448cd7f7e1f3805d33504f9d336">More...</a><br /></td></tr>
+<tr class="separator:a489fe448cd7f7e1f3805d33504f9d336"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5cbda0dea8c87ca55499c97cc80b1ccf"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#a5cbda0dea8c87ca55499c97cc80b1ccf">load_element</a> (typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">Base::AccessType</a> &amp;value, int d, int h, int w, int c) const</td></tr>
+<tr class="separator:a5cbda0dea8c87ca55499c97cc80b1ccf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td></tr>
+<tr class="memitem:aba8142a7a3b43da97f7968d98f3ba018 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#aba8142a7a3b43da97f7968d98f3ba018">initialize_predicates</a> (const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block_offset)</td></tr>
+<tr class="separator:aba8142a7a3b43da97f7968d98f3ba018 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab61ce6b04d72d2652ee3bffca3885fe5 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5">GemmGlobalIteratorAb</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a> const &amp;_params, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;threadblock_offset, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:ab61ce6b04d72d2652ee3bffca3885fe5 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab61ce6b04d72d2652ee3bffca3885fe5">More...</a><br /></td></tr>
+<tr class="separator:ab61ce6b04d72d2652ee3bffca3885fe5 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a760404b7879a38364d7eef47fc1fe209 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">inc_w</a> ()</td></tr>
+<tr class="memdesc:a760404b7879a38364d7eef47fc1fe209 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the W dimension.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a760404b7879a38364d7eef47fc1fe209">More...</a><br /></td></tr>
+<tr class="separator:a760404b7879a38364d7eef47fc1fe209 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1d86f7e16bd11e10c94b0c14111c8c14 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">inc_h</a> ()</td></tr>
+<tr class="memdesc:a1d86f7e16bd11e10c94b0c14111c8c14 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the H dimension.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1d86f7e16bd11e10c94b0c14111c8c14">More...</a><br /></td></tr>
+<tr class="separator:a1d86f7e16bd11e10c94b0c14111c8c14 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2ad473e8f2fa2694617ee39ead5c41b3 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">inc_d</a> ()</td></tr>
+<tr class="memdesc:a2ad473e8f2fa2694617ee39ead5c41b3 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the D dimension.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2ad473e8f2fa2694617ee39ead5c41b3">More...</a><br /></td></tr>
+<tr class="separator:a2ad473e8f2fa2694617ee39ead5c41b3 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae3ecef6501f0761051f298eb7cefcacf inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">inc_advance</a> ()</td></tr>
+<tr class="memdesc:ae3ecef6501f0761051f298eb7cefcacf inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer to move to the next iteration.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae3ecef6501f0761051f298eb7cefcacf">More...</a><br /></td></tr>
+<tr class="separator:ae3ecef6501f0761051f298eb7cefcacf inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a85afb31647e5cac591b76959a102cd06 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">load_element</a> (typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">Base::AccessType</a> &amp;value, int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a85afb31647e5cac591b76959a102cd06 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a single fragment element from memory.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a85afb31647e5cac591b76959a102cd06">More...</a><br /></td></tr>
+<tr class="separator:a85afb31647e5cac591b76959a102cd06 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab2bad39cd9e9d27382cf8fb9e05ed593 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593">residue</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> k)</td></tr>
+<tr class="memdesc:ab2bad39cd9e9d27382cf8fb9e05ed593 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">That's the residue! Update the predicates.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab2bad39cd9e9d27382cf8fb9e05ed593">More...</a><br /></td></tr>
+<tr class="separator:ab2bad39cd9e9d27382cf8fb9e05ed593 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6ebdbdce88f040fffd3eb60622c6d7e0 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a6ebdbdce88f040fffd3eb60622c6d7e0 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the valid?  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a6ebdbdce88f040fffd3eb60622c6d7e0">More...</a><br /></td></tr>
+<tr class="separator:a6ebdbdce88f040fffd3eb60622c6d7e0 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a32cd0a03868f52b172d031f23e2c08af inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:a32cd0a03868f52b172d031f23e2c08af inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a vector offset to the iterator.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a32cd0a03868f52b172d031f23e2c08af">More...</a><br /></td></tr>
+<tr class="separator:a32cd0a03868f52b172d031f23e2c08af inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5940e491967e265630dc0a4b448791d6 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a5940e491967e265630dc0a4b448791d6">add_pointer_offset</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a> offset)</td></tr>
+<tr class="separator:a5940e491967e265630dc0a4b448791d6 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adfb9a7df1b900e4f6ee59c72aabdebd7 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a7ff9cae930c8a6bb9c8ee6d81cb1953f">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#adfb9a7df1b900e4f6ee59c72aabdebd7">stride_advance</a> (void)</td></tr>
+<tr class="separator:adfb9a7df1b900e4f6ee59c72aabdebd7 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07989416829cbe7efecb56456c99adf7 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a07989416829cbe7efecb56456c99adf7 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a07989416829cbe7efecb56456c99adf7">load_post_increment</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a2180cfbb482d300472ad2993e4b555d4">Fragment</a> &amp;fragment)</td></tr>
+<tr class="separator:a07989416829cbe7efecb56456c99adf7 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileLoadIterator"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileLoadIterator')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
+<tr class="memitem:a60bbb4d4a6a5b8fb32e176e7d33f9e82 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</td></tr>
+<tr class="memdesc:a60bbb4d4a6a5b8fb32e176e7d33f9e82 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector using a RegularTilePredicateFunctor.  <a href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">More...</a><br /></td></tr>
+<tr class="separator:a60bbb4d4a6a5b8fb32e176e7d33f9e82 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa566cf603a5c19c59946a41b04642e49 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;functor, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset)</td></tr>
+<tr class="memdesc:aa566cf603a5c19c59946a41b04642e49 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector using an arbitrary predicate functor.  <a href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">More...</a><br /></td></tr>
+<tr class="separator:aa566cf603a5c19c59946a41b04642e49 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:add962655973d5b8eff5673c04e053e4e inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">TileLoadIterator</a> ()</td></tr>
+<tr class="memdesc:add962655973d5b8eff5673c04e053e4e inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default constructor.  <a href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">More...</a><br /></td></tr>
+<tr class="separator:add962655973d5b8eff5673c04e053e4e inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4ffe90c974b260220fe0b44274095322 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">TileLoadIterator</a> (Params const &amp;_params, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:a4ffe90c974b260220fe0b44274095322 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile load iterator.  <a href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">More...</a><br /></td></tr>
+<tr class="separator:a4ffe90c974b260220fe0b44274095322 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1636f4e15ca7f9f56bfccb93a2826c30 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">TileLoadIterator</a> (Params const &amp;, <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> const *ptr, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:a1636f4e15ca7f9f56bfccb93a2826c30 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a tile load iterator.  <a href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">More...</a><br /></td></tr>
+<tr class="separator:a1636f4e15ca7f9f56bfccb93a2826c30 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb92092230ae933ff6cc4a36960d0674 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">inc_d</a> ()</td></tr>
+<tr class="memdesc:aeb92092230ae933ff6cc4a36960d0674 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the D dimension.  <a href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">More...</a><br /></td></tr>
+<tr class="separator:aeb92092230ae933ff6cc4a36960d0674 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1b94be88a160b21347c0eb58ed8e1b51 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">inc_h</a> ()</td></tr>
+<tr class="memdesc:a1b94be88a160b21347c0eb58ed8e1b51 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the H dimension.  <a href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">More...</a><br /></td></tr>
+<tr class="separator:a1b94be88a160b21347c0eb58ed8e1b51 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af4f964364fc54a2b9a431fa529f6c44c inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">inc_w</a> ()</td></tr>
+<tr class="memdesc:af4f964364fc54a2b9a431fa529f6c44c inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the W dimension.  <a href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">More...</a><br /></td></tr>
+<tr class="separator:af4f964364fc54a2b9a431fa529f6c44c inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9bda55335fb2e90af2ee7d20571f3d9b inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">inc_advance</a> ()</td></tr>
+<tr class="memdesc:a9bda55335fb2e90af2ee7d20571f3d9b inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment in the next dimension.  <a href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">More...</a><br /></td></tr>
+<tr class="separator:a9bda55335fb2e90af2ee7d20571f3d9b inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6f74b87df129693ee6ac9a6fcc0c8910 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">load_element</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &amp;value, int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a6f74b87df129693ee6ac9a6fcc0c8910 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a single fragment element from memory.  <a href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">More...</a><br /></td></tr>
+<tr class="separator:a6f74b87df129693ee6ac9a6fcc0c8910 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64ce59c5deb58e208529761a44c7661d inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">inc_stage</a> ()</td></tr>
+<tr class="memdesc:a64ce59c5deb58e208529761a44c7661d inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the stage.  <a href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">More...</a><br /></td></tr>
+<tr class="separator:a64ce59c5deb58e208529761a44c7661d inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a723041057b1e8212e075959a22c0c120 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:a723041057b1e8212e075959a22c0c120 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a vector offset to the iterator.  <a href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">More...</a><br /></td></tr>
+<tr class="separator:a723041057b1e8212e075959a22c0c120 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad65b7a0a5b4f42c590642ef7b269f232 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">add_pointer_offset</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> offset)</td></tr>
+<tr class="memdesc:ad65b7a0a5b4f42c590642ef7b269f232 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a raw offset to the pointer.  <a href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">More...</a><br /></td></tr>
+<tr class="separator:ad65b7a0a5b4f42c590642ef7b269f232 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a31a021d6c099e8027fa9bcb5fdc21c11 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11">stride_advance</a> (void)</td></tr>
+<tr class="separator:a31a021d6c099e8027fa9bcb5fdc21c11 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4d437597ae736c581a9ba0764f9d955f inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it)</td></tr>
+<tr class="memdesc:a4d437597ae736c581a9ba0764f9d955f inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">More...</a><br /></td></tr>
+<tr class="separator:a4d437597ae736c581a9ba0764f9d955f inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5c8a4318ffd400363d9c7572c07ff32a inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)</td></tr>
+<tr class="memdesc:a5c8a4318ffd400363d9c7572c07ff32a inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment and advances the iterator to the next tile.  <a href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">More...</a><br /></td></tr>
+<tr class="separator:a5c8a4318ffd400363d9c7572c07ff32a inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa856180123f8d50a00222542fa6345cf inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it) const</td></tr>
+<tr class="memdesc:aa856180123f8d50a00222542fa6345cf inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">More...</a><br /></td></tr>
+<tr class="separator:aa856180123f8d50a00222542fa6345cf inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a83dadcea858a5e426dcea54400138480 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment) const</td></tr>
+<tr class="memdesc:a83dadcea858a5e426dcea54400138480 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">More...</a><br /></td></tr>
+<tr class="separator:a83dadcea858a5e426dcea54400138480 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1b070fc66109d372f5a45a5857594ac6 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">load</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, int d)</td></tr>
+<tr class="memdesc:a1b070fc66109d372f5a45a5857594ac6 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a fragment without advancing the iterator..  <a href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">More...</a><br /></td></tr>
+<tr class="separator:a1b070fc66109d372f5a45a5857594ac6 inherit pub_methods_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
+<tr class="memitem:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">More...</a><br /></td></tr>
+<tr class="separator:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:aa6e76073303f5f5a95053a781ec8b762"><td class="memItemLeft" align="right" valign="top">uint32_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html#aa6e76073303f5f5a95053a781ec8b762">mask_</a></td></tr>
+<tr class="memdesc:aa6e76073303f5f5a95053a781ec8b762"><td class="mdescLeft">&#160;</td><td class="mdescRight">The mask to clean up the values.  <a href="#aa6e76073303f5f5a95053a781ec8b762">More...</a><br /></td></tr>
+<tr class="separator:aa6e76073303f5f5a95053a781ec8b762"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td></tr>
+<tr class="memitem:a1864c5556529afdc8445021cad780b04 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">thread_offset</a></td></tr>
+<tr class="memdesc:a1864c5556529afdc8445021cad780b04 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Offset of an individual lane from the start of the tile.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a1864c5556529afdc8445021cad780b04">More...</a><br /></td></tr>
+<tr class="separator:a1864c5556529afdc8445021cad780b04 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab8c79cb1a8157dd00429c93cb4a41322 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">params</a></td></tr>
+<tr class="memdesc:ab8c79cb1a8157dd00429c93cb4a41322 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The parameters.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ab8c79cb1a8157dd00429c93cb4a41322">More...</a><br /></td></tr>
+<tr class="separator:ab8c79cb1a8157dd00429c93cb4a41322 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af323c9db74f0de3376edd35eb377bc9c inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a3dd74f6e12339a87c0eb8f75fbdc7b9c">PredicateVector</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">predicates</a></td></tr>
+<tr class="memdesc:af323c9db74f0de3376edd35eb377bc9c inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The predicates.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#af323c9db74f0de3376edd35eb377bc9c">More...</a><br /></td></tr>
+<tr class="separator:af323c9db74f0de3376edd35eb377bc9c inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1TileLoadIterator"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1TileLoadIterator')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
+<tr class="memitem:a5561e676148200c2fc85a603847cc596 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a></td></tr>
+<tr class="memdesc:a5561e676148200c2fc85a603847cc596 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters structure.  <a href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">More...</a><br /></td></tr>
+<tr class="separator:a5561e676148200c2fc85a603847cc596 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7808588ce0b12017379dcbe1ba9c511f inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a></td></tr>
+<tr class="memdesc:a7808588ce0b12017379dcbe1ba9c511f inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Offset of an individual lane from the start of the tile.  <a href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">More...</a><br /></td></tr>
+<tr class="separator:a7808588ce0b12017379dcbe1ba9c511f inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad8e730768c1805d98e23886a492389d3 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a></td></tr>
+<tr class="memdesc:ad8e730768c1805d98e23886a492389d3 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stage argument enables wrapping after some number of tiles have been loaded.  <a href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">More...</a><br /></td></tr>
+<tr class="separator:ad8e730768c1805d98e23886a492389d3 inherit pub_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_static_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
+<tr class="memitem:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">More...</a><br /></td></tr>
+<tr class="separator:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">cutlass::gemm::GemmGlobalIteratorAb&lt; TileTraits_, Index_ &gt;</a></td></tr>
+<tr class="memitem:afe016e0c6234075a8d69ba7341555ece inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">kLayout</a> = TileTraits_::kLayout</td></tr>
+<tr class="memdesc:afe016e0c6234075a8d69ba7341555ece inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afe016e0c6234075a8d69ba7341555ece">More...</a><br /></td></tr>
+<tr class="separator:afe016e0c6234075a8d69ba7341555ece inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8c1e871f17685b16a7a41fcc888f0125 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">kAdvance</a> = Base::kAdvance</td></tr>
+<tr class="memdesc:a8c1e871f17685b16a7a41fcc888f0125 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies in which dimension post-increment accesses advance.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#a8c1e871f17685b16a7a41fcc888f0125">More...</a><br /></td></tr>
+<tr class="separator:a8c1e871f17685b16a7a41fcc888f0125 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorAb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1TileLoadIterator"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileLoadIterator')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
+<tr class="memitem:aea9fbc738003a7424cfa9b0527d4a352 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">kAdvance</a></td></tr>
+<tr class="memdesc:aea9fbc738003a7424cfa9b0527d4a352 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies in which dimension post-increment accesses advance.  <a href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">More...</a><br /></td></tr>
+<tr class="separator:aea9fbc738003a7424cfa9b0527d4a352 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2af872794b35a631f9c1a97df0c6d177 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">kFragmentElementType</a></td></tr>
+<tr class="memdesc:a2af872794b35a631f9c1a97df0c6d177 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies type of iterator fragment storage (Salar or WmmaMatrix)  <a href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">More...</a><br /></td></tr>
+<tr class="separator:a2af872794b35a631f9c1a97df0c6d177 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a44424164c9347f9916b2b86858706043 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">kMemorySpace</a></td></tr>
+<tr class="memdesc:a44424164c9347f9916b2b86858706043 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">More...</a><br /></td></tr>
+<tr class="separator:a44424164c9347f9916b2b86858706043 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a84f2f19069c3b003b1fcad438f690bc8 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">kAccessSize</a></td></tr>
+<tr class="memdesc:a84f2f19069c3b003b1fcad438f690bc8 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">More...</a><br /></td></tr>
+<tr class="separator:a84f2f19069c3b003b1fcad438f690bc8 inherit pub_static_attribs_structcutlass_1_1TileLoadIterator"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, Advance_, MemorySpace, Index_, TileTraits_::Scalar, FragmentElementType::kScalar, Shape&lt; 0, 0, 0, 0 &gt; &gt;</a></td></tr>
+<tr class="memitem:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a></td></tr>
+<tr class="memdesc:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">More...</a><br /></td></tr>
+<tr class="separator:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a></td></tr>
+<tr class="memdesc:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">More...</a><br /></td></tr>
+<tr class="separator:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a></td></tr>
+<tr class="memdesc:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">More...</a><br /></td></tr>
+<tr class="separator:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a></td></tr>
+<tr class="memdesc:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">More...</a><br /></td></tr>
+<tr class="separator:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td></tr>
+<tr class="memdesc:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">More...</a><br /></td></tr>
+<tr class="separator:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a82a9cfc61ecc117592bdb30f57bd35c9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a82a9cfc61ecc117592bdb30f57bd35c9">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt;TileTraits_, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#ae13e0d30a941e16875f196b4844b03ed">Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a07ff2f97fdd57c4df05ef8e817265b30"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a07ff2f97fdd57c4df05ef8e817265b30">&#9670;&nbsp;</a></span>ThreadOffset</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef TileTraits_::ThreadOffset <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a489fe448cd7f7e1f3805d33504f9d336"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a489fe448cd7f7e1f3805d33504f9d336">&#9670;&nbsp;</a></span>IgemmGlobalIteratorAb()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb</a> </td>
+          <td>(</td>
+          <td class="paramtype">typename <a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Base::Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>bounds</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;&#160;</td>
+          <td class="paramname"><em>threadblock_offset</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a>&#160;</td>
+          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html#afd09d3b8e5ca04eab7edc2e5723816e5">ThreadOffset</a>()</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a5cbda0dea8c87ca55499c97cc80b1ccf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5cbda0dea8c87ca55499c97cc80b1ccf">&#9670;&nbsp;</a></span>load_element()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::load_element </td>
+          <td>(</td>
+          <td class="paramtype">typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">Base::AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>d</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>h</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>w</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>c</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="aa6e76073303f5f5a95053a781ec8b762"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa6e76073303f5f5a95053a781ec8b762">&#9670;&nbsp;</a></span>mask_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">uint32_t <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">cutlass::gemm::IgemmGlobalIteratorAb</a>&lt; TileTraits_, Index_ &gt;::mask_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="igemm__global__tile_8h_source.html">igemm_global_tile.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.png b/docs/structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.png
new file mode 100644
index 0000000000..356a20ca22
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer-members.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer-members.html
index 0dc73a822f..ecf731e5e2 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html
index 43ba1df7dd..8b0af26039 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad3190650741cef20c1aca919
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4-members.html
index 1e2db95279..6137ff5c17 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html
index 181687128f..c4063ee3f8 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalLoadTransformer_3_01Fragment_3_01int8__t_00_01kElements___01_4_00_01float_01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a49c249026be24ec8a66f5eda
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer-members.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer-members.html
index 7d045266bb..1c9218d7a4 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html
index 134180f5a3..96ac1d7374 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a98aefa95117dbfdf2e577890
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4-members.html
index 4a2355422e..ba59d3fb89 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html
index 4d6a68c148..d9a388aa14 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalStoreTransformer_3_01float_00_01Fragment_3_01int8__t_00_01kElements___01_4_01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a52ecdfd8b94d8d7f4881048e
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits-members.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits-members.html
new file mode 100644
index 0000000000..1dcb3ded98
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits-members.html
@@ -0,0 +1,105 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ac14f4ef560bd8068d16c0471af6df82c">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#adab639892c3586464e2ea5f947b9e0f0">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ae1d930fa295d8ddfaa10bda5978258de">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a160d1ecd86de4742f550d11bc281786b">ThreadsDelta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html
new file mode 100644
index 0000000000..4da49df4c7
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html
@@ -0,0 +1,257 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#pub-types">Public Types</a> &#124;
+<a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="igemm__global__tile_8h_source.html">igemm_global_tile.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.png" usemap="#cutlass::gemm::IgemmGlobalTileTraits_3C_20kOperand_5F_2C_20kLayout_5F_2C_20Scalar_5F_2C_20Tile_5F_2C_20Threads_5F_2C_20kAccessSize_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::IgemmGlobalTileTraits_3C_20kOperand_5F_2C_20kLayout_5F_2C_20Scalar_5F_2C_20Tile_5F_2C_20Threads_5F_2C_20kAccessSize_5F_20_3E_map" name="cutlass::gemm::IgemmGlobalTileTraits_3C_20kOperand_5F_2C_20kLayout_5F_2C_20Scalar_5F_2C_20Tile_5F_2C_20Threads_5F_2C_20kAccessSize_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html" alt="cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;" shape="rect" coords="0,0,603,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html">ThreadOffset</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Computes the thread offset in (H, W) based on thread ID.  <a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ac14f4ef560bd8068d16c0471af6df82c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ac14f4ef560bd8068d16c0471af6df82c">Base</a></td></tr>
+<tr class="memdesc:ac14f4ef560bd8068d16c0471af6df82c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base class.  <a href="#ac14f4ef560bd8068d16c0471af6df82c">More...</a><br /></td></tr>
+<tr class="separator:ac14f4ef560bd8068d16c0471af6df82c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a72fe2fb9077d072f8266f07374624a1f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Base::Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">Threads</a></td></tr>
+<tr class="memdesc:a72fe2fb9077d072f8266f07374624a1f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads.  <a href="#a72fe2fb9077d072f8266f07374624a1f">More...</a><br /></td></tr>
+<tr class="separator:a72fe2fb9077d072f8266f07374624a1f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adab639892c3586464e2ea5f947b9e0f0"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; Base::Threads::kH *4, 1, Base::Threads::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#adab639892c3586464e2ea5f947b9e0f0">Delta</a></td></tr>
+<tr class="memdesc:adab639892c3586464e2ea5f947b9e0f0"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="#adab639892c3586464e2ea5f947b9e0f0">More...</a><br /></td></tr>
+<tr class="separator:adab639892c3586464e2ea5f947b9e0f0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae1d930fa295d8ddfaa10bda5978258de"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; Base::VectorizedTile::kH/Base::Threads::kH/4, 4, Base::VectorizedTile::kW/Base::Threads::kW, Base::VectorizedTile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ae1d930fa295d8ddfaa10bda5978258de">Iterations</a></td></tr>
+<tr class="memdesc:ae1d930fa295d8ddfaa10bda5978258de"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="#ae1d930fa295d8ddfaa10bda5978258de">More...</a><br /></td></tr>
+<tr class="separator:ae1d930fa295d8ddfaa10bda5978258de"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a160d1ecd86de4742f550d11bc281786b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, Base::VectorizedTile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a160d1ecd86de4742f550d11bc281786b">ThreadsDelta</a></td></tr>
+<tr class="memdesc:a160d1ecd86de4742f550d11bc281786b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads strides.  <a href="#a160d1ecd86de4742f550d11bc281786b">More...</a><br /></td></tr>
+<tr class="separator:a160d1ecd86de4742f550d11bc281786b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td></tr>
+<tr class="memitem:a6894b653fffa59bcb847bc3295643d6b inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1platform_1_1remove__const.html">platform::remove_const</a>&lt; Scalar_ &gt;::type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">Scalar</a></td></tr>
+<tr class="memdesc:a6894b653fffa59bcb847bc3295643d6b inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">More...</a><br /></td></tr>
+<tr class="separator:a6894b653fffa59bcb847bc3295643d6b inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef Scalar_ *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a></td></tr>
+<tr class="memdesc:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">More...</a><br /></td></tr>
+<tr class="separator:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef Tile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a></td></tr>
+<tr class="memdesc:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">More...</a><br /></td></tr>
+<tr class="separator:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt; Tile_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a></td></tr>
+<tr class="memdesc:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The vectorized tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">More...</a><br /></td></tr>
+<tr class="separator:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a>, Threads_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a></td></tr>
+<tr class="memdesc:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">More...</a><br /></td></tr>
+<tr class="separator:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, VectorizedTile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a></td></tr>
+<tr class="memdesc:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The relative offset between two elements in the H/W dimension in adjacent threads.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">More...</a><br /></td></tr>
+<tr class="separator:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, Threads::kH, Threads::kW *<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">Delta</a></td></tr>
+<tr class="memdesc:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">More...</a><br /></td></tr>
+<tr class="separator:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, Threads::kW *<a class="el" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadsDelta::kW</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Strides for immediate offset computation.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">More...</a><br /></td></tr>
+<tr class="separator:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, VectorizedTile::kH/Threads::kH, VectorizedTile::kW/Threads::kW, VectorizedTile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a></td></tr>
+<tr class="memdesc:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">More...</a><br /></td></tr>
+<tr class="separator:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td></tr>
+<tr class="separator:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td></tr>
+<tr class="memitem:ae0bca976b7cfba8561db4cccc16e99e1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a> = kOperand_</td></tr>
+<tr class="memdesc:ae0bca976b7cfba8561db4cccc16e99e1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Identity.html" title="Describes identity elements. ">Identity</a> of the operand.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">More...</a><br /></td></tr>
+<tr class="separator:ae0bca976b7cfba8561db4cccc16e99e1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a74bc07cb021a73513ab2fbacd572be90 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> = kLayout_</td></tr>
+<tr class="memdesc:a74bc07cb021a73513ab2fbacd572be90 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">More...</a><br /></td></tr>
+<tr class="separator:a74bc07cb021a73513ab2fbacd572be90 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa001e09b246fdd8259cbda6a500cad5f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> = kAccessSize_</td></tr>
+<tr class="memdesc:aa001e09b246fdd8259cbda6a500cad5f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STG.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">More...</a><br /></td></tr>
+<tr class="separator:aa001e09b246fdd8259cbda6a500cad5f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af219ece6e66e2866169e06e15cc4472d inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">kMemorySpace</a> = <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a></td></tr>
+<tr class="memdesc:af219ece6e66e2866169e06e15cc4472d inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory space.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">More...</a><br /></td></tr>
+<tr class="separator:af219ece6e66e2866169e06e15cc4472d inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ac14f4ef560bd8068d16c0471af6df82c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac14f4ef560bd8068d16c0471af6df82c">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_ , typename Tile_ , typename Threads_ , int kAccessSize_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#ac14f4ef560bd8068d16c0471af6df82c">Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="adab639892c3586464e2ea5f947b9e0f0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adab639892c3586464e2ea5f947b9e0f0">&#9670;&nbsp;</a></span>Delta</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_ , typename Tile_ , typename Threads_ , int kAccessSize_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;Base::Threads::kH * 4, 1, Base::Threads::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">Delta</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae1d930fa295d8ddfaa10bda5978258de"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae1d930fa295d8ddfaa10bda5978258de">&#9670;&nbsp;</a></span>Iterations</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_ , typename Tile_ , typename Threads_ , int kAccessSize_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;Base::VectorizedTile::kH / Base::Threads::kH / 4, 4, Base::VectorizedTile::kW / Base::Threads::kW, Base::VectorizedTile::kC / <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">Base::kAccessSize</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a72fe2fb9077d072f8266f07374624a1f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a72fe2fb9077d072f8266f07374624a1f">&#9670;&nbsp;</a></span>Threads</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_ , typename Tile_ , typename Threads_ , int kAccessSize_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Base::Threads</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a160d1ecd86de4742f550d11bc281786b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a160d1ecd86de4742f550d11bc281786b">&#9670;&nbsp;</a></span>ThreadsDelta</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_ , typename Tile_ , typename Threads_ , int kAccessSize_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 4, Base::VectorizedTile::kC&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="igemm__global__tile_8h_source.html">igemm_global_tile.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.png b/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.png
new file mode 100644
index 0000000000..d3059b3fd5
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset-members.html
new file mode 100644
index 0000000000..15101dbddf
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html">ThreadOffset</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#a80562f5ceab2049c3b7834c2891a07ee">operator()</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html
new file mode 100644
index 0000000000..2c6f8d29fa
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html
@@ -0,0 +1,132 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html">ThreadOffset</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmGlobalTileTraits&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Computes the thread offset in (H, W) based on thread ID.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="igemm__global__tile_8h_source.html">igemm_global_tile.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a80562f5ceab2049c3b7834c2891a07ee"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits_1_1ThreadOffset.html#a80562f5ceab2049c3b7834c2891a07ee">operator()</a> () const</td></tr>
+<tr class="separator:a80562f5ceab2049c3b7834c2891a07ee"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a80562f5ceab2049c3b7834c2891a07ee"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a80562f5ceab2049c3b7834c2891a07ee">&#9670;&nbsp;</a></span>operator()()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;GemmOperand::Kind kOperand_, MatrixLayout::Kind kLayout_, typename Scalar_ , typename Tile_ , typename Threads_ , int kAccessSize_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;4&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">cutlass::gemm::IgemmGlobalTileTraits</a>&lt; kOperand_, kLayout_, Scalar_, Tile_, Threads_, kAccessSize_ &gt;::ThreadOffset::operator() </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="igemm__global__tile_8h_source.html">igemm_global_tile.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter-members.html b/docs/structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter-members.html
index 0e462c7366..6f75adf6bd 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html b/docs/structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html
index 00a382f7c1..2d9cb9989c 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmInt8ToFloatConverter.html
@@ -257,7 +257,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a89e078dbf376da872c3993cc
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer-members.html b/docs/structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer-members.html
index dcdcd512a4..f8c8c71ce1 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html b/docs/structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html
index 089013d38e..35204507b0 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmSharedStoreTransformer.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9edd08d595327a8cc3b8da50
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmSwizzle-members.html b/docs/structcutlass_1_1gemm_1_1IgemmSwizzle-members.html
index 801a953011..19c2f951aa 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmSwizzle-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmSwizzle-members.html
@@ -89,7 +89,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmSwizzle.html b/docs/structcutlass_1_1gemm_1_1IgemmSwizzle.html
index 6f2c5963fb..4c0257d00e 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmSwizzle.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmSwizzle.html
@@ -265,7 +265,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a084917a512c7a411b76a69f8
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html
index e26b4c6160..76a19930a1 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::IgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::IgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_, Index_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -73,18 +73,18 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::IgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::IgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_, Index_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::gemm::IgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt;:</div>
+Inheritance diagram for cutlass::gemm::IgemmTileTraitsHelperA&lt; kLayout_, GemmConfig_, Index_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.png" usemap="#cutlass::gemm::IgemmTileTraitsHelperA_3C_20kLayout_5F_2C_20GemmConfig_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::IgemmTileTraitsHelperA_3C_20kLayout_5F_2C_20GemmConfig_5F_20_3E_map" name="cutlass::gemm::IgemmTileTraitsHelperA_3C_20kLayout_5F_2C_20GemmConfig_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html" alt="cutlass::gemm::GemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt;" shape="rect" coords="0,0,390,24"/>
+  <img src="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.png" usemap="#cutlass::gemm::IgemmTileTraitsHelperA_3C_20kLayout_5F_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::IgemmTileTraitsHelperA_3C_20kLayout_5F_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map" name="cutlass::gemm::IgemmTileTraitsHelperA_3C_20kLayout_5F_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html" alt="cutlass::gemm::GemmTileTraitsHelperA&lt; kLayout_, GemmConfig_ &gt;" shape="rect" coords="0,0,436,24"/>
 </map>
  </div></div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
@@ -93,7 +93,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.png b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.png
index d055e02999..80f559791a 100644
Binary files a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.png and b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4-members.html
new file mode 100644
index 0000000000..fe29056947
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4-members.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#adbbf19c2f86c198bbe4cc596c63e65ae">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a4237c6c9e33397bc1633182e9c3b6504">GlobalLoadIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a66f11407e9f5bf0d6123c81dfee6b330">GlobalTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ad2010686bceb21aec9a1924ae379edc1">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a69775031f651795f697b628677b8e4eb">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aa21c231aa56c9e5f2705cac62b17bbbe">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html
new file mode 100644
index 0000000000..a1ffbef243
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html
@@ -0,0 +1,237 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.png" usemap="#cutlass::gemm::IgemmTileTraitsHelperA_3C_20MatrixLayout::kColumnMajor_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::IgemmTileTraitsHelperA_3C_20MatrixLayout::kColumnMajor_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map" name="cutlass::gemm::IgemmTileTraitsHelperA_3C_20MatrixLayout::kColumnMajor_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html" alt="cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;" shape="rect" coords="0,0,545,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:adbbf19c2f86c198bbe4cc596c63e65ae"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#adbbf19c2f86c198bbe4cc596c63e65ae">Base</a></td></tr>
+<tr class="memdesc:adbbf19c2f86c198bbe4cc596c63e65ae"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base config.  <a href="#adbbf19c2f86c198bbe4cc596c63e65ae">More...</a><br /></td></tr>
+<tr class="separator:adbbf19c2f86c198bbe4cc596c63e65ae"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a66f11407e9f5bf0d6123c81dfee6b330"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, int8_t const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgA &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a66f11407e9f5bf0d6123c81dfee6b330">GlobalTileTraits</a></td></tr>
+<tr class="memdesc:a66f11407e9f5bf0d6123c81dfee6b330"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for A^N.  <a href="#a66f11407e9f5bf0d6123c81dfee6b330">More...</a><br /></td></tr>
+<tr class="separator:a66f11407e9f5bf0d6123c81dfee6b330"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4237c6c9e33397bc1633182e9c3b6504"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">GlobalTileTraits</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a4237c6c9e33397bc1633182e9c3b6504">GlobalLoadIterator</a></td></tr>
+<tr class="memdesc:a4237c6c9e33397bc1633182e9c3b6504"><td class="mdescLeft">&#160;</td><td class="mdescRight">The global load iterator.  <a href="#a4237c6c9e33397bc1633182e9c3b6504">More...</a><br /></td></tr>
+<tr class="separator:a4237c6c9e33397bc1633182e9c3b6504"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa21c231aa56c9e5f2705cac62b17bbbe"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; int8_t, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/4, GemmConfig_::OutputTile::kW *4 &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a69775031f651795f697b628677b8e4eb">kScalarsPerStsA</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aa21c231aa56c9e5f2705cac62b17bbbe">SharedStoreTileTraits</a></td></tr>
+<tr class="memdesc:aa21c231aa56c9e5f2705cac62b17bbbe"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for A^N.  <a href="#aa21c231aa56c9e5f2705cac62b17bbbe">More...</a><br /></td></tr>
+<tr class="separator:aa21c231aa56c9e5f2705cac62b17bbbe"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td></tr>
+<tr class="memitem:af511f0ff83166b2a77d4cad4150c8e8f inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_::ScalarA&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">Scalar</a></td></tr>
+<tr class="memdesc:af511f0ff83166b2a77d4cad4150c8e8f inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The input scalar.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">More...</a><br /></td></tr>
+<tr class="separator:af511f0ff83166b2a77d4cad4150c8e8f inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a19fb8c9b9a77aebec507635de7da6f21 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_::MultiplyAdd::ScalarA&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a></td></tr>
+<tr class="memdesc:a19fb8c9b9a77aebec507635de7da6f21 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar stored in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">More...</a><br /></td></tr>
+<tr class="separator:a19fb8c9b9a77aebec507635de7da6f21 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adc95f4a8617cdf28e5b5d7d2d1aefec2 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af511f0ff83166b2a77d4cad4150c8e8f">Scalar</a> const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgA &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">GlobalTileTraits</a></td></tr>
+<tr class="memdesc:adc95f4a8617cdf28e5b5d7d2d1aefec2 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for A^N.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">More...</a><br /></td></tr>
+<tr class="separator:adc95f4a8617cdf28e5b5d7d2d1aefec2 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaa198fed841af6bf26bf2e9544d0a877 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kW *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsA &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">SharedStoreTileTraits</a></td></tr>
+<tr class="memdesc:aaa198fed841af6bf26bf2e9544d0a877 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for A^N.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">More...</a><br /></td></tr>
+<tr class="separator:aaa198fed841af6bf26bf2e9544d0a877 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af534fc5698513af3c6724b68ae03316d inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#a19fb8c9b9a77aebec507635de7da6f21">MultiplyAddScalar</a> const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsA, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">SharedLoadTileTraits</a></td></tr>
+<tr class="memdesc:af534fc5698513af3c6724b68ae03316d inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for A^N.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#af534fc5698513af3c6724b68ae03316d">More...</a><br /></td></tr>
+<tr class="separator:af534fc5698513af3c6724b68ae03316d inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a69775031f651795f697b628677b8e4eb"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a69775031f651795f697b628677b8e4eb">kScalarsPerStsA</a> = 16</td></tr>
+<tr class="memdesc:a69775031f651795f697b628677b8e4eb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="#a69775031f651795f697b628677b8e4eb">More...</a><br /></td></tr>
+<tr class="separator:a69775031f651795f697b628677b8e4eb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperA&lt; MatrixLayout::kColumnMajor, GemmConfig_ &gt;</a></td></tr>
+<tr class="memitem:ad2010686bceb21aec9a1924ae379edc1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ad2010686bceb21aec9a1924ae379edc1">kLayout</a> = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a></td></tr>
+<tr class="memdesc:ad2010686bceb21aec9a1924ae379edc1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#ad2010686bceb21aec9a1924ae379edc1">More...</a><br /></td></tr>
+<tr class="separator:ad2010686bceb21aec9a1924ae379edc1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="adbbf19c2f86c198bbe4cc596c63e65ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#adbbf19c2f86c198bbe4cc596c63e65ae">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#adbbf19c2f86c198bbe4cc596c63e65ae">Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4237c6c9e33397bc1633182e9c3b6504"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4237c6c9e33397bc1633182e9c3b6504">&#9670;&nbsp;</a></span>GlobalLoadIterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">GlobalTileTraits</a>, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a4237c6c9e33397bc1633182e9c3b6504">GlobalLoadIterator</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a66f11407e9f5bf0d6123c81dfee6b330"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a66f11407e9f5bf0d6123c81dfee6b330">&#9670;&nbsp;</a></span>GlobalTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, int8_t const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kW&gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;typename GemmConfig_::Warps&gt;::kCount, GemmConfig_::kWarpSize&gt;, GemmConfig_::kScalarsPerLdgA&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#adc95f4a8617cdf28e5b5d7d2d1aefec2">GlobalTileTraits</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa21c231aa56c9e5f2705cac62b17bbbe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa21c231aa56c9e5f2705cac62b17bbbe">&#9670;&nbsp;</a></span>SharedStoreTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; int8_t, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / 4, GemmConfig_::OutputTile::kW * 4&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a69775031f651795f697b628677b8e4eb">kScalarsPerStsA</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___01_4.html#aaa198fed841af6bf26bf2e9544d0a877">SharedStoreTileTraits</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a69775031f651795f697b628677b8e4eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69775031f651795f697b628677b8e4eb">&#9670;&nbsp;</a></span>kScalarsPerStsA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::kScalarsPerStsA = 16</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.png b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.png
new file mode 100644
index 0000000000..4ebfb179f4
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4-members.html
new file mode 100644
index 0000000000..ad3885caca
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4-members.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aed9492775f012986a7c158156bf4e01e">GlobalLoadIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4">GlobalTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a32729d0fad10fcbbcf2643a2fa5671d6">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aedb61c43d8fb9c4ba18ae72601b9f6e1">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a29c3a5e4ea1fb6d0ea8b234849684daf">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aa37f285c74bb63c8bb8cbfc767378c41">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a53dd72126a43a1c5811ed92a2313d19d">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html
new file mode 100644
index 0000000000..535fbc7ac1
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html
@@ -0,0 +1,273 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmTileTraitsHelperA&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:aa37f285c74bb63c8bb8cbfc767378c41"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aa37f285c74bb63c8bb8cbfc767378c41">Scalar</a></td></tr>
+<tr class="memdesc:aa37f285c74bb63c8bb8cbfc767378c41"><td class="mdescLeft">&#160;</td><td class="mdescRight">The input scalar.  <a href="#aa37f285c74bb63c8bb8cbfc767378c41">More...</a><br /></td></tr>
+<tr class="separator:aa37f285c74bb63c8bb8cbfc767378c41"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a29c3a5e4ea1fb6d0ea8b234849684daf"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a29c3a5e4ea1fb6d0ea8b234849684daf">MultiplyAddScalar</a></td></tr>
+<tr class="memdesc:a29c3a5e4ea1fb6d0ea8b234849684daf"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar stored in shared memory.  <a href="#a29c3a5e4ea1fb6d0ea8b234849684daf">More...</a><br /></td></tr>
+<tr class="separator:a29c3a5e4ea1fb6d0ea8b234849684daf"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4241971b8a82af2c1f5f930be3cdd5c4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, int8_t const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgA &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4">GlobalTileTraits</a></td></tr>
+<tr class="memdesc:a4241971b8a82af2c1f5f930be3cdd5c4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for A^T.  <a href="#a4241971b8a82af2c1f5f930be3cdd5c4">More...</a><br /></td></tr>
+<tr class="separator:a4241971b8a82af2c1f5f930be3cdd5c4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aed9492775f012986a7c158156bf4e01e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4">GlobalTileTraits</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aed9492775f012986a7c158156bf4e01e">GlobalLoadIterator</a></td></tr>
+<tr class="memdesc:aed9492775f012986a7c158156bf4e01e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The global load iterator.  <a href="#aed9492775f012986a7c158156bf4e01e">More...</a><br /></td></tr>
+<tr class="separator:aed9492775f012986a7c158156bf4e01e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a11d02ea6e4ab68a0f4dff1eb8ecf4f9d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; int8_t, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/4, GemmConfig_::OutputTile::kW *4 &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">GlobalTileTraits::Threads</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aedb61c43d8fb9c4ba18ae72601b9f6e1">kScalarsPerStsA</a>, 16 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d">SharedStoreTileTraits</a></td></tr>
+<tr class="memdesc:a11d02ea6e4ab68a0f4dff1eb8ecf4f9d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for A^N.  <a href="#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d">More...</a><br /></td></tr>
+<tr class="separator:a11d02ea6e4ab68a0f4dff1eb8ecf4f9d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a53dd72126a43a1c5811ed92a2313d19d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt; int8_t const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 16, SharedStoreTileTraits::kSkew &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a53dd72126a43a1c5811ed92a2313d19d">SharedLoadTileTraits</a></td></tr>
+<tr class="memdesc:a53dd72126a43a1c5811ed92a2313d19d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for A^N.  <a href="#a53dd72126a43a1c5811ed92a2313d19d">More...</a><br /></td></tr>
+<tr class="separator:a53dd72126a43a1c5811ed92a2313d19d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a32729d0fad10fcbbcf2643a2fa5671d6"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a32729d0fad10fcbbcf2643a2fa5671d6">kLayout</a> = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a></td></tr>
+<tr class="memdesc:a32729d0fad10fcbbcf2643a2fa5671d6"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="#a32729d0fad10fcbbcf2643a2fa5671d6">More...</a><br /></td></tr>
+<tr class="separator:a32729d0fad10fcbbcf2643a2fa5671d6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aedb61c43d8fb9c4ba18ae72601b9f6e1"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aedb61c43d8fb9c4ba18ae72601b9f6e1">kScalarsPerStsA</a> = 16</td></tr>
+<tr class="memdesc:aedb61c43d8fb9c4ba18ae72601b9f6e1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="#aedb61c43d8fb9c4ba18ae72601b9f6e1">More...</a><br /></td></tr>
+<tr class="separator:aedb61c43d8fb9c4ba18ae72601b9f6e1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="aed9492775f012986a7c158156bf4e01e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aed9492775f012986a7c158156bf4e01e">&#9670;&nbsp;</a></span>GlobalLoadIterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4">GlobalTileTraits</a>, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aed9492775f012986a7c158156bf4e01e">GlobalLoadIterator</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4241971b8a82af2c1f5f930be3cdd5c4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4241971b8a82af2c1f5f930be3cdd5c4">&#9670;&nbsp;</a></span>GlobalTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, int8_t const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD&gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;typename GemmConfig_::Warps&gt;::kCount, GemmConfig_::kWarpSize&gt;, GemmConfig_::kScalarsPerLdgA&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4241971b8a82af2c1f5f930be3cdd5c4">GlobalTileTraits</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a29c3a5e4ea1fb6d0ea8b234849684daf"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a29c3a5e4ea1fb6d0ea8b234849684daf">&#9670;&nbsp;</a></span>MultiplyAddScalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef int8_t <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a29c3a5e4ea1fb6d0ea8b234849684daf">MultiplyAddScalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa37f285c74bb63c8bb8cbfc767378c41"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa37f285c74bb63c8bb8cbfc767378c41">&#9670;&nbsp;</a></span>Scalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef int8_t <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aa37f285c74bb63c8bb8cbfc767378c41">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a53dd72126a43a1c5811ed92a2313d19d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a53dd72126a43a1c5811ed92a2313d19d">&#9670;&nbsp;</a></span>SharedLoadTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileATraits.html">GemmSharedLoadTileATraits</a>&lt; int8_t const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 16, SharedStoreTileTraits::kSkew&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a53dd72126a43a1c5811ed92a2313d19d">SharedLoadTileTraits</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a11d02ea6e4ab68a0f4dff1eb8ecf4f9d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d">&#9670;&nbsp;</a></span>SharedStoreTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; int8_t, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / 4, GemmConfig_::OutputTile::kW * 4&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">GlobalTileTraits::Threads</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#aedb61c43d8fb9c4ba18ae72601b9f6e1">kScalarsPerStsA</a>, 16&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a11d02ea6e4ab68a0f4dff1eb8ecf4f9d">SharedStoreTileTraits</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a32729d0fad10fcbbcf2643a2fa5671d6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a32729d0fad10fcbbcf2643a2fa5671d6">&#9670;&nbsp;</a></span>kLayout</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::kLayout = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aedb61c43d8fb9c4ba18ae72601b9f6e1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aedb61c43d8fb9c4ba18ae72601b9f6e1">&#9670;&nbsp;</a></span>kScalarsPerStsA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">cutlass::gemm::IgemmTileTraitsHelperA</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::kScalarsPerStsA = 16</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html
index 56b03b2b2c..950b4ac0db 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::IgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::IgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_, Index_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -73,18 +73,18 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::IgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::IgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_, Index_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::gemm::IgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt;:</div>
+Inheritance diagram for cutlass::gemm::IgemmTileTraitsHelperB&lt; kLayout_, GemmConfig_, Index_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.png" usemap="#cutlass::gemm::IgemmTileTraitsHelperB_3C_20kLayout_5F_2C_20GemmConfig_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::IgemmTileTraitsHelperB_3C_20kLayout_5F_2C_20GemmConfig_5F_20_3E_map" name="cutlass::gemm::IgemmTileTraitsHelperB_3C_20kLayout_5F_2C_20GemmConfig_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html" alt="cutlass::gemm::GemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt;" shape="rect" coords="0,0,389,24"/>
+  <img src="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.png" usemap="#cutlass::gemm::IgemmTileTraitsHelperB_3C_20kLayout_5F_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::IgemmTileTraitsHelperB_3C_20kLayout_5F_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map" name="cutlass::gemm::IgemmTileTraitsHelperB_3C_20kLayout_5F_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html" alt="cutlass::gemm::GemmTileTraitsHelperB&lt; kLayout_, GemmConfig_ &gt;" shape="rect" coords="0,0,435,24"/>
 </map>
  </div></div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
@@ -93,7 +93,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.png b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.png
index 27dbc2cd67..4400379253 100644
Binary files a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.png and b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4-members.html
new file mode 100644
index 0000000000..d5696e449a
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4-members.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#acd7e5d5b940f410275ebbcd6c27e4327">GlobalLoadIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa">GlobalTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a11026d05b2b32f1373020c049f2cfa66">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aaa3228d45ff4428bba0f88a7a6e8b31b">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aac06796d174a2d54103903e7dbe7b194">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a1ebf24984863d0422356031615b74c53">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#ad8f1b0fda40f1fb7dc598cc841f38afe">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a86ed2ebc5b6e4426ab35a1f30a3e47bb">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html
new file mode 100644
index 0000000000..e542db2d08
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html
@@ -0,0 +1,273 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kColumnMajor, GemmConfig_, Index_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a1ebf24984863d0422356031615b74c53"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a1ebf24984863d0422356031615b74c53">Scalar</a></td></tr>
+<tr class="memdesc:a1ebf24984863d0422356031615b74c53"><td class="mdescLeft">&#160;</td><td class="mdescRight">The input scalar.  <a href="#a1ebf24984863d0422356031615b74c53">More...</a><br /></td></tr>
+<tr class="separator:a1ebf24984863d0422356031615b74c53"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aac06796d174a2d54103903e7dbe7b194"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aac06796d174a2d54103903e7dbe7b194">MultiplyAddScalar</a></td></tr>
+<tr class="memdesc:aac06796d174a2d54103903e7dbe7b194"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar stored in shared memory.  <a href="#aac06796d174a2d54103903e7dbe7b194">More...</a><br /></td></tr>
+<tr class="separator:aac06796d174a2d54103903e7dbe7b194"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af6f6d293f058666f9f0da53f34c712aa"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, int8_t const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgB &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa">GlobalTileTraits</a></td></tr>
+<tr class="memdesc:af6f6d293f058666f9f0da53f34c712aa"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for B^T.  <a href="#af6f6d293f058666f9f0da53f34c712aa">More...</a><br /></td></tr>
+<tr class="separator:af6f6d293f058666f9f0da53f34c712aa"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acd7e5d5b940f410275ebbcd6c27e4327"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa">GlobalTileTraits</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#acd7e5d5b940f410275ebbcd6c27e4327">GlobalLoadIterator</a></td></tr>
+<tr class="memdesc:acd7e5d5b940f410275ebbcd6c27e4327"><td class="mdescLeft">&#160;</td><td class="mdescRight">The global load iterator.  <a href="#acd7e5d5b940f410275ebbcd6c27e4327">More...</a><br /></td></tr>
+<tr class="separator:acd7e5d5b940f410275ebbcd6c27e4327"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a86ed2ebc5b6e4426ab35a1f30a3e47bb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; int8_t, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/4, GemmConfig_::OutputTile::kH *4 &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">GlobalTileTraits::Threads</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aaa3228d45ff4428bba0f88a7a6e8b31b">kScalarsPerStsB</a>, 16 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a86ed2ebc5b6e4426ab35a1f30a3e47bb">SharedStoreTileTraits</a></td></tr>
+<tr class="memdesc:a86ed2ebc5b6e4426ab35a1f30a3e47bb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for B^N.  <a href="#a86ed2ebc5b6e4426ab35a1f30a3e47bb">More...</a><br /></td></tr>
+<tr class="separator:a86ed2ebc5b6e4426ab35a1f30a3e47bb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad8f1b0fda40f1fb7dc598cc841f38afe"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt; int8_t const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 16, SharedStoreTileTraits::kSkew &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#ad8f1b0fda40f1fb7dc598cc841f38afe">SharedLoadTileTraits</a></td></tr>
+<tr class="memdesc:ad8f1b0fda40f1fb7dc598cc841f38afe"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for B^N.  <a href="#ad8f1b0fda40f1fb7dc598cc841f38afe">More...</a><br /></td></tr>
+<tr class="separator:ad8f1b0fda40f1fb7dc598cc841f38afe"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a11026d05b2b32f1373020c049f2cfa66"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a11026d05b2b32f1373020c049f2cfa66">kLayout</a> = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a></td></tr>
+<tr class="memdesc:a11026d05b2b32f1373020c049f2cfa66"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="#a11026d05b2b32f1373020c049f2cfa66">More...</a><br /></td></tr>
+<tr class="separator:a11026d05b2b32f1373020c049f2cfa66"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaa3228d45ff4428bba0f88a7a6e8b31b"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aaa3228d45ff4428bba0f88a7a6e8b31b">kScalarsPerStsB</a> = 16</td></tr>
+<tr class="memdesc:aaa3228d45ff4428bba0f88a7a6e8b31b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="#aaa3228d45ff4428bba0f88a7a6e8b31b">More...</a><br /></td></tr>
+<tr class="separator:aaa3228d45ff4428bba0f88a7a6e8b31b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="acd7e5d5b940f410275ebbcd6c27e4327"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acd7e5d5b940f410275ebbcd6c27e4327">&#9670;&nbsp;</a></span>GlobalLoadIterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalIteratorAb.html">IgemmGlobalIteratorAb</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa">GlobalTileTraits</a>, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#acd7e5d5b940f410275ebbcd6c27e4327">GlobalLoadIterator</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af6f6d293f058666f9f0da53f34c712aa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af6f6d293f058666f9f0da53f34c712aa">&#9670;&nbsp;</a></span>GlobalTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, int8_t const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD&gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;typename GemmConfig_::Warps&gt;::kCount, GemmConfig_::kWarpSize&gt;, GemmConfig_::kScalarsPerLdgB&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#af6f6d293f058666f9f0da53f34c712aa">GlobalTileTraits</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aac06796d174a2d54103903e7dbe7b194"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aac06796d174a2d54103903e7dbe7b194">&#9670;&nbsp;</a></span>MultiplyAddScalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef int8_t <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aac06796d174a2d54103903e7dbe7b194">MultiplyAddScalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1ebf24984863d0422356031615b74c53"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1ebf24984863d0422356031615b74c53">&#9670;&nbsp;</a></span>Scalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef int8_t <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a1ebf24984863d0422356031615b74c53">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad8f1b0fda40f1fb7dc598cc841f38afe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8f1b0fda40f1fb7dc598cc841f38afe">&#9670;&nbsp;</a></span>SharedLoadTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt; int8_t const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, 16, SharedStoreTileTraits::kSkew&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#ad8f1b0fda40f1fb7dc598cc841f38afe">SharedLoadTileTraits</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a86ed2ebc5b6e4426ab35a1f30a3e47bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a86ed2ebc5b6e4426ab35a1f30a3e47bb">&#9670;&nbsp;</a></span>SharedStoreTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreWithSkewTileAbTraits.html">GemmSharedStoreWithSkewTileAbTraits</a>&lt; int8_t, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / 4, GemmConfig_::OutputTile::kH * 4&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html#a72fe2fb9077d072f8266f07374624a1f">GlobalTileTraits::Threads</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#aaa3228d45ff4428bba0f88a7a6e8b31b">kScalarsPerStsB</a>, 16&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kColumnMajor_00_01GemmConfig___00_01Index___01_4.html#a86ed2ebc5b6e4426ab35a1f30a3e47bb">SharedStoreTileTraits</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a11026d05b2b32f1373020c049f2cfa66"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11026d05b2b32f1373020c049f2cfa66">&#9670;&nbsp;</a></span>kLayout</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::kLayout = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aaa3228d45ff4428bba0f88a7a6e8b31b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaa3228d45ff4428bba0f88a7a6e8b31b">&#9670;&nbsp;</a></span>kScalarsPerStsB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>, GemmConfig_, Index_ &gt;::kScalarsPerStsB = 16</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4-members.html
new file mode 100644
index 0000000000..953c446c56
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4-members.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4f7dfa33f6b6e52aac05ad5072710aa9">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a57670718427808a241005f5e27acce5d">GlobalLoadIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a125c9a43da3bcdc00d5194a1376f613c">GlobalTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a8a6cef5e733eab9c0ead20b1e345ad6f">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">SharedLoadTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a872dc2d0b8ed6c75c41d258a23183861">SharedStoreTileTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html
new file mode 100644
index 0000000000..b807d68f4f
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html
@@ -0,0 +1,237 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html">IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-static-attribs">Static Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::IgemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_, Index_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.png" usemap="#cutlass::gemm::IgemmTileTraitsHelperB_3C_20MatrixLayout::kRowMajor_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::IgemmTileTraitsHelperB_3C_20MatrixLayout::kRowMajor_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map" name="cutlass::gemm::IgemmTileTraitsHelperB_3C_20MatrixLayout::kRowMajor_2C_20GemmConfig_5F_2C_20Index_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html" alt="cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;" shape="rect" coords="0,0,526,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a4f7dfa33f6b6e52aac05ad5072710aa9"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4f7dfa33f6b6e52aac05ad5072710aa9">Base</a></td></tr>
+<tr class="memdesc:a4f7dfa33f6b6e52aac05ad5072710aa9"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base config.  <a href="#a4f7dfa33f6b6e52aac05ad5072710aa9">More...</a><br /></td></tr>
+<tr class="separator:a4f7dfa33f6b6e52aac05ad5072710aa9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a125c9a43da3bcdc00d5194a1376f613c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, int8_t const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgB &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a125c9a43da3bcdc00d5194a1376f613c">GlobalTileTraits</a></td></tr>
+<tr class="memdesc:a125c9a43da3bcdc00d5194a1376f613c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for B^T.  <a href="#a125c9a43da3bcdc00d5194a1376f613c">More...</a><br /></td></tr>
+<tr class="separator:a125c9a43da3bcdc00d5194a1376f613c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a57670718427808a241005f5e27acce5d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">GlobalTileTraits</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a57670718427808a241005f5e27acce5d">GlobalLoadIterator</a></td></tr>
+<tr class="memdesc:a57670718427808a241005f5e27acce5d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The global load iterator.  <a href="#a57670718427808a241005f5e27acce5d">More...</a><br /></td></tr>
+<tr class="separator:a57670718427808a241005f5e27acce5d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a872dc2d0b8ed6c75c41d258a23183861"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; int8_t, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/4, GemmConfig_::OutputTile::kH *4 &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a8a6cef5e733eab9c0ead20b1e345ad6f">kScalarsPerStsB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a872dc2d0b8ed6c75c41d258a23183861">SharedStoreTileTraits</a></td></tr>
+<tr class="memdesc:a872dc2d0b8ed6c75c41d258a23183861"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for B^N.  <a href="#a872dc2d0b8ed6c75c41d258a23183861">More...</a><br /></td></tr>
+<tr class="separator:a872dc2d0b8ed6c75c41d258a23183861"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td></tr>
+<tr class="memitem:a7639ccd7f6419a9f232db173a228e756 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_::ScalarB&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">Scalar</a></td></tr>
+<tr class="memdesc:a7639ccd7f6419a9f232db173a228e756 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The input scalar.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">More...</a><br /></td></tr>
+<tr class="separator:a7639ccd7f6419a9f232db173a228e756 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aad14588b1515e37ede24915f589d32ab inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_::MultiplyAdd::ScalarB&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a></td></tr>
+<tr class="memdesc:aad14588b1515e37ede24915f589d32ab inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar stored in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">More...</a><br /></td></tr>
+<tr class="separator:aad14588b1515e37ede24915f589d32ab inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afbc41e7b98097b153fd27a48f073a877 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a7639ccd7f6419a9f232db173a228e756">Scalar</a> const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH &gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; typename GemmConfig_::Warps &gt;::kCount, GemmConfig_::kWarpSize &gt;, GemmConfig_::kScalarsPerLdgB &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">GlobalTileTraits</a></td></tr>
+<tr class="memdesc:afbc41e7b98097b153fd27a48f073a877 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load data from global memory for B^T.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">More...</a><br /></td></tr>
+<tr class="separator:afbc41e7b98097b153fd27a48f073a877 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acbeea56f0ce95ddd632db3482c1021e5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a>, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; GemmConfig_::kStages, GemmConfig_::OutputTile::kD/GemmConfig_::InstructionShape::kD, GemmConfig_::OutputTile::kH *GemmConfig_::InstructionShape::kD &gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>, GemmConfig_::kScalarsPerStsB &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">SharedStoreTileTraits</a></td></tr>
+<tr class="memdesc:acbeea56f0ce95ddd632db3482c1021e5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to store data to shared memory for B^T.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">More...</a><br /></td></tr>
+<tr class="separator:acbeea56f0ce95ddd632db3482c1021e5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9335aca8b152ff1167763de8ff8fb882 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedLoadTileBTraits.html">GemmSharedLoadTileBTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#aad14588b1515e37ede24915f589d32ab">MultiplyAddScalar</a> const, typename GemmConfig_::OutputTile, typename GemmConfig_::Warps, typename GemmConfig_::MultiplyAdd::ThreadsPerWarp, typename GemmConfig_::InstructionShape, GemmConfig_::kStages, GemmConfig_::kScalarsPerLdsB, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">SharedLoadTileTraits</a></td></tr>
+<tr class="memdesc:a9335aca8b152ff1167763de8ff8fb882 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits class to build the iterator to load from shared memory for B^T.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a9335aca8b152ff1167763de8ff8fb882">More...</a><br /></td></tr>
+<tr class="separator:a9335aca8b152ff1167763de8ff8fb882 inherit pub_types_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
+Static Public Attributes</h2></td></tr>
+<tr class="memitem:a8a6cef5e733eab9c0ead20b1e345ad6f"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a8a6cef5e733eab9c0ead20b1e345ad6f">kScalarsPerStsB</a> = 16</td></tr>
+<tr class="memdesc:a8a6cef5e733eab9c0ead20b1e345ad6f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="#a8a6cef5e733eab9c0ead20b1e345ad6f">More...</a><br /></td></tr>
+<tr class="separator:a8a6cef5e733eab9c0ead20b1e345ad6f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html">cutlass::gemm::GemmTileTraitsHelperB&lt; MatrixLayout::kRowMajor, GemmConfig_ &gt;</a></td></tr>
+<tr class="memitem:a31fa28168811e2d04fbd74029df785ab inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab">kLayout</a> = <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a></td></tr>
+<tr class="memdesc:a31fa28168811e2d04fbd74029df785ab inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#a31fa28168811e2d04fbd74029df785ab">More...</a><br /></td></tr>
+<tr class="separator:a31fa28168811e2d04fbd74029df785ab inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a4f7dfa33f6b6e52aac05ad5072710aa9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f7dfa33f6b6e52aac05ad5072710aa9">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt;<a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a4f7dfa33f6b6e52aac05ad5072710aa9">Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a57670718427808a241005f5e27acce5d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a57670718427808a241005f5e27acce5d">&#9670;&nbsp;</a></span>GlobalLoadIterator</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">GlobalTileTraits</a>, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a57670718427808a241005f5e27acce5d">GlobalLoadIterator</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a125c9a43da3bcdc00d5194a1376f613c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a125c9a43da3bcdc00d5194a1376f613c">&#9670;&nbsp;</a></span>GlobalTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmGlobalTileTraits.html">IgemmGlobalTileTraits</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, int8_t const, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kH&gt;, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt;typename GemmConfig_::Warps&gt;::kCount, GemmConfig_::kWarpSize&gt;, GemmConfig_::kScalarsPerLdgB&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#afbc41e7b98097b153fd27a48f073a877">GlobalTileTraits</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a872dc2d0b8ed6c75c41d258a23183861"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a872dc2d0b8ed6c75c41d258a23183861">&#9670;&nbsp;</a></span>SharedStoreTileTraits</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmSharedStoreTileAbTraits.html">GemmSharedStoreTileAbTraits</a>&lt; int8_t, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;GemmConfig_::kStages, GemmConfig_::OutputTile::kD / 4, GemmConfig_::OutputTile::kH * 4&gt;, typename <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">GlobalTileTraits::Threads</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.html#a8a6cef5e733eab9c0ead20b1e345ad6f">kScalarsPerStsB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___01_4.html#acbeea56f0ce95ddd632db3482c1021e5">SharedStoreTileTraits</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a8a6cef5e733eab9c0ead20b1e345ad6f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8a6cef5e733eab9c0ead20b1e345ad6f">&#9670;&nbsp;</a></span>kScalarsPerStsB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename GemmConfig_ , typename Index_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">int const <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">cutlass::gemm::IgemmTileTraitsHelperB</a>&lt; <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>, GemmConfig_, Index_ &gt;::kScalarsPerStsB = 16</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.png b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.png
new file mode 100644
index 0000000000..7cab240357
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB_3_01MatrixLayout_1_1kRowMajor_00_01GemmConfig___00_01Index___01_4.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTraits-members.html b/docs/structcutlass_1_1gemm_1_1IgemmTraits-members.html
index 23f0fe6d06..ee32e38b1e 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTraits-members.html
@@ -73,19 +73,21 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_, Helper_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_, Helper_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html">cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_, Helper_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraits.html">cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_, Helper_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
@@ -98,12 +100,13 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a>(bool in_loop)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTraits.html b/docs/structcutlass_1_1gemm_1_1IgemmTraits.html
index 92ff0ed8ab..7a4907a7f5 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTraits.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_, Helper_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_, Helper_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -75,17 +75,17 @@
   <div class="summary">
 <a href="structcutlass_1_1gemm_1_1IgemmTraits-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_, Helper_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_, Helper_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="igemm__traits_8h_source.html">igemm_traits.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_, Helper_ &gt;:</div>
+Inheritance diagram for cutlass::gemm::IgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_, Helper_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1gemm_1_1IgemmTraits.png" usemap="#cutlass::gemm::IgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20ScalarD_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::IgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20ScalarD_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" name="cutlass::gemm::IgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20ScalarD_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map">
+  <img src="structcutlass_1_1gemm_1_1IgemmTraits.png" usemap="#cutlass::gemm::IgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20ScalarD_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::IgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20ScalarD_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" name="cutlass::gemm::IgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20ScalarD_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map">
 <area href="structcutlass_1_1gemm_1_1GemmTraits.html" alt="cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;" shape="rect" coords="0,0,1447,24"/>
 </map>
  </div></div>
@@ -93,10 +93,16 @@
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
 <tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td></tr>
+<tr class="memitem:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>, Index_, Helper_::ClearAccumulators &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a></td></tr>
+<tr class="memdesc:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">This traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">More...</a><br /></td></tr>
+<tr class="separator:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a></td></tr>
+<tr class="memdesc:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The struct that consumes this Traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">More...</a><br /></td></tr>
+<tr class="separator:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GemmConfig&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a></td></tr>
 <tr class="memdesc:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The configuration.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">More...</a><br /></td></tr>
 <tr class="separator:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
+<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
 <tr class="memdesc:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">More...</a><br /></td></tr>
 <tr class="separator:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalLoadStreamA&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a></td></tr>
@@ -117,13 +123,7 @@
 <tr class="memitem:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedLoadStreamB&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a></td></tr>
 <tr class="memdesc:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for B to load from shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">More...</a><br /></td></tr>
 <tr class="separator:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamA::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a></td></tr>
-<tr class="memdesc:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for A.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">More...</a><br /></td></tr>
-<tr class="separator:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamB::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a></td></tr>
-<tr class="memdesc:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">More...</a><br /></td></tr>
-<tr class="separator:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
+<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
 <tr class="memdesc:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The multiply-add functor.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">More...</a><br /></td></tr>
 <tr class="separator:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::Epilogue&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a></td></tr>
@@ -143,6 +143,15 @@
 <tr class="memitem:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::ClearAccumulators&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a></td></tr>
 <tr class="memdesc:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear the accumulators.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">More...</a><br /></td></tr>
 <tr class="separator:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, GemmConfig::kResidueInProlog &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a></td></tr>
+<tr class="memdesc:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the global load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">More...</a><br /></td></tr>
+<tr class="separator:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">GlobalLoadStream::ThreadblockTileStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a></td></tr>
+<tr class="memdesc:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory needed to store the threadblock-scoped GEMM tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">More...</a><br /></td></tr>
+<tr class="separator:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a></td></tr>
+<tr class="memdesc:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the shared load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">More...</a><br /></td></tr>
+<tr class="separator:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; Helper_::GemmConfig, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Helper_::Epilogue, IdentityBlockSwizzle, Index_, Helper_::ClearAccumulators &gt;</a></td></tr>
 <tr class="memitem:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a> (bool in_loop)</td></tr>
 <tr class="memdesc:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared loads.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">More...</a><br /></td></tr>
@@ -164,7 +173,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTraits.png b/docs/structcutlass_1_1gemm_1_1IgemmTraits.png
index 7f98448cc8..59b3777086 100644
Binary files a/docs/structcutlass_1_1gemm_1_1IgemmTraits.png and b/docs/structcutlass_1_1gemm_1_1IgemmTraits.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTraitsHelper-members.html b/docs/structcutlass_1_1gemm_1_1IgemmTraitsHelper-members.html
index 9c138df718..6a63acf70b 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTraitsHelper-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTraitsHelper-members.html
@@ -73,34 +73,34 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5e2ed697a9091a1ca8b19855b5a2c651">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ab9e10d54c81a359db0eba58a11b9a0cf">GemmTileTraitsHelperA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a095505bfcea6791accd06bf4d37b9df8">GemmTileTraitsHelperB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">GlobalLoadIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">GlobalLoadIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7fb1354154f303642da72e6fd157d846">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a88e66ee760aea03687e7b3ccc6ea535b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d">GlobalTransformerA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9">GlobalTransformerB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a87e34d56fa955670331749724bee9fd8">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99">SharedLoadIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8">SharedLoadIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a70063eb7e19921efef55a6f32562773f">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a54e8ad5874306a3764951a9791f02c96">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46">SharedStoreIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f">SharedStoreIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a36c8b17c98723934d9d75228dd9c2915">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aee1dfb15e1b63f838a712af93777e5d3">GemmTileTraitsHelperA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7f175193ac6bcdccba012f5d80324685">GemmTileTraitsHelperB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">GlobalLoadIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">GlobalLoadIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2aceaceb30287e909c254f01f1716845">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae59454c1b3862522c8ea293bacb194a8">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">GlobalTransformerA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">GlobalTransformerB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae84c7fd1567580dc3da15a520c47ff6e">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c">SharedLoadIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312">SharedLoadIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7e035ceab26dc904726ddbf14371f476">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aff287e2ca10a437a82736baab2d7c28d">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">SharedStoreIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">SharedStoreIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTraitsHelper.html b/docs/structcutlass_1_1gemm_1_1IgemmTraitsHelper.html
index 3ac649b17b..b2c9724a00 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTraitsHelper.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTraitsHelper.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -76,7 +76,7 @@
 <a href="#pub-types">Public Types</a> &#124;
 <a href="structcutlass_1_1gemm_1_1IgemmTraitsHelper-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::IgemmTraitsHelper&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -84,343 +84,343 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:af10aebe7ca4e24cce435ac4cd60e7bac"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a>&lt; OutputTile_, ScalarD_, AccumulatorsPerThread_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">GemmConfig</a></td></tr>
-<tr class="memdesc:af10aebe7ca4e24cce435ac4cd60e7bac"><td class="mdescLeft">&#160;</td><td class="mdescRight">The IGEMM config.  <a href="#af10aebe7ca4e24cce435ac4cd60e7bac">More...</a><br /></td></tr>
-<tr class="separator:af10aebe7ca4e24cce435ac4cd60e7bac"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab9e10d54c81a359db0eba58a11b9a0cf"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a>&lt; kLayoutA_, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">GemmConfig</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ab9e10d54c81a359db0eba58a11b9a0cf">GemmTileTraitsHelperA</a></td></tr>
-<tr class="memdesc:ab9e10d54c81a359db0eba58a11b9a0cf"><td class="mdescLeft">&#160;</td><td class="mdescRight">The GEMM config for A.  <a href="#ab9e10d54c81a359db0eba58a11b9a0cf">More...</a><br /></td></tr>
-<tr class="separator:ab9e10d54c81a359db0eba58a11b9a0cf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a095505bfcea6791accd06bf4d37b9df8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a>&lt; kLayoutB_, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">GemmConfig</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a095505bfcea6791accd06bf4d37b9df8">GemmTileTraitsHelperB</a></td></tr>
-<tr class="memdesc:a095505bfcea6791accd06bf4d37b9df8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The GEMM config for B.  <a href="#a095505bfcea6791accd06bf4d37b9df8">More...</a><br /></td></tr>
-<tr class="separator:a095505bfcea6791accd06bf4d37b9df8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac7ee33e683e48511a1a220df6c9d4758"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; typename GemmTileTraitsHelperA::GlobalTileTraits, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">GlobalLoadIteratorA</a></td></tr>
-<tr class="memdesc:ac7ee33e683e48511a1a220df6c9d4758"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load A from global memory.  <a href="#ac7ee33e683e48511a1a220df6c9d4758">More...</a><br /></td></tr>
-<tr class="separator:ac7ee33e683e48511a1a220df6c9d4758"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a23bb732b7237bcabe3667408f288844d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a>&lt; GemmTileTraitsHelperA::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">GlobalLoadIteratorA</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d">GlobalTransformerA</a></td></tr>
-<tr class="memdesc:a23bb732b7237bcabe3667408f288844d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default transformer for A.  <a href="#a23bb732b7237bcabe3667408f288844d">More...</a><br /></td></tr>
-<tr class="separator:a23bb732b7237bcabe3667408f288844d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae187303a8da63f36960687a4730f4c46"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46">SharedStoreIteratorA</a></td></tr>
-<tr class="memdesc:ae187303a8da63f36960687a4730f4c46"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store A to shared memory.  <a href="#ae187303a8da63f36960687a4730f4c46">More...</a><br /></td></tr>
-<tr class="separator:ae187303a8da63f36960687a4730f4c46"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7fb1354154f303642da72e6fd157d846"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d">GlobalTransformerA</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7fb1354154f303642da72e6fd157d846">GlobalLoadStreamA</a></td></tr>
-<tr class="memdesc:a7fb1354154f303642da72e6fd157d846"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from global memory to shared memory.  <a href="#a7fb1354154f303642da72e6fd157d846">More...</a><br /></td></tr>
-<tr class="separator:a7fb1354154f303642da72e6fd157d846"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3a6d816852cca926afa08103f754477b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; typename GemmTileTraitsHelperB::GlobalTileTraits, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">GlobalLoadIteratorB</a></td></tr>
-<tr class="memdesc:a3a6d816852cca926afa08103f754477b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load B from global memory.  <a href="#a3a6d816852cca926afa08103f754477b">More...</a><br /></td></tr>
-<tr class="separator:a3a6d816852cca926afa08103f754477b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a600bcc571ea5e04a98663c134d4664b9"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a>&lt; GemmTileTraitsHelperB::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">GlobalLoadIteratorB</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9">GlobalTransformerB</a></td></tr>
-<tr class="separator:a600bcc571ea5e04a98663c134d4664b9"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4d6658f3a3b53760b10a3da9c807b81f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f">SharedStoreIteratorB</a></td></tr>
-<tr class="memdesc:a4d6658f3a3b53760b10a3da9c807b81f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store B to shared memory.  <a href="#a4d6658f3a3b53760b10a3da9c807b81f">More...</a><br /></td></tr>
-<tr class="separator:a4d6658f3a3b53760b10a3da9c807b81f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a88e66ee760aea03687e7b3ccc6ea535b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9">GlobalTransformerB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a88e66ee760aea03687e7b3ccc6ea535b">GlobalLoadStreamB</a></td></tr>
-<tr class="memdesc:a88e66ee760aea03687e7b3ccc6ea535b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from global memory to shared memory.  <a href="#a88e66ee760aea03687e7b3ccc6ea535b">More...</a><br /></td></tr>
-<tr class="separator:a88e66ee760aea03687e7b3ccc6ea535b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa93043ac87d89ce7fb991c9195c3bf99"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99">SharedLoadIteratorA</a></td></tr>
-<tr class="memdesc:aa93043ac87d89ce7fb991c9195c3bf99"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load A from shared memory.  <a href="#aa93043ac87d89ce7fb991c9195c3bf99">More...</a><br /></td></tr>
-<tr class="separator:aa93043ac87d89ce7fb991c9195c3bf99"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a70063eb7e19921efef55a6f32562773f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99">SharedLoadIteratorA</a>, <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">SharedLoadIteratorA::Fragment</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a70063eb7e19921efef55a6f32562773f">SharedLoadStreamA</a></td></tr>
-<tr class="memdesc:a70063eb7e19921efef55a6f32562773f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from shared memory.  <a href="#a70063eb7e19921efef55a6f32562773f">More...</a><br /></td></tr>
-<tr class="separator:a70063eb7e19921efef55a6f32562773f"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a42322b9b10e894fe157e527b378c59f8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8">SharedLoadIteratorB</a></td></tr>
-<tr class="memdesc:a42322b9b10e894fe157e527b378c59f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load B from shared memory.  <a href="#a42322b9b10e894fe157e527b378c59f8">More...</a><br /></td></tr>
-<tr class="separator:a42322b9b10e894fe157e527b378c59f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a54e8ad5874306a3764951a9791f02c96"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8">SharedLoadIteratorB</a>, <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">SharedLoadIteratorB::Fragment</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a54e8ad5874306a3764951a9791f02c96">SharedLoadStreamB</a></td></tr>
-<tr class="memdesc:a54e8ad5874306a3764951a9791f02c96"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from shared memory.  <a href="#a54e8ad5874306a3764951a9791f02c96">More...</a><br /></td></tr>
-<tr class="separator:a54e8ad5874306a3764951a9791f02c96"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a87e34d56fa955670331749724bee9fd8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a87e34d56fa955670331749724bee9fd8">MultiplyAdd</a></td></tr>
-<tr class="memdesc:a87e34d56fa955670331749724bee9fd8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The multiply-add functor.  <a href="#a87e34d56fa955670331749724bee9fd8">More...</a><br /></td></tr>
-<tr class="separator:a87e34d56fa955670331749724bee9fd8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5645e18de29a84c9a9b3f3105966f0c5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">ClearAccumulators</a>&lt; typename <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">MultiplyAdd::ScalarC</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">ClearAccumulators</a></td></tr>
-<tr class="memdesc:a5645e18de29a84c9a9b3f3105966f0c5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The object to clear accumulators.  <a href="#a5645e18de29a84c9a9b3f3105966f0c5">More...</a><br /></td></tr>
-<tr class="separator:a5645e18de29a84c9a9b3f3105966f0c5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5e2ed697a9091a1ca8b19855b5a2c651"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">IgemmEpilogueTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">GemmConfig</a>, EpilogueFunctor_ &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5e2ed697a9091a1ca8b19855b5a2c651">Epilogue</a></td></tr>
-<tr class="memdesc:a5e2ed697a9091a1ca8b19855b5a2c651"><td class="mdescLeft">&#160;</td><td class="mdescRight">The epilogue.  <a href="#a5e2ed697a9091a1ca8b19855b5a2c651">More...</a><br /></td></tr>
-<tr class="separator:a5e2ed697a9091a1ca8b19855b5a2c651"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a52c2c7b45156e53d9bc66ed185fc3d71"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a>&lt; OutputTile_, ScalarD_, ThreadGemmShape_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">GemmConfig</a></td></tr>
+<tr class="memdesc:a52c2c7b45156e53d9bc66ed185fc3d71"><td class="mdescLeft">&#160;</td><td class="mdescRight">The IGEMM config.  <a href="#a52c2c7b45156e53d9bc66ed185fc3d71">More...</a><br /></td></tr>
+<tr class="separator:a52c2c7b45156e53d9bc66ed185fc3d71"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aee1dfb15e1b63f838a712af93777e5d3"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a>&lt; kLayoutA_, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">GemmConfig</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aee1dfb15e1b63f838a712af93777e5d3">GemmTileTraitsHelperA</a></td></tr>
+<tr class="memdesc:aee1dfb15e1b63f838a712af93777e5d3"><td class="mdescLeft">&#160;</td><td class="mdescRight">The GEMM config for A.  <a href="#aee1dfb15e1b63f838a712af93777e5d3">More...</a><br /></td></tr>
+<tr class="separator:aee1dfb15e1b63f838a712af93777e5d3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f175193ac6bcdccba012f5d80324685"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a>&lt; kLayoutB_, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">GemmConfig</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7f175193ac6bcdccba012f5d80324685">GemmTileTraitsHelperB</a></td></tr>
+<tr class="memdesc:a7f175193ac6bcdccba012f5d80324685"><td class="mdescLeft">&#160;</td><td class="mdescRight">The GEMM config for B.  <a href="#a7f175193ac6bcdccba012f5d80324685">More...</a><br /></td></tr>
+<tr class="separator:a7f175193ac6bcdccba012f5d80324685"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a48f6b161acb181aee1e5bdb3bc909b04"><td class="memItemLeft" align="right" valign="top">typedef GemmTileTraitsHelperA::GlobalLoadIterator&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">GlobalLoadIteratorA</a></td></tr>
+<tr class="memdesc:a48f6b161acb181aee1e5bdb3bc909b04"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load A from global memory.  <a href="#a48f6b161acb181aee1e5bdb3bc909b04">More...</a><br /></td></tr>
+<tr class="separator:a48f6b161acb181aee1e5bdb3bc909b04"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af394532cb8e7b088f950122b42eaa2fb"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a>&lt; GemmTileTraitsHelperA::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">GlobalLoadIteratorA</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">GlobalTransformerA</a></td></tr>
+<tr class="memdesc:af394532cb8e7b088f950122b42eaa2fb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default transformer for A.  <a href="#af394532cb8e7b088f950122b42eaa2fb">More...</a><br /></td></tr>
+<tr class="separator:af394532cb8e7b088f950122b42eaa2fb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3d2b39cacb975afbfeae9e368f0656ae"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">SharedStoreIteratorA</a></td></tr>
+<tr class="memdesc:a3d2b39cacb975afbfeae9e368f0656ae"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store A to shared memory.  <a href="#a3d2b39cacb975afbfeae9e368f0656ae">More...</a><br /></td></tr>
+<tr class="separator:a3d2b39cacb975afbfeae9e368f0656ae"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2aceaceb30287e909c254f01f1716845"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">GlobalTransformerA</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2aceaceb30287e909c254f01f1716845">GlobalLoadStreamA</a></td></tr>
+<tr class="memdesc:a2aceaceb30287e909c254f01f1716845"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from global memory to shared memory.  <a href="#a2aceaceb30287e909c254f01f1716845">More...</a><br /></td></tr>
+<tr class="separator:a2aceaceb30287e909c254f01f1716845"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad1a34cb78f88fe2fcbf13239e89f6137"><td class="memItemLeft" align="right" valign="top">typedef GemmTileTraitsHelperB::GlobalLoadIterator&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">GlobalLoadIteratorB</a></td></tr>
+<tr class="memdesc:ad1a34cb78f88fe2fcbf13239e89f6137"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load B from global memory.  <a href="#ad1a34cb78f88fe2fcbf13239e89f6137">More...</a><br /></td></tr>
+<tr class="separator:ad1a34cb78f88fe2fcbf13239e89f6137"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7b25e0203997662a537b21674c3d0cd2"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a>&lt; GemmTileTraitsHelperB::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">GlobalLoadIteratorB</a> &gt;::Transformer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">GlobalTransformerB</a></td></tr>
+<tr class="separator:a7b25e0203997662a537b21674c3d0cd2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2953ae145fdb2eadf871aee8219e92d1"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">SharedStoreIteratorB</a></td></tr>
+<tr class="memdesc:a2953ae145fdb2eadf871aee8219e92d1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store B to shared memory.  <a href="#a2953ae145fdb2eadf871aee8219e92d1">More...</a><br /></td></tr>
+<tr class="separator:a2953ae145fdb2eadf871aee8219e92d1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae59454c1b3862522c8ea293bacb194a8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">GlobalTransformerB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae59454c1b3862522c8ea293bacb194a8">GlobalLoadStreamB</a></td></tr>
+<tr class="memdesc:ae59454c1b3862522c8ea293bacb194a8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from global memory to shared memory.  <a href="#ae59454c1b3862522c8ea293bacb194a8">More...</a><br /></td></tr>
+<tr class="separator:ae59454c1b3862522c8ea293bacb194a8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a03d7378c46b517438fce25e0f1e4d98c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c">SharedLoadIteratorA</a></td></tr>
+<tr class="memdesc:a03d7378c46b517438fce25e0f1e4d98c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load A from shared memory.  <a href="#a03d7378c46b517438fce25e0f1e4d98c">More...</a><br /></td></tr>
+<tr class="separator:a03d7378c46b517438fce25e0f1e4d98c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7e035ceab26dc904726ddbf14371f476"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c">SharedLoadIteratorA</a>, <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">SharedLoadIteratorA::Fragment</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7e035ceab26dc904726ddbf14371f476">SharedLoadStreamA</a></td></tr>
+<tr class="memdesc:a7e035ceab26dc904726ddbf14371f476"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from shared memory.  <a href="#a7e035ceab26dc904726ddbf14371f476">More...</a><br /></td></tr>
+<tr class="separator:a7e035ceab26dc904726ddbf14371f476"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a94111367763890341e88450f43b59312"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312">SharedLoadIteratorB</a></td></tr>
+<tr class="memdesc:a94111367763890341e88450f43b59312"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load B from shared memory.  <a href="#a94111367763890341e88450f43b59312">More...</a><br /></td></tr>
+<tr class="separator:a94111367763890341e88450f43b59312"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff287e2ca10a437a82736baab2d7c28d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312">SharedLoadIteratorB</a>, <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt; typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">SharedLoadIteratorB::Fragment</a> &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aff287e2ca10a437a82736baab2d7c28d">SharedLoadStreamB</a></td></tr>
+<tr class="memdesc:aff287e2ca10a437a82736baab2d7c28d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from shared memory.  <a href="#aff287e2ca10a437a82736baab2d7c28d">More...</a><br /></td></tr>
+<tr class="separator:aff287e2ca10a437a82736baab2d7c28d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae84c7fd1567580dc3da15a520c47ff6e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae84c7fd1567580dc3da15a520c47ff6e">MultiplyAdd</a></td></tr>
+<tr class="memdesc:ae84c7fd1567580dc3da15a520c47ff6e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The multiply-add functor.  <a href="#ae84c7fd1567580dc3da15a520c47ff6e">More...</a><br /></td></tr>
+<tr class="separator:ae84c7fd1567580dc3da15a520c47ff6e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af6c45c949a8dee887924bba4de92e760"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">ClearAccumulators</a>&lt; typename <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">MultiplyAdd::ScalarC</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">ClearAccumulators</a></td></tr>
+<tr class="memdesc:af6c45c949a8dee887924bba4de92e760"><td class="mdescLeft">&#160;</td><td class="mdescRight">The object to clear accumulators.  <a href="#af6c45c949a8dee887924bba4de92e760">More...</a><br /></td></tr>
+<tr class="separator:af6c45c949a8dee887924bba4de92e760"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a36c8b17c98723934d9d75228dd9c2915"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">IgemmEpilogueTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">GemmConfig</a>, EpilogueFunctor_ &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a36c8b17c98723934d9d75228dd9c2915">Epilogue</a></td></tr>
+<tr class="memdesc:a36c8b17c98723934d9d75228dd9c2915"><td class="mdescLeft">&#160;</td><td class="mdescRight">The epilogue.  <a href="#a36c8b17c98723934d9d75228dd9c2915">More...</a><br /></td></tr>
+<tr class="separator:a36c8b17c98723934d9d75228dd9c2915"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a5645e18de29a84c9a9b3f3105966f0c5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5645e18de29a84c9a9b3f3105966f0c5">&#9670;&nbsp;</a></span>ClearAccumulators</h2>
+<a id="af6c45c949a8dee887924bba4de92e760"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af6c45c949a8dee887924bba4de92e760">&#9670;&nbsp;</a></span>ClearAccumulators</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">ClearAccumulators</a>&lt;typename <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">MultiplyAdd::ScalarC</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5645e18de29a84c9a9b3f3105966f0c5">ClearAccumulators</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">ClearAccumulators</a>&lt;typename <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">MultiplyAdd::ScalarC</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af6c45c949a8dee887924bba4de92e760">ClearAccumulators</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5e2ed697a9091a1ca8b19855b5a2c651"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5e2ed697a9091a1ca8b19855b5a2c651">&#9670;&nbsp;</a></span>Epilogue</h2>
+<a id="a36c8b17c98723934d9d75228dd9c2915"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a36c8b17c98723934d9d75228dd9c2915">&#9670;&nbsp;</a></span>Epilogue</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">IgemmEpilogueTraits</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">GemmConfig</a>, EpilogueFunctor_&gt; &gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a5e2ed697a9091a1ca8b19855b5a2c651">Epilogue</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogue.html">IgemmEpilogue</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmEpilogueTraits.html">IgemmEpilogueTraits</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">GemmConfig</a>, EpilogueFunctor_&gt; &gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a36c8b17c98723934d9d75228dd9c2915">Epilogue</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="af10aebe7ca4e24cce435ac4cd60e7bac"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af10aebe7ca4e24cce435ac4cd60e7bac">&#9670;&nbsp;</a></span>GemmConfig</h2>
+<a id="a52c2c7b45156e53d9bc66ed185fc3d71"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a52c2c7b45156e53d9bc66ed185fc3d71">&#9670;&nbsp;</a></span>GemmConfig</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a>&lt;OutputTile_, ScalarD_, AccumulatorsPerThread_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">GemmConfig</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmConfig.html">IgemmConfig</a>&lt;OutputTile_, ScalarD_, ThreadGemmShape_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">GemmConfig</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ab9e10d54c81a359db0eba58a11b9a0cf"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab9e10d54c81a359db0eba58a11b9a0cf">&#9670;&nbsp;</a></span>GemmTileTraitsHelperA</h2>
+<a id="aee1dfb15e1b63f838a712af93777e5d3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aee1dfb15e1b63f838a712af93777e5d3">&#9670;&nbsp;</a></span>GemmTileTraitsHelperA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a>&lt;kLayoutA_, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">GemmConfig</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ab9e10d54c81a359db0eba58a11b9a0cf">GemmTileTraitsHelperA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperA.html">IgemmTileTraitsHelperA</a>&lt;kLayoutA_, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">GemmConfig</a>, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aee1dfb15e1b63f838a712af93777e5d3">GemmTileTraitsHelperA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a095505bfcea6791accd06bf4d37b9df8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a095505bfcea6791accd06bf4d37b9df8">&#9670;&nbsp;</a></span>GemmTileTraitsHelperB</h2>
+<a id="a7f175193ac6bcdccba012f5d80324685"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7f175193ac6bcdccba012f5d80324685">&#9670;&nbsp;</a></span>GemmTileTraitsHelperB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a>&lt;kLayoutB_, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af10aebe7ca4e24cce435ac4cd60e7bac">GemmConfig</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a095505bfcea6791accd06bf4d37b9df8">GemmTileTraitsHelperB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTileTraitsHelperB.html">IgemmTileTraitsHelperB</a>&lt;kLayoutB_, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a52c2c7b45156e53d9bc66ed185fc3d71">GemmConfig</a>, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7f175193ac6bcdccba012f5d80324685">GemmTileTraitsHelperB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ac7ee33e683e48511a1a220df6c9d4758"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac7ee33e683e48511a1a220df6c9d4758">&#9670;&nbsp;</a></span>GlobalLoadIteratorA</h2>
+<a id="a48f6b161acb181aee1e5bdb3bc909b04"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a48f6b161acb181aee1e5bdb3bc909b04">&#9670;&nbsp;</a></span>GlobalLoadIteratorA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt;typename GemmTileTraitsHelperA::GlobalTileTraits, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">GlobalLoadIteratorA</a></td>
+          <td class="memname">typedef GemmTileTraitsHelperA::GlobalLoadIterator <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">GlobalLoadIteratorA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a3a6d816852cca926afa08103f754477b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a3a6d816852cca926afa08103f754477b">&#9670;&nbsp;</a></span>GlobalLoadIteratorB</h2>
+<a id="ad1a34cb78f88fe2fcbf13239e89f6137"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad1a34cb78f88fe2fcbf13239e89f6137">&#9670;&nbsp;</a></span>GlobalLoadIteratorB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt;typename GemmTileTraitsHelperB::GlobalTileTraits, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">GlobalLoadIteratorB</a></td>
+          <td class="memname">typedef GemmTileTraitsHelperB::GlobalLoadIterator <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">GlobalLoadIteratorB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a7fb1354154f303642da72e6fd157d846"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7fb1354154f303642da72e6fd157d846">&#9670;&nbsp;</a></span>GlobalLoadStreamA</h2>
+<a id="a2aceaceb30287e909c254f01f1716845"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2aceaceb30287e909c254f01f1716845">&#9670;&nbsp;</a></span>GlobalLoadStreamA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d">GlobalTransformerA</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7fb1354154f303642da72e6fd157d846">GlobalLoadStreamA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">GlobalTransformerA</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2aceaceb30287e909c254f01f1716845">GlobalLoadStreamA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a88e66ee760aea03687e7b3ccc6ea535b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a88e66ee760aea03687e7b3ccc6ea535b">&#9670;&nbsp;</a></span>GlobalLoadStreamB</h2>
+<a id="ae59454c1b3862522c8ea293bacb194a8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae59454c1b3862522c8ea293bacb194a8">&#9670;&nbsp;</a></span>GlobalLoadStreamB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9">GlobalTransformerB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a88e66ee760aea03687e7b3ccc6ea535b">GlobalLoadStreamB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">GlobalTransformerB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae59454c1b3862522c8ea293bacb194a8">GlobalLoadStreamB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a23bb732b7237bcabe3667408f288844d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a23bb732b7237bcabe3667408f288844d">&#9670;&nbsp;</a></span>GlobalTransformerA</h2>
+<a id="af394532cb8e7b088f950122b42eaa2fb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af394532cb8e7b088f950122b42eaa2fb">&#9670;&nbsp;</a></span>GlobalTransformerA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a>&lt;GemmTileTraitsHelperA::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ac7ee33e683e48511a1a220df6c9d4758">GlobalLoadIteratorA</a>&gt;::Transformer <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a23bb732b7237bcabe3667408f288844d">GlobalTransformerA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerA.html">IgemmTransformerA</a>&lt;GemmTileTraitsHelperA::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a48f6b161acb181aee1e5bdb3bc909b04">GlobalLoadIteratorA</a>&gt;::Transformer <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#af394532cb8e7b088f950122b42eaa2fb">GlobalTransformerA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a600bcc571ea5e04a98663c134d4664b9"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a600bcc571ea5e04a98663c134d4664b9">&#9670;&nbsp;</a></span>GlobalTransformerB</h2>
+<a id="a7b25e0203997662a537b21674c3d0cd2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7b25e0203997662a537b21674c3d0cd2">&#9670;&nbsp;</a></span>GlobalTransformerB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a>&lt;GemmTileTraitsHelperB::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3a6d816852cca926afa08103f754477b">GlobalLoadIteratorB</a>&gt;::Transformer <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a600bcc571ea5e04a98663c134d4664b9">GlobalTransformerB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1IgemmTransformerB.html">IgemmTransformerB</a>&lt;GemmTileTraitsHelperB::kLayout, <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ad1a34cb78f88fe2fcbf13239e89f6137">GlobalLoadIteratorB</a>&gt;::Transformer <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7b25e0203997662a537b21674c3d0cd2">GlobalTransformerB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a87e34d56fa955670331749724bee9fd8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a87e34d56fa955670331749724bee9fd8">&#9670;&nbsp;</a></span>MultiplyAdd</h2>
+<a id="ae84c7fd1567580dc3da15a520c47ff6e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae84c7fd1567580dc3da15a520c47ff6e">&#9670;&nbsp;</a></span>MultiplyAdd</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a87e34d56fa955670331749724bee9fd8">MultiplyAdd</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a> <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae84c7fd1567580dc3da15a520c47ff6e">MultiplyAdd</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aa93043ac87d89ce7fb991c9195c3bf99"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa93043ac87d89ce7fb991c9195c3bf99">&#9670;&nbsp;</a></span>SharedLoadIteratorA</h2>
+<a id="a03d7378c46b517438fce25e0f1e4d98c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a03d7378c46b517438fce25e0f1e4d98c">&#9670;&nbsp;</a></span>SharedLoadIteratorA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99">SharedLoadIteratorA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;typename GemmTileTraitsHelperA::SharedLoadTileTraits, typename GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c">SharedLoadIteratorA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a42322b9b10e894fe157e527b378c59f8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a42322b9b10e894fe157e527b378c59f8">&#9670;&nbsp;</a></span>SharedLoadIteratorB</h2>
+<a id="a94111367763890341e88450f43b59312"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a94111367763890341e88450f43b59312">&#9670;&nbsp;</a></span>SharedLoadIteratorB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8">SharedLoadIteratorB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt;typename GemmTileTraitsHelperB::SharedLoadTileTraits, typename GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312">SharedLoadIteratorB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a70063eb7e19921efef55a6f32562773f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a70063eb7e19921efef55a6f32562773f">&#9670;&nbsp;</a></span>SharedLoadStreamA</h2>
+<a id="a7e035ceab26dc904726ddbf14371f476"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7e035ceab26dc904726ddbf14371f476">&#9670;&nbsp;</a></span>SharedLoadStreamA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aa93043ac87d89ce7fb991c9195c3bf99">SharedLoadIteratorA</a>, <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">SharedLoadIteratorA::Fragment</a>&gt; &gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a70063eb7e19921efef55a6f32562773f">SharedLoadStreamA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a03d7378c46b517438fce25e0f1e4d98c">SharedLoadIteratorA</a>, <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">SharedLoadIteratorA::Fragment</a>&gt; &gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a7e035ceab26dc904726ddbf14371f476">SharedLoadStreamA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a54e8ad5874306a3764951a9791f02c96"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a54e8ad5874306a3764951a9791f02c96">&#9670;&nbsp;</a></span>SharedLoadStreamB</h2>
+<a id="aff287e2ca10a437a82736baab2d7c28d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff287e2ca10a437a82736baab2d7c28d">&#9670;&nbsp;</a></span>SharedLoadStreamB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a42322b9b10e894fe157e527b378c59f8">SharedLoadIteratorB</a>, <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">SharedLoadIteratorB::Fragment</a>&gt; &gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a54e8ad5874306a3764951a9791f02c96">SharedLoadStreamB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">SharedLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a94111367763890341e88450f43b59312">SharedLoadIteratorB</a>, <a class="el" href="structcutlass_1_1Copy.html">Copy</a>&lt;typename <a class="el" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">SharedLoadIteratorB::Fragment</a>&gt; &gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#aff287e2ca10a437a82736baab2d7c28d">SharedLoadStreamB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ae187303a8da63f36960687a4730f4c46"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae187303a8da63f36960687a4730f4c46">&#9670;&nbsp;</a></span>SharedStoreIteratorA</h2>
+<a id="a3d2b39cacb975afbfeae9e368f0656ae"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3d2b39cacb975afbfeae9e368f0656ae">&#9670;&nbsp;</a></span>SharedStoreIteratorA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#ae187303a8da63f36960687a4730f4c46">SharedStoreIteratorA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;typename GemmTileTraitsHelperA::SharedStoreTileTraits, typename GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a3d2b39cacb975afbfeae9e368f0656ae">SharedStoreIteratorA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a4d6658f3a3b53760b10a3da9c807b81f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4d6658f3a3b53760b10a3da9c807b81f">&#9670;&nbsp;</a></span>SharedStoreIteratorB</h2>
+<a id="a2953ae145fdb2eadf871aee8219e92d1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2953ae145fdb2eadf871aee8219e92d1">&#9670;&nbsp;</a></span>SharedStoreIteratorB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename AccumulatorsPerThread_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
+template&lt;MatrixLayout::Kind kLayoutA_, MatrixLayout::Kind kLayoutB_, typename OutputTile_ , typename ScalarD_ , typename EpilogueFunctor_ , typename ThreadGemmShape_  = Shape&lt;32, 8, 8&gt;, typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, AccumulatorsPerThread_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a4d6658f3a3b53760b10a3da9c807b81f">SharedStoreIteratorB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt;typename GemmTileTraitsHelperB::SharedStoreTileTraits, typename GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html">cutlass::gemm::IgemmTraitsHelper</a>&lt; kLayoutA_, kLayoutB_, OutputTile_, ScalarD_, EpilogueFunctor_, ThreadGemmShape_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1IgemmTraitsHelper.html#a2953ae145fdb2eadf871aee8219e92d1">SharedStoreIteratorB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -433,7 +433,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4d6658f3a3b53760b10a3da9
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTransformerA.html b/docs/structcutlass_1_1gemm_1_1IgemmTransformerA.html
index 73e523bb0f..de1890e1e5 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTransformerA.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTransformerA.html
@@ -84,7 +84,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
index b31cf3bbc9..53ef81bb23 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
index 7135e2be7b..732df3eafb 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8a4e3ce1174789e2b695bda7
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
index e8d627ef06..67afb00fda 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
index 3c826b8ad1..0ec2e2a769 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTransformerA_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0b53e18f109ac0fd116e0d01
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTransformerB.html b/docs/structcutlass_1_1gemm_1_1IgemmTransformerB.html
index fa606b244c..48ff3c738c 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTransformerB.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTransformerB.html
@@ -84,7 +84,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
index ed73de85fd..b15d04aeef 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
index 61c70cf98c..0520804b17 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kColumnMajor_00_01Iterator___01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a92320b7224a77a8af61e55be
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html b/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
index 709672d2ff..dd9f6f5521 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html b/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
index 836dae8a0f..a193981820 100644
--- a/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1IgemmTransformerB_3_01MatrixLayout_1_1kRowMajor_00_01Iterator___01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9728f71c2e7a6a649bd28d8c
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1Launch-members.html b/docs/structcutlass_1_1gemm_1_1Launch-members.html
new file mode 100644
index 0000000000..5bb5a169a3
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1Launch-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html">Launch</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::Launch&lt; Gemm, WithLaunchBounds &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1Launch.html">cutlass::gemm::Launch&lt; Gemm, WithLaunchBounds &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html#a8552a524b9419f60bf8ef3c6b8528d27">Launch</a>(typename Gemm::Params params, dim3 grid, dim3 block, cudaStream_t stream=0)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html">cutlass::gemm::Launch&lt; Gemm, WithLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1Launch.html b/docs/structcutlass_1_1gemm_1_1Launch.html
new file mode 100644
index 0000000000..84b28c21f4
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1Launch.html
@@ -0,0 +1,155 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::Launch&lt; Gemm, WithLaunchBounds &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html">Launch</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="structcutlass_1_1gemm_1_1Launch-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::Launch&lt; Gemm, WithLaunchBounds &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Partial specialization for launching the GEMM kernel with or without launch bounds.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="gemm_8h_source.html">gemm.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a8552a524b9419f60bf8ef3c6b8528d27"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html#a8552a524b9419f60bf8ef3c6b8528d27">Launch</a> (typename <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Gemm::Params</a> params, dim3 grid, dim3 block, cudaStream_t stream=0)</td></tr>
+<tr class="separator:a8552a524b9419f60bf8ef3c6b8528d27"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a8552a524b9419f60bf8ef3c6b8528d27"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8552a524b9419f60bf8ef3c6b8528d27">&#9670;&nbsp;</a></span>Launch()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Gemm, bool WithLaunchBounds&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html">cutlass::gemm::Launch</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm</a>, WithLaunchBounds &gt;::<a class="el" href="structcutlass_1_1gemm_1_1Launch.html">Launch</a> </td>
+          <td>(</td>
+          <td class="paramtype">typename <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Gemm::Params</a>&#160;</td>
+          <td class="paramname"><em>params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">dim3&#160;</td>
+          <td class="paramname"><em>grid</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">dim3&#160;</td>
+          <td class="paramname"><em>block</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">cudaStream_t&#160;</td>
+          <td class="paramname"><em>stream</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="gemm_8h_source.html">gemm.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4-members.html b/docs/structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4-members.html
new file mode 100644
index 0000000000..edffd43045
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4-members.html
@@ -0,0 +1,91 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html">Launch&lt; Gemm, false &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::Launch&lt; Gemm, false &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html">cutlass::gemm::Launch&lt; Gemm, false &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#ab7a89806834a5fa8022daae4180e6180">Launch</a>(typename Gemm::Params params, dim3 grid, dim3 block, cudaStream_t stream=0)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html">cutlass::gemm::Launch&lt; Gemm, false &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html b/docs/structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html
new file mode 100644
index 0000000000..3bcadde930
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html
@@ -0,0 +1,155 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::Launch&lt; Gemm, false &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html">Launch&lt; Gemm, false &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::Launch&lt; Gemm, false &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Partial specialization for launching the GEMM kernel with or without launch bounds.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="gemm_8h_source.html">gemm.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:ab7a89806834a5fa8022daae4180e6180"><td class="memItemLeft" align="right" valign="top">&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1Launch_3_01Gemm_00_01false_01_4.html#ab7a89806834a5fa8022daae4180e6180">Launch</a> (typename <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Gemm::Params</a> params, dim3 grid, dim3 block, cudaStream_t stream=0)</td></tr>
+<tr class="separator:ab7a89806834a5fa8022daae4180e6180"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ab7a89806834a5fa8022daae4180e6180"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ab7a89806834a5fa8022daae4180e6180">&#9670;&nbsp;</a></span>Launch()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Gemm &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1Launch.html">cutlass::gemm::Launch</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">Gemm</a>, false &gt;::<a class="el" href="structcutlass_1_1gemm_1_1Launch.html">Launch</a> </td>
+          <td>(</td>
+          <td class="paramtype">typename <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html#a054d5e87f1985ae7e53fc07f4c16d916">Gemm::Params</a>&#160;</td>
+          <td class="paramname"><em>params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">dim3&#160;</td>
+          <td class="paramname"><em>grid</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">dim3&#160;</td>
+          <td class="paramname"><em>block</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">cudaStream_t&#160;</td>
+          <td class="paramname"><em>stream</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="gemm_8h_source.html">gemm.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1LinearScaling-members.html b/docs/structcutlass_1_1gemm_1_1LinearScaling-members.html
index 165525471f..bee4cd7341 100644
--- a/docs/structcutlass_1_1gemm_1_1LinearScaling-members.html
+++ b/docs/structcutlass_1_1gemm_1_1LinearScaling-members.html
@@ -79,17 +79,21 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6">alpha</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e">beta</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a2e0d140aed388d2457dfb24d28fcd08a">evaluate</a>(Fragment_ const &amp;accum, Fragment_ &amp;output)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a47a53e5b67b2207fb3ba38a8b9cef448">evaluate</a>(Fragment_ const &amp;accum, Fragment_ const &amp;old, Fragment_ &amp;output)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">evaluate</a>(FragmentA_ const &amp;accum, FragmentB_ &amp;output)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02">evaluate</a>(ScalarAccum const *accum, ScalarOutput *output)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a429d78c47d55929903ee02733ad881c1">evaluate</a>(FragmentA_ const &amp;accum, FragmentB_ const &amp;old, FragmentB_ &amp;output)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aad0708f7681b16e6d6b4ca8d1f59a947">evaluate</a>(ScalarAccum const *accum, ScalarOutput const *old, ScalarOutput *output)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a34df6970f033b3090ad8f4d40063b1b2">LinearScaling</a>(Params const &amp;params)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae5ed200fe8c45b6478d3893e67da0ebe">LinearScaling</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889">LinearScaling</a>(Params const &amp;_params)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54">source_required</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1LinearScaling.html b/docs/structcutlass_1_1gemm_1_1LinearScaling.html
index d79eb6f660..eacedb06ff 100644
--- a/docs/structcutlass_1_1gemm_1_1LinearScaling.html
+++ b/docs/structcutlass_1_1gemm_1_1LinearScaling.html
@@ -87,6 +87,15 @@
 </p>
 
 <p><code>#include &lt;<a class="el" href="linear__scaling_8h_source.html">linear_scaling.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1LinearScaling.png" usemap="#cutlass::gemm::LinearScaling_3C_20Scalar_5F_2C_20FragmentMultiplyAdd_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::LinearScaling_3C_20Scalar_5F_2C_20FragmentMultiplyAdd_5F_20_3E_map" name="cutlass::gemm::LinearScaling_3C_20Scalar_5F_2C_20FragmentMultiplyAdd_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html" alt="cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;" shape="rect" coords="0,56,433,80"/>
+</map>
+ </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
@@ -98,30 +107,42 @@
 Public Types</h2></td></tr>
 <tr class="memitem:ae6b053ca059932f7c0d3c99243854183"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a></td></tr>
 <tr class="separator:ae6b053ca059932f7c0d3c99243854183"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae80882255b71c1ec94c6caeded2d0309"><td class="memItemLeft" align="right" valign="top">typedef FragmentMultiplyAdd_::ScalarAccum&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a></td></tr>
+<tr class="separator:ae80882255b71c1ec94c6caeded2d0309"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:aa697d4eaced1ef08247aeb1fcc0f0ea8"><td class="memItemLeft" align="right" valign="top">typedef FragmentMultiplyAdd_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a></td></tr>
 <tr class="separator:aa697d4eaced1ef08247aeb1fcc0f0ea8"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a34df6970f033b3090ad8f4d40063b1b2"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a34df6970f033b3090ad8f4d40063b1b2">LinearScaling</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a> const &amp;params)</td></tr>
-<tr class="memdesc:a34df6970f033b3090ad8f4d40063b1b2"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a34df6970f033b3090ad8f4d40063b1b2">More...</a><br /></td></tr>
-<tr class="separator:a34df6970f033b3090ad8f4d40063b1b2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2e0d140aed388d2457dfb24d28fcd08a"><td class="memTemplParams" colspan="2">template&lt;typename Fragment_ &gt; </td></tr>
-<tr class="memitem:a2e0d140aed388d2457dfb24d28fcd08a"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a2e0d140aed388d2457dfb24d28fcd08a">evaluate</a> (Fragment_ const &amp;accum, Fragment_ &amp;output)</td></tr>
-<tr class="memdesc:a2e0d140aed388d2457dfb24d28fcd08a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Evaluate the functor.  <a href="#a2e0d140aed388d2457dfb24d28fcd08a">More...</a><br /></td></tr>
-<tr class="separator:a2e0d140aed388d2457dfb24d28fcd08a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a47a53e5b67b2207fb3ba38a8b9cef448"><td class="memTemplParams" colspan="2">template&lt;typename Fragment_ &gt; </td></tr>
-<tr class="memitem:a47a53e5b67b2207fb3ba38a8b9cef448"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a47a53e5b67b2207fb3ba38a8b9cef448">evaluate</a> (Fragment_ const &amp;accum, Fragment_ const &amp;old, Fragment_ &amp;output)</td></tr>
-<tr class="memdesc:a47a53e5b67b2207fb3ba38a8b9cef448"><td class="mdescLeft">&#160;</td><td class="mdescRight">Evaluate the functor.  <a href="#a47a53e5b67b2207fb3ba38a8b9cef448">More...</a><br /></td></tr>
-<tr class="separator:a47a53e5b67b2207fb3ba38a8b9cef448"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae5ed200fe8c45b6478d3893e67da0ebe"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae5ed200fe8c45b6478d3893e67da0ebe">LinearScaling</a> ()</td></tr>
+<tr class="memdesc:ae5ed200fe8c45b6478d3893e67da0ebe"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ae5ed200fe8c45b6478d3893e67da0ebe">More...</a><br /></td></tr>
+<tr class="separator:ae5ed200fe8c45b6478d3893e67da0ebe"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a46965529bd1384465c6f2b8c2a244889"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889">LinearScaling</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a> const &amp;_params)</td></tr>
+<tr class="memdesc:a46965529bd1384465c6f2b8c2a244889"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a46965529bd1384465c6f2b8c2a244889">More...</a><br /></td></tr>
+<tr class="separator:a46965529bd1384465c6f2b8c2a244889"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aae313f3e691334f80d1316ac4cd30d54"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54">source_required</a> () const</td></tr>
+<tr class="separator:aae313f3e691334f80d1316ac4cd30d54"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a303c8dd75a31c01aa4e1de5097aca8eb"><td class="memTemplParams" colspan="2">template&lt;typename FragmentA_ , typename FragmentB_ &gt; </td></tr>
+<tr class="memitem:a303c8dd75a31c01aa4e1de5097aca8eb"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">evaluate</a> (FragmentA_ const &amp;accum, FragmentB_ &amp;output)</td></tr>
+<tr class="memdesc:a303c8dd75a31c01aa4e1de5097aca8eb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Evaluate the functor.  <a href="#a303c8dd75a31c01aa4e1de5097aca8eb">More...</a><br /></td></tr>
+<tr class="separator:a303c8dd75a31c01aa4e1de5097aca8eb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0159214b89d7648f1e8f3b5dd228df02"><td class="memTemplParams" colspan="2">template&lt;typename ScalarAccum , typename ScalarOutput , int size&gt; </td></tr>
+<tr class="memitem:a0159214b89d7648f1e8f3b5dd228df02"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02">evaluate</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a> const *accum, ScalarOutput *output)</td></tr>
+<tr class="memdesc:a0159214b89d7648f1e8f3b5dd228df02"><td class="mdescLeft">&#160;</td><td class="mdescRight">Evaluate the functor, without using fragment in the API.  <a href="#a0159214b89d7648f1e8f3b5dd228df02">More...</a><br /></td></tr>
+<tr class="separator:a0159214b89d7648f1e8f3b5dd228df02"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a429d78c47d55929903ee02733ad881c1"><td class="memTemplParams" colspan="2">template&lt;typename FragmentA_ , typename FragmentB_ &gt; </td></tr>
+<tr class="memitem:a429d78c47d55929903ee02733ad881c1"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a429d78c47d55929903ee02733ad881c1">evaluate</a> (FragmentA_ const &amp;accum, FragmentB_ const &amp;old, FragmentB_ &amp;output)</td></tr>
+<tr class="memdesc:a429d78c47d55929903ee02733ad881c1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Evaluate the functor.  <a href="#a429d78c47d55929903ee02733ad881c1">More...</a><br /></td></tr>
+<tr class="separator:a429d78c47d55929903ee02733ad881c1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aad0708f7681b16e6d6b4ca8d1f59a947"><td class="memTemplParams" colspan="2">template&lt;typename ScalarAccum , typename ScalarOutput , int size&gt; </td></tr>
+<tr class="memitem:aad0708f7681b16e6d6b4ca8d1f59a947"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aad0708f7681b16e6d6b4ca8d1f59a947">evaluate</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a> const *accum, ScalarOutput const *old, ScalarOutput *output)</td></tr>
+<tr class="memdesc:aad0708f7681b16e6d6b4ca8d1f59a947"><td class="mdescLeft">&#160;</td><td class="mdescRight">Evaluate the functor, without using fragment in the API.  <a href="#aad0708f7681b16e6d6b4ca8d1f59a947">More...</a><br /></td></tr>
+<tr class="separator:aad0708f7681b16e6d6b4ca8d1f59a947"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:ab9c51c8b1f06e935a353ac5b1c22cee6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ab9c51c8b1f06e935a353ac5b1c22cee6">alpha</a></td></tr>
-<tr class="memdesc:ab9c51c8b1f06e935a353ac5b1c22cee6"><td class="mdescLeft">&#160;</td><td class="mdescRight">The alpha/beta scaling factors.  <a href="#ab9c51c8b1f06e935a353ac5b1c22cee6">More...</a><br /></td></tr>
-<tr class="separator:ab9c51c8b1f06e935a353ac5b1c22cee6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8af4e58c4988838f2dd0a2172c47e12e"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a8af4e58c4988838f2dd0a2172c47e12e">beta</a></td></tr>
-<tr class="separator:a8af4e58c4988838f2dd0a2172c47e12e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7bbf90dc0938698a0fa22468f9df315d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a></td></tr>
+<tr class="separator:a7bbf90dc0938698a0fa22468f9df315d"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="aa697d4eaced1ef08247aeb1fcc0f0ea8"></a>
@@ -130,7 +151,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa697d4eaced1ef08247aeb1f
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt;&gt; </div>
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef FragmentMultiplyAdd_ <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a></td>
@@ -146,7 +167,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae6b053ca059932f7c0d3c992
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt;&gt; </div>
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">typedef Scalar_ <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a></td>
@@ -154,16 +175,59 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae6b053ca059932f7c0d3c992
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="ae80882255b71c1ec94c6caeded2d0309"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae80882255b71c1ec94c6caeded2d0309">&#9670;&nbsp;</a></span>ScalarAccum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef FragmentMultiplyAdd_::ScalarAccum <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="a34df6970f033b3090ad8f4d40063b1b2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a34df6970f033b3090ad8f4d40063b1b2">&#9670;&nbsp;</a></span>LinearScaling()</h2>
+<a id="ae5ed200fe8c45b6478d3893e67da0ebe"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae5ed200fe8c45b6478d3893e67da0ebe">&#9670;&nbsp;</a></span>LinearScaling() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a46965529bd1384465c6f2b8c2a244889"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a46965529bd1384465c6f2b8c2a244889">&#9670;&nbsp;</a></span>LinearScaling() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt;&gt; </div>
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
@@ -172,7 +236,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a34df6970f033b3090ad8f4d4
           <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a> </td>
           <td>(</td>
           <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a> const &amp;&#160;</td>
-          <td class="paramname"><em>params</em></td><td>)</td>
+          <td class="paramname"><em>_params</em></td><td>)</td>
           <td></td>
         </tr>
       </table>
@@ -186,15 +250,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#a34df6970f033b3090ad8f4d4
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a2e0d140aed388d2457dfb24d28fcd08a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a2e0d140aed388d2457dfb24d28fcd08a">&#9670;&nbsp;</a></span>evaluate() <span class="overload">[1/2]</span></h2>
+<a id="a303c8dd75a31c01aa4e1de5097aca8eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a303c8dd75a31c01aa4e1de5097aca8eb">&#9670;&nbsp;</a></span>evaluate() <span class="overload">[1/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt;&gt; </div>
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
 <div class="memtemplate">
-template&lt;typename Fragment_ &gt; </div>
+template&lt;typename FragmentA_ , typename FragmentB_ &gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
@@ -202,13 +266,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2e0d140aed388d2457dfb24d
         <tr>
           <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::evaluate </td>
           <td>(</td>
-          <td class="paramtype">Fragment_ const &amp;&#160;</td>
+          <td class="paramtype">FragmentA_ const &amp;&#160;</td>
           <td class="paramname"><em>accum</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Fragment_ &amp;&#160;</td>
+          <td class="paramtype">FragmentB_ &amp;&#160;</td>
           <td class="paramname"><em>output</em>&#160;</td>
         </tr>
         <tr>
@@ -226,15 +290,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2e0d140aed388d2457dfb24d
 
 </div>
 </div>
-<a id="a47a53e5b67b2207fb3ba38a8b9cef448"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a47a53e5b67b2207fb3ba38a8b9cef448">&#9670;&nbsp;</a></span>evaluate() <span class="overload">[2/2]</span></h2>
+<a id="a0159214b89d7648f1e8f3b5dd228df02"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0159214b89d7648f1e8f3b5dd228df02">&#9670;&nbsp;</a></span>evaluate() <span class="overload">[2/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt;&gt; </div>
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
 <div class="memtemplate">
-template&lt;typename Fragment_ &gt; </div>
+template&lt;typename ScalarAccum , typename ScalarOutput , int size&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
@@ -242,19 +306,59 @@ <h2 class="memtitle"><span class="permalink"><a href="#a47a53e5b67b2207fb3ba38a8
         <tr>
           <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::evaluate </td>
           <td>(</td>
-          <td class="paramtype">Fragment_ const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a> const *&#160;</td>
           <td class="paramname"><em>accum</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Fragment_ const &amp;&#160;</td>
+          <td class="paramtype">ScalarOutput *&#160;</td>
+          <td class="paramname"><em>output</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a429d78c47d55929903ee02733ad881c1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a429d78c47d55929903ee02733ad881c1">&#9670;&nbsp;</a></span>evaluate() <span class="overload">[3/4]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename FragmentA_ , typename FragmentB_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::evaluate </td>
+          <td>(</td>
+          <td class="paramtype">FragmentA_ const &amp;&#160;</td>
+          <td class="paramname"><em>accum</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">FragmentB_ const &amp;&#160;</td>
           <td class="paramname"><em>old</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype">Fragment_ &amp;&#160;</td>
+          <td class="paramtype">FragmentB_ &amp;&#160;</td>
           <td class="paramname"><em>output</em>&#160;</td>
         </tr>
         <tr>
@@ -272,33 +376,91 @@ <h2 class="memtitle"><span class="permalink"><a href="#a47a53e5b67b2207fb3ba38a8
 
 </div>
 </div>
-<h2 class="groupheader">Member Data Documentation</h2>
-<a id="ab9c51c8b1f06e935a353ac5b1c22cee6"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab9c51c8b1f06e935a353ac5b1c22cee6">&#9670;&nbsp;</a></span>alpha</h2>
+<a id="aad0708f7681b16e6d6b4ca8d1f59a947"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad0708f7681b16e6d6b4ca8d1f59a947">&#9670;&nbsp;</a></span>evaluate() <span class="overload">[4/4]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt;&gt; </div>
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<div class="memtemplate">
+template&lt;typename ScalarAccum , typename ScalarOutput , int size&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::alpha</td>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::evaluate </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a> const *&#160;</td>
+          <td class="paramname"><em>accum</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">ScalarOutput const *&#160;</td>
+          <td class="paramname"><em>old</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">ScalarOutput *&#160;</td>
+          <td class="paramname"><em>output</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a8af4e58c4988838f2dd0a2172c47e12e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8af4e58c4988838f2dd0a2172c47e12e">&#9670;&nbsp;</a></span>beta</h2>
+<a id="aae313f3e691334f80d1316ac4cd30d54"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aae313f3e691334f80d1316ac4cd30d54">&#9670;&nbsp;</a></span>source_required()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE bool <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::source_required </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<p>Method to determine whether the source accumulator matrix C is ever needed. This method may always safely return true, though better performance is possible if the source accumulator matrix is never loaded unnecessarily. </p>
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a7bbf90dc0938698a0fa22468f9df315d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7bbf90dc0938698a0fa22468f9df315d">&#9670;&nbsp;</a></span>params</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt;&gt; </div>
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::beta</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::params</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -311,7 +473,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8af4e58c4988838f2dd0a217
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1LinearScaling.png b/docs/structcutlass_1_1gemm_1_1LinearScaling.png
new file mode 100644
index 0000000000..4fa775f4cd
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1LinearScaling.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1LinearScalingDevicePtr-members.html b/docs/structcutlass_1_1gemm_1_1LinearScalingDevicePtr-members.html
new file mode 100644
index 0000000000..04e4b3dd4d
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1LinearScalingDevicePtr-members.html
@@ -0,0 +1,103 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">LinearScalingDevicePtr</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#ad10463da3f5a421f9b87638775ef0a85">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">evaluate</a>(FragmentA_ const &amp;accum, FragmentB_ &amp;output)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02">evaluate</a>(ScalarAccum const *accum, ScalarOutput *output)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a429d78c47d55929903ee02733ad881c1">evaluate</a>(FragmentA_ const &amp;accum, FragmentB_ const &amp;old, FragmentB_ &amp;output)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aad0708f7681b16e6d6b4ca8d1f59a947">evaluate</a>(ScalarAccum const *accum, ScalarOutput const *old, ScalarOutput *output)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae5ed200fe8c45b6478d3893e67da0ebe">LinearScaling</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889">LinearScaling</a>(Params const &amp;_params)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a9dcb15bbcf3785280fd5cea0e0da5602">LinearScalingDevicePtr</a>(Params const &amp;_params)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54">source_required</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html b/docs/structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html
new file mode 100644
index 0000000000..18f90921e4
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html
@@ -0,0 +1,232 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">LinearScalingDevicePtr</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="linear__scaling__device__ptr_8h_source.html">linear_scaling_device_ptr.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.png" usemap="#cutlass::gemm::LinearScalingDevicePtr_3C_20Scalar_5F_2C_20FragmentMultiplyAdd_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::LinearScalingDevicePtr_3C_20Scalar_5F_2C_20FragmentMultiplyAdd_5F_20_3E_map" name="cutlass::gemm::LinearScalingDevicePtr_3C_20Scalar_5F_2C_20FragmentMultiplyAdd_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1LinearScaling.html" title="Functor to compute linear combination of fragments. " alt="cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;" shape="rect" coords="0,0,433,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">The parameters.  <a href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:ad10463da3f5a421f9b87638775ef0a85"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#ad10463da3f5a421f9b87638775ef0a85">Base</a></td></tr>
+<tr class="memdesc:ad10463da3f5a421f9b87638775ef0a85"><td class="mdescLeft">&#160;</td><td class="mdescRight">Linear Scaling class used.  <a href="#ad10463da3f5a421f9b87638775ef0a85">More...</a><br /></td></tr>
+<tr class="separator:ad10463da3f5a421f9b87638775ef0a85"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0599650f5cc68b430782d2db74e73d2e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Base::Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a0599650f5cc68b430782d2db74e73d2e">Scalar</a></td></tr>
+<tr class="separator:a0599650f5cc68b430782d2db74e73d2e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1LinearScaling"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1LinearScaling')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td></tr>
+<tr class="memitem:ae6b053ca059932f7c0d3c99243854183 inherit pub_types_structcutlass_1_1gemm_1_1LinearScaling"><td class="memItemLeft" align="right" valign="top">typedef Scalar_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a></td></tr>
+<tr class="separator:ae6b053ca059932f7c0d3c99243854183 inherit pub_types_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae80882255b71c1ec94c6caeded2d0309 inherit pub_types_structcutlass_1_1gemm_1_1LinearScaling"><td class="memItemLeft" align="right" valign="top">typedef FragmentMultiplyAdd_::ScalarAccum&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a></td></tr>
+<tr class="separator:ae80882255b71c1ec94c6caeded2d0309 inherit pub_types_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa697d4eaced1ef08247aeb1fcc0f0ea8 inherit pub_types_structcutlass_1_1gemm_1_1LinearScaling"><td class="memItemLeft" align="right" valign="top">typedef FragmentMultiplyAdd_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aa697d4eaced1ef08247aeb1fcc0f0ea8">FragmentMultiplyAdd</a></td></tr>
+<tr class="separator:aa697d4eaced1ef08247aeb1fcc0f0ea8 inherit pub_types_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a9dcb15bbcf3785280fd5cea0e0da5602"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#a9dcb15bbcf3785280fd5cea0e0da5602">LinearScalingDevicePtr</a> (<a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">Params</a> const &amp;_params)</td></tr>
+<tr class="memdesc:a9dcb15bbcf3785280fd5cea0e0da5602"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a9dcb15bbcf3785280fd5cea0e0da5602">More...</a><br /></td></tr>
+<tr class="separator:a9dcb15bbcf3785280fd5cea0e0da5602"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1gemm_1_1LinearScaling')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td></tr>
+<tr class="memitem:ae5ed200fe8c45b6478d3893e67da0ebe inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae5ed200fe8c45b6478d3893e67da0ebe">LinearScaling</a> ()</td></tr>
+<tr class="memdesc:ae5ed200fe8c45b6478d3893e67da0ebe inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1gemm_1_1LinearScaling.html#ae5ed200fe8c45b6478d3893e67da0ebe">More...</a><br /></td></tr>
+<tr class="separator:ae5ed200fe8c45b6478d3893e67da0ebe inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a46965529bd1384465c6f2b8c2a244889 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889">LinearScaling</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a> const &amp;_params)</td></tr>
+<tr class="memdesc:a46965529bd1384465c6f2b8c2a244889 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1gemm_1_1LinearScaling.html#a46965529bd1384465c6f2b8c2a244889">More...</a><br /></td></tr>
+<tr class="separator:a46965529bd1384465c6f2b8c2a244889 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aae313f3e691334f80d1316ac4cd30d54 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aae313f3e691334f80d1316ac4cd30d54">source_required</a> () const</td></tr>
+<tr class="separator:aae313f3e691334f80d1316ac4cd30d54 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a303c8dd75a31c01aa4e1de5097aca8eb inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memTemplParams" colspan="2">template&lt;typename FragmentA_ , typename FragmentB_ &gt; </td></tr>
+<tr class="memitem:a303c8dd75a31c01aa4e1de5097aca8eb inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">evaluate</a> (FragmentA_ const &amp;accum, FragmentB_ &amp;output)</td></tr>
+<tr class="memdesc:a303c8dd75a31c01aa4e1de5097aca8eb inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="mdescLeft">&#160;</td><td class="mdescRight">Evaluate the functor.  <a href="structcutlass_1_1gemm_1_1LinearScaling.html#a303c8dd75a31c01aa4e1de5097aca8eb">More...</a><br /></td></tr>
+<tr class="separator:a303c8dd75a31c01aa4e1de5097aca8eb inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0159214b89d7648f1e8f3b5dd228df02 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memTemplParams" colspan="2">template&lt;typename ScalarAccum , typename ScalarOutput , int size&gt; </td></tr>
+<tr class="memitem:a0159214b89d7648f1e8f3b5dd228df02 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02">evaluate</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a> const *accum, ScalarOutput *output)</td></tr>
+<tr class="memdesc:a0159214b89d7648f1e8f3b5dd228df02 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="mdescLeft">&#160;</td><td class="mdescRight">Evaluate the functor, without using fragment in the API.  <a href="structcutlass_1_1gemm_1_1LinearScaling.html#a0159214b89d7648f1e8f3b5dd228df02">More...</a><br /></td></tr>
+<tr class="separator:a0159214b89d7648f1e8f3b5dd228df02 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a429d78c47d55929903ee02733ad881c1 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memTemplParams" colspan="2">template&lt;typename FragmentA_ , typename FragmentB_ &gt; </td></tr>
+<tr class="memitem:a429d78c47d55929903ee02733ad881c1 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a429d78c47d55929903ee02733ad881c1">evaluate</a> (FragmentA_ const &amp;accum, FragmentB_ const &amp;old, FragmentB_ &amp;output)</td></tr>
+<tr class="memdesc:a429d78c47d55929903ee02733ad881c1 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="mdescLeft">&#160;</td><td class="mdescRight">Evaluate the functor.  <a href="structcutlass_1_1gemm_1_1LinearScaling.html#a429d78c47d55929903ee02733ad881c1">More...</a><br /></td></tr>
+<tr class="separator:a429d78c47d55929903ee02733ad881c1 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aad0708f7681b16e6d6b4ca8d1f59a947 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memTemplParams" colspan="2">template&lt;typename ScalarAccum , typename ScalarOutput , int size&gt; </td></tr>
+<tr class="memitem:aad0708f7681b16e6d6b4ca8d1f59a947 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#aad0708f7681b16e6d6b4ca8d1f59a947">evaluate</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae80882255b71c1ec94c6caeded2d0309">ScalarAccum</a> const *accum, ScalarOutput const *old, ScalarOutput *output)</td></tr>
+<tr class="memdesc:aad0708f7681b16e6d6b4ca8d1f59a947 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="mdescLeft">&#160;</td><td class="mdescRight">Evaluate the functor, without using fragment in the API.  <a href="structcutlass_1_1gemm_1_1LinearScaling.html#aad0708f7681b16e6d6b4ca8d1f59a947">More...</a><br /></td></tr>
+<tr class="separator:aad0708f7681b16e6d6b4ca8d1f59a947 inherit pub_methods_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1gemm_1_1LinearScaling"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1gemm_1_1LinearScaling')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;</a></td></tr>
+<tr class="memitem:a7bbf90dc0938698a0fa22468f9df315d inherit pub_attribs_structcutlass_1_1gemm_1_1LinearScaling"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#a7bbf90dc0938698a0fa22468f9df315d">params</a></td></tr>
+<tr class="separator:a7bbf90dc0938698a0fa22468f9df315d inherit pub_attribs_structcutlass_1_1gemm_1_1LinearScaling"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><h3>template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt;<br />
+struct cutlass::gemm::LinearScalingDevicePtr&lt; Scalar_, FragmentMultiplyAdd_ &gt;</h3>
+
+<p>Functor to compute linear combination of fragments. This is intended to support passing scalars either by value from the host or by reference to device-side scalar elements. This is inspired by cuBLAS's device pointer mode. </p>
+</div><h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="ad10463da3f5a421f9b87638775ef0a85"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad10463da3f5a421f9b87638775ef0a85">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">LinearScaling</a>&lt;Scalar_, FragmentMultiplyAdd_&gt; <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html#ad10463da3f5a421f9b87638775ef0a85">Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a0599650f5cc68b430782d2db74e73d2e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0599650f5cc68b430782d2db74e73d2e">&#9670;&nbsp;</a></span>Scalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Base::Scalar</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a9dcb15bbcf3785280fd5cea0e0da5602"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9dcb15bbcf3785280fd5cea0e0da5602">&#9670;&nbsp;</a></span>LinearScalingDevicePtr()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_ , typename FragmentMultiplyAdd_  = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">cutlass::gemm::LinearScalingDevicePtr</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1LinearScalingDevicePtr.html">LinearScalingDevicePtr</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="classcutlass_1_1gemm_1_1LinearScalingDevicePtr_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>_params</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="linear__scaling__device__ptr_8h_source.html">linear_scaling_device_ptr.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1LinearScalingDevicePtr.png b/docs/structcutlass_1_1gemm_1_1LinearScalingDevicePtr.png
new file mode 100644
index 0000000000..06e3e5c6cb
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1LinearScalingDevicePtr.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1LinearScaling_1_1Params-members.html b/docs/structcutlass_1_1gemm_1_1LinearScaling_1_1Params-members.html
index 4342065c6c..2bcaed09df 100644
--- a/docs/structcutlass_1_1gemm_1_1LinearScaling_1_1Params-members.html
+++ b/docs/structcutlass_1_1gemm_1_1LinearScaling_1_1Params-members.html
@@ -81,11 +81,13 @@
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a3248d6b3d9bcc59365d582b879292a70">alpha</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">beta</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">initialize</a>(GemmDesc_ const &amp;desc)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ad4089906220d4656ba075fb9afd1012c">initialize</a>(Scalar _alpha, Scalar _beta)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">initialize</a>(GemmDesc_ const &amp;desc)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ae515cd98a75ff3eafffcc69692d6301a">Params</a>(Scalar _alpha=0, Scalar _beta=0)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html">cutlass::gemm::LinearScaling&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html b/docs/structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html
index 605e0b8f90..415b5a9541 100644
--- a/docs/structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html
+++ b/docs/structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html
@@ -88,6 +88,11 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
+<tr class="memitem:ae515cd98a75ff3eafffcc69692d6301a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ae515cd98a75ff3eafffcc69692d6301a">Params</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> _alpha=0, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> _beta=0)</td></tr>
+<tr class="separator:ae515cd98a75ff3eafffcc69692d6301a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad4089906220d4656ba075fb9afd1012c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#ad4089906220d4656ba075fb9afd1012c">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> _alpha, <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> _beta)</td></tr>
+<tr class="memdesc:ad4089906220d4656ba075fb9afd1012c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize the parameters.  <a href="#ad4089906220d4656ba075fb9afd1012c">More...</a><br /></td></tr>
+<tr class="separator:ad4089906220d4656ba075fb9afd1012c"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a4946e45e10661307f562b27bad5cb72d"><td class="memTemplParams" colspan="2">template&lt;typename GemmDesc_ &gt; </td></tr>
 <tr class="memitem:a4946e45e10661307f562b27bad5cb72d"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a4946e45e10661307f562b27bad5cb72d">initialize</a> (GemmDesc_ const &amp;desc)</td></tr>
 <tr class="memdesc:a4946e45e10661307f562b27bad5cb72d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize the parameters.  <a href="#a4946e45e10661307f562b27bad5cb72d">More...</a><br /></td></tr>
@@ -101,14 +106,91 @@
 <tr class="memitem:a0e455ad2e4eba67259867f9123ca817b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling_1_1Params.html#a0e455ad2e4eba67259867f9123ca817b">beta</a></td></tr>
 <tr class="separator:a0e455ad2e4eba67259867f9123ca817b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="ae515cd98a75ff3eafffcc69692d6301a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae515cd98a75ff3eafffcc69692d6301a">&#9670;&nbsp;</a></span>Params()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::Params </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a>&#160;</td>
+          <td class="paramname"><em>_alpha</em> = <code>0</code>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a>&#160;</td>
+          <td class="paramname"><em>_beta</em> = <code>0</code>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <h2 class="groupheader">Member Function Documentation</h2>
+<a id="ad4089906220d4656ba075fb9afd1012c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad4089906220d4656ba075fb9afd1012c">&#9670;&nbsp;</a></span>initialize() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::initialize </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a>&#160;</td>
+          <td class="paramname"><em>_alpha</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a>&#160;</td>
+          <td class="paramname"><em>_beta</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <a id="a4946e45e10661307f562b27bad5cb72d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a4946e45e10661307f562b27bad5cb72d">&#9670;&nbsp;</a></span>initialize()</h2>
+<h2 class="memtitle"><span class="permalink"><a href="#a4946e45e10661307f562b27bad5cb72d">&#9670;&nbsp;</a></span>initialize() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt;&gt; </div>
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
 <div class="memtemplate">
 template&lt;typename GemmDesc_ &gt; </div>
 <table class="mlabels">
@@ -139,7 +221,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3248d6b3d9bcc59365d582b8
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt;&gt; </div>
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::alpha</td>
@@ -155,7 +237,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0e455ad2e4eba67259867f91
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_&gt;&gt; </div>
+template&lt;typename Scalar_, typename FragmentMultiplyAdd_ = FragmentMultiplyAdd&lt;Scalar_, Scalar_&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html#ae6b053ca059932f7c0d3c99243854183">Scalar</a> <a class="el" href="structcutlass_1_1gemm_1_1LinearScaling.html">cutlass::gemm::LinearScaling</a>&lt; Scalar_, FragmentMultiplyAdd_ &gt;::Params::beta</td>
@@ -171,7 +253,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0e455ad2e4eba67259867f91
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ProjectOperand.html b/docs/structcutlass_1_1gemm_1_1ProjectOperand.html
index 6b5a395835..09e14d1b26 100644
--- a/docs/structcutlass_1_1gemm_1_1ProjectOperand.html
+++ b/docs/structcutlass_1_1gemm_1_1ProjectOperand.html
@@ -89,7 +89,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4-members.html b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4-members.html
index cbf6186dbd..1b3fa0e055 100644
--- a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html
index 50d9533532..68cfab74cd 100644
--- a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kA_00_01Kstrided_01_4.html
@@ -125,7 +125,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae91b2350374f1734a30cbed4
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4-members.html b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4-members.html
index ab297d4803..1d501a261f 100644
--- a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html
index 7021dbf8b2..59aab4a02b 100644
--- a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kB_00_01Kstrided_01_4.html
@@ -125,7 +125,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a0f1579013f56fe16ebc14727
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4-members.html b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4-members.html
index 79bf952fc0..24f99a7e38 100644
--- a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html
index 8e2882f93d..d2f227e620 100644
--- a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kC_00_01true_01_4.html
@@ -123,7 +123,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af2a323461334a6b55b95074a
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4-members.html b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4-members.html
index d20c5c9f66..f77efde93e 100644
--- a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html
index 5cf621e383..68f484b5ba 100644
--- a/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1ProjectOperand_3_01GemmOperand_1_1kD_00_01true_01_4.html
@@ -123,7 +123,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ace04040ccb13af5f9a283ca8
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ReshapeThreads-members.html b/docs/structcutlass_1_1gemm_1_1ReshapeThreads-members.html
index 9d8d3d8a62..a1811ca248 100644
--- a/docs/structcutlass_1_1gemm_1_1ReshapeThreads-members.html
+++ b/docs/structcutlass_1_1gemm_1_1ReshapeThreads-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ReshapeThreads.html b/docs/structcutlass_1_1gemm_1_1ReshapeThreads.html
index e4f6d4b50d..95af5c25b4 100644
--- a/docs/structcutlass_1_1gemm_1_1ReshapeThreads.html
+++ b/docs/structcutlass_1_1gemm_1_1ReshapeThreads.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#afd3614ff45f0fc77ad496795
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4-members.html b/docs/structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4-members.html
index 722512f71b..14b5b2331d 100644
--- a/docs/structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4-members.html
+++ b/docs/structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html b/docs/structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html
index ccfacd4f37..6358026786 100644
--- a/docs/structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html
+++ b/docs/structcutlass_1_1gemm_1_1ReshapeThreads_3_01Tile___00_01Threads___00_01true_01_4.html
@@ -110,7 +110,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a894932ad04fae3aea06eb6d2
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1RowMajorBlockSwizzle-members.html b/docs/structcutlass_1_1gemm_1_1RowMajorBlockSwizzle-members.html
new file mode 100644
index 0000000000..7b31103274
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1RowMajorBlockSwizzle-members.html
@@ -0,0 +1,95 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">RowMajorBlockSwizzle</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a9be74716c0e3dc6a7f4cdd64cbb16211">get_batch_id</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#aa9fc825e19404ff527cb3d2dcc55ae1c">get_grid_layout</a>(GemmCoord const &amp;problem_size, Coord&lt; 3 &gt; const &amp;OutputTile)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#af7c1b4e0afb08e893cd14a169a0b47cd">get_threadblock_offset</a>(Coord&lt; 3 &gt; const &amp;OutputTile)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a4ed7847f8ddad11a6765d914b6f32fcd">RowMajorBlockSwizzle</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d">swizzle</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html b/docs/structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html
new file mode 100644
index 0000000000..b2267dc7ff
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html
@@ -0,0 +1,260 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">RowMajorBlockSwizzle</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="threadblock__swizzle_8h_source.html">threadblock_swizzle.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a4ed7847f8ddad11a6765d914b6f32fcd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a4ed7847f8ddad11a6765d914b6f32fcd">RowMajorBlockSwizzle</a> ()</td></tr>
+<tr class="memdesc:a4ed7847f8ddad11a6765d914b6f32fcd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a4ed7847f8ddad11a6765d914b6f32fcd">More...</a><br /></td></tr>
+<tr class="separator:a4ed7847f8ddad11a6765d914b6f32fcd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a668d220ad1f163b72e40106b719e0c8d"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE dim3&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d">swizzle</a> ()</td></tr>
+<tr class="memdesc:a668d220ad1f163b72e40106b719e0c8d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Swizzle the block index.  <a href="#a668d220ad1f163b72e40106b719e0c8d">More...</a><br /></td></tr>
+<tr class="separator:a668d220ad1f163b72e40106b719e0c8d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa9fc825e19404ff527cb3d2dcc55ae1c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dim3&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#aa9fc825e19404ff527cb3d2dcc55ae1c">get_grid_layout</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> const &amp;problem_size, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;OutputTile)</td></tr>
+<tr class="separator:aa9fc825e19404ff527cb3d2dcc55ae1c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af7c1b4e0afb08e893cd14a169a0b47cd"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#af7c1b4e0afb08e893cd14a169a0b47cd">get_threadblock_offset</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;OutputTile)</td></tr>
+<tr class="separator:af7c1b4e0afb08e893cd14a169a0b47cd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9be74716c0e3dc6a7f4cdd64cbb16211"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a9be74716c0e3dc6a7f4cdd64cbb16211">get_batch_id</a> ()</td></tr>
+<tr class="separator:a9be74716c0e3dc6a7f4cdd64cbb16211"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a4ed7847f8ddad11a6765d914b6f32fcd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4ed7847f8ddad11a6765d914b6f32fcd">&#9670;&nbsp;</a></span>RowMajorBlockSwizzle()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int groupRows, enum swizzleDirection::Kind swDirection&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle</a>&lt; groupRows, swDirection &gt;::<a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">RowMajorBlockSwizzle</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a9be74716c0e3dc6a7f4cdd64cbb16211"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9be74716c0e3dc6a7f4cdd64cbb16211">&#9670;&nbsp;</a></span>get_batch_id()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int groupRows, enum swizzleDirection::Kind swDirection&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE int <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle</a>&lt; groupRows, swDirection &gt;::get_batch_id </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa9fc825e19404ff527cb3d2dcc55ae1c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa9fc825e19404ff527cb3d2dcc55ae1c">&#9670;&nbsp;</a></span>get_grid_layout()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int groupRows, enum swizzleDirection::Kind swDirection&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dim3 <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle</a>&lt; groupRows, swDirection &gt;::get_grid_layout </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> const &amp;&#160;</td>
+          <td class="paramname"><em>problem_size</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>OutputTile</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af7c1b4e0afb08e893cd14a169a0b47cd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af7c1b4e0afb08e893cd14a169a0b47cd">&#9670;&nbsp;</a></span>get_threadblock_offset()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int groupRows, enum swizzleDirection::Kind swDirection&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;3&gt; <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle</a>&lt; groupRows, swDirection &gt;::get_threadblock_offset </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;&#160;</td>
+          <td class="paramname"><em>OutputTile</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a668d220ad1f163b72e40106b719e0c8d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a668d220ad1f163b72e40106b719e0c8d">&#9670;&nbsp;</a></span>swizzle()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int groupRows, enum swizzleDirection::Kind swDirection&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE dim3 <a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle</a>&lt; groupRows, swDirection &gt;::swizzle </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="threadblock__swizzle_8h_source.html">threadblock_swizzle.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1SgemmConfig-members.html b/docs/structcutlass_1_1gemm_1_1SgemmConfig-members.html
index 1cd9d1933b..a1db93d786 100644
--- a/docs/structcutlass_1_1gemm_1_1SgemmConfig-members.html
+++ b/docs/structcutlass_1_1gemm_1_1SgemmConfig-members.html
@@ -73,41 +73,44 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::SgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::SgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, kLaunchBounds &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html">cutlass::gemm::SgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1SgemmConfig.html">cutlass::gemm::SgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, kLaunchBounds &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SgemmConfig.html b/docs/structcutlass_1_1gemm_1_1SgemmConfig.html
index 41649897f3..16e077038b 100644
--- a/docs/structcutlass_1_1gemm_1_1SgemmConfig.html
+++ b/docs/structcutlass_1_1gemm_1_1SgemmConfig.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::SgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::SgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, kLaunchBounds &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -75,93 +75,102 @@
   <div class="summary">
 <a href="structcutlass_1_1gemm_1_1SgemmConfig-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::SgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::SgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, kLaunchBounds &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="sgemm__traits_8h_source.html">sgemm_traits.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::gemm::SgemmConfig&lt; OutputTile_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_ &gt;:</div>
+Inheritance diagram for cutlass::gemm::SgemmConfig&lt; OutputTile_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, kLaunchBounds &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1gemm_1_1SgemmConfig.png" usemap="#cutlass::gemm::SgemmConfig_3C_20OutputTile_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::SgemmConfig_3C_20OutputTile_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map" name="cutlass::gemm::SgemmConfig_3C_20OutputTile_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1GemmConfig.html" alt="cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;" shape="rect" coords="0,0,1431,24"/>
+  <img src="structcutlass_1_1gemm_1_1SgemmConfig.png" usemap="#cutlass::gemm::SgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20kLaunchBounds_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::SgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20kLaunchBounds_20_3E_map" name="cutlass::gemm::SgemmConfig_3C_20OutputTile_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20kLaunchBounds_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmConfig.html" alt="cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;" shape="rect" coords="0,0,1570,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td></tr>
-<tr class="memitem:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef float&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">ScalarA</a></td></tr>
-<tr class="memdesc:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9d1e4e364be8fd9de5e1199d93ad76aa">More...</a><br /></td></tr>
-<tr class="separator:a9d1e4e364be8fd9de5e1199d93ad76aa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef float&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">ScalarB</a></td></tr>
-<tr class="memdesc:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa13d6f5e5ad907ef09c88ae49e6e8e9b">More...</a><br /></td></tr>
-<tr class="separator:aa13d6f5e5ad907ef09c88ae49e6e8e9b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef float&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">ScalarC</a></td></tr>
-<tr class="memdesc:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad8f262d7da093d07cdd5c6a4fd9aceea">More...</a><br /></td></tr>
-<tr class="separator:ad8f262d7da093d07cdd5c6a4fd9aceea inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef float&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">ScalarD</a></td></tr>
-<tr class="memdesc:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a188ef7f4c49ff2830753218343a1b8f8">More...</a><br /></td></tr>
-<tr class="separator:a188ef7f4c49ff2830753218343a1b8f8 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a></td></tr>
-<tr class="memdesc:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">More...</a><br /></td></tr>
-<tr class="separator:a53450f4d7444d6a4c0d2353496c0a4fd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, 8 &gt;, float, float, float &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">MultiplyAdd</a></td></tr>
-<tr class="memdesc:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">More...</a><br /></td></tr>
-<tr class="separator:a8669096ddbb8c810fb8d2313d62e6ee7 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">MultiplyAdd::InstructionShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">InstructionShape</a></td></tr>
-<tr class="memdesc:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3a57d05f50932d718538f0d1ededa95b">More...</a><br /></td></tr>
-<tr class="separator:a3a57d05f50932d718538f0d1ededa95b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">MultiplyAdd::AccumulatorsPerWarp</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a></td></tr>
-<tr class="memdesc:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per warp.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">More...</a><br /></td></tr>
-<tr class="separator:a51d583dfcd645ad0ecfc23b87b3c5108 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">MultiplyAdd::Accumulators</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">Accumulators</a></td></tr>
-<tr class="memdesc:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2fadb0ad2e28109ccfa9195e817a4d54">More...</a><br /></td></tr>
-<tr class="separator:a2fadb0ad2e28109ccfa9195e817a4d54 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a51d583dfcd645ad0ecfc23b87b3c5108">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">Warps</a></td></tr>
-<tr class="memdesc:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#abb6ba58a2f2d80db0b2c9c1d88454efd">More...</a><br /></td></tr>
-<tr class="separator:abb6ba58a2f2d80db0b2c9c1d88454efd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; AccumulatorsPerThread_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2 &gt;</a></td></tr>
-<tr class="memitem:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">kWarpSize</a></td></tr>
-<tr class="memdesc:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a677d6a1711cc756b817095b7437cce0e">More...</a><br /></td></tr>
-<tr class="separator:a677d6a1711cc756b817095b7437cce0e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">kThreads</a></td></tr>
-<tr class="memdesc:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a0b2be601de08848afc4418adb97255bf">More...</a><br /></td></tr>
-<tr class="separator:a0b2be601de08848afc4418adb97255bf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">kScalarsPerLdgA</a></td></tr>
-<tr class="memdesc:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a2e0a043c5d4d7959ec1a2214c3ac39ac">More...</a><br /></td></tr>
-<tr class="separator:a2e0a043c5d4d7959ec1a2214c3ac39ac inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:accc95abc55880abdab92253367b4b186 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#accc95abc55880abdab92253367b4b186">kScalarsPerStsA</a></td></tr>
-<tr class="separator:accc95abc55880abdab92253367b4b186 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa1b75484138923a52b32888fef608d9b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa1b75484138923a52b32888fef608d9b">kScalarsPerLdsA</a></td></tr>
-<tr class="separator:aa1b75484138923a52b32888fef608d9b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">kScalarsPerLdgB</a></td></tr>
-<tr class="memdesc:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a849b21fed39aaac1cdd546334739be97">More...</a><br /></td></tr>
-<tr class="separator:a849b21fed39aaac1cdd546334739be97 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac0c8c027e3ede14b62d7c7d519551f21 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ac0c8c027e3ede14b62d7c7d519551f21">kScalarsPerStsB</a></td></tr>
-<tr class="separator:ac0c8c027e3ede14b62d7c7d519551f21 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a86470d3a44e2b50ee31ec3c9f79927ef inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a86470d3a44e2b50ee31ec3c9f79927ef">kScalarsPerLdsB</a></td></tr>
-<tr class="separator:a86470d3a44e2b50ee31ec3c9f79927ef inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">kScalarsPerLdgC</a></td></tr>
-<tr class="memdesc:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aad47c635a73e83bd4b19494864832d31">More...</a><br /></td></tr>
-<tr class="separator:aad47c635a73e83bd4b19494864832d31 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">kScalarsPerStgD</a></td></tr>
-<tr class="memdesc:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a3633083f4f778215543e376c092745d7">More...</a><br /></td></tr>
-<tr class="separator:a3633083f4f778215543e376c092745d7 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a3087cdd38e2c65ad0dffdd0587d2cce0 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a3087cdd38e2c65ad0dffdd0587d2cce0">kScalarsPerStsD</a></td></tr>
-<tr class="separator:a3087cdd38e2c65ad0dffdd0587d2cce0 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:adaf2ee5b8e6f7bdb9939cd45a186ca56 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#adaf2ee5b8e6f7bdb9939cd45a186ca56">kScalarsPerLdsD</a></td></tr>
-<tr class="separator:adaf2ee5b8e6f7bdb9939cd45a186ca56 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">kAccumulatorsPerLdsA</a></td></tr>
-<tr class="memdesc:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#abbdd356f280099269867e614684645cf">More...</a><br /></td></tr>
-<tr class="separator:abbdd356f280099269867e614684645cf inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9dd092bca2f1f2c039f367b23bafa9c1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd092bca2f1f2c039f367b23bafa9c1">kAccumulatorsPerLdsB</a></td></tr>
-<tr class="separator:a9dd092bca2f1f2c039f367b23bafa9c1 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">kStages</a></td></tr>
-<tr class="memdesc:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a221949c289057e39d439ce03a5b01c52">More...</a><br /></td></tr>
-<tr class="separator:a221949c289057e39d439ce03a5b01c52 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td></tr>
+<tr class="memitem:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef float&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">ScalarA</a></td></tr>
+<tr class="memdesc:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa97b0e7f369f927c4db6d683dbb7f53b">More...</a><br /></td></tr>
+<tr class="separator:aa97b0e7f369f927c4db6d683dbb7f53b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef float&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">ScalarB</a></td></tr>
+<tr class="memdesc:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a389c0980e978463d3cc126342d8413c6">More...</a><br /></td></tr>
+<tr class="separator:a389c0980e978463d3cc126342d8413c6 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef float&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">ScalarC</a></td></tr>
+<tr class="memdesc:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a30d9cfbbede42166e4e1964145dfe05d">More...</a><br /></td></tr>
+<tr class="separator:a30d9cfbbede42166e4e1964145dfe05d inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef float&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">ScalarD</a></td></tr>
+<tr class="memdesc:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a7ad231b16f05a58900dca8ff0e0e7bfa">More...</a><br /></td></tr>
+<tr class="separator:a7ad231b16f05a58900dca8ff0e0e7bfa inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef OutputTile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a></td></tr>
+<tr class="memdesc:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">More...</a><br /></td></tr>
+<tr class="separator:a9dd9c3efc3dfd9b5c6acd12236697399 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 4, 8 &gt;, float, float, float &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">MultiplyAdd</a></td></tr>
+<tr class="memdesc:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor to do D = A*B + C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">More...</a><br /></td></tr>
+<tr class="separator:aedb95febe4a0b2943e233c95c36a22cd inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">MultiplyAdd::InstructionShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">InstructionShape</a></td></tr>
+<tr class="memdesc:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ad83132bd03f8bd844487d1a9da908c8b">More...</a><br /></td></tr>
+<tr class="separator:ad83132bd03f8bd844487d1a9da908c8b inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">MultiplyAdd::AccumulatorsPerWarp</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of warp-level GEMM.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">More...</a><br /></td></tr>
+<tr class="separator:a32a8979ff618f069665708c7771c3cc3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">MultiplyAdd::Accumulators</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">Accumulators</a></td></tr>
+<tr class="memdesc:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9f90f91f9e5e40496e8a88eb657fd591">More...</a><br /></td></tr>
+<tr class="separator:a9f90f91f9e5e40496e8a88eb657fd591 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeDiv.html">ShapeDiv</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">OutputTile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a32a8979ff618f069665708c7771c3cc3">AccumulatorsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">Warps</a></td></tr>
+<tr class="memdesc:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of warps.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9b987cfb25a32e671a47cb6376a361f3">More...</a><br /></td></tr>
+<tr class="separator:a9b987cfb25a32e671a47cb6376a361f3 inherit pub_types_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html">cutlass::gemm::GemmConfig&lt; float, float, float, float, OutputTile_, ThreadMultiplyAdd&lt; ThreadGemmShape_, Shape&lt; 1, 4, 8 &gt;, float, float, float &gt;, kScalarsPerLdgA_, kScalarsPerLdgA_, 4, kScalarsPerLdgB_, kScalarsPerLdgB_, 4, 1, 4, 1, 2, false, true, kLaunchBounds &gt;</a></td></tr>
+<tr class="memitem:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">kWarpSize</a></td></tr>
+<tr class="memdesc:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The default warp size (32 threads per warp).  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aa549183981095a3e604974e909a7d396">More...</a><br /></td></tr>
+<tr class="separator:aa549183981095a3e604974e909a7d396 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">kThreads</a></td></tr>
+<tr class="memdesc:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The numnber of threads.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#acf461f0ba3067cc5d66a04f0a176308f">More...</a><br /></td></tr>
+<tr class="separator:acf461f0ba3067cc5d66a04f0a176308f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">kScalarsPerLdgA</a></td></tr>
+<tr class="memdesc:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for A.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64e7d66e0646c7044e754b3b6b91e761">More...</a><br /></td></tr>
+<tr class="separator:a64e7d66e0646c7044e754b3b6b91e761 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab2b6167b0165ed544254dc87c2a7db8f">kScalarsPerStsA</a></td></tr>
+<tr class="separator:ab2b6167b0165ed544254dc87c2a7db8f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a82295105d7ccbcce057b4c57632a644b">kScalarsPerLdsA</a></td></tr>
+<tr class="separator:a82295105d7ccbcce057b4c57632a644b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">kScalarsPerLdgB</a></td></tr>
+<tr class="memdesc:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG/STS/LDS for B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#aff7409a9d2666159435d3b9db16443bc">More...</a><br /></td></tr>
+<tr class="separator:aff7409a9d2666159435d3b9db16443bc inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a2a424063136c56c5ca6345496485afce">kScalarsPerStsB</a></td></tr>
+<tr class="separator:a2a424063136c56c5ca6345496485afce inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9ccd14b44a22dfdfeefabe1e643da65e">kScalarsPerLdsB</a></td></tr>
+<tr class="separator:a9ccd14b44a22dfdfeefabe1e643da65e inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">kScalarsPerLdgC</a></td></tr>
+<tr class="memdesc:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per LDG for C.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a9c3985d8de485d76a5d72c91c3e3aaff">More...</a><br /></td></tr>
+<tr class="separator:a9c3985d8de485d76a5d72c91c3e3aaff inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">kScalarsPerStgD</a></td></tr>
+<tr class="memdesc:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars per STS/LDS/STG for D.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ade9d3c2aeb0e4d73e04a5e9a06ce5203">More...</a><br /></td></tr>
+<tr class="separator:ade9d3c2aeb0e4d73e04a5e9a06ce5203 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a1e93d0163c0d150d33f4093b4a1ec87f">kScalarsPerStsD</a></td></tr>
+<tr class="separator:a1e93d0163c0d150d33f4093b4a1ec87f inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a26942561aa111089b3ba0f12cf233951">kScalarsPerLdsD</a></td></tr>
+<tr class="separator:a26942561aa111089b3ba0f12cf233951 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">kAccumulatorsPerLdsA</a></td></tr>
+<tr class="memdesc:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators that are going to be fed from one LDS A/B.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a60ab48db1b87fb6063d194247bc055f5">More...</a><br /></td></tr>
+<tr class="separator:a60ab48db1b87fb6063d194247bc055f5 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aeb740e4ab9f93f29f1b8ab43ebef68eb">kAccumulatorsPerLdsB</a></td></tr>
+<tr class="separator:aeb740e4ab9f93f29f1b8ab43ebef68eb inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">kStages</a></td></tr>
+<tr class="memdesc:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of stages in shared memory to implement double, triple, more-buffering.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#ab26d76515e394118bfc530d6a81b9508">More...</a><br /></td></tr>
+<tr class="separator:ab26d76515e394118bfc530d6a81b9508 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">kResidueSeparate</a></td></tr>
+<tr class="memdesc:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, mainloop is instantiated twice. The first instantiation contains no predicate.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a64c1e0d794c1bdfa8b2f3a53e387155c">More...</a><br /></td></tr>
+<tr class="separator:a64c1e0d794c1bdfa8b2f3a53e387155c inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">kResidueInProlog</a></td></tr>
+<tr class="memdesc:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, residue is computed in the prologue.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a600746def904eeca46d7f92a4b223b46">More...</a><br /></td></tr>
+<tr class="separator:a600746def904eeca46d7f92a4b223b46 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memItemLeft" align="right" valign="top">static bool const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">kLaunchBounds</a></td></tr>
+<tr class="memdesc:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="mdescLeft">&#160;</td><td class="mdescRight">If true, kernel is launched with launch bounds specified.  <a href="structcutlass_1_1gemm_1_1GemmConfig.html#a54e252cedbfee75e7c4ac2f7fe5ce45b">More...</a><br /></td></tr>
+<tr class="separator:a54e252cedbfee75e7c4ac2f7fe5ce45b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmConfig"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <hr/>The documentation for this struct was generated from the following file:<ul>
 <li><a class="el" href="sgemm__traits_8h_source.html">sgemm_traits.h</a></li>
@@ -169,7 +178,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SgemmConfig.png b/docs/structcutlass_1_1gemm_1_1SgemmConfig.png
index 5690d0823d..4cf6d80bd9 100644
Binary files a/docs/structcutlass_1_1gemm_1_1SgemmConfig.png and b/docs/structcutlass_1_1gemm_1_1SgemmConfig.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1SgemmLBTraits-members.html b/docs/structcutlass_1_1gemm_1_1SgemmLBTraits-members.html
new file mode 100644
index 0000000000..6a90490c57
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1SgemmLBTraits-members.html
@@ -0,0 +1,114 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1SgemmLBTraits.html">SgemmLBTraits</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::SgemmLBTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1SgemmLBTraits.html">cutlass::gemm::SgemmLBTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a>(bool in_loop)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a>(bool in_loop)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1SgemmLBTraits.html b/docs/structcutlass_1_1gemm_1_1SgemmLBTraits.html
new file mode 100644
index 0000000000..bbdee92f33
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1SgemmLBTraits.html
@@ -0,0 +1,185 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::SgemmLBTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1SgemmLBTraits.html">SgemmLBTraits</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="structcutlass_1_1gemm_1_1SgemmLBTraits-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::SgemmLBTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Helper to define SGEMM traits using <a class="el" href="structcutlass_1_1gemm_1_1Launch.html" title="Partial specialization for launching the GEMM kernel with or without launch bounds. ">Launch</a> Bounds.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="sgemm__traits_8h_source.html">sgemm_traits.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::SgemmLBTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1SgemmLBTraits.png" usemap="#cutlass::gemm::SgemmLBTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::SgemmLBTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" name="cutlass::gemm::SgemmLBTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html" alt="cutlass::gemm::SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, Index_ &gt;" shape="rect" coords="0,56,4915,80"/>
+<area href="structcutlass_1_1gemm_1_1GemmTraits.html" alt="cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;" shape="rect" coords="0,0,4915,24"/>
+</map>
+ </div></div>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
+<tr class="memitem:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt; GemmConfig_, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>, Index_, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>&lt; GemmConfig_::Accumulators::Element &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a></td></tr>
+<tr class="memdesc:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">This traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">More...</a><br /></td></tr>
+<tr class="separator:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a></td></tr>
+<tr class="memdesc:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The struct that consumes this Traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">More...</a><br /></td></tr>
+<tr class="separator:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a></td></tr>
+<tr class="memdesc:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The configuration.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">More...</a><br /></td></tr>
+<tr class="separator:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
+<tr class="memdesc:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">More...</a><br /></td></tr>
+<tr class="separator:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a></td></tr>
+<tr class="memdesc:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from global memory to shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">More...</a><br /></td></tr>
+<tr class="separator:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a96d64bdc48db4971798b620d6b49b3f6 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> ::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">ScalarA</a></td></tr>
+<tr class="memdesc:a96d64bdc48db4971798b620d6b49b3f6 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for A.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a96d64bdc48db4971798b620d6b49b3f6">More...</a><br /></td></tr>
+<tr class="separator:a96d64bdc48db4971798b620d6b49b3f6 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac393b07e780629fc8254fc22cc6f815b inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a></td></tr>
+<tr class="memdesc:ac393b07e780629fc8254fc22cc6f815b inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from global memory to shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">More...</a><br /></td></tr>
+<tr class="separator:ac393b07e780629fc8254fc22cc6f815b inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa0e8fd28f5247764dfb7843f7670c698 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> ::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">ScalarB</a></td></tr>
+<tr class="memdesc:aa0e8fd28f5247764dfb7843f7670c698 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa0e8fd28f5247764dfb7843f7670c698">More...</a><br /></td></tr>
+<tr class="separator:aa0e8fd28f5247764dfb7843f7670c698 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae01371eb31b88fa83c4926564cecafdc inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a></td></tr>
+<tr class="memdesc:ae01371eb31b88fa83c4926564cecafdc inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for A to load from shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">More...</a><br /></td></tr>
+<tr class="separator:ae01371eb31b88fa83c4926564cecafdc inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a></td></tr>
+<tr class="memdesc:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for B to load from shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">More...</a><br /></td></tr>
+<tr class="separator:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
+<tr class="memdesc:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The multiply-add functor.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">More...</a><br /></td></tr>
+<tr class="separator:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a></td></tr>
+<tr class="memdesc:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The epilogue.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">More...</a><br /></td></tr>
+<tr class="separator:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f78d4a68817760099081523aa7fd443 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#abb0741601652df8fdf927d49c2c0e4d0">Epilogue::ScalarC</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">ScalarC</a></td></tr>
+<tr class="memdesc:a8f78d4a68817760099081523aa7fd443 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalars in the epilogue.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a8f78d4a68817760099081523aa7fd443">More...</a><br /></td></tr>
+<tr class="separator:a8f78d4a68817760099081523aa7fd443 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3129be75ee087603170f8367e10e070e inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html#a4887b56a96694ce6350db77f78bb505f">Epilogue::ScalarD</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a3129be75ee087603170f8367e10e070e">ScalarD</a></td></tr>
+<tr class="separator:a3129be75ee087603170f8367e10e070e inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a50672b5fa67d858aeff8f254cf28e941 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a></td></tr>
+<tr class="memdesc:a50672b5fa67d858aeff8f254cf28e941 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The block swizzle to reorganize the grid.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">More...</a><br /></td></tr>
+<tr class="separator:a50672b5fa67d858aeff8f254cf28e941 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae67227cecbe84f5c8497d9a7ff82b367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a></td></tr>
+<tr class="memdesc:ae67227cecbe84f5c8497d9a7ff82b367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">More...</a><br /></td></tr>
+<tr class="separator:ae67227cecbe84f5c8497d9a7ff82b367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>&lt; GemmConfig_::Accumulators::Element &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a></td></tr>
+<tr class="memdesc:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear the accumulators.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">More...</a><br /></td></tr>
+<tr class="separator:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, GemmConfig::kResidueInProlog &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a></td></tr>
+<tr class="memdesc:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the global load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">More...</a><br /></td></tr>
+<tr class="separator:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">GlobalLoadStream::ThreadblockTileStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a></td></tr>
+<tr class="memdesc:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory needed to store the threadblock-scoped GEMM tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">More...</a><br /></td></tr>
+<tr class="separator:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a></td></tr>
+<tr class="memdesc:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the shared load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">More...</a><br /></td></tr>
+<tr class="separator:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
+<tr class="memitem:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a> (bool in_loop)</td></tr>
+<tr class="memdesc:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared loads.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">More...</a><br /></td></tr>
+<tr class="separator:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac3c840a3d90c0da43301761af83c2c9f inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a> (bool in_loop)</td></tr>
+<tr class="memdesc:ac3c840a3d90c0da43301761af83c2c9f inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared stores.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">More...</a><br /></td></tr>
+<tr class="separator:ac3c840a3d90c0da43301761af83c2c9f inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
+<tr class="memitem:ac5bb5931a707ed7672f69267753ba41b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a></td></tr>
+<tr class="memdesc:ac5bb5931a707ed7672f69267753ba41b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout of A.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">More...</a><br /></td></tr>
+<tr class="separator:ac5bb5931a707ed7672f69267753ba41b inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a078e8d9cfa1b182e1b96a2cc8c54b684 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a></td></tr>
+<tr class="memdesc:a078e8d9cfa1b182e1b96a2cc8c54b684 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout of B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">More...</a><br /></td></tr>
+<tr class="separator:a078e8d9cfa1b182e1b96a2cc8c54b684 inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="sgemm__traits_8h_source.html">sgemm_traits.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1SgemmLBTraits.png b/docs/structcutlass_1_1gemm_1_1SgemmLBTraits.png
new file mode 100644
index 0000000000..1c459b4932
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1SgemmLBTraits.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1SgemmTraits-members.html b/docs/structcutlass_1_1gemm_1_1SgemmTraits-members.html
index ad7350b743..df926f3e41 100644
--- a/docs/structcutlass_1_1gemm_1_1SgemmTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1SgemmTraits-members.html
@@ -73,19 +73,21 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html">cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1SgemmTraits.html">cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a50672b5fa67d858aeff8f254cf28e941">BlockSwizzle</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
@@ -98,12 +100,13 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a>(bool in_loop)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SgemmTraits.html b/docs/structcutlass_1_1gemm_1_1SgemmTraits.html
index 87da28431b..644e285530 100644
--- a/docs/structcutlass_1_1gemm_1_1SgemmTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1SgemmTraits.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -75,17 +75,17 @@
   <div class="summary">
 <a href="structcutlass_1_1gemm_1_1SgemmTraits-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
 <p><code>#include &lt;<a class="el" href="sgemm__traits_8h_source.html">sgemm_traits.h</a>&gt;</code></p>
 <div class="dynheader">
-Inheritance diagram for cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, AccumulatorsPerThread_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;:</div>
+Inheritance diagram for cutlass::gemm::SgemmTraits&lt; kLayoutA_, kLayoutB_, OutputTile_, EpilogueFunctor_, ThreadGemmShape_, kScalarsPerLdgA_, kScalarsPerLdgB_, Index_, GemmConfig_, GemmEpilogueTraits_ &gt;:</div>
 <div class="dyncontent">
  <div class="center">
-  <img src="structcutlass_1_1gemm_1_1SgemmTraits.png" usemap="#cutlass::gemm::SgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" alt=""/>
-  <map id="cutlass::gemm::SgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" name="cutlass::gemm::SgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20AccumulatorsPerThread_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map">
+  <img src="structcutlass_1_1gemm_1_1SgemmTraits.png" usemap="#cutlass::gemm::SgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" alt=""/>
+  <map id="cutlass::gemm::SgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map" name="cutlass::gemm::SgemmTraits_3C_20kLayoutA_5F_2C_20kLayoutB_5F_2C_20OutputTile_5F_2C_20EpilogueFunctor_5F_2C_20ThreadGemmShape_5F_2C_20kScalarsPerLdgA_5F_2C_20kScalarsPerLdgB_5F_2C_20Index_5F_2C_20GemmConfig_5F_2C_20GemmEpilogueTraits_5F_20_3E_map">
 <area href="structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html" alt="cutlass::gemm::SimplifiedGemmTraits&lt; kLayoutA_, kLayoutB_, GemmConfig_, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, Index_ &gt;" shape="rect" coords="0,56,4915,80"/>
 <area href="structcutlass_1_1gemm_1_1GemmTraits.html" alt="cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;" shape="rect" coords="0,0,4915,24"/>
 </map>
@@ -94,10 +94,16 @@
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
 <tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
+<tr class="memitem:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt; GemmConfig_, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>, Index_, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>&lt; GemmConfig_::Accumulators::Element &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a></td></tr>
+<tr class="memdesc:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">This traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">More...</a><br /></td></tr>
+<tr class="separator:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a></td></tr>
+<tr class="memdesc:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The struct that consumes this Traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">More...</a><br /></td></tr>
+<tr class="separator:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a></td></tr>
 <tr class="memdesc:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The configuration.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">More...</a><br /></td></tr>
 <tr class="separator:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
+<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
 <tr class="memdesc:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">More...</a><br /></td></tr>
 <tr class="separator:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a></td></tr>
@@ -118,13 +124,7 @@
 <tr class="memitem:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">SimplifiedGemmTraitsHelper</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperA.html">GemmTileTraitsHelperA</a>&lt; kLayoutA_, GemmConfig_ &gt;, <a class="el" href="structcutlass_1_1gemm_1_1GemmTileTraitsHelperB.html">GemmTileTraitsHelperB</a>&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::<a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a></td></tr>
 <tr class="memdesc:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for B to load from shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">More...</a><br /></td></tr>
 <tr class="separator:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamA::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a></td></tr>
-<tr class="memdesc:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for A.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">More...</a><br /></td></tr>
-<tr class="separator:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamB::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a></td></tr>
-<tr class="memdesc:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">More...</a><br /></td></tr>
-<tr class="separator:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
+<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
 <tr class="memdesc:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The multiply-add functor.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">More...</a><br /></td></tr>
 <tr class="separator:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogue.html">GemmEpilogue</a>&lt; GemmEpilogueTraits_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a></td></tr>
@@ -144,6 +144,15 @@
 <tr class="memitem:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>&lt; GemmConfig_::Accumulators::Element &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a></td></tr>
 <tr class="memdesc:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear the accumulators.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">More...</a><br /></td></tr>
 <tr class="separator:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, GemmConfig::kResidueInProlog &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a></td></tr>
+<tr class="memdesc:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the global load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">More...</a><br /></td></tr>
+<tr class="separator:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">GlobalLoadStream::ThreadblockTileStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a></td></tr>
+<tr class="memdesc:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory needed to store the threadblock-scoped GEMM tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">More...</a><br /></td></tr>
+<tr class="separator:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a></td></tr>
+<tr class="memdesc:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the shared load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">More...</a><br /></td></tr>
+<tr class="separator:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::GlobalLoadStreamB, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamA, SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA&lt; kLayoutA_, GemmConfig_ &gt;, GemmTileTraitsHelperB&lt; kLayoutB_, GemmConfig_ &gt;, Index_ &gt; ::SharedLoadStreamB, GemmEpilogue&lt; GemmEpilogueTraits_ &gt;, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
 <tr class="memitem:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a> (bool in_loop)</td></tr>
 <tr class="memdesc:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared loads.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">More...</a><br /></td></tr>
@@ -165,7 +174,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SgemmTraits.png b/docs/structcutlass_1_1gemm_1_1SgemmTraits.png
index 3e5427bc9d..66feefd3d7 100644
Binary files a/docs/structcutlass_1_1gemm_1_1SgemmTraits.png and b/docs/structcutlass_1_1gemm_1_1SgemmTraits.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1SharedLoadStream-members.html b/docs/structcutlass_1_1gemm_1_1SharedLoadStream-members.html
index 115015d01a..a725c7c704 100644
--- a/docs/structcutlass_1_1gemm_1_1SharedLoadStream-members.html
+++ b/docs/structcutlass_1_1gemm_1_1SharedLoadStream-members.html
@@ -79,25 +79,32 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9cc435369c7fc76d0bb6233a8258e257">commit</a>(FetchedFragment &amp;fetched, TransformedFragment &amp;transformed)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7f6bf3b8d70bcd74d84519decd9f0d8e">copy</a>(FetchedFragment &amp;fetched)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a279144e9722055d4b862e3fa25948762">copy</a>(int d, FetchedFragment &amp;fetched)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa3aa987bf0fd6303e06f46e2f54e47e4">commit</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6be479189765a1803ceced424561466b">commit</a>(int step)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a4b919d229e259909efbf994ff2c09339">copy</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a99039d115a539fc99e2235c12ac57eed">copy</a>(int step)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">fetched</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad5cb076de46e841a165bd43924dab463">fragment</a>(int step=0)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a30e815fcee63b5a99b2797464b6a3192">fragment</a>(int step=0) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">inc_stage</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8e4d277325bb5e56c718a2298b60d3cf">initialize</a>(Params const &amp;params, SharedStorage &amp;shared_storage)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">Iterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">SharedLoadStream</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a93e9bcdca4ceb68754fb1f73e2b25d25">SharedLoadStream</a>(Params const &amp;params, SharedStorage &amp;shared_storage)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">Transformer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9b62788c187fff49b0250c0070a41fa0">initialize</a>(Params const &amp;params, TensorRef const &amp;ref)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">Iterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">SharedLoadStream</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad2f619712c817f91d62a13db0476a627">SharedLoadStream</a>(Params const &amp;params, TensorRef const &amp;ref)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">transformed</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">transformer</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">Transformer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream&lt; Iterator_, Transformer_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SharedLoadStream.html b/docs/structcutlass_1_1gemm_1_1SharedLoadStream.html
index 4e2badd0db..2aecc0da57 100644
--- a/docs/structcutlass_1_1gemm_1_1SharedLoadStream.html
+++ b/docs/structcutlass_1_1gemm_1_1SharedLoadStream.html
@@ -108,6 +108,12 @@
 <tr class="memitem:a9f025ed2609bf33230f6a390c22b11b7"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9f025ed2609bf33230f6a390c22b11b7">Fragment</a></td></tr>
 <tr class="memdesc:a9f025ed2609bf33230f6a390c22b11b7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Make sure the fragments match.  <a href="#a9f025ed2609bf33230f6a390c22b11b7">More...</a><br /></td></tr>
 <tr class="separator:a9f025ed2609bf33230f6a390c22b11b7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5da116ae7e3f8ac2168bcf9bb964a429"><td class="memItemLeft" align="right" valign="top">typedef Iterator::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429">Scalar</a></td></tr>
+<tr class="memdesc:a5da116ae7e3f8ac2168bcf9bb964a429"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar data type.  <a href="#a5da116ae7e3f8ac2168bcf9bb964a429">More...</a><br /></td></tr>
+<tr class="separator:a5da116ae7e3f8ac2168bcf9bb964a429"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aff5202428b0e7207456c97204d4d219a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429">Scalar</a>, 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a></td></tr>
+<tr class="memdesc:aff5202428b0e7207456c97204d4d219a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Reference type to a tensor.  <a href="#aff5202428b0e7207456c97204d4d219a">More...</a><br /></td></tr>
+<tr class="separator:aff5202428b0e7207456c97204d4d219a"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a22c671494d487511c71f2b0f26fdb404"><td class="memItemLeft" align="right" valign="top">typedef Iterator::Storage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a></td></tr>
 <tr class="memdesc:a22c671494d487511c71f2b0f26fdb404"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage in shared memory needed by that stream.  <a href="#a22c671494d487511c71f2b0f26fdb404">More...</a><br /></td></tr>
 <tr class="separator:a22c671494d487511c71f2b0f26fdb404"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -117,21 +123,30 @@
 <tr class="memitem:a6e097738679436d580e8dc6ac70efaad"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6e097738679436d580e8dc6ac70efaad">SharedLoadStream</a> ()</td></tr>
 <tr class="memdesc:a6e097738679436d580e8dc6ac70efaad"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a6e097738679436d580e8dc6ac70efaad">More...</a><br /></td></tr>
 <tr class="separator:a6e097738679436d580e8dc6ac70efaad"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a93e9bcdca4ceb68754fb1f73e2b25d25"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a93e9bcdca4ceb68754fb1f73e2b25d25">SharedLoadStream</a> (<a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">Params</a> const &amp;params, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a> &amp;shared_storage)</td></tr>
-<tr class="memdesc:a93e9bcdca4ceb68754fb1f73e2b25d25"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a93e9bcdca4ceb68754fb1f73e2b25d25">More...</a><br /></td></tr>
-<tr class="separator:a93e9bcdca4ceb68754fb1f73e2b25d25"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8e4d277325bb5e56c718a2298b60d3cf"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8e4d277325bb5e56c718a2298b60d3cf">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">Params</a> const &amp;params, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a> &amp;shared_storage)</td></tr>
-<tr class="memdesc:a8e4d277325bb5e56c718a2298b60d3cf"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize the stream.  <a href="#a8e4d277325bb5e56c718a2298b60d3cf">More...</a><br /></td></tr>
-<tr class="separator:a8e4d277325bb5e56c718a2298b60d3cf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7f6bf3b8d70bcd74d84519decd9f0d8e"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7f6bf3b8d70bcd74d84519decd9f0d8e">copy</a> (<a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> &amp;fetched)</td></tr>
-<tr class="memdesc:a7f6bf3b8d70bcd74d84519decd9f0d8e"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Load.html">Load</a> the data from shared memory to the fetch fragment.  <a href="#a7f6bf3b8d70bcd74d84519decd9f0d8e">More...</a><br /></td></tr>
-<tr class="separator:a7f6bf3b8d70bcd74d84519decd9f0d8e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a279144e9722055d4b862e3fa25948762"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a279144e9722055d4b862e3fa25948762">copy</a> (int d, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> &amp;fetched)</td></tr>
-<tr class="memdesc:a279144e9722055d4b862e3fa25948762"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Load.html">Load</a> the data from shared memory to the fetch fragment.  <a href="#a279144e9722055d4b862e3fa25948762">More...</a><br /></td></tr>
-<tr class="separator:a279144e9722055d4b862e3fa25948762"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9cc435369c7fc76d0bb6233a8258e257"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9cc435369c7fc76d0bb6233a8258e257">commit</a> (<a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> &amp;fetched, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> &amp;transformed)</td></tr>
-<tr class="memdesc:a9cc435369c7fc76d0bb6233a8258e257"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commit the data.  <a href="#a9cc435369c7fc76d0bb6233a8258e257">More...</a><br /></td></tr>
-<tr class="separator:a9cc435369c7fc76d0bb6233a8258e257"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad2f619712c817f91d62a13db0476a627"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad2f619712c817f91d62a13db0476a627">SharedLoadStream</a> (<a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">Params</a> const &amp;params, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a> const &amp;ref)</td></tr>
+<tr class="memdesc:ad2f619712c817f91d62a13db0476a627"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ad2f619712c817f91d62a13db0476a627">More...</a><br /></td></tr>
+<tr class="separator:ad2f619712c817f91d62a13db0476a627"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9b62788c187fff49b0250c0070a41fa0"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a9b62788c187fff49b0250c0070a41fa0">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html">Params</a> const &amp;params, <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a> const &amp;ref)</td></tr>
+<tr class="memdesc:a9b62788c187fff49b0250c0070a41fa0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initialize the stream.  <a href="#a9b62788c187fff49b0250c0070a41fa0">More...</a><br /></td></tr>
+<tr class="separator:a9b62788c187fff49b0250c0070a41fa0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4b919d229e259909efbf994ff2c09339"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a4b919d229e259909efbf994ff2c09339">copy</a> ()</td></tr>
+<tr class="memdesc:a4b919d229e259909efbf994ff2c09339"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Load.html">Load</a> the data from shared memory to the fetch fragment.  <a href="#a4b919d229e259909efbf994ff2c09339">More...</a><br /></td></tr>
+<tr class="separator:a4b919d229e259909efbf994ff2c09339"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a99039d115a539fc99e2235c12ac57eed"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a99039d115a539fc99e2235c12ac57eed">copy</a> (int step)</td></tr>
+<tr class="memdesc:a99039d115a539fc99e2235c12ac57eed"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Load.html">Load</a> the data from shared memory to the fetch fragment.  <a href="#a99039d115a539fc99e2235c12ac57eed">More...</a><br /></td></tr>
+<tr class="separator:a99039d115a539fc99e2235c12ac57eed"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa3aa987bf0fd6303e06f46e2f54e47e4"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa3aa987bf0fd6303e06f46e2f54e47e4">commit</a> ()</td></tr>
+<tr class="memdesc:aa3aa987bf0fd6303e06f46e2f54e47e4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commit the data.  <a href="#aa3aa987bf0fd6303e06f46e2f54e47e4">More...</a><br /></td></tr>
+<tr class="separator:aa3aa987bf0fd6303e06f46e2f54e47e4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6be479189765a1803ceced424561466b"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6be479189765a1803ceced424561466b">commit</a> (int step)</td></tr>
+<tr class="memdesc:a6be479189765a1803ceced424561466b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commit the data.  <a href="#a6be479189765a1803ceced424561466b">More...</a><br /></td></tr>
+<tr class="separator:a6be479189765a1803ceced424561466b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad5cb076de46e841a165bd43924dab463"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad5cb076de46e841a165bd43924dab463">fragment</a> (int step=0)</td></tr>
+<tr class="memdesc:ad5cb076de46e841a165bd43924dab463"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the fragment for the given step.  <a href="#ad5cb076de46e841a165bd43924dab463">More...</a><br /></td></tr>
+<tr class="separator:ad5cb076de46e841a165bd43924dab463"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a30e815fcee63b5a99b2797464b6a3192"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a30e815fcee63b5a99b2797464b6a3192">fragment</a> (int step=0) const</td></tr>
+<tr class="memdesc:a30e815fcee63b5a99b2797464b6a3192"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the fragment for the given step.  <a href="#a30e815fcee63b5a99b2797464b6a3192">More...</a><br /></td></tr>
+<tr class="separator:a30e815fcee63b5a99b2797464b6a3192"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:acf22fd09aa537943c16b900d66f1ec6f"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#acf22fd09aa537943c16b900d66f1ec6f">inc_stage</a> ()</td></tr>
 <tr class="memdesc:acf22fd09aa537943c16b900d66f1ec6f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the stage.  <a href="#acf22fd09aa537943c16b900d66f1ec6f">More...</a><br /></td></tr>
 <tr class="separator:acf22fd09aa537943c16b900d66f1ec6f"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -141,9 +156,15 @@
 <tr class="memitem:a54481a42d4125e3693a086269d9a7b10"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a6925270c4ad157554ab155cddc7b46e6">Iterator</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a54481a42d4125e3693a086269d9a7b10">iterator</a></td></tr>
 <tr class="memdesc:a54481a42d4125e3693a086269d9a7b10"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator.  <a href="#a54481a42d4125e3693a086269d9a7b10">More...</a><br /></td></tr>
 <tr class="separator:a54481a42d4125e3693a086269d9a7b10"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8ae6f60b5fb3642542a6cb833d83c8e4"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a8ae6f60b5fb3642542a6cb833d83c8e4">fetched</a> [2]</td></tr>
+<tr class="memdesc:a8ae6f60b5fb3642542a6cb833d83c8e4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fetched fragment.  <a href="#a8ae6f60b5fb3642542a6cb833d83c8e4">More...</a><br /></td></tr>
+<tr class="separator:a8ae6f60b5fb3642542a6cb833d83c8e4"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:af846390ad0e5b80ccb4e8b95c5fe64a7"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#ad1f70f0dd1027da1353ff7a38f524904">Transformer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#af846390ad0e5b80ccb4e8b95c5fe64a7">transformer</a></td></tr>
 <tr class="memdesc:af846390ad0e5b80ccb4e8b95c5fe64a7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer.  <a href="#af846390ad0e5b80ccb4e8b95c5fe64a7">More...</a><br /></td></tr>
 <tr class="separator:af846390ad0e5b80ccb4e8b95c5fe64a7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7583af38ca0fb446882b28c0e2dcae88"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a7583af38ca0fb446882b28c0e2dcae88">transformed</a> [2]</td></tr>
+<tr class="memdesc:a7583af38ca0fb446882b28c0e2dcae88"><td class="mdescLeft">&#160;</td><td class="mdescRight">Transformed fragment.  <a href="#a7583af38ca0fb446882b28c0e2dcae88">More...</a><br /></td></tr>
+<tr class="separator:a7583af38ca0fb446882b28c0e2dcae88"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
 <a id="a41b45085f17532a6394de3f5ccf201e7"></a>
@@ -193,6 +214,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6925270c4ad157554ab155cd
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a5da116ae7e3f8ac2168bcf9bb964a429"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5da116ae7e3f8ac2168bcf9bb964a429">&#9670;&nbsp;</a></span>Scalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef Iterator::Scalar <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="a22c671494d487511c71f2b0f26fdb404"></a>
@@ -209,6 +246,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a22c671494d487511c71f2b0f
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="aff5202428b0e7207456c97204d4d219a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aff5202428b0e7207456c97204d4d219a">&#9670;&nbsp;</a></span>TensorRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a5da116ae7e3f8ac2168bcf9bb964a429">Scalar</a>, 4&gt; <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a>&lt; Iterator_, Transformer_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="aa2227d7fa1edef3f6730c7db41b132b4"></a>
@@ -271,8 +324,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6e097738679436d580e8dc6a
 
 </div>
 </div>
-<a id="a93e9bcdca4ceb68754fb1f73e2b25d25"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a93e9bcdca4ceb68754fb1f73e2b25d25">&#9670;&nbsp;</a></span>SharedLoadStream() <span class="overload">[2/2]</span></h2>
+<a id="ad2f619712c817f91d62a13db0476a627"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad2f619712c817f91d62a13db0476a627">&#9670;&nbsp;</a></span>SharedLoadStream() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -291,8 +344,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a93e9bcdca4ceb68754fb1f73
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a> &amp;&#160;</td>
-          <td class="paramname"><em>shared_storage</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -310,8 +363,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a93e9bcdca4ceb68754fb1f73
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a9cc435369c7fc76d0bb6233a8258e257"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a9cc435369c7fc76d0bb6233a8258e257">&#9670;&nbsp;</a></span>commit()</h2>
+<a id="aa3aa987bf0fd6303e06f46e2f54e47e4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa3aa987bf0fd6303e06f46e2f54e47e4">&#9670;&nbsp;</a></span>commit() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -324,19 +377,36 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9cc435369c7fc76d0bb6233a
         <tr>
           <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a>&lt; Iterator_, Transformer_ &gt;::commit </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fetched</em>, </td>
-        </tr>
-        <tr>
-          <td class="paramkey"></td>
+          <td class="paramname"></td><td>)</td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>transformed</em>&#160;</td>
         </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6be479189765a1803ceced424561466b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6be479189765a1803ceced424561466b">&#9670;&nbsp;</a></span>commit() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
         <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a>&lt; Iterator_, Transformer_ &gt;::commit </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>step</em></td><td>)</td>
           <td></td>
-          <td>)</td>
-          <td></td><td></td>
         </tr>
       </table>
   </td>
@@ -348,8 +418,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9cc435369c7fc76d0bb6233a
 
 </div>
 </div>
-<a id="a7f6bf3b8d70bcd74d84519decd9f0d8e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a7f6bf3b8d70bcd74d84519decd9f0d8e">&#9670;&nbsp;</a></span>copy() <span class="overload">[1/2]</span></h2>
+<a id="a4b919d229e259909efbf994ff2c09339"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4b919d229e259909efbf994ff2c09339">&#9670;&nbsp;</a></span>copy() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -362,8 +432,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7f6bf3b8d70bcd74d84519de
         <tr>
           <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a>&lt; Iterator_, Transformer_ &gt;::copy </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fetched</em></td><td>)</td>
+          <td class="paramname"></td><td>)</td>
           <td></td>
         </tr>
       </table>
@@ -376,8 +445,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a7f6bf3b8d70bcd74d84519de
 
 </div>
 </div>
-<a id="a279144e9722055d4b862e3fa25948762"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a279144e9722055d4b862e3fa25948762">&#9670;&nbsp;</a></span>copy() <span class="overload">[2/2]</span></h2>
+<a id="a99039d115a539fc99e2235c12ac57eed"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a99039d115a539fc99e2235c12ac57eed">&#9670;&nbsp;</a></span>copy() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -391,18 +460,64 @@ <h2 class="memtitle"><span class="permalink"><a href="#a279144e9722055d4b862e3fa
           <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a>&lt; Iterator_, Transformer_ &gt;::copy </td>
           <td>(</td>
           <td class="paramtype">int&#160;</td>
-          <td class="paramname"><em>d</em>, </td>
+          <td class="paramname"><em>step</em></td><td>)</td>
+          <td></td>
         </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad5cb076de46e841a165bd43924dab463"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad5cb076de46e841a165bd43924dab463">&#9670;&nbsp;</a></span>fragment() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
         <tr>
-          <td class="paramkey"></td>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a>&amp; <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a>&lt; Iterator_, Transformer_ &gt;::fragment </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>step</em> = <code>0</code></td><td>)</td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> &amp;&#160;</td>
-          <td class="paramname"><em>fetched</em>&#160;</td>
         </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a30e815fcee63b5a99b2797464b6a3192"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a30e815fcee63b5a99b2797464b6a3192">&#9670;&nbsp;</a></span>fragment() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
         <tr>
-          <td></td>
-          <td>)</td>
-          <td></td><td></td>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> const&amp; <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a>&lt; Iterator_, Transformer_ &gt;::fragment </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>step</em> = <code>0</code></td><td>)</td>
+          <td> const</td>
         </tr>
       </table>
   </td>
@@ -441,8 +556,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#acf22fd09aa537943c16b900d
 
 </div>
 </div>
-<a id="a8e4d277325bb5e56c718a2298b60d3cf"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8e4d277325bb5e56c718a2298b60d3cf">&#9670;&nbsp;</a></span>initialize()</h2>
+<a id="a9b62788c187fff49b0250c0070a41fa0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9b62788c187fff49b0250c0070a41fa0">&#9670;&nbsp;</a></span>initialize()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -461,8 +576,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8e4d277325bb5e56c718a229
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a22c671494d487511c71f2b0f26fdb404">SharedStorage</a> &amp;&#160;</td>
-          <td class="paramname"><em>shared_storage</em>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aff5202428b0e7207456c97204d4d219a">TensorRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>ref</em>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -480,6 +595,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8e4d277325bb5e56c718a229
 </div>
 </div>
 <h2 class="groupheader">Member Data Documentation</h2>
+<a id="a8ae6f60b5fb3642542a6cb833d83c8e4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8ae6f60b5fb3642542a6cb833d83c8e4">&#9670;&nbsp;</a></span>fetched</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#a41b45085f17532a6394de3f5ccf201e7">FetchedFragment</a> <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a>&lt; Iterator_, Transformer_ &gt;::fetched[2]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
 <a id="a54481a42d4125e3693a086269d9a7b10"></a>
 <h2 class="memtitle"><span class="permalink"><a href="#a54481a42d4125e3693a086269d9a7b10">&#9670;&nbsp;</a></span>iterator</h2>
 
@@ -494,6 +625,22 @@ <h2 class="memtitle"><span class="permalink"><a href="#a54481a42d4125e3693a08626
       </table>
 </div><div class="memdoc">
 
+</div>
+</div>
+<a id="a7583af38ca0fb446882b28c0e2dcae88"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7583af38ca0fb446882b28c0e2dcae88">&#9670;&nbsp;</a></span>transformed</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename Iterator_ , typename Transformer_  = Copy&lt;typename Iterator_::Fragment&gt;&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html#aa2227d7fa1edef3f6730c7db41b132b4">TransformedFragment</a> <a class="el" href="structcutlass_1_1gemm_1_1SharedLoadStream.html">cutlass::gemm::SharedLoadStream</a>&lt; Iterator_, Transformer_ &gt;::transformed[2]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
 </div>
 </div>
 <a id="af846390ad0e5b80ccb4e8b95c5fe64a7"></a>
@@ -518,7 +665,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af846390ad0e5b80ccb4e8b95
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params-members.html b/docs/structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params-members.html
index f947377b9e..c7bca4a8f1 100644
--- a/docs/structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params-members.html
+++ b/docs/structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params-members.html
@@ -84,7 +84,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html b/docs/structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html
index 84b8e79d22..7cd5ae49fb 100644
--- a/docs/structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html
+++ b/docs/structcutlass_1_1gemm_1_1SharedLoadStream_1_1Params.html
@@ -149,7 +149,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ae59f871c06a0ac7b9224f0de
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SharedStreamPair-members.html b/docs/structcutlass_1_1gemm_1_1SharedStreamPair-members.html
new file mode 100644
index 0000000000..6a96e97ea1
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1SharedStreamPair-members.html
@@ -0,0 +1,101 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a93cc2a7eb3215ce5bae343fb117f55c5">commit</a>(int step)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad46887abb2e3136b635c3ef5be29cf69">copy</a>(int step)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#af29f052dc0145abe3144dea1472d241a">fragment_a</a>(int step) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a375e96bc2e35447682bd1dea3c4d87ad">fragment_b</a>(int step) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad4b9b1c1fe4b0c6961842d0eff6d7db7">inc_stage</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a0b69ca0b37dad32ba25c7f7e71a3dcc1">SharedStreamPair</a>(Params const &amp;params, ThreadblockTileRef const &amp;threadblock_tile_ref)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">stream_a</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">stream_b</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">StreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">StreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d">ThreadblockTileRef</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1SharedStreamPair.html b/docs/structcutlass_1_1gemm_1_1SharedStreamPair.html
new file mode 100644
index 0000000000..c41334743d
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1SharedStreamPair.html
@@ -0,0 +1,411 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1SharedStreamPair-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Collect the global load streams for multiplicands.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="gemm__stream__pair_8h_source.html">gemm_stream_pair.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object passed to load iterators.  <a href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:aa1e8da4d8a313881d5e6509cf6e852d4"><td class="memItemLeft" align="right" valign="top">typedef StreamA_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">StreamA</a></td></tr>
+<tr class="memdesc:aa1e8da4d8a313881d5e6509cf6e852d4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stream for A multiplicand.  <a href="#aa1e8da4d8a313881d5e6509cf6e852d4">More...</a><br /></td></tr>
+<tr class="separator:aa1e8da4d8a313881d5e6509cf6e852d4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8be3e50ce5b65b777972720c77b51529"><td class="memItemLeft" align="right" valign="top">typedef StreamB_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">StreamB</a></td></tr>
+<tr class="memdesc:a8be3e50ce5b65b777972720c77b51529"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stream for B multiplicand.  <a href="#a8be3e50ce5b65b777972720c77b51529">More...</a><br /></td></tr>
+<tr class="separator:a8be3e50ce5b65b777972720c77b51529"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae2c64823a7a5af01187bd3dda6bc309d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt; typename StreamA::TensorRef, typename StreamB::TensorRef &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d">ThreadblockTileRef</a></td></tr>
+<tr class="memdesc:ae2c64823a7a5af01187bd3dda6bc309d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Shared memory allocation for threadblock-scoped GEMM tile.  <a href="#ae2c64823a7a5af01187bd3dda6bc309d">More...</a><br /></td></tr>
+<tr class="separator:ae2c64823a7a5af01187bd3dda6bc309d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a0b69ca0b37dad32ba25c7f7e71a3dcc1"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a0b69ca0b37dad32ba25c7f7e71a3dcc1">SharedStreamPair</a> (<a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">Params</a> const &amp;params, <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d">ThreadblockTileRef</a> const &amp;threadblock_tile_ref)</td></tr>
+<tr class="memdesc:a0b69ca0b37dad32ba25c7f7e71a3dcc1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Construct with the composable structure.  <a href="#a0b69ca0b37dad32ba25c7f7e71a3dcc1">More...</a><br /></td></tr>
+<tr class="separator:a0b69ca0b37dad32ba25c7f7e71a3dcc1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad46887abb2e3136b635c3ef5be29cf69"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad46887abb2e3136b635c3ef5be29cf69">copy</a> (int step)</td></tr>
+<tr class="memdesc:ad46887abb2e3136b635c3ef5be29cf69"><td class="mdescLeft">&#160;</td><td class="mdescRight">Trigger the copies from shared memory to registers.  <a href="#ad46887abb2e3136b635c3ef5be29cf69">More...</a><br /></td></tr>
+<tr class="separator:ad46887abb2e3136b635c3ef5be29cf69"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a93cc2a7eb3215ce5bae343fb117f55c5"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a93cc2a7eb3215ce5bae343fb117f55c5">commit</a> (int step)</td></tr>
+<tr class="memdesc:a93cc2a7eb3215ce5bae343fb117f55c5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Commit the data.  <a href="#a93cc2a7eb3215ce5bae343fb117f55c5">More...</a><br /></td></tr>
+<tr class="separator:a93cc2a7eb3215ce5bae343fb117f55c5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af29f052dc0145abe3144dea1472d241a"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE StreamA::TransformedFragment const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#af29f052dc0145abe3144dea1472d241a">fragment_a</a> (int step) const</td></tr>
+<tr class="memdesc:af29f052dc0145abe3144dea1472d241a"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment A.  <a href="#af29f052dc0145abe3144dea1472d241a">More...</a><br /></td></tr>
+<tr class="separator:af29f052dc0145abe3144dea1472d241a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a375e96bc2e35447682bd1dea3c4d87ad"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE StreamB::TransformedFragment const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a375e96bc2e35447682bd1dea3c4d87ad">fragment_b</a> (int step) const</td></tr>
+<tr class="memdesc:a375e96bc2e35447682bd1dea3c4d87ad"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment B.  <a href="#a375e96bc2e35447682bd1dea3c4d87ad">More...</a><br /></td></tr>
+<tr class="separator:a375e96bc2e35447682bd1dea3c4d87ad"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad4b9b1c1fe4b0c6961842d0eff6d7db7"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ad4b9b1c1fe4b0c6961842d0eff6d7db7">inc_stage</a> ()</td></tr>
+<tr class="memdesc:ad4b9b1c1fe4b0c6961842d0eff6d7db7"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the stage.  <a href="#ad4b9b1c1fe4b0c6961842d0eff6d7db7">More...</a><br /></td></tr>
+<tr class="separator:ad4b9b1c1fe4b0c6961842d0eff6d7db7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a157cec4ae2881fd37e0244614bc4ab7a"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">StreamA</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a157cec4ae2881fd37e0244614bc4ab7a">stream_a</a></td></tr>
+<tr class="memdesc:a157cec4ae2881fd37e0244614bc4ab7a"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream for A.  <a href="#a157cec4ae2881fd37e0244614bc4ab7a">More...</a><br /></td></tr>
+<tr class="separator:a157cec4ae2881fd37e0244614bc4ab7a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a698586bcc25212e8cd65ab6a4e5c42a9"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">StreamB</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a698586bcc25212e8cd65ab6a4e5c42a9">stream_b</a></td></tr>
+<tr class="memdesc:a698586bcc25212e8cd65ab6a4e5c42a9"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream for B.  <a href="#a698586bcc25212e8cd65ab6a4e5c42a9">More...</a><br /></td></tr>
+<tr class="separator:a698586bcc25212e8cd65ab6a4e5c42a9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="aa1e8da4d8a313881d5e6509cf6e852d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa1e8da4d8a313881d5e6509cf6e852d4">&#9670;&nbsp;</a></span>StreamA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef StreamA_ <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">StreamA</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8be3e50ce5b65b777972720c77b51529"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8be3e50ce5b65b777972720c77b51529">&#9670;&nbsp;</a></span>StreamB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef StreamB_ <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">StreamB</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae2c64823a7a5af01187bd3dda6bc309d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae2c64823a7a5af01187bd3dda6bc309d">&#9670;&nbsp;</a></span>ThreadblockTileRef</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt;typename StreamA::TensorRef, typename StreamB::TensorRef &gt; <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d">ThreadblockTileRef</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a0b69ca0b37dad32ba25c7f7e71a3dcc1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0b69ca0b37dad32ba25c7f7e71a3dcc1">&#9670;&nbsp;</a></span>SharedStreamPair()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a> </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">Params</a> const &amp;&#160;</td>
+          <td class="paramname"><em>params</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#ae2c64823a7a5af01187bd3dda6bc309d">ThreadblockTileRef</a> const &amp;&#160;</td>
+          <td class="paramname"><em>threadblock_tile_ref</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a93cc2a7eb3215ce5bae343fb117f55c5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a93cc2a7eb3215ce5bae343fb117f55c5">&#9670;&nbsp;</a></span>commit()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::commit </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>step</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad46887abb2e3136b635c3ef5be29cf69"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad46887abb2e3136b635c3ef5be29cf69">&#9670;&nbsp;</a></span>copy()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::copy </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>step</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af29f052dc0145abe3144dea1472d241a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af29f052dc0145abe3144dea1472d241a">&#9670;&nbsp;</a></span>fragment_a()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE StreamA::TransformedFragment const&amp; <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::fragment_a </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>step</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a375e96bc2e35447682bd1dea3c4d87ad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a375e96bc2e35447682bd1dea3c4d87ad">&#9670;&nbsp;</a></span>fragment_b()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE StreamB::TransformedFragment const&amp; <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::fragment_b </td>
+          <td>(</td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>step</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ad4b9b1c1fe4b0c6961842d0eff6d7db7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad4b9b1c1fe4b0c6961842d0eff6d7db7">&#9670;&nbsp;</a></span>inc_stage()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::inc_stage </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a157cec4ae2881fd37e0244614bc4ab7a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a157cec4ae2881fd37e0244614bc4ab7a">&#9670;&nbsp;</a></span>stream_a</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#aa1e8da4d8a313881d5e6509cf6e852d4">StreamA</a> <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::stream_a</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a698586bcc25212e8cd65ab6a4e5c42a9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a698586bcc25212e8cd65ab6a4e5c42a9">&#9670;&nbsp;</a></span>stream_b</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html#a8be3e50ce5b65b777972720c77b51529">StreamB</a> <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::stream_b</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="gemm__stream__pair_8h_source.html">gemm_stream_pair.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params-members.html b/docs/structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params-members.html
new file mode 100644
index 0000000000..25fded100e
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params-members.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#afb56016927b59b8d5447c3656f0b634e">stream_a</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#a4a8f9207ffb3bbcdb000af62808371f5">stream_b</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html b/docs/structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html
new file mode 100644
index 0000000000..e3be6b885a
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html
@@ -0,0 +1,139 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html">Params</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::SharedStreamPair&lt; StreamA_, StreamB_ &gt;::Params Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Parameters object passed to load iterators.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="gemm__stream__pair_8h_source.html">gemm_stream_pair.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:afb56016927b59b8d5447c3656f0b634e"><td class="memItemLeft" align="right" valign="top">StreamA::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#afb56016927b59b8d5447c3656f0b634e">stream_a</a></td></tr>
+<tr class="separator:afb56016927b59b8d5447c3656f0b634e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4a8f9207ffb3bbcdb000af62808371f5"><td class="memItemLeft" align="right" valign="top">StreamB::Params&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair_1_1Params.html#a4a8f9207ffb3bbcdb000af62808371f5">stream_b</a></td></tr>
+<tr class="separator:a4a8f9207ffb3bbcdb000af62808371f5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="afb56016927b59b8d5447c3656f0b634e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afb56016927b59b8d5447c3656f0b634e">&#9670;&nbsp;</a></span>stream_a</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">StreamA::Params <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::Params::stream_a</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4a8f9207ffb3bbcdb000af62808371f5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4a8f9207ffb3bbcdb000af62808371f5">&#9670;&nbsp;</a></span>stream_b</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename StreamA_ , typename StreamB_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">StreamB::Params <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">cutlass::gemm::SharedStreamPair</a>&lt; StreamA_, StreamB_ &gt;::Params::stream_b</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="gemm__stream__pair_8h_source.html">gemm_stream_pair.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits-members.html b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits-members.html
index 43845f4d7b..1f644d8a6a 100644
--- a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits-members.html
@@ -79,26 +79,26 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html">cutlass::gemm::SimplifiedGemmEpilogueTraits&lt; GemmConfig_, EpilogueFunctor_, Index_, Helper_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">Functor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">SharedLoadIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">Functor</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">GlobalLoadIteratorC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">GlobalStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">GlobalTransformerC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">GlobalTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">OutputTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">SharedLoadStreamD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">SharedStoreIteratorD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">SharedStoreTransformerD</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html
index f389630603..ce8663156d 100644
--- a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.html
@@ -86,60 +86,60 @@
  <div class="center">
   <img src="structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.png" usemap="#cutlass::gemm::SimplifiedGemmEpilogueTraits_3C_20GemmConfig_5F_2C_20EpilogueFunctor_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" alt=""/>
   <map id="cutlass::gemm::SimplifiedGemmEpilogueTraits_3C_20GemmConfig_5F_2C_20EpilogueFunctor_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map" name="cutlass::gemm::SimplifiedGemmEpilogueTraits_3C_20GemmConfig_5F_2C_20EpilogueFunctor_5F_2C_20Index_5F_2C_20Helper_5F_20_3E_map">
-<area href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" alt="cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;" shape="rect" coords="0,0,2162,24"/>
+<area href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html" alt="cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;" shape="rect" coords="0,0,2161,24"/>
 </map>
  </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
-<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadIteratorD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td></tr>
-<tr class="memitem:aed1bd9df5ff579ba3e36ae5ba781c075 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_::OutputTile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">OutputTile</a></td></tr>
-<tr class="memdesc:aed1bd9df5ff579ba3e36ae5ba781c075 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aed1bd9df5ff579ba3e36ae5ba781c075">More...</a><br /></td></tr>
-<tr class="separator:aed1bd9df5ff579ba3e36ae5ba781c075 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af7ff579ccb4269bfa5e9ae297260f7a2 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_::Accumulators&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af7ff579ccb4269bfa5e9ae297260f7a2">Accumulators</a></td></tr>
-<tr class="separator:af7ff579ccb4269bfa5e9ae297260f7a2 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8409d84ee282a4d6953bd41149d8b9c2 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalLoadIteratorC&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">GlobalLoadIteratorC</a></td></tr>
-<tr class="memdesc:a8409d84ee282a4d6953bd41149d8b9c2 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for C in global memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8409d84ee282a4d6953bd41149d8b9c2">More...</a><br /></td></tr>
-<tr class="separator:a8409d84ee282a4d6953bd41149d8b9c2 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a051f25a4aa3ea71ff400582228adbdaa inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalTransformerC&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">GlobalTransformerC</a></td></tr>
-<tr class="memdesc:a051f25a4aa3ea71ff400582228adbdaa inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for C.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a051f25a4aa3ea71ff400582228adbdaa">More...</a><br /></td></tr>
-<tr class="separator:a051f25a4aa3ea71ff400582228adbdaa inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a261e526c6a8e832bc483bf4e486cc9d7 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">GlobalTransformerD</a></td></tr>
-<tr class="memdesc:a261e526c6a8e832bc483bf4e486cc9d7 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a261e526c6a8e832bc483bf4e486cc9d7">More...</a><br /></td></tr>
-<tr class="separator:a261e526c6a8e832bc483bf4e486cc9d7 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aeef5745d149770c9f79e12f6d97ffce1 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalStoreIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">GlobalStoreIteratorD</a></td></tr>
-<tr class="memdesc:aeef5745d149770c9f79e12f6d97ffce1 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for D in global memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aeef5745d149770c9f79e12f6d97ffce1">More...</a><br /></td></tr>
-<tr class="separator:aeef5745d149770c9f79e12f6d97ffce1 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a74f4beb86447f6b613e9b60234cb27bc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedStoreIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">SharedStoreIteratorD</a></td></tr>
-<tr class="memdesc:a74f4beb86447f6b613e9b60234cb27bc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a74f4beb86447f6b613e9b60234cb27bc">More...</a><br /></td></tr>
-<tr class="separator:a74f4beb86447f6b613e9b60234cb27bc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0b8ac1972b2f2cff48070f8b862ed25c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedStoreTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">SharedStoreTransformerD</a></td></tr>
-<tr class="memdesc:a0b8ac1972b2f2cff48070f8b862ed25c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a0b8ac1972b2f2cff48070f8b862ed25c">More...</a><br /></td></tr>
-<tr class="separator:a0b8ac1972b2f2cff48070f8b862ed25c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9822fa405b32cc2f471c9fdd37585cb5 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedLoadIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">SharedLoadIteratorD</a></td></tr>
-<tr class="memdesc:a9822fa405b32cc2f471c9fdd37585cb5 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a9822fa405b32cc2f471c9fdd37585cb5">More...</a><br /></td></tr>
-<tr class="separator:a9822fa405b32cc2f471c9fdd37585cb5 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab00969bdda930eeb7b82985c476adf7d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">Iterations</a></td></tr>
-<tr class="memdesc:ab00969bdda930eeb7b82985c476adf7d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">typedef typename GemmConfig::EpilogueIterations Iterations;  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab00969bdda930eeb7b82985c476adf7d">More...</a><br /></td></tr>
-<tr class="separator:ab00969bdda930eeb7b82985c476adf7d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af1f105d4712f01880b0944666e2f81ae inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">Delta</a></td></tr>
-<tr class="memdesc:af1f105d4712f01880b0944666e2f81ae inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterations strides.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af1f105d4712f01880b0944666e2f81ae">More...</a><br /></td></tr>
-<tr class="separator:af1f105d4712f01880b0944666e2f81ae inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7cdb30f17692e8fdb3dd4cf4c0b8e9ee inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef EpilogueFunctor_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">Functor</a></td></tr>
-<tr class="memdesc:a7cdb30f17692e8fdb3dd4cf4c0b8e9ee inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor in charge of the math.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cdb30f17692e8fdb3dd4cf4c0b8e9ee">More...</a><br /></td></tr>
-<tr class="separator:a7cdb30f17692e8fdb3dd4cf4c0b8e9ee inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab430d05bd17efd60c28077c87b5ca331 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">Index</a></td></tr>
-<tr class="memdesc:ab430d05bd17efd60c28077c87b5ca331 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ab430d05bd17efd60c28077c87b5ca331">More...</a><br /></td></tr>
-<tr class="separator:ab430d05bd17efd60c28077c87b5ca331 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a006e50cf5fb67407d41c60d6d08b8b66 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Functor::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">Scalar</a></td></tr>
-<tr class="memdesc:a006e50cf5fb67407d41c60d6d08b8b66 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">We do not support 3D or 4D shapes.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a006e50cf5fb67407d41c60d6d08b8b66">More...</a><br /></td></tr>
-<tr class="separator:a006e50cf5fb67407d41c60d6d08b8b66 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abf97949c238d72854225c1c6131b5cbc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadIteratorC::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">ScalarC</a></td></tr>
-<tr class="memdesc:abf97949c238d72854225c1c6131b5cbc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#abf97949c238d72854225c1c6131b5cbc">More...</a><br /></td></tr>
-<tr class="separator:abf97949c238d72854225c1c6131b5cbc inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1ee74d6f89b044578e1cd6dd210ce5fe inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalStoreIteratorD::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">ScalarD</a></td></tr>
-<tr class="memdesc:a1ee74d6f89b044578e1cd6dd210ce5fe inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a1ee74d6f89b044578e1cd6dd210ce5fe">More...</a><br /></td></tr>
-<tr class="separator:a1ee74d6f89b044578e1cd6dd210ce5fe inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits&lt; GemmConfig_::OutputTile, GemmConfig_::Accumulators, Helper_::GlobalLoadIteratorC, Helper_::GlobalTransformerC, Helper_::GlobalTransformerD, Helper_::GlobalStoreIteratorD, Helper_::SharedStoreIteratorD, Helper_::SharedStoreTransformerD, Helper_::SharedLoadStreamD, Helper_::Iterations, Helper_::Delta, EpilogueFunctor_, Index_ &gt;</a></td></tr>
+<tr class="memitem:af4d17d3774382fc0ba63d329bd12772c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_::OutputTile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">OutputTile</a></td></tr>
+<tr class="memdesc:af4d17d3774382fc0ba63d329bd12772c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af4d17d3774382fc0ba63d329bd12772c">More...</a><br /></td></tr>
+<tr class="separator:af4d17d3774382fc0ba63d329bd12772c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af27cfae15beafcfbaf6d660781cbe5c4 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_::Accumulators&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#af27cfae15beafcfbaf6d660781cbe5c4">Accumulators</a></td></tr>
+<tr class="separator:af27cfae15beafcfbaf6d660781cbe5c4 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4de6207ce3843d6c4325abc7d7abcf24 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalLoadIteratorC&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">GlobalLoadIteratorC</a></td></tr>
+<tr class="memdesc:a4de6207ce3843d6c4325abc7d7abcf24 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for C in global memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a4de6207ce3843d6c4325abc7d7abcf24">More...</a><br /></td></tr>
+<tr class="separator:a4de6207ce3843d6c4325abc7d7abcf24 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a853b7ad3afb06fd720afc4559df2198d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalTransformerC&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">GlobalTransformerC</a></td></tr>
+<tr class="memdesc:a853b7ad3afb06fd720afc4559df2198d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for C.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a853b7ad3afb06fd720afc4559df2198d">More...</a><br /></td></tr>
+<tr class="separator:a853b7ad3afb06fd720afc4559df2198d inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adb4eb47c84dc1c6df2556e72ff5800e6 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">GlobalTransformerD</a></td></tr>
+<tr class="memdesc:adb4eb47c84dc1c6df2556e72ff5800e6 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#adb4eb47c84dc1c6df2556e72ff5800e6">More...</a><br /></td></tr>
+<tr class="separator:adb4eb47c84dc1c6df2556e72ff5800e6 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ada036c0457773a42fb18bc0463071d02 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalStoreIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">GlobalStoreIteratorD</a></td></tr>
+<tr class="memdesc:ada036c0457773a42fb18bc0463071d02 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for D in global memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ada036c0457773a42fb18bc0463071d02">More...</a><br /></td></tr>
+<tr class="separator:ada036c0457773a42fb18bc0463071d02 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a48dee5c2aafb86e999732a1347c9f668 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedStoreIteratorD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">SharedStoreIteratorD</a></td></tr>
+<tr class="memdesc:a48dee5c2aafb86e999732a1347c9f668 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a48dee5c2aafb86e999732a1347c9f668">More...</a><br /></td></tr>
+<tr class="separator:a48dee5c2aafb86e999732a1347c9f668 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a685d59ee03a226e62660e83c4c60ca69 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedStoreTransformerD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">SharedStoreTransformerD</a></td></tr>
+<tr class="memdesc:a685d59ee03a226e62660e83c4c60ca69 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared store transformer for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a685d59ee03a226e62660e83c4c60ca69">More...</a><br /></td></tr>
+<tr class="separator:a685d59ee03a226e62660e83c4c60ca69 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5bb3232a2f15d8263d058c69b0839e2f inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedLoadStreamD&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">SharedLoadStreamD</a></td></tr>
+<tr class="memdesc:a5bb3232a2f15d8263d058c69b0839e2f inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to store D in shared memory.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a5bb3232a2f15d8263d058c69b0839e2f">More...</a><br /></td></tr>
+<tr class="separator:a5bb3232a2f15d8263d058c69b0839e2f inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7cf2e703f78b877ad551d0516982da10 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">Iterations</a></td></tr>
+<tr class="memdesc:a7cf2e703f78b877ad551d0516982da10 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">typedef typename GemmConfig::EpilogueIterations Iterations;  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a7cf2e703f78b877ad551d0516982da10">More...</a><br /></td></tr>
+<tr class="separator:a7cf2e703f78b877ad551d0516982da10 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a84b89d856f548a26fa1dc15bfd2940da inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">Delta</a></td></tr>
+<tr class="memdesc:a84b89d856f548a26fa1dc15bfd2940da inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterations strides.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a84b89d856f548a26fa1dc15bfd2940da">More...</a><br /></td></tr>
+<tr class="separator:a84b89d856f548a26fa1dc15bfd2940da inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8acbe7bfa905258a964ef56e634d4c99 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef EpilogueFunctor_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">Functor</a></td></tr>
+<tr class="memdesc:a8acbe7bfa905258a964ef56e634d4c99 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The functor in charge of the math.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8acbe7bfa905258a964ef56e634d4c99">More...</a><br /></td></tr>
+<tr class="separator:a8acbe7bfa905258a964ef56e634d4c99 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a23b0e6a448e51f2e0837af95802c23b0 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">Index</a></td></tr>
+<tr class="memdesc:a23b0e6a448e51f2e0837af95802c23b0 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a23b0e6a448e51f2e0837af95802c23b0">More...</a><br /></td></tr>
+<tr class="separator:a23b0e6a448e51f2e0837af95802c23b0 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f15d59a7571d406d5ef593c342f0d4a inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef Functor::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">Scalar</a></td></tr>
+<tr class="memdesc:a8f15d59a7571d406d5ef593c342f0d4a inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">We do not support 3D or 4D shapes.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#a8f15d59a7571d406d5ef593c342f0d4a">More...</a><br /></td></tr>
+<tr class="separator:a8f15d59a7571d406d5ef593c342f0d4a inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa794b5f04ce736cdba0d778861ce3a9c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadIteratorC::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">ScalarC</a></td></tr>
+<tr class="memdesc:aa794b5f04ce736cdba0d778861ce3a9c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for C.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#aa794b5f04ce736cdba0d778861ce3a9c">More...</a><br /></td></tr>
+<tr class="separator:aa794b5f04ce736cdba0d778861ce3a9c inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad9a81c3ff36a4f3aa376e2cff94cbb50 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalStoreIteratorD::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">ScalarD</a></td></tr>
+<tr class="memdesc:ad9a81c3ff36a4f3aa376e2cff94cbb50 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar for D.  <a href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html#ad9a81c3ff36a4f3aa376e2cff94cbb50">More...</a><br /></td></tr>
+<tr class="separator:ad9a81c3ff36a4f3aa376e2cff94cbb50 inherit pub_types_structcutlass_1_1gemm_1_1GemmEpilogueTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <hr/>The documentation for this struct was generated from the following file:<ul>
 <li><a class="el" href="gemm__epilogue__traits_8h_source.html">gemm_epilogue_traits.h</a></li>
@@ -147,7 +147,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.png b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.png
index eaded28cc2..c97c803e73 100644
Binary files a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.png and b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmEpilogueTraits.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraits-members.html b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraits-members.html
index eb82c01569..2b6d75c671 100644
--- a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraits-members.html
@@ -83,9 +83,11 @@
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae67227cecbe84f5c8497d9a7ff82b367">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac5bb5931a707ed7672f69267753ba41b">kLayoutA</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a078e8d9cfa1b182e1b96a2cc8c54b684">kLayoutB</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
@@ -98,12 +100,13 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac3c840a3d90c0da43301761af83c2c9f">shared_store_fence</a>(bool in_loop)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html
index 9a2328d5ed..4439f98aed 100644
--- a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraits.html
@@ -93,10 +93,16 @@
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
 <tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
+<tr class="memitem:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">GemmTraits</a>&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, <a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a>, Index_, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>&lt; GemmConfig_::Accumulators::Element &gt; &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a></td></tr>
+<tr class="memdesc:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">This traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">More...</a><br /></td></tr>
+<tr class="separator:aa6214a0ad09d155ed79feadc6647b989 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1Gemm.html">cutlass::gemm::Gemm</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#aa6214a0ad09d155ed79feadc6647b989">This_</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">KernelClass</a></td></tr>
+<tr class="memdesc:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The struct that consumes this Traits.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a28c32832f0353f00e93e867373cf6cae">More...</a><br /></td></tr>
+<tr class="separator:a28c32832f0353f00e93e867373cf6cae inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GemmConfig_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">GemmConfig</a></td></tr>
 <tr class="memdesc:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The configuration.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a4efe5d156abca056ef8b5334fb574dd5">More...</a><br /></td></tr>
 <tr class="separator:a4efe5d156abca056ef8b5334fb574dd5 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a53450f4d7444d6a4c0d2353496c0a4fd">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
+<tr class="memitem:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a9dd9c3efc3dfd9b5c6acd12236697399">GemmConfig::OutputTile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">OutputTile</a></td></tr>
 <tr class="memdesc:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The output tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a97d7ee63e5d180410b370f095648f367">More...</a><br /></td></tr>
 <tr class="separator:a97d7ee63e5d180410b370f095648f367 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a9cd6c3fddfb4315eb52b672900462c47 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::GlobalLoadStreamA&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a></td></tr>
@@ -117,13 +123,7 @@
 <tr class="memitem:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Helper_::SharedLoadStreamB&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a></td></tr>
 <tr class="memdesc:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator for B to load from shared memory.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">More...</a><br /></td></tr>
 <tr class="separator:acaeb27063a444e2a3b93f3cb70e3c290 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamA::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">SharedStoreStorageA</a></td></tr>
-<tr class="memdesc:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for A.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a8d49ad32fc9d8c14f6141690962c3f9c">More...</a><br /></td></tr>
-<tr class="separator:a8d49ad32fc9d8c14f6141690962c3f9c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef GlobalLoadStreamB::SharedStoreStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">SharedStoreStorageB</a></td></tr>
-<tr class="memdesc:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shared storage for B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a438b80cd8d8df0e74014ae47a162f7ed">More...</a><br /></td></tr>
-<tr class="separator:a438b80cd8d8df0e74014ae47a162f7ed inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
+<tr class="memitem:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">MultiplyAdd</a></td></tr>
 <tr class="memdesc:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The multiply-add functor.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#af810544e956b04830c5be7ce41d3b45c">More...</a><br /></td></tr>
 <tr class="separator:af810544e956b04830c5be7ce41d3b45c inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a424f1ac14e1e7ad37428edd0cf13e7fe inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef Epilogue_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a424f1ac14e1e7ad37428edd0cf13e7fe">Epilogue</a></td></tr>
@@ -143,6 +143,15 @@
 <tr class="memitem:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a>&lt; GemmConfig_::Accumulators::Element &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">ClearAccumulators</a></td></tr>
 <tr class="memdesc:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Clear the accumulators.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#ae1cf7988c9cff79a2c3252aaf91fc165">More...</a><br /></td></tr>
 <tr class="separator:ae1cf7988c9cff79a2c3252aaf91fc165 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html">GlobalLoadStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a9cd6c3fddfb4315eb52b672900462c47">GlobalLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ac393b07e780629fc8254fc22cc6f815b">GlobalLoadStreamB</a>, GemmConfig::kResidueInProlog &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">GlobalLoadStream</a></td></tr>
+<tr class="memdesc:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the global load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a367aa0bd4be33d90ffe752274c728ef8">More...</a><br /></td></tr>
+<tr class="separator:a367aa0bd4be33d90ffe752274c728ef8 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStreamPair.html#a5eef540f82acea5d9cb12965707ba158">GlobalLoadStream::ThreadblockTileStorage</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">ThreadblockTileStorage</a></td></tr>
+<tr class="memdesc:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Memory needed to store the threadblock-scoped GEMM tile.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#abfecd4a57dfbf82e8fa74a50e01fc4ee">More...</a><br /></td></tr>
+<tr class="separator:abfecd4a57dfbf82e8fa74a50e01fc4ee inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1SharedStreamPair.html">SharedStreamPair</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#ae01371eb31b88fa83c4926564cecafdc">SharedLoadStreamA</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#acaeb27063a444e2a3b93f3cb70e3c290">SharedLoadStreamB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">SharedStream</a></td></tr>
+<tr class="memdesc:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Assemble the shared load streams for A/B.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a7864969e774c0f7155951e1ab599ed17">More...</a><br /></td></tr>
+<tr class="separator:a7864969e774c0f7155951e1ab599ed17 inherit pub_types_structcutlass_1_1gemm_1_1GemmTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits&lt; GemmConfig_, Helper_::GlobalLoadStreamA, Helper_::GlobalLoadStreamB, Helper_::SharedLoadStreamA, Helper_::SharedLoadStreamB, Epilogue_, IdentityBlockSwizzle, Index_, ClearAccumulators&lt; GemmConfig_::Accumulators::Element &gt; &gt;</a></td></tr>
 <tr class="memitem:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">shared_load_fence</a> (bool in_loop)</td></tr>
 <tr class="memdesc:a475463c1e3af71598e22da8956900ebe inherit pub_static_methods_structcutlass_1_1gemm_1_1GemmTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The memory fence for shared loads.  <a href="structcutlass_1_1gemm_1_1GemmTraits.html#a475463c1e3af71598e22da8956900ebe">More...</a><br /></td></tr>
@@ -164,7 +173,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper-members.html b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper-members.html
index 65e20abd33..eb4d77f7f8 100644
--- a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper-members.html
+++ b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper-members.html
@@ -81,8 +81,8 @@
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">GlobalLoadIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">GlobalLoadIteratorB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a448c242880183e006b70d839d210a2ec">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aad467ed9a680b4d77acecb096799cd89">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a50121da13661e9fa50e5ea3a87c06266">GlobalLoadStreamA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a2fcf34dcf8d89424aa15da709aed4a83">GlobalLoadStreamB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">GlobalTransformerA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">GlobalTransformerB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557">SharedLoadIteratorA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;</a></td><td class="entry"></td></tr>
@@ -94,7 +94,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html
index 6b3b049412..6fb892ed90 100644
--- a/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html
+++ b/docs/structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html
@@ -93,9 +93,9 @@
 <tr class="memitem:a3a20852daeb46c625b2391d078b30d73"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; typename GemmTileTraitsHelperA_::SharedStoreTileTraits, typename GemmTileTraitsHelperA_::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">SharedStoreIteratorA</a></td></tr>
 <tr class="memdesc:a3a20852daeb46c625b2391d078b30d73"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store A to shared memory.  <a href="#a3a20852daeb46c625b2391d078b30d73">More...</a><br /></td></tr>
 <tr class="separator:a3a20852daeb46c625b2391d078b30d73"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a448c242880183e006b70d839d210a2ec"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">GlobalTransformerA</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a448c242880183e006b70d839d210a2ec">GlobalLoadStreamA</a></td></tr>
-<tr class="memdesc:a448c242880183e006b70d839d210a2ec"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from global memory to shared memory.  <a href="#a448c242880183e006b70d839d210a2ec">More...</a><br /></td></tr>
-<tr class="separator:a448c242880183e006b70d839d210a2ec"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a50121da13661e9fa50e5ea3a87c06266"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">GlobalTransformerA</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a50121da13661e9fa50e5ea3a87c06266">GlobalLoadStreamA</a></td></tr>
+<tr class="memdesc:a50121da13661e9fa50e5ea3a87c06266"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load A from global memory to shared memory.  <a href="#a50121da13661e9fa50e5ea3a87c06266">More...</a><br /></td></tr>
+<tr class="separator:a50121da13661e9fa50e5ea3a87c06266"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a362794738bc14b283a91558bcadbbfd5"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorAb.html">GemmGlobalIteratorAb</a>&lt; typename GemmTileTraitsHelperB_::GlobalTileTraits, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">GlobalLoadIteratorB</a></td></tr>
 <tr class="memdesc:a362794738bc14b283a91558bcadbbfd5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The global iterator to load B from global memory.  <a href="#a362794738bc14b283a91558bcadbbfd5">More...</a><br /></td></tr>
 <tr class="separator:a362794738bc14b283a91558bcadbbfd5"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -105,9 +105,9 @@
 <tr class="memitem:a43713f534798b1e27c4ba38b72e63c08"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a>&lt; typename GemmTileTraitsHelperB_::SharedStoreTileTraits, typename GemmTileTraitsHelperB_::SharedStoreTileTraits::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">SharedStoreIteratorB</a></td></tr>
 <tr class="memdesc:a43713f534798b1e27c4ba38b72e63c08"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to store B to shared memory.  <a href="#a43713f534798b1e27c4ba38b72e63c08">More...</a><br /></td></tr>
 <tr class="separator:a43713f534798b1e27c4ba38b72e63c08"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aad467ed9a680b4d77acecb096799cd89"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">GlobalTransformerB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aad467ed9a680b4d77acecb096799cd89">GlobalLoadStreamB</a></td></tr>
-<tr class="memdesc:aad467ed9a680b4d77acecb096799cd89"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from global memory to shared memory.  <a href="#aad467ed9a680b4d77acecb096799cd89">More...</a><br /></td></tr>
-<tr class="separator:aad467ed9a680b4d77acecb096799cd89"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2fcf34dcf8d89424aa15da709aed4a83"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt; <a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">GlobalTransformerB</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a2fcf34dcf8d89424aa15da709aed4a83">GlobalLoadStreamB</a></td></tr>
+<tr class="memdesc:a2fcf34dcf8d89424aa15da709aed4a83"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stream to load B from global memory to shared memory.  <a href="#a2fcf34dcf8d89424aa15da709aed4a83">More...</a><br /></td></tr>
+<tr class="separator:a2fcf34dcf8d89424aa15da709aed4a83"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a365aed4c0e2ad1bffea517ee36998557"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a>&lt; typename GemmTileTraitsHelperA_::SharedLoadTileTraits, typename GemmTileTraitsHelperA_::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a365aed4c0e2ad1bffea517ee36998557">SharedLoadIteratorA</a></td></tr>
 <tr class="memdesc:a365aed4c0e2ad1bffea517ee36998557"><td class="mdescLeft">&#160;</td><td class="mdescRight">The iterator to load A from shared memory.  <a href="#a365aed4c0e2ad1bffea517ee36998557">More...</a><br /></td></tr>
 <tr class="separator:a365aed4c0e2ad1bffea517ee36998557"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -154,8 +154,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a362794738bc14b283a91558b
 
 </div>
 </div>
-<a id="a448c242880183e006b70d839d210a2ec"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a448c242880183e006b70d839d210a2ec">&#9670;&nbsp;</a></span>GlobalLoadStreamA</h2>
+<a id="a50121da13661e9fa50e5ea3a87c06266"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a50121da13661e9fa50e5ea3a87c06266">&#9670;&nbsp;</a></span>GlobalLoadStreamA</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -163,15 +163,15 @@ <h2 class="memtitle"><span class="permalink"><a href="#a448c242880183e006b70d839
 template&lt;typename GemmTileTraitsHelperA_ , typename GemmTileTraitsHelperB_ , typename Index_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">GlobalTransformerA</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper</a>&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a448c242880183e006b70d839d210a2ec">GlobalLoadStreamA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a5687850f235d644a4820851880740d27">GlobalLoadIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a3a20852daeb46c625b2391d078b30d73">SharedStoreIteratorA</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#af9a98d39d6959a9641f7c3c90df2f98e">GlobalTransformerA</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper</a>&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a50121da13661e9fa50e5ea3a87c06266">GlobalLoadStreamA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aad467ed9a680b4d77acecb096799cd89"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aad467ed9a680b4d77acecb096799cd89">&#9670;&nbsp;</a></span>GlobalLoadStreamB</h2>
+<a id="a2fcf34dcf8d89424aa15da709aed4a83"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2fcf34dcf8d89424aa15da709aed4a83">&#9670;&nbsp;</a></span>GlobalLoadStreamB</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -179,7 +179,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aad467ed9a680b4d77acecb09
 template&lt;typename GemmTileTraitsHelperA_ , typename GemmTileTraitsHelperB_ , typename Index_ &gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">GlobalTransformerB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper</a>&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#aad467ed9a680b4d77acecb096799cd89">GlobalLoadStreamB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GlobalLoadStream.html">GlobalLoadStream</a>&lt;<a class="el" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a362794738bc14b283a91558bcadbbfd5">GlobalLoadIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a43713f534798b1e27c4ba38b72e63c08">SharedStoreIteratorB</a>, <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a437070ba4a214aee363315d6019e450c">GlobalTransformerB</a>&gt; <a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html">cutlass::gemm::SimplifiedGemmTraitsHelper</a>&lt; GemmTileTraitsHelperA_, GemmTileTraitsHelperB_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1SimplifiedGemmTraitsHelper.html#a2fcf34dcf8d89424aa15da709aed4a83">GlobalLoadStreamB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -320,7 +320,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a43713f534798b1e27c4ba38b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd-members.html b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd-members.html
index fd4bda0284..2fed8fa282 100644
--- a/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd-members.html
+++ b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd-members.html
@@ -73,28 +73,29 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt; Member List</div>  </div>
+<div class="title">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt; Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5">AccumulatorsPerThread</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914">FragmentA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620">FragmentB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5dcf66c8126ec8adf8e66d4bf5b2f347">multiply_add</a>(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ab271a3f11ccde4b629ddb11b78c0d555">ThreadMultiplyAdd</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e">ThreadsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad8ea3777c307bf3f8c58a8df3966715d">AccumulatorsPerThread</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649">FragmentA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad">FragmentB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7989d48e4c2e16b7804b813630f347cb">multiply_add</a>(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">ThreadGemmShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac087f0b397599221b74d220fcb1c7121">ThreadMultiplyAdd</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b">ThreadsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html
index 2fcd68bdfa..fe9c9ebd77 100644
--- a/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html
+++ b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt; Struct Template Reference</title>
+<title>Cutlass: cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt; Struct Template Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -77,7 +77,7 @@
 <a href="#pub-methods">Public Member Functions</a> &#124;
 <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt; Struct Template Reference</div>  </div>
+<div class="title">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt; Struct Template Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -88,201 +88,220 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:ac6381210d447fda9b0e9a028d167f22b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, 1, 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">InstructionShape</a></td></tr>
-<tr class="memdesc:ac6381210d447fda9b0e9a028d167f22b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="#ac6381210d447fda9b0e9a028d167f22b">More...</a><br /></td></tr>
-<tr class="separator:ac6381210d447fda9b0e9a028d167f22b"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a002b1944b25cc8fe0862f40a8c8555c5"><td class="memItemLeft" align="right" valign="top">typedef AccumulatorsPerThread_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5">AccumulatorsPerThread</a></td></tr>
-<tr class="memdesc:a002b1944b25cc8fe0862f40a8c8555c5"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per thread.  <a href="#a002b1944b25cc8fe0862f40a8c8555c5">More...</a><br /></td></tr>
-<tr class="separator:a002b1944b25cc8fe0862f40a8c8555c5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ad2fbba0a70da29af27ed4578577abc5e"><td class="memItemLeft" align="right" valign="top">typedef ThreadsPerWarp_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e">ThreadsPerWarp</a></td></tr>
-<tr class="memdesc:ad2fbba0a70da29af27ed4578577abc5e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of threads per warp.  <a href="#ad2fbba0a70da29af27ed4578577abc5e">More...</a><br /></td></tr>
-<tr class="separator:ad2fbba0a70da29af27ed4578577abc5e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa83190df3c1639b6dd632cd4b9278d77"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5">AccumulatorsPerThread</a>, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e">ThreadsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">AccumulatorsPerWarp</a></td></tr>
-<tr class="memdesc:aa83190df3c1639b6dd632cd4b9278d77"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per warp.  <a href="#aa83190df3c1639b6dd632cd4b9278d77">More...</a><br /></td></tr>
-<tr class="separator:aa83190df3c1639b6dd632cd4b9278d77"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a382242001b4c8e18ea5f2de724902217"><td class="memItemLeft" align="right" valign="top">typedef ScalarA_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217">ScalarA</a></td></tr>
-<tr class="memdesc:a382242001b4c8e18ea5f2de724902217"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for A.  <a href="#a382242001b4c8e18ea5f2de724902217">More...</a><br /></td></tr>
-<tr class="separator:a382242001b4c8e18ea5f2de724902217"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a69d387d932b628dc51c18fcc178c4914"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217">ScalarA</a>, AccumulatorsPerThread::kW &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914">FragmentA</a></td></tr>
-<tr class="memdesc:a69d387d932b628dc51c18fcc178c4914"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment for A.  <a href="#a69d387d932b628dc51c18fcc178c4914">More...</a><br /></td></tr>
-<tr class="separator:a69d387d932b628dc51c18fcc178c4914"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a42d181e7f4d0d0a15e1c911d3498b767"><td class="memItemLeft" align="right" valign="top">typedef ScalarB_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767">ScalarB</a></td></tr>
-<tr class="memdesc:a42d181e7f4d0d0a15e1c911d3498b767"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for B.  <a href="#a42d181e7f4d0d0a15e1c911d3498b767">More...</a><br /></td></tr>
-<tr class="separator:a42d181e7f4d0d0a15e1c911d3498b767"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5429a730a1dea00dc4aecbe8e3ef1620"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767">ScalarB</a>, AccumulatorsPerThread::kH &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620">FragmentB</a></td></tr>
-<tr class="memdesc:a5429a730a1dea00dc4aecbe8e3ef1620"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment for B.  <a href="#a5429a730a1dea00dc4aecbe8e3ef1620">More...</a><br /></td></tr>
-<tr class="separator:a5429a730a1dea00dc4aecbe8e3ef1620"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a1af758cb98c33060462a2706856b0a01"><td class="memItemLeft" align="right" valign="top">typedef ScalarC_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">ScalarC</a></td></tr>
-<tr class="memdesc:a1af758cb98c33060462a2706856b0a01"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for C and D.  <a href="#a1af758cb98c33060462a2706856b0a01">More...</a><br /></td></tr>
-<tr class="separator:a1af758cb98c33060462a2706856b0a01"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a760a5262f419b789540e7bbb2fda4b9d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">ScalarC</a>, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW, 16 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">Accumulators</a></td></tr>
-<tr class="memdesc:a760a5262f419b789540e7bbb2fda4b9d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="#a760a5262f419b789540e7bbb2fda4b9d">More...</a><br /></td></tr>
-<tr class="separator:a760a5262f419b789540e7bbb2fda4b9d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a56d687b878397c694e7338fa750995af"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, 1, 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">InstructionShape</a></td></tr>
+<tr class="memdesc:a56d687b878397c694e7338fa750995af"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="#a56d687b878397c694e7338fa750995af">More...</a><br /></td></tr>
+<tr class="separator:a56d687b878397c694e7338fa750995af"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a33a68b52cca697bd505bfd982938143e"><td class="memItemLeft" align="right" valign="top">typedef ThreadGemmShape_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">ThreadGemmShape</a></td></tr>
+<tr class="memdesc:a33a68b52cca697bd505bfd982938143e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of a thread-leveel matrix multiply accumulate.  <a href="#a33a68b52cca697bd505bfd982938143e">More...</a><br /></td></tr>
+<tr class="separator:a33a68b52cca697bd505bfd982938143e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad8ea3777c307bf3f8c58a8df3966715d"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">ThreadGemmShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad8ea3777c307bf3f8c58a8df3966715d">AccumulatorsPerThread</a></td></tr>
+<tr class="memdesc:ad8ea3777c307bf3f8c58a8df3966715d"><td class="mdescLeft">&#160;</td><td class="mdescRight">Aliased to "AccumulatorsPerThread" for compatibility. Expect to be renamed in CUTLASS v2.0.  <a href="#ad8ea3777c307bf3f8c58a8df3966715d">More...</a><br /></td></tr>
+<tr class="separator:ad8ea3777c307bf3f8c58a8df3966715d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a19bd7eb621b08f192bc01a4634853a9b"><td class="memItemLeft" align="right" valign="top">typedef ThreadsPerWarp_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b">ThreadsPerWarp</a></td></tr>
+<tr class="memdesc:a19bd7eb621b08f192bc01a4634853a9b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of threads per warp.  <a href="#a19bd7eb621b08f192bc01a4634853a9b">More...</a><br /></td></tr>
+<tr class="separator:a19bd7eb621b08f192bc01a4634853a9b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9f706e141ec3bc880fa17a5731d8370e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">ThreadGemmShape</a>, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b">ThreadsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:a9f706e141ec3bc880fa17a5731d8370e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per warp.  <a href="#a9f706e141ec3bc880fa17a5731d8370e">More...</a><br /></td></tr>
+<tr class="separator:a9f706e141ec3bc880fa17a5731d8370e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6bb4f6a102edc2c8fba5b67abf05c363"><td class="memItemLeft" align="right" valign="top">typedef ScalarA_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363">ScalarA</a></td></tr>
+<tr class="memdesc:a6bb4f6a102edc2c8fba5b67abf05c363"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for A.  <a href="#a6bb4f6a102edc2c8fba5b67abf05c363">More...</a><br /></td></tr>
+<tr class="separator:a6bb4f6a102edc2c8fba5b67abf05c363"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7c1cc536ac6ad12800f9e2b5ec682649"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363">ScalarA</a>, AccumulatorsPerThread::kW &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649">FragmentA</a></td></tr>
+<tr class="memdesc:a7c1cc536ac6ad12800f9e2b5ec682649"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment for A.  <a href="#a7c1cc536ac6ad12800f9e2b5ec682649">More...</a><br /></td></tr>
+<tr class="separator:a7c1cc536ac6ad12800f9e2b5ec682649"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6c9a73da33b5ba70307a719db988b56c"><td class="memItemLeft" align="right" valign="top">typedef ScalarB_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c">ScalarB</a></td></tr>
+<tr class="memdesc:a6c9a73da33b5ba70307a719db988b56c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for B.  <a href="#a6c9a73da33b5ba70307a719db988b56c">More...</a><br /></td></tr>
+<tr class="separator:a6c9a73da33b5ba70307a719db988b56c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1401162276ea0858ea85a8e4785adbad"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c">ScalarB</a>, AccumulatorsPerThread::kH &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad">FragmentB</a></td></tr>
+<tr class="memdesc:a1401162276ea0858ea85a8e4785adbad"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment for B.  <a href="#a1401162276ea0858ea85a8e4785adbad">More...</a><br /></td></tr>
+<tr class="separator:a1401162276ea0858ea85a8e4785adbad"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af41778b170d940d10bd53f13d34912b1"><td class="memItemLeft" align="right" valign="top">typedef ScalarC_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">ScalarC</a></td></tr>
+<tr class="memdesc:af41778b170d940d10bd53f13d34912b1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for C and D.  <a href="#af41778b170d940d10bd53f13d34912b1">More...</a><br /></td></tr>
+<tr class="separator:af41778b170d940d10bd53f13d34912b1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a72d1ac143dab68b6cdd73d057315fcb6"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">ScalarC</a>, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW, 16 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">Accumulators</a></td></tr>
+<tr class="memdesc:a72d1ac143dab68b6cdd73d057315fcb6"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="#a72d1ac143dab68b6cdd73d057315fcb6">More...</a><br /></td></tr>
+<tr class="separator:a72d1ac143dab68b6cdd73d057315fcb6"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:ab271a3f11ccde4b629ddb11b78c0d555"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ab271a3f11ccde4b629ddb11b78c0d555">ThreadMultiplyAdd</a> ()</td></tr>
-<tr class="memdesc:ab271a3f11ccde4b629ddb11b78c0d555"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ab271a3f11ccde4b629ddb11b78c0d555">More...</a><br /></td></tr>
-<tr class="separator:ab271a3f11ccde4b629ddb11b78c0d555"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5dcf66c8126ec8adf8e66d4bf5b2f347"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5dcf66c8126ec8adf8e66d4bf5b2f347">multiply_add</a> (<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914">FragmentA</a> const &amp;a, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620">FragmentB</a> const &amp;b, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">Accumulators</a> const &amp;c, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">Accumulators</a> &amp;d)</td></tr>
-<tr class="memdesc:a5dcf66c8126ec8adf8e66d4bf5b2f347"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b + c.  <a href="#a5dcf66c8126ec8adf8e66d4bf5b2f347">More...</a><br /></td></tr>
-<tr class="separator:a5dcf66c8126ec8adf8e66d4bf5b2f347"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac087f0b397599221b74d220fcb1c7121"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac087f0b397599221b74d220fcb1c7121">ThreadMultiplyAdd</a> ()</td></tr>
+<tr class="memdesc:ac087f0b397599221b74d220fcb1c7121"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#ac087f0b397599221b74d220fcb1c7121">More...</a><br /></td></tr>
+<tr class="separator:ac087f0b397599221b74d220fcb1c7121"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7989d48e4c2e16b7804b813630f347cb"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7989d48e4c2e16b7804b813630f347cb">multiply_add</a> (<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649">FragmentA</a> const &amp;a, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad">FragmentB</a> const &amp;b, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">Accumulators</a> const &amp;c, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">Accumulators</a> &amp;d)</td></tr>
+<tr class="memdesc:a7989d48e4c2e16b7804b813630f347cb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b + c.  <a href="#a7989d48e4c2e16b7804b813630f347cb">More...</a><br /></td></tr>
+<tr class="separator:a7989d48e4c2e16b7804b813630f347cb"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a760a5262f419b789540e7bbb2fda4b9d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a760a5262f419b789540e7bbb2fda4b9d">&#9670;&nbsp;</a></span>Accumulators</h2>
+<a id="a72d1ac143dab68b6cdd73d057315fcb6"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a72d1ac143dab68b6cdd73d057315fcb6">&#9670;&nbsp;</a></span>Accumulators</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">ScalarC</a>, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW, 16&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">Accumulators</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">ScalarC</a>, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW, 16&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">Accumulators</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a002b1944b25cc8fe0862f40a8c8555c5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a002b1944b25cc8fe0862f40a8c8555c5">&#9670;&nbsp;</a></span>AccumulatorsPerThread</h2>
+<a id="ad8ea3777c307bf3f8c58a8df3966715d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad8ea3777c307bf3f8c58a8df3966715d">&#9670;&nbsp;</a></span>AccumulatorsPerThread</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef AccumulatorsPerThread_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5">AccumulatorsPerThread</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">ThreadGemmShape</a> <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad8ea3777c307bf3f8c58a8df3966715d">AccumulatorsPerThread</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="aa83190df3c1639b6dd632cd4b9278d77"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa83190df3c1639b6dd632cd4b9278d77">&#9670;&nbsp;</a></span>AccumulatorsPerWarp</h2>
+<a id="a9f706e141ec3bc880fa17a5731d8370e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9f706e141ec3bc880fa17a5731d8370e">&#9670;&nbsp;</a></span>AccumulatorsPerWarp</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5">AccumulatorsPerThread</a>, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e">ThreadsPerWarp</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">AccumulatorsPerWarp</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">ThreadGemmShape</a>, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b">ThreadsPerWarp</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">AccumulatorsPerWarp</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a69d387d932b628dc51c18fcc178c4914"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a69d387d932b628dc51c18fcc178c4914">&#9670;&nbsp;</a></span>FragmentA</h2>
+<a id="a7c1cc536ac6ad12800f9e2b5ec682649"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7c1cc536ac6ad12800f9e2b5ec682649">&#9670;&nbsp;</a></span>FragmentA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217">ScalarA</a>, AccumulatorsPerThread::kW&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914">FragmentA</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363">ScalarA</a>, AccumulatorsPerThread::kW&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649">FragmentA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a5429a730a1dea00dc4aecbe8e3ef1620"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5429a730a1dea00dc4aecbe8e3ef1620">&#9670;&nbsp;</a></span>FragmentB</h2>
+<a id="a1401162276ea0858ea85a8e4785adbad"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1401162276ea0858ea85a8e4785adbad">&#9670;&nbsp;</a></span>FragmentB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767">ScalarB</a>, AccumulatorsPerThread::kH&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620">FragmentB</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c">ScalarB</a>, AccumulatorsPerThread::kH&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad">FragmentB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ac6381210d447fda9b0e9a028d167f22b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ac6381210d447fda9b0e9a028d167f22b">&#9670;&nbsp;</a></span>InstructionShape</h2>
+<a id="a56d687b878397c694e7338fa750995af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a56d687b878397c694e7338fa750995af">&#9670;&nbsp;</a></span>InstructionShape</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, 1, 1&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">InstructionShape</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, 1, 1&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">InstructionShape</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a382242001b4c8e18ea5f2de724902217"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a382242001b4c8e18ea5f2de724902217">&#9670;&nbsp;</a></span>ScalarA</h2>
+<a id="a6bb4f6a102edc2c8fba5b67abf05c363"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6bb4f6a102edc2c8fba5b67abf05c363">&#9670;&nbsp;</a></span>ScalarA</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef ScalarA_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217">ScalarA</a></td>
+          <td class="memname">typedef ScalarA_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363">ScalarA</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a42d181e7f4d0d0a15e1c911d3498b767"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a42d181e7f4d0d0a15e1c911d3498b767">&#9670;&nbsp;</a></span>ScalarB</h2>
+<a id="a6c9a73da33b5ba70307a719db988b56c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c9a73da33b5ba70307a719db988b56c">&#9670;&nbsp;</a></span>ScalarB</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef ScalarB_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767">ScalarB</a></td>
+          <td class="memname">typedef ScalarB_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c">ScalarB</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a1af758cb98c33060462a2706856b0a01"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1af758cb98c33060462a2706856b0a01">&#9670;&nbsp;</a></span>ScalarC</h2>
+<a id="af41778b170d940d10bd53f13d34912b1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af41778b170d940d10bd53f13d34912b1">&#9670;&nbsp;</a></span>ScalarC</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef ScalarC_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">ScalarC</a></td>
+          <td class="memname">typedef ScalarC_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">ScalarC</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="ad2fbba0a70da29af27ed4578577abc5e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad2fbba0a70da29af27ed4578577abc5e">&#9670;&nbsp;</a></span>ThreadsPerWarp</h2>
+<a id="a33a68b52cca697bd505bfd982938143e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a33a68b52cca697bd505bfd982938143e">&#9670;&nbsp;</a></span>ThreadGemmShape</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef ThreadsPerWarp_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e">ThreadsPerWarp</a></td>
+          <td class="memname">typedef ThreadGemmShape_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">ThreadGemmShape</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a19bd7eb621b08f192bc01a4634853a9b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a19bd7eb621b08f192bc01a4634853a9b">&#9670;&nbsp;</a></span>ThreadsPerWarp</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef ThreadsPerWarp_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b">ThreadsPerWarp</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -290,19 +309,19 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad2fbba0a70da29af27ed4578
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="ab271a3f11ccde4b629ddb11b78c0d555"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab271a3f11ccde4b629ddb11b78c0d555">&#9670;&nbsp;</a></span>ThreadMultiplyAdd()</h2>
+<a id="ac087f0b397599221b74d220fcb1c7121"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac087f0b397599221b74d220fcb1c7121">&#9670;&nbsp;</a></span>ThreadMultiplyAdd()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a> </td>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a> </td>
           <td>(</td>
           <td class="paramname"></td><td>)</td>
           <td></td>
@@ -318,39 +337,39 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab271a3f11ccde4b629ddb11b
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a5dcf66c8126ec8adf8e66d4bf5b2f347"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5dcf66c8126ec8adf8e66d4bf5b2f347">&#9670;&nbsp;</a></span>multiply_add()</h2>
+<a id="a7989d48e4c2e16b7804b813630f347cb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a7989d48e4c2e16b7804b813630f347cb">&#9670;&nbsp;</a></span>multiply_add()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename AccumulatorsPerThread_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ &gt; </div>
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ , typename ScalarA_ , typename ScalarB_ , typename ScalarC_ , MatrixLayout::Kind kLayout_ = MatrixLayout::kColumnMajor&gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;::multiply_add </td>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;::multiply_add </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914">FragmentA</a> const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649">FragmentA</a> const &amp;&#160;</td>
           <td class="paramname"><em>a</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620">FragmentB</a> const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad">FragmentB</a> const &amp;&#160;</td>
           <td class="paramname"><em>b</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">Accumulators</a> const &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">Accumulators</a> const &amp;&#160;</td>
           <td class="paramname"><em>c</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">Accumulators</a> &amp;&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">Accumulators</a> &amp;&#160;</td>
           <td class="paramname"><em>d</em>&#160;</td>
         </tr>
         <tr>
@@ -374,7 +393,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5dcf66c8126ec8adf8e66d4b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half030e27fde4380ad93cd574bc743e0ba3.html b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half030e27fde4380ad93cd574bc743e0ba3.html
new file mode 100644
index 0000000000..09d3ddca1c
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half030e27fde4380ad93cd574bc743e0ba3.html
@@ -0,0 +1,103 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a24dd9fdc54b001840e8b82664b3bfe3a">AccumulatorsPerThread</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aacb9a5a1d8f3b6e21bc449b0b97949b7">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372">FragmentA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7">FragmentB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a245bdf059794144d04d2823d2b39588e">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aaf8ea4aaf393488f03ba7fb7af264940">multiply_add</a>(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a48a641d601c88d95aa542b636f94d60d">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">ThreadGemmShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a32b234c873ffe44090a12e12d871024c">ThreadMultiplyAdd</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc">ThreadsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half8ea66703da782e035d986e48031ff835.html b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half8ea66703da782e035d986e48031ff835.html
new file mode 100644
index 0000000000..6dab189402
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half8ea66703da782e035d986e48031ff835.html
@@ -0,0 +1,103 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a70e8444060c36afb41e5064b2fb18b42">AccumulatorsPerThread</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a9a5632bb1891a33126d6170af72a3ae2">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959">FragmentA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100">FragmentB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#afc7858e849a2967631761986512dbfb7">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#ae0ea662652907b60140598dad777c5ab">multiply_add</a>(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">ThreadGemmShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a0ab850304c3c6e73bcba321426ba93f9">ThreadMultiplyAdd</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7">ThreadsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html
new file mode 100644
index 0000000000..4357b6eb3f
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html
@@ -0,0 +1,401 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half8ea66703da782e035d986e48031ff835.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Template performing matrix multiply-add operation within a thread.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="fp16__sgemm__multiply__add_8h_source.html">fp16_sgemm_multiply_add.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:afc7858e849a2967631761986512dbfb7"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, 1, 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#afc7858e849a2967631761986512dbfb7">InstructionShape</a></td></tr>
+<tr class="memdesc:afc7858e849a2967631761986512dbfb7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="#afc7858e849a2967631761986512dbfb7">More...</a><br /></td></tr>
+<tr class="separator:afc7858e849a2967631761986512dbfb7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8bbf1a5eac01585438c639da0e40e5c8"><td class="memItemLeft" align="right" valign="top">typedef ThreadGemmShape_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">ThreadGemmShape</a></td></tr>
+<tr class="memdesc:a8bbf1a5eac01585438c639da0e40e5c8"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of a thread-leveel matrix multiply accumulate.  <a href="#a8bbf1a5eac01585438c639da0e40e5c8">More...</a><br /></td></tr>
+<tr class="separator:a8bbf1a5eac01585438c639da0e40e5c8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a70e8444060c36afb41e5064b2fb18b42"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">ThreadGemmShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a70e8444060c36afb41e5064b2fb18b42">AccumulatorsPerThread</a></td></tr>
+<tr class="memdesc:a70e8444060c36afb41e5064b2fb18b42"><td class="mdescLeft">&#160;</td><td class="mdescRight">Aliased to "AccumulatorsPerThread" for compatibility. Expect to be renamed in CUTLASS v2.0.  <a href="#a70e8444060c36afb41e5064b2fb18b42">More...</a><br /></td></tr>
+<tr class="separator:a70e8444060c36afb41e5064b2fb18b42"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea4b928b0cfd4082e93851104838c5d7"><td class="memItemLeft" align="right" valign="top">typedef ThreadsPerWarp_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7">ThreadsPerWarp</a></td></tr>
+<tr class="memdesc:aea4b928b0cfd4082e93851104838c5d7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of threads per warp.  <a href="#aea4b928b0cfd4082e93851104838c5d7">More...</a><br /></td></tr>
+<tr class="separator:aea4b928b0cfd4082e93851104838c5d7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9a5632bb1891a33126d6170af72a3ae2"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">ThreadGemmShape</a>, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7">ThreadsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a9a5632bb1891a33126d6170af72a3ae2">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:a9a5632bb1891a33126d6170af72a3ae2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per warp.  <a href="#a9a5632bb1891a33126d6170af72a3ae2">More...</a><br /></td></tr>
+<tr class="separator:a9a5632bb1891a33126d6170af72a3ae2"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a4f4a40f3e77a7c36425449fa97bf2324"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324">ScalarA</a></td></tr>
+<tr class="memdesc:a4f4a40f3e77a7c36425449fa97bf2324"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for A. specialized to half.  <a href="#a4f4a40f3e77a7c36425449fa97bf2324">More...</a><br /></td></tr>
+<tr class="separator:a4f4a40f3e77a7c36425449fa97bf2324"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abe217e2e1a21b9f7cff5bb0a56bfa959"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324">ScalarA</a>, AccumulatorsPerThread::kW &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959">FragmentA</a></td></tr>
+<tr class="memdesc:abe217e2e1a21b9f7cff5bb0a56bfa959"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment for A.  <a href="#abe217e2e1a21b9f7cff5bb0a56bfa959">More...</a><br /></td></tr>
+<tr class="separator:abe217e2e1a21b9f7cff5bb0a56bfa959"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3f4a2d052e6701f5d0ff950a850eabe3"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3">ScalarB</a></td></tr>
+<tr class="memdesc:a3f4a2d052e6701f5d0ff950a850eabe3"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for B. specialized to half.  <a href="#a3f4a2d052e6701f5d0ff950a850eabe3">More...</a><br /></td></tr>
+<tr class="separator:a3f4a2d052e6701f5d0ff950a850eabe3"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8d74401ef0bfa076caad70669fb8d100"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3">ScalarB</a>, AccumulatorsPerThread::kH &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100">FragmentB</a></td></tr>
+<tr class="memdesc:a8d74401ef0bfa076caad70669fb8d100"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment for B.  <a href="#a8d74401ef0bfa076caad70669fb8d100">More...</a><br /></td></tr>
+<tr class="separator:a8d74401ef0bfa076caad70669fb8d100"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a726556cb28d1515c89ac841f1140c781"><td class="memItemLeft" align="right" valign="top">typedef float&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">ScalarC</a></td></tr>
+<tr class="memdesc:a726556cb28d1515c89ac841f1140c781"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for C and D. specialized to float.  <a href="#a726556cb28d1515c89ac841f1140c781">More...</a><br /></td></tr>
+<tr class="separator:a726556cb28d1515c89ac841f1140c781"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af197d64d806795a1d88d1833e5f3ac89"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">ScalarC</a>, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW, 16 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">Accumulators</a></td></tr>
+<tr class="memdesc:af197d64d806795a1d88d1833e5f3ac89"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="#af197d64d806795a1d88d1833e5f3ac89">More...</a><br /></td></tr>
+<tr class="separator:af197d64d806795a1d88d1833e5f3ac89"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a0ab850304c3c6e73bcba321426ba93f9"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a0ab850304c3c6e73bcba321426ba93f9">ThreadMultiplyAdd</a> ()</td></tr>
+<tr class="memdesc:a0ab850304c3c6e73bcba321426ba93f9"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a0ab850304c3c6e73bcba321426ba93f9">More...</a><br /></td></tr>
+<tr class="separator:a0ab850304c3c6e73bcba321426ba93f9"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae0ea662652907b60140598dad777c5ab"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#ae0ea662652907b60140598dad777c5ab">multiply_add</a> (<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959">FragmentA</a> const &amp;a, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100">FragmentB</a> const &amp;b, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">Accumulators</a> const &amp;c, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">Accumulators</a> &amp;d)</td></tr>
+<tr class="memdesc:ae0ea662652907b60140598dad777c5ab"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b + c.  <a href="#ae0ea662652907b60140598dad777c5ab">More...</a><br /></td></tr>
+<tr class="separator:ae0ea662652907b60140598dad777c5ab"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="af197d64d806795a1d88d1833e5f3ac89"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af197d64d806795a1d88d1833e5f3ac89">&#9670;&nbsp;</a></span>Accumulators</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">ScalarC</a>, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW, 16&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">Accumulators</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a70e8444060c36afb41e5064b2fb18b42"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a70e8444060c36afb41e5064b2fb18b42">&#9670;&nbsp;</a></span>AccumulatorsPerThread</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">ThreadGemmShape</a> <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a70e8444060c36afb41e5064b2fb18b42">AccumulatorsPerThread</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a9a5632bb1891a33126d6170af72a3ae2"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9a5632bb1891a33126d6170af72a3ae2">&#9670;&nbsp;</a></span>AccumulatorsPerWarp</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">ThreadGemmShape</a>, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7">ThreadsPerWarp</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a9a5632bb1891a33126d6170af72a3ae2">AccumulatorsPerWarp</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="abe217e2e1a21b9f7cff5bb0a56bfa959"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abe217e2e1a21b9f7cff5bb0a56bfa959">&#9670;&nbsp;</a></span>FragmentA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324">ScalarA</a>, AccumulatorsPerThread::kW&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959">FragmentA</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8d74401ef0bfa076caad70669fb8d100"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8d74401ef0bfa076caad70669fb8d100">&#9670;&nbsp;</a></span>FragmentB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3">ScalarB</a>, AccumulatorsPerThread::kH&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100">FragmentB</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afc7858e849a2967631761986512dbfb7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afc7858e849a2967631761986512dbfb7">&#9670;&nbsp;</a></span>InstructionShape</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, 1, 1&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#afc7858e849a2967631761986512dbfb7">InstructionShape</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a4f4a40f3e77a7c36425449fa97bf2324"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4f4a40f3e77a7c36425449fa97bf2324">&#9670;&nbsp;</a></span>ScalarA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef half <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a4f4a40f3e77a7c36425449fa97bf2324">ScalarA</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a3f4a2d052e6701f5d0ff950a850eabe3"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3f4a2d052e6701f5d0ff950a850eabe3">&#9670;&nbsp;</a></span>ScalarB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef half <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a3f4a2d052e6701f5d0ff950a850eabe3">ScalarB</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a726556cb28d1515c89ac841f1140c781"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a726556cb28d1515c89ac841f1140c781">&#9670;&nbsp;</a></span>ScalarC</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef float <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a726556cb28d1515c89ac841f1140c781">ScalarC</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8bbf1a5eac01585438c639da0e40e5c8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8bbf1a5eac01585438c639da0e40e5c8">&#9670;&nbsp;</a></span>ThreadGemmShape</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef ThreadGemmShape_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8bbf1a5eac01585438c639da0e40e5c8">ThreadGemmShape</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aea4b928b0cfd4082e93851104838c5d7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea4b928b0cfd4082e93851104838c5d7">&#9670;&nbsp;</a></span>ThreadsPerWarp</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef ThreadsPerWarp_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#aea4b928b0cfd4082e93851104838c5d7">ThreadsPerWarp</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a0ab850304c3c6e73bcba321426ba93f9"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0ab850304c3c6e73bcba321426ba93f9">&#9670;&nbsp;</a></span>ThreadMultiplyAdd()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ae0ea662652907b60140598dad777c5ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0ea662652907b60140598dad777c5ab">&#9670;&nbsp;</a></span>multiply_add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, float &gt;::multiply_add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#abe217e2e1a21b9f7cff5bb0a56bfa959">FragmentA</a> const &amp;&#160;</td>
+          <td class="paramname"><em>a</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#a8d74401ef0bfa076caad70669fb8d100">FragmentB</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">Accumulators</a> const &amp;&#160;</td>
+          <td class="paramname"><em>c</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01float_01_4.html#af197d64d806795a1d88d1833e5f3ac89">Accumulators</a> &amp;&#160;</td>
+          <td class="paramname"><em>d</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="fp16__sgemm__multiply__add_8h_source.html">fp16_sgemm_multiply_add.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html
new file mode 100644
index 0000000000..6e9193b2df
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html
@@ -0,0 +1,402 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half030e27fde4380ad93cd574bc743e0ba3.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Template performing matrix multiply-add operation within a thread.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="hgemm__multiply__add_8h_source.html">hgemm_multiply_add.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a245bdf059794144d04d2823d2b39588e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, 2, 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a245bdf059794144d04d2823d2b39588e">InstructionShape</a></td></tr>
+<tr class="memdesc:a245bdf059794144d04d2823d2b39588e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="#a245bdf059794144d04d2823d2b39588e">More...</a><br /></td></tr>
+<tr class="separator:a245bdf059794144d04d2823d2b39588e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac095b403212e23cb95e70cee9013099e"><td class="memItemLeft" align="right" valign="top">typedef ThreadGemmShape_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">ThreadGemmShape</a></td></tr>
+<tr class="memdesc:ac095b403212e23cb95e70cee9013099e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per thread.  <a href="#ac095b403212e23cb95e70cee9013099e">More...</a><br /></td></tr>
+<tr class="separator:ac095b403212e23cb95e70cee9013099e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a24dd9fdc54b001840e8b82664b3bfe3a"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">ThreadGemmShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a24dd9fdc54b001840e8b82664b3bfe3a">AccumulatorsPerThread</a></td></tr>
+<tr class="memdesc:a24dd9fdc54b001840e8b82664b3bfe3a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Aliased for compatibility. Will be removed for CUTLASS v2.0.  <a href="#a24dd9fdc54b001840e8b82664b3bfe3a">More...</a><br /></td></tr>
+<tr class="separator:a24dd9fdc54b001840e8b82664b3bfe3a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a61ed3d8bb4ca6db39d16b632f58d75dc"><td class="memItemLeft" align="right" valign="top">typedef ThreadsPerWarp_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc">ThreadsPerWarp</a></td></tr>
+<tr class="memdesc:a61ed3d8bb4ca6db39d16b632f58d75dc"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of threads per warp.  <a href="#a61ed3d8bb4ca6db39d16b632f58d75dc">More...</a><br /></td></tr>
+<tr class="separator:a61ed3d8bb4ca6db39d16b632f58d75dc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aacb9a5a1d8f3b6e21bc449b0b97949b7"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">ThreadGemmShape</a>, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc">ThreadsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aacb9a5a1d8f3b6e21bc449b0b97949b7">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:aacb9a5a1d8f3b6e21bc449b0b97949b7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per warp.  <a href="#aacb9a5a1d8f3b6e21bc449b0b97949b7">More...</a><br /></td></tr>
+<tr class="separator:aacb9a5a1d8f3b6e21bc449b0b97949b7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1a8f6feed85c7e88b36bc1a2637c716f"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f">ScalarA</a></td></tr>
+<tr class="memdesc:a1a8f6feed85c7e88b36bc1a2637c716f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for A.  <a href="#a1a8f6feed85c7e88b36bc1a2637c716f">More...</a><br /></td></tr>
+<tr class="separator:a1a8f6feed85c7e88b36bc1a2637c716f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1889bdc9e88265a8afdaeeca217a3372"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f">ScalarA</a>, AccumulatorsPerThread::kW &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372">FragmentA</a></td></tr>
+<tr class="memdesc:a1889bdc9e88265a8afdaeeca217a3372"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment for A.  <a href="#a1889bdc9e88265a8afdaeeca217a3372">More...</a><br /></td></tr>
+<tr class="separator:a1889bdc9e88265a8afdaeeca217a3372"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a70dfd2f33548dbd104d798f728526fbc"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc">ScalarB</a></td></tr>
+<tr class="memdesc:a70dfd2f33548dbd104d798f728526fbc"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for B.  <a href="#a70dfd2f33548dbd104d798f728526fbc">More...</a><br /></td></tr>
+<tr class="separator:a70dfd2f33548dbd104d798f728526fbc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae8f4db1465f5e082c6855bf13a4751c7"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc">ScalarB</a>, AccumulatorsPerThread::kH &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7">FragmentB</a></td></tr>
+<tr class="memdesc:ae8f4db1465f5e082c6855bf13a4751c7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment for B.  <a href="#ae8f4db1465f5e082c6855bf13a4751c7">More...</a><br /></td></tr>
+<tr class="separator:ae8f4db1465f5e082c6855bf13a4751c7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a48a641d601c88d95aa542b636f94d60d"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a48a641d601c88d95aa542b636f94d60d">ScalarC</a></td></tr>
+<tr class="memdesc:a48a641d601c88d95aa542b636f94d60d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for C and D.  <a href="#a48a641d601c88d95aa542b636f94d60d">More...</a><br /></td></tr>
+<tr class="separator:a48a641d601c88d95aa542b636f94d60d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af8124acb485709dba1c5378faa24516c"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; half, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">Accumulators</a></td></tr>
+<tr class="memdesc:af8124acb485709dba1c5378faa24516c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="#af8124acb485709dba1c5378faa24516c">More...</a><br /></td></tr>
+<tr class="separator:af8124acb485709dba1c5378faa24516c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a32b234c873ffe44090a12e12d871024c"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a32b234c873ffe44090a12e12d871024c">ThreadMultiplyAdd</a> ()</td></tr>
+<tr class="memdesc:a32b234c873ffe44090a12e12d871024c"><td class="mdescLeft">&#160;</td><td class="mdescRight">Make sure there's an even number of elements in both dimensions.  <a href="#a32b234c873ffe44090a12e12d871024c">More...</a><br /></td></tr>
+<tr class="separator:a32b234c873ffe44090a12e12d871024c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaf8ea4aaf393488f03ba7fb7af264940"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aaf8ea4aaf393488f03ba7fb7af264940">multiply_add</a> (<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372">FragmentA</a> const &amp;a, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7">FragmentB</a> const &amp;b, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">Accumulators</a> const &amp;c, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">Accumulators</a> &amp;d)</td></tr>
+<tr class="memdesc:aaf8ea4aaf393488f03ba7fb7af264940"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b + c.  <a href="#aaf8ea4aaf393488f03ba7fb7af264940">More...</a><br /></td></tr>
+<tr class="separator:aaf8ea4aaf393488f03ba7fb7af264940"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="af8124acb485709dba1c5378faa24516c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af8124acb485709dba1c5378faa24516c">&#9670;&nbsp;</a></span>Accumulators</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;half, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">Accumulators</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a24dd9fdc54b001840e8b82664b3bfe3a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a24dd9fdc54b001840e8b82664b3bfe3a">&#9670;&nbsp;</a></span>AccumulatorsPerThread</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">ThreadGemmShape</a> <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a24dd9fdc54b001840e8b82664b3bfe3a">AccumulatorsPerThread</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aacb9a5a1d8f3b6e21bc449b0b97949b7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aacb9a5a1d8f3b6e21bc449b0b97949b7">&#9670;&nbsp;</a></span>AccumulatorsPerWarp</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">ThreadGemmShape</a>, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc">ThreadsPerWarp</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#aacb9a5a1d8f3b6e21bc449b0b97949b7">AccumulatorsPerWarp</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1889bdc9e88265a8afdaeeca217a3372"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1889bdc9e88265a8afdaeeca217a3372">&#9670;&nbsp;</a></span>FragmentA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f">ScalarA</a>, AccumulatorsPerThread::kW&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372">FragmentA</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae8f4db1465f5e082c6855bf13a4751c7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae8f4db1465f5e082c6855bf13a4751c7">&#9670;&nbsp;</a></span>FragmentB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc">ScalarB</a>, AccumulatorsPerThread::kH&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7">FragmentB</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a245bdf059794144d04d2823d2b39588e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a245bdf059794144d04d2823d2b39588e">&#9670;&nbsp;</a></span>InstructionShape</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, 1, 2, 1&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a245bdf059794144d04d2823d2b39588e">InstructionShape</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1a8f6feed85c7e88b36bc1a2637c716f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1a8f6feed85c7e88b36bc1a2637c716f">&#9670;&nbsp;</a></span>ScalarA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef half <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1a8f6feed85c7e88b36bc1a2637c716f">ScalarA</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a70dfd2f33548dbd104d798f728526fbc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a70dfd2f33548dbd104d798f728526fbc">&#9670;&nbsp;</a></span>ScalarB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef half <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a70dfd2f33548dbd104d798f728526fbc">ScalarB</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a48a641d601c88d95aa542b636f94d60d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a48a641d601c88d95aa542b636f94d60d">&#9670;&nbsp;</a></span>ScalarC</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef half <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a48a641d601c88d95aa542b636f94d60d">ScalarC</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac095b403212e23cb95e70cee9013099e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac095b403212e23cb95e70cee9013099e">&#9670;&nbsp;</a></span>ThreadGemmShape</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef ThreadGemmShape_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ac095b403212e23cb95e70cee9013099e">ThreadGemmShape</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a61ed3d8bb4ca6db39d16b632f58d75dc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a61ed3d8bb4ca6db39d16b632f58d75dc">&#9670;&nbsp;</a></span>ThreadsPerWarp</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef ThreadsPerWarp_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a61ed3d8bb4ca6db39d16b632f58d75dc">ThreadsPerWarp</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a32b234c873ffe44090a12e12d871024c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a32b234c873ffe44090a12e12d871024c">&#9670;&nbsp;</a></span>ThreadMultiplyAdd()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+<p>Ctor. </p>
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="aaf8ea4aaf393488f03ba7fb7af264940"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaf8ea4aaf393488f03ba7fb7af264940">&#9670;&nbsp;</a></span>multiply_add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, half, half, half &gt;::multiply_add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#a1889bdc9e88265a8afdaeeca217a3372">FragmentA</a> const &amp;&#160;</td>
+          <td class="paramname"><em>a</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#ae8f4db1465f5e082c6855bf13a4751c7">FragmentB</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">Accumulators</a> const &amp;&#160;</td>
+          <td class="paramname"><em>c</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01half_00_01half_00_01half_01_4.html#af8124acb485709dba1c5378faa24516c">Accumulators</a> &amp;&#160;</td>
+          <td class="paramname"><em>d</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="hgemm__multiply__add_8h_source.html">hgemm_multiply_add.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int86f255c0f34c1afba22b3a7d64d8f85bf.html b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int86f255c0f34c1afba22b3a7d64d8f85bf.html
new file mode 100644
index 0000000000..e74e474f62
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int86f255c0f34c1afba22b3a7d64d8f85bf.html
@@ -0,0 +1,103 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">Accumulators</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa88edf2e89062be00181f5dc4f4a0947">AccumulatorsPerThread</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ae3152470cbbba2310d9c83b9d5d43027">AccumulatorsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4">FragmentA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e">FragmentB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa84c3d4efc7947d6efb75536c88043bd">InstructionShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ad9d8e47e8896d8d4eab538aa78b56e47">multiply_add</a>(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b">ScalarA</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d">ScalarB</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7">ScalarC</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">ThreadGemmShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aad8a642f46c88e407a1150ee1d42b8dd">ThreadMultiplyAdd</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df">ThreadsPerWarp</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html
new file mode 100644
index 0000000000..c5d0581a64
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html
@@ -0,0 +1,401 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt; Struct Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html">ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int86f255c0f34c1afba22b3a7d64d8f85bf.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt; Struct Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Template performing matrix multiply-add operation within a thread.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="igemm__multiply__add_8h_source.html">igemm_multiply_add.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:aa84c3d4efc7947d6efb75536c88043bd"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 4, 1, 1 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa84c3d4efc7947d6efb75536c88043bd">InstructionShape</a></td></tr>
+<tr class="memdesc:aa84c3d4efc7947d6efb75536c88043bd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the instruction.  <a href="#aa84c3d4efc7947d6efb75536c88043bd">More...</a><br /></td></tr>
+<tr class="separator:aa84c3d4efc7947d6efb75536c88043bd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac5cde71eb825b0a4311bd0ce982f47aa"><td class="memItemLeft" align="right" valign="top">typedef ThreadGemmShape_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">ThreadGemmShape</a></td></tr>
+<tr class="memdesc:ac5cde71eb825b0a4311bd0ce982f47aa"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1Shape.html" title="A Shape implementing Layout Concept describing the dimensions of a cube. ">Shape</a> of the thread-level GEMM (K-by-N-by-M)  <a href="#ac5cde71eb825b0a4311bd0ce982f47aa">More...</a><br /></td></tr>
+<tr class="separator:ac5cde71eb825b0a4311bd0ce982f47aa"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa88edf2e89062be00181f5dc4f4a0947"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">ThreadGemmShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa88edf2e89062be00181f5dc4f4a0947">AccumulatorsPerThread</a></td></tr>
+<tr class="memdesc:aa88edf2e89062be00181f5dc4f4a0947"><td class="mdescLeft">&#160;</td><td class="mdescRight">Aliased for compatibility. Will be removed in CUTLASS v2.0.  <a href="#aa88edf2e89062be00181f5dc4f4a0947">More...</a><br /></td></tr>
+<tr class="separator:aa88edf2e89062be00181f5dc4f4a0947"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6bb1afd96da05370e61b38f2a93e40df"><td class="memItemLeft" align="right" valign="top">typedef ThreadsPerWarp_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df">ThreadsPerWarp</a></td></tr>
+<tr class="memdesc:a6bb1afd96da05370e61b38f2a93e40df"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of threads per warp.  <a href="#a6bb1afd96da05370e61b38f2a93e40df">More...</a><br /></td></tr>
+<tr class="separator:a6bb1afd96da05370e61b38f2a93e40df"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae3152470cbbba2310d9c83b9d5d43027"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">ThreadGemmShape</a>, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df">ThreadsPerWarp</a> &gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ae3152470cbbba2310d9c83b9d5d43027">AccumulatorsPerWarp</a></td></tr>
+<tr class="memdesc:ae3152470cbbba2310d9c83b9d5d43027"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of accumulators per warp.  <a href="#ae3152470cbbba2310d9c83b9d5d43027">More...</a><br /></td></tr>
+<tr class="separator:ae3152470cbbba2310d9c83b9d5d43027"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a11be198f90afb859be51ec5feb5dcd2b"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b">ScalarA</a></td></tr>
+<tr class="memdesc:a11be198f90afb859be51ec5feb5dcd2b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for A.  <a href="#a11be198f90afb859be51ec5feb5dcd2b">More...</a><br /></td></tr>
+<tr class="separator:a11be198f90afb859be51ec5feb5dcd2b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8d0734b8e797576adcf89f70c62160d4"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b">ScalarA</a>, AccumulatorsPerThread::kW *4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4">FragmentA</a></td></tr>
+<tr class="memdesc:a8d0734b8e797576adcf89f70c62160d4"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment for A.  <a href="#a8d0734b8e797576adcf89f70c62160d4">More...</a><br /></td></tr>
+<tr class="separator:a8d0734b8e797576adcf89f70c62160d4"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6a9c4f906a4930f4fc415009ead2e05d"><td class="memItemLeft" align="right" valign="top">typedef int8_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d">ScalarB</a></td></tr>
+<tr class="memdesc:a6a9c4f906a4930f4fc415009ead2e05d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for B.  <a href="#a6a9c4f906a4930f4fc415009ead2e05d">More...</a><br /></td></tr>
+<tr class="separator:a6a9c4f906a4930f4fc415009ead2e05d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6439d8fc71727cc6d50f87eae549157e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d">ScalarB</a>, AccumulatorsPerThread::kH *4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e">FragmentB</a></td></tr>
+<tr class="memdesc:a6439d8fc71727cc6d50f87eae549157e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment for B.  <a href="#a6439d8fc71727cc6d50f87eae549157e">More...</a><br /></td></tr>
+<tr class="separator:a6439d8fc71727cc6d50f87eae549157e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a703b329ebf14d78f576e83c5e6fe23a7"><td class="memItemLeft" align="right" valign="top">typedef int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7">ScalarC</a></td></tr>
+<tr class="memdesc:a703b329ebf14d78f576e83c5e6fe23a7"><td class="mdescLeft">&#160;</td><td class="mdescRight">The type for C and D.  <a href="#a703b329ebf14d78f576e83c5e6fe23a7">More...</a><br /></td></tr>
+<tr class="separator:a703b329ebf14d78f576e83c5e6fe23a7"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1ae57ab39203313cfd20208947750786"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7">ScalarC</a>, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">Accumulators</a></td></tr>
+<tr class="memdesc:a1ae57ab39203313cfd20208947750786"><td class="mdescLeft">&#160;</td><td class="mdescRight">The accumulators.  <a href="#a1ae57ab39203313cfd20208947750786">More...</a><br /></td></tr>
+<tr class="separator:a1ae57ab39203313cfd20208947750786"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:aad8a642f46c88e407a1150ee1d42b8dd"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aad8a642f46c88e407a1150ee1d42b8dd">ThreadMultiplyAdd</a> ()</td></tr>
+<tr class="memdesc:aad8a642f46c88e407a1150ee1d42b8dd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#aad8a642f46c88e407a1150ee1d42b8dd">More...</a><br /></td></tr>
+<tr class="separator:aad8a642f46c88e407a1150ee1d42b8dd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad9d8e47e8896d8d4eab538aa78b56e47"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ad9d8e47e8896d8d4eab538aa78b56e47">multiply_add</a> (<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4">FragmentA</a> const &amp;a, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e">FragmentB</a> const &amp;b, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">Accumulators</a> const &amp;c, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">Accumulators</a> &amp;d)</td></tr>
+<tr class="memdesc:ad9d8e47e8896d8d4eab538aa78b56e47"><td class="mdescLeft">&#160;</td><td class="mdescRight">Multiply : d = a*b + c.  <a href="#ad9d8e47e8896d8d4eab538aa78b56e47">More...</a><br /></td></tr>
+<tr class="separator:ad9d8e47e8896d8d4eab538aa78b56e47"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a1ae57ab39203313cfd20208947750786"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1ae57ab39203313cfd20208947750786">&#9670;&nbsp;</a></span>Accumulators</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7">ScalarC</a>, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">Accumulators</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa88edf2e89062be00181f5dc4f4a0947"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa88edf2e89062be00181f5dc4f4a0947">&#9670;&nbsp;</a></span>AccumulatorsPerThread</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">ThreadGemmShape</a> <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa88edf2e89062be00181f5dc4f4a0947">AccumulatorsPerThread</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ae3152470cbbba2310d9c83b9d5d43027"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae3152470cbbba2310d9c83b9d5d43027">&#9670;&nbsp;</a></span>AccumulatorsPerWarp</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1ShapeMul.html">ShapeMul</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">ThreadGemmShape</a>, <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df">ThreadsPerWarp</a>&gt;::<a class="el" href="structcutlass_1_1Shape.html">Shape</a> <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ae3152470cbbba2310d9c83b9d5d43027">AccumulatorsPerWarp</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a8d0734b8e797576adcf89f70c62160d4"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8d0734b8e797576adcf89f70c62160d4">&#9670;&nbsp;</a></span>FragmentA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b">ScalarA</a>, AccumulatorsPerThread::kW * 4&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4">FragmentA</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6439d8fc71727cc6d50f87eae549157e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6439d8fc71727cc6d50f87eae549157e">&#9670;&nbsp;</a></span>FragmentB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Fragment.html">Fragment</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d">ScalarB</a>, AccumulatorsPerThread::kH * 4&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e">FragmentB</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="aa84c3d4efc7947d6efb75536c88043bd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aa84c3d4efc7947d6efb75536c88043bd">&#9670;&nbsp;</a></span>InstructionShape</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt;4, 1, 1&gt; <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#aa84c3d4efc7947d6efb75536c88043bd">InstructionShape</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a11be198f90afb859be51ec5feb5dcd2b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a11be198f90afb859be51ec5feb5dcd2b">&#9670;&nbsp;</a></span>ScalarA</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef int8_t <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a11be198f90afb859be51ec5feb5dcd2b">ScalarA</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6a9c4f906a4930f4fc415009ead2e05d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6a9c4f906a4930f4fc415009ead2e05d">&#9670;&nbsp;</a></span>ScalarB</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef int8_t <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6a9c4f906a4930f4fc415009ead2e05d">ScalarB</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a703b329ebf14d78f576e83c5e6fe23a7"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a703b329ebf14d78f576e83c5e6fe23a7">&#9670;&nbsp;</a></span>ScalarC</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef int <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a703b329ebf14d78f576e83c5e6fe23a7">ScalarC</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ac5cde71eb825b0a4311bd0ce982f47aa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ac5cde71eb825b0a4311bd0ce982f47aa">&#9670;&nbsp;</a></span>ThreadGemmShape</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef ThreadGemmShape_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#ac5cde71eb825b0a4311bd0ce982f47aa">ThreadGemmShape</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a6bb1afd96da05370e61b38f2a93e40df"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6bb1afd96da05370e61b38f2a93e40df">&#9670;&nbsp;</a></span>ThreadsPerWarp</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef ThreadsPerWarp_ <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6bb1afd96da05370e61b38f2a93e40df">ThreadsPerWarp</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="aad8a642f46c88e407a1150ee1d42b8dd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aad8a642f46c88e407a1150ee1d42b8dd">&#9670;&nbsp;</a></span>ThreadMultiplyAdd()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::<a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ad9d8e47e8896d8d4eab538aa78b56e47"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad9d8e47e8896d8d4eab538aa78b56e47">&#9670;&nbsp;</a></span>multiply_add()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename ThreadGemmShape_ , typename ThreadsPerWarp_ &gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a>&lt; ThreadGemmShape_, ThreadsPerWarp_, int8_t, int8_t, int &gt;::multiply_add </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a8d0734b8e797576adcf89f70c62160d4">FragmentA</a> const &amp;&#160;</td>
+          <td class="paramname"><em>a</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a6439d8fc71727cc6d50f87eae549157e">FragmentB</a> const &amp;&#160;</td>
+          <td class="paramname"><em>b</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">Accumulators</a> const &amp;&#160;</td>
+          <td class="paramname"><em>c</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_3_01ThreadGemmShape___00_01ThreadsPerWarp___00_01int8__t_00_01int8__t_00_01int_01_4.html#a1ae57ab39203313cfd20208947750786">Accumulators</a> &amp;&#160;</td>
+          <td class="paramname"><em>d</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="igemm__multiply__add_8h_source.html">igemm_multiply_add.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd-members.html b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd-members.html
index 633e1cdc73..7d97f99c6c 100644
--- a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd-members.html
+++ b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd-members.html
@@ -79,51 +79,57 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a48a8eda430139e6a131654a54bbf0f3b">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afe77778a126449e210c0bd6ec2dc6709">data</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a90e9886534ecbbce69f57b4030d0903f">data</a>() const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db">add_pointer_offset</a>(Index offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aea87c73ae2d4e027014ebd4d8141c89e">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afd2bed46f4cf04aaf331fb2ecae953f8">BaseParams</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff">GemmGlobalIteratorCd</a>(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block_offset, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a15d3244546d1c8f4727e84b27a8b7fc6">GemmGlobalIteratorCd</a>(Params const &amp;_params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a174ae7d8aa0664eaf1d6f63c5606baa0">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a44287250bf5631a490b514859fd101d1">inc_c</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab1ebbe54e4315ac07daf260a88f41d04">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa9a733f35e9be67663c9c8f80b0034d4">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aec2d692967d9be5d42673dfde21f5427">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">inc_advance</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316">inc_c</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">inc_d</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">inc_h</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">inc_w</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">initialize_predicates</a>(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;offset=make_Coord(0, 0, 0))</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a>(PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa">predicates</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066">thread_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a468f8f503777e4a2b0089ee2bd6c471a">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a505f124fa3f47c6d57b7275e81be6dd3">WmmaGemmGlobalIteratorCd</a>()</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a109209936a9453e8f1f3f5eecfd6afca">load_element</a>(typename Base::AccessType &amp;value, int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae2febd768cbbfb8aab3c2cb669c0505d">load_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec">operator+=</a>(Coord&lt; 3 &gt; const &amp;offset)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">predicates</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a051eb2a8637601cf9c1f52999117151b">store_element</a>(typename Base::AccessType const &amp;value, int d, int h, int w, int c)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a018d5be34cdbb263d7f133197b2921ca">store_post_increment</a>(Fragment &amp;fragment)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">This_</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">Traits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">valid</a>(int d, int h, int w, int c) const</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">WmmaGemmGlobalIteratorCd</a>(Params const &amp;params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int const pointer_offset=0, int const pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html
index e9c160775e..4bf4c41baa 100644
--- a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html
+++ b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html
@@ -76,7 +76,6 @@
 <a href="#nested-classes">Classes</a> &#124;
 <a href="#pub-types">Public Types</a> &#124;
 <a href="#pub-methods">Public Member Functions</a> &#124;
-<a href="#pub-attribs">Public Attributes</a> &#124;
 <a href="#pub-static-attribs">Static Public Attributes</a> &#124;
 <a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd-members.html">List of all members</a>  </div>
   <div class="headertitle">
@@ -91,6 +90,7 @@
  <div class="center">
   <img src="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.png" usemap="#cutlass::gemm::WmmaGemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map" alt=""/>
   <map id="cutlass::gemm::WmmaGemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map" name="cutlass::gemm::WmmaGemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E_map">
+<area href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html" alt="cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;" shape="rect" coords="0,56,643,80"/>
 <area href="structcutlass_1_1TileIteratorBase.html" alt="cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;" shape="rect" coords="0,0,643,24"/>
 </map>
  </div></div>
@@ -109,9 +109,9 @@
 <tr class="memitem:af2b5682b8e6dd13590ec258a44636430"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">Traits</a></td></tr>
 <tr class="memdesc:af2b5682b8e6dd13590ec258a44636430"><td class="mdescLeft">&#160;</td><td class="mdescRight">The traits.  <a href="#af2b5682b8e6dd13590ec258a44636430">More...</a><br /></td></tr>
 <tr class="separator:af2b5682b8e6dd13590ec258a44636430"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a48a8eda430139e6a131654a54bbf0f3b"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">Traits</a>, typename TileTraits_::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a48a8eda430139e6a131654a54bbf0f3b">Base</a></td></tr>
-<tr class="memdesc:a48a8eda430139e6a131654a54bbf0f3b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base class.  <a href="#a48a8eda430139e6a131654a54bbf0f3b">More...</a><br /></td></tr>
-<tr class="separator:a48a8eda430139e6a131654a54bbf0f3b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aea87c73ae2d4e027014ebd4d8141c89e"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">Traits</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aea87c73ae2d4e027014ebd4d8141c89e">Base</a></td></tr>
+<tr class="memdesc:aea87c73ae2d4e027014ebd4d8141c89e"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base class.  <a href="#aea87c73ae2d4e027014ebd4d8141c89e">More...</a><br /></td></tr>
+<tr class="separator:aea87c73ae2d4e027014ebd4d8141c89e"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:af53d49bad7060b87a2761fe8a82a7ddd"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, Base::Delta::kW, Base::Delta::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd">ImmediateOffsetStrides</a></td></tr>
 <tr class="memdesc:af53d49bad7060b87a2761fe8a82a7ddd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Override the strides in each dimension between different loads/stores.  <a href="#af53d49bad7060b87a2761fe8a82a7ddd">More...</a><br /></td></tr>
 <tr class="separator:af53d49bad7060b87a2761fe8a82a7ddd"><td class="memSeparator" colspan="2">&#160;</td></tr>
@@ -130,137 +130,212 @@
 <tr class="memitem:a667cae4a9fa78a6df073f5ee48ef9664"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a></td></tr>
 <tr class="memdesc:a667cae4a9fa78a6df073f5ee48ef9664"><td class="mdescLeft">&#160;</td><td class="mdescRight">The thread offset functor.  <a href="#a667cae4a9fa78a6df073f5ee48ef9664">More...</a><br /></td></tr>
 <tr class="separator:a667cae4a9fa78a6df073f5ee48ef9664"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afd2bed46f4cf04aaf331fb2ecae953f8"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Base::Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afd2bed46f4cf04aaf331fb2ecae953f8">BaseParams</a></td></tr>
+<tr class="memdesc:afd2bed46f4cf04aaf331fb2ecae953f8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Base parameters.  <a href="#afd2bed46f4cf04aaf331fb2ecae953f8">More...</a><br /></td></tr>
+<tr class="separator:afd2bed46f4cf04aaf331fb2ecae953f8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td></tr>
+<tr class="memitem:a6a745d66c4c7de352041f779e54e6b2b inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">This_</a></td></tr>
+<tr class="memdesc:a6a745d66c4c7de352041f779e54e6b2b inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">This class.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">More...</a><br /></td></tr>
+<tr class="separator:a6a745d66c4c7de352041f779e54e6b2b inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8f8fbb65070589769468c6b1ac6ba7a5 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt; TileTraits_, typename TileTraits_::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>, Index_ &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">Base</a></td></tr>
+<tr class="memdesc:a8f8fbb65070589769468c6b1ac6ba7a5 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The base class.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">More...</a><br /></td></tr>
+<tr class="separator:a8f8fbb65070589769468c6b1ac6ba7a5 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6b5b207eb1147e9669215e192901df9e inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">Scalar</a></td></tr>
+<tr class="memdesc:a6b5b207eb1147e9669215e192901df9e inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">More...</a><br /></td></tr>
+<tr class="separator:a6b5b207eb1147e9669215e192901df9e inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3abcfa68ae9904a13195d32d6e6c4bc6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Pointer&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a></td></tr>
+<tr class="memdesc:a3abcfa68ae9904a13195d32d6e6c4bc6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">More...</a><br /></td></tr>
+<tr class="separator:a3abcfa68ae9904a13195d32d6e6c4bc6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:afdd08b4f4c1feaa426f997d15cd28c02 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Threads&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">Threads</a></td></tr>
+<tr class="memdesc:afdd08b4f4c1feaa426f997d15cd28c02 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">More...</a><br /></td></tr>
+<tr class="separator:afdd08b4f4c1feaa426f997d15cd28c02 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a56847e834b31b88544093c3df54d299f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a></td></tr>
+<tr class="memdesc:a56847e834b31b88544093c3df54d299f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The index.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">More...</a><br /></td></tr>
+<tr class="separator:a56847e834b31b88544093c3df54d299f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6d985f8e93be21e56f72ec1400d73df1 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a></td></tr>
+<tr class="memdesc:a6d985f8e93be21e56f72ec1400d73df1 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The thread offset.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">More...</a><br /></td></tr>
+<tr class="separator:a6d985f8e93be21e56f72ec1400d73df1 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_types_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_types_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Types inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a></td></tr>
-<tr class="memdesc:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept TileTraits  <a href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">More...</a><br /></td></tr>
-<tr class="separator:ae7add0ee02bbec2c130ebaf608ab0696 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a></td></tr>
-<tr class="memdesc:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">More...</a><br /></td></tr>
-<tr class="separator:a17163e93d7d3616b4950925f72bb4c16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a></td></tr>
-<tr class="memdesc:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment element.  <a href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">More...</a><br /></td></tr>
-<tr class="separator:ac7cca14d54bf3f0749db1ffaea7c9ae7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a></td></tr>
-<tr class="memdesc:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">More...</a><br /></td></tr>
-<tr class="separator:a44665808adfd69df0d26cec4b1840cc3 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a></td></tr>
-<tr class="memdesc:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">More...</a><br /></td></tr>
-<tr class="separator:ae89afbcf642b3023770ff22969c51d16 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a></td></tr>
-<tr class="memdesc:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">More...</a><br /></td></tr>
-<tr class="separator:a954ef18acc12d8256a7d4e37683f8c2c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a></td></tr>
-<tr class="memdesc:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">More...</a><br /></td></tr>
-<tr class="separator:a9bc6c04f4a3adeb5a29743fa43425088 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a></td></tr>
-<tr class="memdesc:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">More...</a><br /></td></tr>
-<tr class="separator:a561ceb1093b28b8dce67df0129b7b8b8 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a></td></tr>
-<tr class="memdesc:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">More...</a><br /></td></tr>
-<tr class="separator:a352ed0773b37f03bf68e4b6cf9899474 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a></td></tr>
-<tr class="memdesc:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">More...</a><br /></td></tr>
-<tr class="separator:a5abf4755aee07dc58b1d6183fbf4786f inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a></td></tr>
-<tr class="memdesc:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">More...</a><br /></td></tr>
-<tr class="separator:abb3dde23971ad35a477b75ee99381b53 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a></td></tr>
-<tr class="memdesc:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">More...</a><br /></td></tr>
-<tr class="separator:a6ca47fd6e2f9cbb3498c138417ea414a inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a></td></tr>
-<tr class="memdesc:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">More...</a><br /></td></tr>
-<tr class="separator:a0d7b595d7959cc1680fc07c2e02e1c8e inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a></td></tr>
-<tr class="memdesc:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">More...</a><br /></td></tr>
-<tr class="separator:a379a52ed1128fc9f93cad35d3e3233e5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a></td></tr>
-<tr class="memdesc:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">More...</a><br /></td></tr>
-<tr class="separator:a25a241bbdc0b0121992019a16f1a6d60 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a></td></tr>
-<tr class="memdesc:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">More...</a><br /></td></tr>
-<tr class="separator:a14f4b356c9cd320e6e7b451edbf58c24 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a></td></tr>
-<tr class="memdesc:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">More...</a><br /></td></tr>
-<tr class="separator:a7ab46a9210b421d32af4d1394892cfd5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a></td></tr>
+<tr class="memdesc:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">concept TileTraits  <a href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">More...</a><br /></td></tr>
+<tr class="separator:aac9e5b7890a53d46e5d49912b254ded7 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a></td></tr>
+<tr class="memdesc:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Scalar element.  <a href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">More...</a><br /></td></tr>
+<tr class="separator:affac5a91f0659bb6739db25d20822c34 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef TileTraits_::Scalar&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a></td></tr>
+<tr class="memdesc:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Fragment element.  <a href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">More...</a><br /></td></tr>
+<tr class="separator:a7f2fe3fa2eb764bf664817097d22fe45 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Index_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a></td></tr>
+<tr class="memdesc:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Index type.  <a href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">More...</a><br /></td></tr>
+<tr class="separator:ab49ff66953031a8cfcfa11ddc092025c inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, 0, 0 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a></td></tr>
+<tr class="memdesc:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Skew quantity.  <a href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">More...</a><br /></td></tr>
+<tr class="separator:ae50ca325a827bdf1d1bfab3ba6e204c1 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Tile&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a></td></tr>
+<tr class="memdesc:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Tile shape.  <a href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">More...</a><br /></td></tr>
+<tr class="separator:a7fcf13023c85cf1e1150d867bd1559d4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Delta&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a></td></tr>
+<tr class="memdesc:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Distance along each dimension.  <a href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">More...</a><br /></td></tr>
+<tr class="separator:a9aaac43bc2258e06824c354a068e7815 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ImmediateOffsetStrides&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a></td></tr>
+<tr class="memdesc:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">More...</a><br /></td></tr>
+<tr class="separator:ab37eec43846be90d558201bd6bb27ee4 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::Iterations&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a></td></tr>
+<tr class="memdesc:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterations.  <a href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">More...</a><br /></td></tr>
+<tr class="separator:adbf563ecda4ffd4110d288f521c7e0da inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef Traits::ThreadOffset&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a></td></tr>
+<tr class="memdesc:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Thread offset.  <a href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">More...</a><br /></td></tr>
+<tr class="separator:a0fec2c1f9c0b8fbde4ca6faf123b59a5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;::Type&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a></td></tr>
+<tr class="memdesc:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The elements loaded/store by one instruction.  <a href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">More...</a><br /></td></tr>
+<tr class="separator:a24716c07ab1d7834a79d52231a990973 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a> &gt;::kCount, <a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a></td></tr>
+<tr class="memdesc:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The storage.  <a href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">More...</a><br /></td></tr>
+<tr class="separator:a2e682380b5ea9ea05ee8ffd68a1205f0 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>, <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount *<a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a></td></tr>
+<tr class="memdesc:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">More...</a><br /></td></tr>
+<tr class="separator:a9ffa12dcd7ed1e96845e1cd273d9f219 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a></td></tr>
+<tr class="memdesc:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">More...</a><br /></td></tr>
+<tr class="separator:a59d40c5bd544fdabf42787b9f11cce51 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>, <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a></td></tr>
+<tr class="memdesc:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The fragment const iterator.  <a href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">More...</a><br /></td></tr>
+<tr class="separator:a5eb6375410d4440c0f73a25c06d282b5 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a></td></tr>
+<tr class="memdesc:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The shape of the fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">More...</a><br /></td></tr>
+<tr class="separator:a064aaca9cc27e34bdae9684447a3f5be inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a>&lt; <a class="el" href="structcutlass_1_1ShapeCount.html">ShapeCount</a>&lt; <a class="el" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a> &gt;::kCount &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a></td></tr>
+<tr class="memdesc:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default predicate mask type.  <a href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">More...</a><br /></td></tr>
+<tr class="separator:a05065dadf7b8a20284c566c82cda8000 inherit pub_types_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a505f124fa3f47c6d57b7275e81be6dd3"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a505f124fa3f47c6d57b7275e81be6dd3">WmmaGemmGlobalIteratorCd</a> ()</td></tr>
-<tr class="memdesc:a505f124fa3f47c6d57b7275e81be6dd3"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#a505f124fa3f47c6d57b7275e81be6dd3">More...</a><br /></td></tr>
-<tr class="separator:a505f124fa3f47c6d57b7275e81be6dd3"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa5c14e2a799249fe8bba14aa1dbe69dc"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">WmmaGemmGlobalIteratorCd</a> (<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">Params</a> const &amp;<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block, int const pointer_offset=0, int const pred_offset=0, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a>())</td></tr>
+<tr class="memitem:aa5c14e2a799249fe8bba14aa1dbe69dc"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">WmmaGemmGlobalIteratorCd</a> (<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">Params</a> const &amp;<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block, int const pointer_offset=0, int const pred_offset=0, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>())</td></tr>
 <tr class="memdesc:aa5c14e2a799249fe8bba14aa1dbe69dc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="#aa5c14e2a799249fe8bba14aa1dbe69dc">More...</a><br /></td></tr>
 <tr class="separator:aa5c14e2a799249fe8bba14aa1dbe69dc"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a44287250bf5631a490b514859fd101d1"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a44287250bf5631a490b514859fd101d1">inc_c</a> ()</td></tr>
-<tr class="memdesc:a44287250bf5631a490b514859fd101d1"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the C dimension.  <a href="#a44287250bf5631a490b514859fd101d1">More...</a><br /></td></tr>
-<tr class="separator:a44287250bf5631a490b514859fd101d1"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aec2d692967d9be5d42673dfde21f5427"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aec2d692967d9be5d42673dfde21f5427">inc_w</a> ()</td></tr>
-<tr class="memdesc:aec2d692967d9be5d42673dfde21f5427"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the W dimension.  <a href="#aec2d692967d9be5d42673dfde21f5427">More...</a><br /></td></tr>
-<tr class="separator:aec2d692967d9be5d42673dfde21f5427"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa9a733f35e9be67663c9c8f80b0034d4"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa9a733f35e9be67663c9c8f80b0034d4">inc_h</a> ()</td></tr>
-<tr class="memdesc:aa9a733f35e9be67663c9c8f80b0034d4"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the H dimension.  <a href="#aa9a733f35e9be67663c9c8f80b0034d4">More...</a><br /></td></tr>
-<tr class="separator:aa9a733f35e9be67663c9c8f80b0034d4"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab1ebbe54e4315ac07daf260a88f41d04"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab1ebbe54e4315ac07daf260a88f41d04">inc_d</a> ()</td></tr>
-<tr class="memdesc:ab1ebbe54e4315ac07daf260a88f41d04"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the D dimension.  <a href="#ab1ebbe54e4315ac07daf260a88f41d04">More...</a><br /></td></tr>
-<tr class="separator:ab1ebbe54e4315ac07daf260a88f41d04"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a174ae7d8aa0664eaf1d6f63c5606baa0"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a174ae7d8aa0664eaf1d6f63c5606baa0">inc_advance</a> ()</td></tr>
-<tr class="memdesc:a174ae7d8aa0664eaf1d6f63c5606baa0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer to move to the next iteration.  <a href="#a174ae7d8aa0664eaf1d6f63c5606baa0">More...</a><br /></td></tr>
-<tr class="separator:a174ae7d8aa0664eaf1d6f63c5606baa0"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a468f8f503777e4a2b0089ee2bd6c471a"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a468f8f503777e4a2b0089ee2bd6c471a">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:a468f8f503777e4a2b0089ee2bd6c471a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Test the predicate.  <a href="#a468f8f503777e4a2b0089ee2bd6c471a">More...</a><br /></td></tr>
-<tr class="separator:a468f8f503777e4a2b0089ee2bd6c471a"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:afe77778a126449e210c0bd6ec2dc6709"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afe77778a126449e210c0bd6ec2dc6709">data</a> ()</td></tr>
-<tr class="memdesc:afe77778a126449e210c0bd6ec2dc6709"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the raw pointer.  <a href="#afe77778a126449e210c0bd6ec2dc6709">More...</a><br /></td></tr>
-<tr class="separator:afe77778a126449e210c0bd6ec2dc6709"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a90e9886534ecbbce69f57b4030d0903f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a90e9886534ecbbce69f57b4030d0903f">data</a> () const</td></tr>
-<tr class="separator:a90e9886534ecbbce69f57b4030d0903f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a109209936a9453e8f1f3f5eecfd6afca"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a109209936a9453e8f1f3f5eecfd6afca">load_element</a> (typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> &amp;value, int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a109209936a9453e8f1f3f5eecfd6afca"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a single fragment element from memory.  <a href="#a109209936a9453e8f1f3f5eecfd6afca">More...</a><br /></td></tr>
+<tr class="separator:a109209936a9453e8f1f3f5eecfd6afca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a051eb2a8637601cf9c1f52999117151b"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a051eb2a8637601cf9c1f52999117151b">store_element</a> (typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> const &amp;value, int d, int h, int w, int c)</td></tr>
+<tr class="memdesc:a051eb2a8637601cf9c1f52999117151b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a single fragment element into memory.  <a href="#a051eb2a8637601cf9c1f52999117151b">More...</a><br /></td></tr>
+<tr class="separator:a051eb2a8637601cf9c1f52999117151b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae2febd768cbbfb8aab3c2cb669c0505d"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:ae2febd768cbbfb8aab3c2cb669c0505d"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae2febd768cbbfb8aab3c2cb669c0505d">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)</td></tr>
+<tr class="separator:ae2febd768cbbfb8aab3c2cb669c0505d"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a018d5be34cdbb263d7f133197b2921ca"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a018d5be34cdbb263d7f133197b2921ca"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a018d5be34cdbb263d7f133197b2921ca">store_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)</td></tr>
+<tr class="separator:a018d5be34cdbb263d7f133197b2921ca"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td></tr>
+<tr class="memitem:aeeed9a3582a879d9da77191df88e83ff inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff">GemmGlobalIteratorCd</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> const &amp;_params, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block_offset, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:aeeed9a3582a879d9da77191df88e83ff inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeeed9a3582a879d9da77191df88e83ff">More...</a><br /></td></tr>
+<tr class="separator:aeeed9a3582a879d9da77191df88e83ff inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a15d3244546d1c8f4727e84b27a8b7fc6 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a15d3244546d1c8f4727e84b27a8b7fc6">GemmGlobalIteratorCd</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a> const &amp;_params, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;bounds, const <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; &amp;block, int offset=0, int pred_offset=0, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> thread_offset_func=<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>())</td></tr>
+<tr class="memdesc:a15d3244546d1c8f4727e84b27a8b7fc6 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Ctor.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a15d3244546d1c8f4727e84b27a8b7fc6">More...</a><br /></td></tr>
+<tr class="separator:a15d3244546d1c8f4727e84b27a8b7fc6 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a365eb7c90a79c9ab32f603c6985a0316 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316">inc_c</a> ()</td></tr>
+<tr class="memdesc:a365eb7c90a79c9ab32f603c6985a0316 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the C dimension.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a365eb7c90a79c9ab32f603c6985a0316">More...</a><br /></td></tr>
+<tr class="separator:a365eb7c90a79c9ab32f603c6985a0316 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab1d9e606a89d3dd315df3d3efa48bcc2 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">inc_w</a> ()</td></tr>
+<tr class="memdesc:ab1d9e606a89d3dd315df3d3efa48bcc2 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the W dimension.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab1d9e606a89d3dd315df3d3efa48bcc2">More...</a><br /></td></tr>
+<tr class="separator:ab1d9e606a89d3dd315df3d3efa48bcc2 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a40144d869b56b46cf1dd8f9941e61e77 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">inc_h</a> ()</td></tr>
+<tr class="memdesc:a40144d869b56b46cf1dd8f9941e61e77 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the H dimension.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a40144d869b56b46cf1dd8f9941e61e77">More...</a><br /></td></tr>
+<tr class="separator:a40144d869b56b46cf1dd8f9941e61e77 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a49d7db2dab7a6d1e496ebff0e67039bc inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">inc_d</a> ()</td></tr>
+<tr class="memdesc:a49d7db2dab7a6d1e496ebff0e67039bc inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer in the D dimension.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a49d7db2dab7a6d1e496ebff0e67039bc">More...</a><br /></td></tr>
+<tr class="separator:a49d7db2dab7a6d1e496ebff0e67039bc inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aeac77cdc31ce151634b7c27ccdaf5552 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">inc_advance</a> ()</td></tr>
+<tr class="memdesc:aeac77cdc31ce151634b7c27ccdaf5552 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Increment the pointer to move to the next iteration.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aeac77cdc31ce151634b7c27ccdaf5552">More...</a><br /></td></tr>
+<tr class="separator:aeac77cdc31ce151634b7c27ccdaf5552 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa6845b5a0fa36eb185caafea791e53ec inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec">operator+=</a> (<a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:aa6845b5a0fa36eb185caafea791e53ec inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Adds a vector offset to the iterator.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aa6845b5a0fa36eb185caafea791e53ec">More...</a><br /></td></tr>
+<tr class="separator:aa6845b5a0fa36eb185caafea791e53ec inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6034b7229e4aca05f63c39560f219433 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">load_element</a> (typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> &amp;value, int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:a6034b7229e4aca05f63c39560f219433 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads a single fragment element from memory.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">More...</a><br /></td></tr>
+<tr class="separator:a6034b7229e4aca05f63c39560f219433 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5de982aed44932da3b265f8bb520249d inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d">store_element</a> (typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> const &amp;value, int d, int h, int w, int c)</td></tr>
+<tr class="memdesc:a5de982aed44932da3b265f8bb520249d inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Stores a single fragment element into memory.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a5de982aed44932da3b265f8bb520249d">More...</a><br /></td></tr>
+<tr class="separator:a5de982aed44932da3b265f8bb520249d inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab224a0a6ab8ce7fc4e76b06fb7679fa0 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:ab224a0a6ab8ce7fc4e76b06fb7679fa0 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Test the validity of the.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ab224a0a6ab8ce7fc4e76b06fb7679fa0">More...</a><br /></td></tr>
+<tr class="separator:ab224a0a6ab8ce7fc4e76b06fb7679fa0 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8fd617565db6eb9c6fb99de868c389db inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db">add_pointer_offset</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> offset)</td></tr>
+<tr class="memdesc:a8fd617565db6eb9c6fb99de868c389db inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">add pointer offset  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8fd617565db6eb9c6fb99de868c389db">More...</a><br /></td></tr>
+<tr class="separator:a8fd617565db6eb9c6fb99de868c389db inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1a587af6edd528a02679c0decc31cdd1 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:a1a587af6edd528a02679c0decc31cdd1 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">load_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)</td></tr>
+<tr class="memdesc:a1a587af6edd528a02679c0decc31cdd1 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Loads and increments iterator.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">More...</a><br /></td></tr>
+<tr class="separator:a1a587af6edd528a02679c0decc31cdd1 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aafa962f7e63da77c9904d438ab94347a inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memTemplParams" colspan="2">template&lt;typename Fragment &gt; </td></tr>
+<tr class="memitem:aafa962f7e63da77c9904d438ab94347a inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a">store_post_increment</a> (<a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)</td></tr>
+<tr class="separator:aafa962f7e63da77c9904d438ab94347a inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">valid</a> (int d, int h, int w, int c) const</td></tr>
-<tr class="memdesc:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">More...</a><br /></td></tr>
-<tr class="separator:af78a2bf3e7507dc7f50343a3c209f770 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-</table><table class="memberdecls">
-<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
-Public Attributes</h2></td></tr>
-<tr class="memitem:a0ad4218ad2c10641379b236473e79e84"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a></td></tr>
-<tr class="separator:a0ad4218ad2c10641379b236473e79e84"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab3057dad7a4decb5594c66aa328f8066"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066">thread_offset</a></td></tr>
-<tr class="separator:ab3057dad7a4decb5594c66aa328f8066"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:af3c9d62554b1d311d82ba89e09cdd3fa"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a>&lt; Base::Iterations::kW &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa">predicates</a></td></tr>
-<tr class="memdesc:af3c9d62554b1d311d82ba89e09cdd3fa"><td class="mdescLeft">&#160;</td><td class="mdescRight">The predicates for the row.  <a href="#af3c9d62554b1d311d82ba89e09cdd3fa">More...</a><br /></td></tr>
-<tr class="separator:af3c9d62554b1d311d82ba89e09cdd3fa"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a> (int d, int h, int w, int c) const</td></tr>
+<tr class="memdesc:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Is the iterator valid?  <a href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">More...</a><br /></td></tr>
+<tr class="separator:ac811886f3412861928040546282b6973 inherit pub_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-static-attribs"></a>
 Static Public Attributes</h2></td></tr>
 <tr class="memitem:ae0f176733ba9dee0cce45435ac5d53ba"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba">kLayout</a> = TileTraits_::kLayout</td></tr>
 <tr class="memdesc:ae0f176733ba9dee0cce45435ac5d53ba"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="#ae0f176733ba9dee0cce45435ac5d53ba">More...</a><br /></td></tr>
 <tr class="separator:ae0f176733ba9dee0cce45435ac5d53ba"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td></tr>
+<tr class="memitem:a27b88818f5b094372bf2c6e090c9148a inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">kLayout</a> = TileTraits_::kLayout</td></tr>
+<tr class="memdesc:a27b88818f5b094372bf2c6e090c9148a inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The layout.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a27b88818f5b094372bf2c6e090c9148a">More...</a><br /></td></tr>
+<tr class="separator:a27b88818f5b094372bf2c6e090c9148a inherit pub_static_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="inherit_header pub_static_attribs_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_attribs_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Attributes inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a></td></tr>
-<tr class="memdesc:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">More...</a><br /></td></tr>
-<tr class="separator:ac1a64e974dcd69c3a86a31db6cbff421 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a></td></tr>
-<tr class="memdesc:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">More...</a><br /></td></tr>
-<tr class="separator:a38c8ec1e9d0117172981b4c7dd4bf3be inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">kMemorySpace</a></td></tr>
-<tr class="memdesc:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">More...</a><br /></td></tr>
-<tr class="separator:a871c9b82109eab432c5a1d465643bf97 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a></td></tr>
-<tr class="memdesc:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">More...</a><br /></td></tr>
-<tr class="separator:aef07ba456ea016092d7d2446751b76a3 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a></td></tr>
-<tr class="memdesc:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">More...</a><br /></td></tr>
-<tr class="separator:a4e0b2bc06bb8f52313e4d8c51ab30ff2 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a></td></tr>
+<tr class="memdesc:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">More...</a><br /></td></tr>
+<tr class="separator:acc8c86a3629a3ca105269fc3a47f2a4f inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a></td></tr>
+<tr class="memdesc:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies iterator storage fragment type (Scalar or WmmaMatrix)  <a href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">More...</a><br /></td></tr>
+<tr class="separator:af405f6c5f0bd8f04487d8a7f41dc1826 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a></td></tr>
+<tr class="memdesc:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Source or destination memory space.  <a href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">More...</a><br /></td></tr>
+<tr class="separator:ab8bfa9914c4ba49a583d1cfaa8a62d56 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a></td></tr>
+<tr class="memdesc:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of scalars accessed per load/store.  <a href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">More...</a><br /></td></tr>
+<tr class="separator:a8a4edd46b8cad3eeafc2a3dc3a344499 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static int const&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a></td></tr>
+<tr class="memdesc:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of storage needed per fragment.  <a href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">More...</a><br /></td></tr>
+<tr class="separator:aefe67241dde93bb032c5b4d82bc3f761 inherit pub_static_attribs_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
 Additional Inherited Members</h2></td></tr>
 <tr class="inherit_header pub_static_methods_structcutlass_1_1TileIteratorBase"><td colspan="2" onclick="javascript:toggleInherit('pub_static_methods_structcutlass_1_1TileIteratorBase')"><img src="closed.png" alt="-"/>&#160;Static Public Member Functions inherited from <a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;</a></td></tr>
-<tr class="memitem:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static CUTLASS_DEVICE void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">initialize_predicates</a> (PredicateIterator predicate_it, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;bounds, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset=make_Coord(0, 0, 0))</td></tr>
-<tr class="memdesc:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">More...</a><br /></td></tr>
-<tr class="separator:a78b6c0d6a1a96dd55a34bc302ecb07d7 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memItemLeft" align="right" valign="top">static <a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a> (PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, <a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 3 &gt; const &amp;offset)</td></tr>
+<tr class="memdesc:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="mdescLeft">&#160;</td><td class="mdescRight">Initializes a predicate vector.  <a href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">More...</a><br /></td></tr>
+<tr class="separator:aa58daf082cf97108e2e2ad0b1fd89208 inherit pub_static_methods_structcutlass_1_1TileIteratorBase"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;</a></td></tr>
+<tr class="memitem:ac368b1ea1c5ad2209a6ac6bec597600f inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Params</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a></td></tr>
+<tr class="memdesc:ac368b1ea1c5ad2209a6ac6bec597600f inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">More...</a><br /></td></tr>
+<tr class="separator:ac368b1ea1c5ad2209a6ac6bec597600f inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a56601dc34e8f9a070db5dc48c37d55a0 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt; 4 &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">thread_offset</a></td></tr>
+<tr class="memdesc:a56601dc34e8f9a070db5dc48c37d55a0 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">Offset of an individual lane from the start of the tile.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56601dc34e8f9a070db5dc48c37d55a0">More...</a><br /></td></tr>
+<tr class="separator:a56601dc34e8f9a070db5dc48c37d55a0 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad23e6224e37ec1d13dc237ce8ec6e977 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a>&lt; Base::Iterations::kW &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">predicates</a></td></tr>
+<tr class="memdesc:ad23e6224e37ec1d13dc237ce8ec6e977 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The predicates for the row.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ad23e6224e37ec1d13dc237ce8ec6e977">More...</a><br /></td></tr>
+<tr class="separator:ad23e6224e37ec1d13dc237ce8ec6e977 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Typedef Documentation</h2>
-<a id="a48a8eda430139e6a131654a54bbf0f3b"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a48a8eda430139e6a131654a54bbf0f3b">&#9670;&nbsp;</a></span>Base</h2>
+<a id="aea87c73ae2d4e027014ebd4d8141c89e"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aea87c73ae2d4e027014ebd4d8141c89e">&#9670;&nbsp;</a></span>Base</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">Traits</a>, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a8f8fbb65070589769468c6b1ac6ba7a5">Base</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="afd2bed46f4cf04aaf331fb2ecae953f8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#afd2bed46f4cf04aaf331fb2ecae953f8">&#9670;&nbsp;</a></span>BaseParams</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -268,7 +343,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a48a8eda430139e6a131654a5
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">Traits</a>, typename TileTraits_::Scalar, <a class="el" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>, <a class="el" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a48a8eda430139e6a131654a54bbf0f3b">Base</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Base::Params</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afd2bed46f4cf04aaf331fb2ecae953f8">BaseParams</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -300,7 +375,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3f45216454a550a116935aed
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a></td>
+          <td class="memname">typedef Index_ <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -316,7 +391,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a84a73da2a07210fcfad10853
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef TileTraits_::Pointer <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a></td>
+          <td class="memname">typedef TileTraits_::Pointer <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -332,7 +407,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab9979f3f1f6d31e1466780c5
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef TileTraits_::Scalar <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">Scalar</a></td>
+          <td class="memname">typedef TileTraits_::Scalar <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6b5b207eb1147e9669215e192901df9e">Scalar</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -348,7 +423,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa8b453116c2d96ea2c56e08c
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">WmmaGemmGlobalIteratorCd</a>&lt;TileTraits_, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">This_</a></td>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">WmmaGemmGlobalIteratorCd</a>&lt;TileTraits_, Index_&gt; <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6a745d66c4c7de352041f779e54e6b2b">This_</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -364,7 +439,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a667cae4a9fa78a6df073f5ee
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef TileTraits_::ThreadOffset <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a></td>
+          <td class="memname">typedef TileTraits_::ThreadOffset <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -380,7 +455,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aeb866237318ac7983e554a08
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">typedef TileTraits_::Threads <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">Threads</a></td>
+          <td class="memname">typedef TileTraits_::Threads <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#afdd08b4f4c1feaa426f997d15cd28c02">Threads</a></td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -404,35 +479,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#af2b5682b8e6dd13590ec258a
 </div>
 </div>
 <h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
-<a id="a505f124fa3f47c6d57b7275e81be6dd3"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a505f124fa3f47c6d57b7275e81be6dd3">&#9670;&nbsp;</a></span>WmmaGemmGlobalIteratorCd() <span class="overload">[1/2]</span></h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-<table class="mlabels">
-  <tr>
-  <td class="mlabels-left">
-      <table class="memname">
-        <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">WmmaGemmGlobalIteratorCd</a> </td>
-          <td>(</td>
-          <td class="paramname"></td><td>)</td>
-          <td></td>
-        </tr>
-      </table>
-  </td>
-  <td class="mlabels-right">
-<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
-  </tr>
-</table>
-</div><div class="memdoc">
-
-</div>
-</div>
 <a id="aa5c14e2a799249fe8bba14aa1dbe69dc"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa5c14e2a799249fe8bba14aa1dbe69dc">&#9670;&nbsp;</a></span>WmmaGemmGlobalIteratorCd() <span class="overload">[2/2]</span></h2>
+<h2 class="memtitle"><span class="permalink"><a href="#aa5c14e2a799249fe8bba14aa1dbe69dc">&#9670;&nbsp;</a></span>WmmaGemmGlobalIteratorCd()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -475,8 +523,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa5c14e2a799249fe8bba14aa
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a>&#160;</td>
-          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a>()</code>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>&#160;</td>
+          <td class="paramname"><em>thread_offset_func</em> = <code><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a>()</code>&#160;</td>
         </tr>
         <tr>
           <td></td>
@@ -494,8 +542,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa5c14e2a799249fe8bba14aa
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="afe77778a126449e210c0bd6ec2dc6709"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#afe77778a126449e210c0bd6ec2dc6709">&#9670;&nbsp;</a></span>data() <span class="overload">[1/2]</span></h2>
+<a id="a109209936a9453e8f1f3f5eecfd6afca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a109209936a9453e8f1f3f5eecfd6afca">&#9670;&nbsp;</a></span>load_element()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -506,145 +554,39 @@ <h2 class="memtitle"><span class="permalink"><a href="#afe77778a126449e210c0bd6e
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::data </td>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::load_element </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
-          <td></td>
+          <td class="paramtype">typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
         </tr>
-      </table>
-  </td>
-  <td class="mlabels-right">
-<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
-  </tr>
-</table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a90e9886534ecbbce69f57b4030d0903f"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a90e9886534ecbbce69f57b4030d0903f">&#9670;&nbsp;</a></span>data() <span class="overload">[2/2]</span></h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-<table class="mlabels">
-  <tr>
-  <td class="mlabels-left">
-      <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> const <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::data </td>
-          <td>(</td>
-          <td class="paramname"></td><td>)</td>
-          <td> const</td>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>d</em>, </td>
         </tr>
-      </table>
-  </td>
-  <td class="mlabels-right">
-<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
-  </tr>
-</table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a174ae7d8aa0664eaf1d6f63c5606baa0"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a174ae7d8aa0664eaf1d6f63c5606baa0">&#9670;&nbsp;</a></span>inc_advance()</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-<table class="mlabels">
-  <tr>
-  <td class="mlabels-left">
-      <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_advance </td>
-          <td>(</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramkey"></td>
           <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>h</em>, </td>
         </tr>
-      </table>
-  </td>
-  <td class="mlabels-right">
-<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
-  </tr>
-</table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a44287250bf5631a490b514859fd101d1"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a44287250bf5631a490b514859fd101d1">&#9670;&nbsp;</a></span>inc_c()</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-<table class="mlabels">
-  <tr>
-  <td class="mlabels-left">
-      <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_c </td>
-          <td>(</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramkey"></td>
           <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>w</em>, </td>
         </tr>
-      </table>
-  </td>
-  <td class="mlabels-right">
-<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
-  </tr>
-</table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="ab1ebbe54e4315ac07daf260a88f41d04"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab1ebbe54e4315ac07daf260a88f41d04">&#9670;&nbsp;</a></span>inc_d()</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-<table class="mlabels">
-  <tr>
-  <td class="mlabels-left">
-      <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_d </td>
-          <td>(</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramkey"></td>
           <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>c</em>&#160;</td>
         </tr>
-      </table>
-  </td>
-  <td class="mlabels-right">
-<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
-  </tr>
-</table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="aa9a733f35e9be67663c9c8f80b0034d4"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa9a733f35e9be67663c9c8f80b0034d4">&#9670;&nbsp;</a></span>inc_h()</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-<table class="mlabels">
-  <tr>
-  <td class="mlabels-left">
-      <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_h </td>
-          <td>(</td>
-          <td class="paramname"></td><td>)</td>
           <td></td>
+          <td>)</td>
+          <td></td><td> const</td>
         </tr>
       </table>
   </td>
@@ -656,21 +598,24 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa9a733f35e9be67663c9c8f8
 
 </div>
 </div>
-<a id="aec2d692967d9be5d42673dfde21f5427"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aec2d692967d9be5d42673dfde21f5427">&#9670;&nbsp;</a></span>inc_w()</h2>
+<a id="ae2febd768cbbfb8aab3c2cb669c0505d"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae2febd768cbbfb8aab3c2cb669c0505d">&#9670;&nbsp;</a></span>load_post_increment()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::inc_w </td>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::load_post_increment </td>
           <td>(</td>
-          <td class="paramname"></td><td>)</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
           <td></td>
         </tr>
       </table>
@@ -683,8 +628,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#aec2d692967d9be5d42673dfd
 
 </div>
 </div>
-<a id="a468f8f503777e4a2b0089ee2bd6c471a"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a468f8f503777e4a2b0089ee2bd6c471a">&#9670;&nbsp;</a></span>valid()</h2>
+<a id="a051eb2a8637601cf9c1f52999117151b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a051eb2a8637601cf9c1f52999117151b">&#9670;&nbsp;</a></span>store_element()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -695,8 +640,14 @@ <h2 class="memtitle"><span class="permalink"><a href="#a468f8f503777e4a2b0089ee2
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE bool <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::valid </td>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::store_element </td>
           <td>(</td>
+          <td class="paramtype">typename <a class="el" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">Base::AccessType</a> const &amp;&#160;</td>
+          <td class="paramname"><em>value</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
           <td class="paramtype">int&#160;</td>
           <td class="paramname"><em>d</em>, </td>
         </tr>
@@ -721,7 +672,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a468f8f503777e4a2b0089ee2
         <tr>
           <td></td>
           <td>)</td>
-          <td></td><td> const</td>
+          <td></td><td></td>
         </tr>
       </table>
   </td>
@@ -733,75 +684,57 @@ <h2 class="memtitle"><span class="permalink"><a href="#a468f8f503777e4a2b0089ee2
 
 </div>
 </div>
-<h2 class="groupheader">Member Data Documentation</h2>
-<a id="ae0f176733ba9dee0cce45435ac5d53ba"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ae0f176733ba9dee0cce45435ac5d53ba">&#9670;&nbsp;</a></span>kLayout</h2>
+<a id="a018d5be34cdbb263d7f133197b2921ca"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a018d5be34cdbb263d7f133197b2921ca">&#9670;&nbsp;</a></span>store_post_increment()</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<div class="memtemplate">
+template&lt;typename Fragment &gt; </div>
 <table class="mlabels">
   <tr>
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::kLayout = TileTraits_::kLayout</td>
+          <td class="memname">CUTLASS_DEVICE void <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::store_post_increment </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;&#160;</td>
+          <td class="paramname"><em>fragment</em></td><td>)</td>
+          <td></td>
         </tr>
       </table>
   </td>
   <td class="mlabels-right">
-<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
   </tr>
 </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a0ad4218ad2c10641379b236473e79e84"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a0ad4218ad2c10641379b236473e79e84">&#9670;&nbsp;</a></span>params</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">Params</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::params</td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="af3c9d62554b1d311d82ba89e09cdd3fa"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#af3c9d62554b1d311d82ba89e09cdd3fa">&#9670;&nbsp;</a></span>predicates</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector</a>&lt;Base::Iterations::kW&gt; <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::predicates</td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="ab3057dad7a4decb5594c66aa328f8066"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab3057dad7a4decb5594c66aa328f8066">&#9670;&nbsp;</a></span>thread_offset</h2>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="ae0f176733ba9dee0cce45435ac5d53ba"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae0f176733ba9dee0cce45435ac5d53ba">&#9670;&nbsp;</a></span>kLayout</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
 template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1Coord.html">Coord</a>&lt;4&gt; <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::thread_offset</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> const <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::kLayout = TileTraits_::kLayout</td>
         </tr>
       </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">static</span></span>  </td>
+  </tr>
+</table>
 </div><div class="memdoc">
 
 </div>
@@ -812,7 +745,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab3057dad7a4decb5594c66aa
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.png b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.png
index f5ad5c7aa3..6555799de2 100644
Binary files a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.png and b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits-members.html b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits-members.html
index 11f86143e5..e81e89e173 100644
--- a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits-members.html
+++ b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits-members.html
@@ -82,7 +82,7 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86">Base</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002">Delta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits&lt; Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#af219ece6e66e2866169e06e15cc4472d">kMemorySpace</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"><span class="mlabel">static</span></td></tr>
@@ -90,13 +90,14 @@
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6894b653fffa59bcb847bc3295643d6b">Scalar</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">ThreadsDelta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a> typedef</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html
index d327b3c16a..265747987e 100644
--- a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html
+++ b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html
@@ -113,25 +113,28 @@
 <tr class="memitem:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef Scalar_ *&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">Pointer</a></td></tr>
 <tr class="memdesc:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a3ff6f630b6b317ace1cf6e13fdf3a0cd">More...</a><br /></td></tr>
 <tr class="separator:a3ff6f630b6b317ace1cf6e13fdf3a0cd inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aebbf8834d0d88f0e5b3e1926db5e6758 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt; Tile_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a></td></tr>
-<tr class="memdesc:aebbf8834d0d88f0e5b3e1926db5e6758 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">More...</a><br /></td></tr>
-<tr class="separator:aebbf8834d0d88f0e5b3e1926db5e6758 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a29bd05960cc541bb67098f5483c84cf6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>, Threads_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">Threads</a></td></tr>
-<tr class="memdesc:a29bd05960cc541bb67098f5483c84cf6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a29bd05960cc541bb67098f5483c84cf6">More...</a><br /></td></tr>
-<tr class="separator:a29bd05960cc541bb67098f5483c84cf6 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a65f9ccd630dde0c9db5358cfc951583d inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, Tile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">ThreadsDelta</a></td></tr>
-<tr class="memdesc:a65f9ccd630dde0c9db5358cfc951583d inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The relative offset between two elements in the H/W dimension in adjacent threads.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a65f9ccd630dde0c9db5358cfc951583d">More...</a><br /></td></tr>
-<tr class="separator:a65f9ccd630dde0c9db5358cfc951583d inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef Tile_&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a></td></tr>
+<tr class="memdesc:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">More...</a><br /></td></tr>
+<tr class="separator:a52ba72984ea8ce84eda28d07c6c8ec19 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1ReshapeTile.html">ReshapeTile</a>&lt; Tile_, kAccessSize_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a></td></tr>
+<tr class="memdesc:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The vectorized tile shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">More...</a><br /></td></tr>
+<tr class="separator:a6cb3196f1fe3958d1656ba8b493c82ac inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1ReshapeThreads.html">ReshapeThreads</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a6cb3196f1fe3958d1656ba8b493c82ac">VectorizedTile</a>, Threads_ &gt;::<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">Threads</a></td></tr>
+<tr class="memdesc:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The threads shape.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aae7128f5522383c857d2639031b64c30">More...</a><br /></td></tr>
+<tr class="separator:aae7128f5522383c857d2639031b64c30 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, 1, VectorizedTile::kC &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">ThreadsDelta</a></td></tr>
+<tr class="memdesc:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The relative offset between two elements in the H/W dimension in adjacent threads.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a428750e54eabd15b2a3f7ac2a96af0a9">More...</a><br /></td></tr>
+<tr class="separator:a428750e54eabd15b2a3f7ac2a96af0a9 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, Threads::kH, Threads::kW *<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">Delta</a></td></tr>
 <tr class="memdesc:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides in each dimension between different loads/stores.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a07bb48f99000256f04f00564a4371c2f">More...</a><br /></td></tr>
 <tr class="separator:a07bb48f99000256f04f00564a4371c2f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 0, 0, Threads::kW *ThreadsDelta::kW, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">ImmediateOffsetStrides</a></td></tr>
 <tr class="memdesc:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">Strides for immediate offset computation.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#abc47717230ddde3edc88d2770f6841bf">More...</a><br /></td></tr>
 <tr class="separator:abc47717230ddde3edc88d2770f6841bf inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aaf6410f99d7f995792d0ac34efd3a82f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, Tile::kH/Threads::kH, Tile::kW/Threads::kW, Tile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">Iterations</a></td></tr>
-<tr class="memdesc:aaf6410f99d7f995792d0ac34efd3a82f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aaf6410f99d7f995792d0ac34efd3a82f">More...</a><br /></td></tr>
-<tr class="separator:aaf6410f99d7f995792d0ac34efd3a82f inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aebbf8834d0d88f0e5b3e1926db5e6758">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td></tr>
+<tr class="memitem:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1Shape.html">Shape</a>&lt; 1, VectorizedTile::kH/Threads::kH, VectorizedTile::kW/Threads::kW, VectorizedTile::kC/<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#aa001e09b246fdd8259cbda6a500cad5f">kAccessSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">Iterations</a></td></tr>
+<tr class="memdesc:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of iterations needed to load/store the tile.  <a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a893cb2cc67676b44c1f3ad5908a4ab0c">More...</a><br /></td></tr>
+<tr class="separator:a893cb2cc67676b44c1f3ad5908a4ab0c inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1gemm_1_1GemmMultiplicandTraits.html">GemmMultiplicandTraits</a>&lt; <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a52ba72984ea8ce84eda28d07c6c8ec19">Tile</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#ae0bca976b7cfba8561db4cccc16e99e1">kOperand</a>, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a74bc07cb021a73513ab2fbacd572be90">kLayout</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html#a21a3524edaf002b5e5878df3c7eae7e7">MultiplicandTraits</a></td></tr>
 <tr class="separator:a21a3524edaf002b5e5878df3c7eae7e7 inherit pub_types_structcutlass_1_1gemm_1_1GemmGlobalTileTraits"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
@@ -189,7 +192,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab55665f7c2f2cb8b8b9b8ac8
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset-members.html b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset-members.html
index 383587f8e5..3e1d6494ae 100644
--- a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset-members.html
+++ b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html
index 0b836280fb..0a9852228a 100644
--- a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html
+++ b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html
@@ -124,7 +124,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad7537f8b30ee6913cf4afa1d
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params-members.html b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params-members.html
index 9f72d0038e..d7d5aa01ca 100644
--- a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params-members.html
+++ b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params-members.html
@@ -79,18 +79,19 @@
 
 <p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a857db0c999250248b104f17f13fe9bd8">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#ad6b65c5f3ed7cd9e7ffeb684cbf30d04">initialize</a>(Pointer pointer, Index ld, Index n, Index epilogue_stride_w, Index epilogue_delta_w)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa0367d016549cce6bd896bae364fc248">predicate_inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6">predicate_inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">predicate_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a98867f4fc4daf790e309f8365e71cc8f">initialize</a>(Pointer pointer, long long batch_stride, Index ldm, Index n, Index epilogue_stride_w, Index epilogue_delta_w)</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">predicate_inc_advance</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">predicate_inc_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">stride_d</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a></td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html
index 32bf2ce884..cfe095ab85 100644
--- a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html
+++ b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html
@@ -74,7 +74,6 @@
 <div class="header">
   <div class="summary">
 <a href="#pub-methods">Public Member Functions</a> &#124;
-<a href="#pub-attribs">Public Attributes</a> &#124;
 <a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params-members.html">List of all members</a>  </div>
   <div class="headertitle">
 <div class="title">cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params Struct Reference</div>  </div>
@@ -85,38 +84,55 @@
 </p>
 
 <p><code>#include &lt;<a class="el" href="wmma__gemm__global__tile_8h_source.html">wmma_gemm_global_tile.h</a>&gt;</code></p>
+<div class="dynheader">
+Inheritance diagram for cutlass::gemm::WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params:</div>
+<div class="dyncontent">
+ <div class="center">
+  <img src="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.png" usemap="#cutlass::gemm::WmmaGemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E::Params_map" alt=""/>
+  <map id="cutlass::gemm::WmmaGemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E::Params_map" name="cutlass::gemm::WmmaGemmGlobalIteratorCd_3C_20TileTraits_5F_2C_20Index_5F_20_3E::Params_map">
+<area href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html" title="The params. " alt="cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params" shape="rect" coords="0,0,433,24"/>
+</map>
+ </div></div>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:ad6b65c5f3ed7cd9e7ffeb684cbf30d04"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#ad6b65c5f3ed7cd9e7ffeb684cbf30d04">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a>, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> ld, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> n, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> epilogue_stride_w, <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> epilogue_delta_w)</td></tr>
-<tr class="memdesc:ad6b65c5f3ed7cd9e7ffeb684cbf30d04"><td class="mdescLeft">&#160;</td><td class="mdescRight">Setup the params.  <a href="#ad6b65c5f3ed7cd9e7ffeb684cbf30d04">More...</a><br /></td></tr>
-<tr class="separator:ad6b65c5f3ed7cd9e7ffeb684cbf30d04"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a98867f4fc4daf790e309f8365e71cc8f"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a98867f4fc4daf790e309f8365e71cc8f">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>, long long batch_stride, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> ldm, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> n, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_stride_w, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_delta_w)</td></tr>
+<tr class="memdesc:a98867f4fc4daf790e309f8365e71cc8f"><td class="mdescLeft">&#160;</td><td class="mdescRight">Setup the params.  <a href="#a98867f4fc4daf790e309f8365e71cc8f">More...</a><br /></td></tr>
+<tr class="separator:a98867f4fc4daf790e309f8365e71cc8f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="inherit_header pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Member Functions inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td></tr>
+<tr class="memitem:ae24453fcdf9f21385b2637476746bbe5 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5">initialize</a> (<a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>, long long batch_stride, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> ldm, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> bound, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_stride_w, <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_delta_w)</td></tr>
+<tr class="memdesc:ae24453fcdf9f21385b2637476746bbe5 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">Setup the params.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ae24453fcdf9f21385b2637476746bbe5">More...</a><br /></td></tr>
+<tr class="separator:ae24453fcdf9f21385b2637476746bbe5 inherit pub_methods_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
-<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
-Public Attributes</h2></td></tr>
-<tr class="memitem:aa42c4e7419308926b925909e6a5c719d"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a></td></tr>
-<tr class="memdesc:aa42c4e7419308926b925909e6a5c719d"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="#aa42c4e7419308926b925909e6a5c719d">More...</a><br /></td></tr>
-<tr class="separator:aa42c4e7419308926b925909e6a5c719d"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5cff0436eed0fefa2957ad6d083ed007"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007">stride_h</a></td></tr>
-<tr class="memdesc:a5cff0436eed0fefa2957ad6d083ed007"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stride in the H dimension to setup the thread in the block.  <a href="#a5cff0436eed0fefa2957ad6d083ed007">More...</a><br /></td></tr>
-<tr class="separator:a5cff0436eed0fefa2957ad6d083ed007"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a6306f771718c0c05276e103f30f862b2"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2">inc_h</a></td></tr>
-<tr class="memdesc:a6306f771718c0c05276e103f30f862b2"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides to increment the pointer.  <a href="#a6306f771718c0c05276e103f30f862b2">More...</a><br /></td></tr>
-<tr class="separator:a6306f771718c0c05276e103f30f862b2"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a857db0c999250248b104f17f13fe9bd8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a857db0c999250248b104f17f13fe9bd8">inc_advance</a></td></tr>
-<tr class="separator:a857db0c999250248b104f17f13fe9bd8"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a38f13119cf3111e84914f1bef6f5d985"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">predicate_offset</a></td></tr>
-<tr class="memdesc:a38f13119cf3111e84914f1bef6f5d985"><td class="mdescLeft">&#160;</td><td class="mdescRight">The column offset to compute the predicate for the columns.  <a href="#a38f13119cf3111e84914f1bef6f5d985">More...</a><br /></td></tr>
-<tr class="separator:a38f13119cf3111e84914f1bef6f5d985"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a5b8177a936ba30a3d68ca238aaf76ff6"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6">predicate_inc_h</a></td></tr>
-<tr class="memdesc:a5b8177a936ba30a3d68ca238aaf76ff6"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides to increment the predicate offset.  <a href="#a5b8177a936ba30a3d68ca238aaf76ff6">More...</a><br /></td></tr>
-<tr class="separator:a5b8177a936ba30a3d68ca238aaf76ff6"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aa0367d016549cce6bd896bae364fc248"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa0367d016549cce6bd896bae364fc248">predicate_inc_advance</a></td></tr>
-<tr class="separator:aa0367d016549cce6bd896bae364fc248"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="inherited"></a>
+Additional Inherited Members</h2></td></tr>
+<tr class="inherit_header pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td colspan="2" onclick="javascript:toggleInherit('pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params')"><img src="closed.png" alt="-"/>&#160;Public Attributes inherited from <a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt;::Params</a></td></tr>
+<tr class="memitem:ad764f98e770d4685006e6888214dcd4d inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a></td></tr>
+<tr class="memdesc:ad764f98e770d4685006e6888214dcd4d inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">The pointer.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">More...</a><br /></td></tr>
+<tr class="separator:ad764f98e770d4685006e6888214dcd4d inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1a53695ce7f3cb267225d3ab86a0d5aa inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memItemLeft" align="right" valign="top">long long&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">stride_d</a></td></tr>
+<tr class="memdesc:a1a53695ce7f3cb267225d3ab86a0d5aa inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stride in the D dimension.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">More...</a><br /></td></tr>
+<tr class="separator:a1a53695ce7f3cb267225d3ab86a0d5aa inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0c6b03c635e14ad4424a83f8c7f8025e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">stride_h</a></td></tr>
+<tr class="memdesc:a0c6b03c635e14ad4424a83f8c7f8025e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">The stride in the H dimension to setup the thread in the block.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">More...</a><br /></td></tr>
+<tr class="separator:a0c6b03c635e14ad4424a83f8c7f8025e inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8c2618ac16362a8362dcddeed71c41d4 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">inc_advance</a></td></tr>
+<tr class="memdesc:a8c2618ac16362a8362dcddeed71c41d4 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides to increment the pointer.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">More...</a><br /></td></tr>
+<tr class="separator:a8c2618ac16362a8362dcddeed71c41d4 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aed94505e5a269d5f33499e71284104f5 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">inc_h</a></td></tr>
+<tr class="separator:aed94505e5a269d5f33499e71284104f5 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2b5d2b02d241e89677c41eb658ace129 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">predicate_inc_advance</a></td></tr>
+<tr class="memdesc:a2b5d2b02d241e89677c41eb658ace129 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">The strides to increment the predicate offset.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">More...</a><br /></td></tr>
+<tr class="separator:a2b5d2b02d241e89677c41eb658ace129 inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a36afe18f94aacd0746c8946866371d3c inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">predicate_inc_h</a></td></tr>
+<tr class="separator:a36afe18f94aacd0746c8946866371d3c inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3e8f6cf08d23318f3e3263b55cf3b84a inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">predicate_offset</a></td></tr>
+<tr class="memdesc:a3e8f6cf08d23318f3e3263b55cf3b84a inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="mdescLeft">&#160;</td><td class="mdescRight">The column offset to compute the predicate for the columns.  <a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">More...</a><br /></td></tr>
+<tr class="separator:a3e8f6cf08d23318f3e3263b55cf3b84a inherit pub_attribs_structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="ad6b65c5f3ed7cd9e7ffeb684cbf30d04"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ad6b65c5f3ed7cd9e7ffeb684cbf30d04">&#9670;&nbsp;</a></span>initialize()</h2>
+<a id="a98867f4fc4daf790e309f8365e71cc8f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a98867f4fc4daf790e309f8365e71cc8f">&#9670;&nbsp;</a></span>initialize()</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -129,31 +145,37 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad6b65c5f3ed7cd9e7ffeb684
         <tr>
           <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::Params::initialize </td>
           <td>(</td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a>&#160;</td>
           <td class="paramname"><em>pointer</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>&#160;</td>
-          <td class="paramname"><em>ld</em>, </td>
+          <td class="paramtype">long long&#160;</td>
+          <td class="paramname"><em>batch_stride</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td>
+          <td class="paramname"><em>ldm</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td>
           <td class="paramname"><em>n</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td>
           <td class="paramname"><em>epilogue_stride_w</em>, </td>
         </tr>
         <tr>
           <td class="paramkey"></td>
           <td></td>
-          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>&#160;</td>
+          <td class="paramtype"><a class="el" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a>&#160;</td>
           <td class="paramname"><em>epilogue_delta_w</em>&#160;</td>
         </tr>
         <tr>
@@ -169,119 +191,6 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad6b65c5f3ed7cd9e7ffeb684
 </table>
 </div><div class="memdoc">
 
-</div>
-</div>
-<h2 class="groupheader">Member Data Documentation</h2>
-<a id="a857db0c999250248b104f17f13fe9bd8"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a857db0c999250248b104f17f13fe9bd8">&#9670;&nbsp;</a></span>inc_advance</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::Params::inc_advance</td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a6306f771718c0c05276e103f30f862b2"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a6306f771718c0c05276e103f30f862b2">&#9670;&nbsp;</a></span>inc_h</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::Params::inc_h</td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="aa42c4e7419308926b925909e6a5c719d"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa42c4e7419308926b925909e6a5c719d">&#9670;&nbsp;</a></span>pointer</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::Params::pointer</td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="aa0367d016549cce6bd896bae364fc248"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa0367d016549cce6bd896bae364fc248">&#9670;&nbsp;</a></span>predicate_inc_advance</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::Params::predicate_inc_advance</td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a5b8177a936ba30a3d68ca238aaf76ff6"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5b8177a936ba30a3d68ca238aaf76ff6">&#9670;&nbsp;</a></span>predicate_inc_h</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::Params::predicate_inc_h</td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a38f13119cf3111e84914f1bef6f5d985"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a38f13119cf3111e84914f1bef6f5d985">&#9670;&nbsp;</a></span>predicate_offset</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::Params::predicate_offset</td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
-</div>
-</div>
-<a id="a5cff0436eed0fefa2957ad6d083ed007"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a5cff0436eed0fefa2957ad6d083ed007">&#9670;&nbsp;</a></span>stride_h</h2>
-
-<div class="memitem">
-<div class="memproto">
-<div class="memtemplate">
-template&lt;typename TileTraits_ , typename Index_  = int&gt; </div>
-      <table class="memname">
-        <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> <a class="el" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a>&lt; TileTraits_, Index_ &gt;::Params::stride_h</td>
-        </tr>
-      </table>
-</div><div class="memdoc">
-
 </div>
 </div>
 <hr/>The documentation for this struct was generated from the following file:<ul>
@@ -290,7 +199,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5cff0436eed0fefa2957ad6d
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.png b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.png
new file mode 100644
index 0000000000..27742572e4
Binary files /dev/null and b/docs/structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.png differ
diff --git a/docs/structcutlass_1_1gemm_1_1swizzleDirection-members.html b/docs/structcutlass_1_1gemm_1_1swizzleDirection-members.html
new file mode 100644
index 0000000000..f5ef4f4e69
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1swizzleDirection-members.html
@@ -0,0 +1,93 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html">swizzleDirection</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::gemm::swizzleDirection Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html">cutlass::gemm::swizzleDirection</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa">Boustrophedon</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html">cutlass::gemm::swizzleDirection</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8">Kind</a> enum name</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html">cutlass::gemm::swizzleDirection</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5">OneDirection</a> enum value</td><td class="entry"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html">cutlass::gemm::swizzleDirection</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1gemm_1_1swizzleDirection.html b/docs/structcutlass_1_1gemm_1_1swizzleDirection.html
new file mode 100644
index 0000000000..5fa910d263
--- /dev/null
+++ b/docs/structcutlass_1_1gemm_1_1swizzleDirection.html
@@ -0,0 +1,122 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::gemm::swizzleDirection Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="namespacecutlass_1_1gemm.html">gemm</a></li><li class="navelem"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html">swizzleDirection</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="structcutlass_1_1gemm_1_1swizzleDirection-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::gemm::swizzleDirection Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="threadblock__swizzle_8h_source.html">threadblock_swizzle.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:aba1528de966f236380c5f55942802fb8"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8">Kind</a> { <a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa">Boustrophedon</a>, 
+<a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5">OneDirection</a>
+ }</td></tr>
+<tr class="separator:aba1528de966f236380c5f55942802fb8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Enumeration Documentation</h2>
+<a id="aba1528de966f236380c5f55942802fb8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aba1528de966f236380c5f55942802fb8">&#9670;&nbsp;</a></span>Kind</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">enum <a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8">cutlass::gemm::swizzleDirection::Kind</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa"></a>Boustrophedon&#160;</td><td class="fielddoc"></td></tr>
+<tr><td class="fieldname"><a id="aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5"></a>OneDirection&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="threadblock__swizzle_8h_source.html">threadblock_swizzle.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1int4__t.html b/docs/structcutlass_1_1int4__t.html
new file mode 100644
index 0000000000..ea0a33e92e
--- /dev/null
+++ b/docs/structcutlass_1_1int4__t.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::int4_t Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1int4__t.html">int4_t</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::int4_t Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="numeric__types_8h_source.html">numeric_types.h</a>&gt;</code></p>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="numeric__types_8h_source.html">numeric_types.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/structcutlass_1_1is__pow2-members.html b/docs/structcutlass_1_1is__pow2-members.html
index 8ec0131585..22f162427c 100644
--- a/docs/structcutlass_1_1is__pow2-members.html
+++ b/docs/structcutlass_1_1is__pow2-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1is__pow2.html b/docs/structcutlass_1_1is__pow2.html
index 01c0ea1679..d3f497d616 100644
--- a/docs/structcutlass_1_1is__pow2.html
+++ b/docs/structcutlass_1_1is__pow2.html
@@ -117,7 +117,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1log2__down-members.html b/docs/structcutlass_1_1log2__down-members.html
index e585259d9b..547b840d5f 100644
--- a/docs/structcutlass_1_1log2__down-members.html
+++ b/docs/structcutlass_1_1log2__down-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1log2__down.html b/docs/structcutlass_1_1log2__down.html
index bee9f1c87f..82b470a4a3 100644
--- a/docs/structcutlass_1_1log2__down.html
+++ b/docs/structcutlass_1_1log2__down.html
@@ -120,7 +120,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a793565cd891559fab765455e
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4-members.html b/docs/structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4-members.html
index 9e97ad5958..11bdf8691f 100644
--- a/docs/structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4-members.html
+++ b/docs/structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html b/docs/structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html
index 115f5dec0a..37b333f170 100644
--- a/docs/structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html
+++ b/docs/structcutlass_1_1log2__down_3_01N_00_011_00_01Count_01_4.html
@@ -114,7 +114,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad7d3c2329ab708bd4af36ffa
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1log2__up-members.html b/docs/structcutlass_1_1log2__up-members.html
index b402e19a24..0be9611823 100644
--- a/docs/structcutlass_1_1log2__up-members.html
+++ b/docs/structcutlass_1_1log2__up-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1log2__up.html b/docs/structcutlass_1_1log2__up.html
index 76434f767a..e639242bc8 100644
--- a/docs/structcutlass_1_1log2__up.html
+++ b/docs/structcutlass_1_1log2__up.html
@@ -120,7 +120,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5826002505544547d0c5cc31
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4-members.html b/docs/structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4-members.html
index 43e9b591a8..ac1f19d9de 100644
--- a/docs/structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4-members.html
+++ b/docs/structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html b/docs/structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html
index 7fffdf1b7f..2ec0db026d 100644
--- a/docs/structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html
+++ b/docs/structcutlass_1_1log2__up_3_01N_00_011_00_01Count_01_4.html
@@ -114,7 +114,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab001737f02df0a2c514334a1
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1aligned__chunk.html b/docs/structcutlass_1_1platform_1_1aligned__chunk.html
index 3de8d20ba9..6575901e7f 100644
--- a/docs/structcutlass_1_1platform_1_1aligned__chunk.html
+++ b/docs/structcutlass_1_1platform_1_1aligned__chunk.html
@@ -84,7 +84,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1aligned__storage-members.html b/docs/structcutlass_1_1platform_1_1aligned__storage-members.html
index fd6fe12ec7..d6e3fede2d 100644
--- a/docs/structcutlass_1_1platform_1_1aligned__storage-members.html
+++ b/docs/structcutlass_1_1platform_1_1aligned__storage-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1aligned__storage.html b/docs/structcutlass_1_1platform_1_1aligned__storage.html
index aff24062b1..85482bc927 100644
--- a/docs/structcutlass_1_1platform_1_1aligned__storage.html
+++ b/docs/structcutlass_1_1platform_1_1aligned__storage.html
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9cf0360f335bcd1e9d9e1b26
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of-members.html b/docs/structcutlass_1_1platform_1_1alignment__of-members.html
index fc7b447c38..b71307aca0 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of.html b/docs/structcutlass_1_1platform_1_1alignment__of.html
index 694be0bd36..a560500c04 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of.html
@@ -134,7 +134,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa1d40937d3536b68e90c5807
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_1_1pad-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_1_1pad-members.html
index acdc53706c..53f1cd1df5 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_1_1pad-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_1_1pad-members.html
@@ -84,7 +84,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_1_1pad.html b/docs/structcutlass_1_1platform_1_1alignment__of_1_1pad.html
index 55d1bd6e89..8adc06db74 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_1_1pad.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_1_1pad.html
@@ -128,7 +128,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#abc729cc51d5c90b1d7b0df30
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4-members.html
index ea64f250a6..cf8ad55c77 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4.html
index 8e98bc5309..d9cebbcc71 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01value__t_01_4.html
@@ -103,7 +103,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4-members.html
index a61b3244bf..86b364d39c 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4.html
index 4f8edc6ee4..0336e30031 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01const_01volatile_01value__t_01_4.html
@@ -103,7 +103,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4-members.html
index 0e3715f698..b7dd56b61b 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html
index a60e78c50e..6dc811c7f4 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01double2_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a5fb114d264023728cca53644
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4-members.html
index 8f2714a949..d2af5cc28c 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html
index 2084602e2e..4dbbef8cc0 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01double4_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a024eaf40a8f3e8bd38b41686
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4-members.html
index 3cbf902fce..b5a95a3d4d 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html
index 845ab556a7..2bdfc0d1dc 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01float4_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac9e709c32271b14b35c9607c
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4-members.html
index 8aa7582844..128c7f1daf 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html
index 1d78331a60..7932c21215 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01int4_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a6005c446eb41749276e0114b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4-members.html
index b788913c9e..8d96dc2339 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html
index 0a6a59b613..f20b6e3f80 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01long4_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ad58512f76f0b9b000d48f1ff
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4-members.html
index ce64ecf4b6..378c0a2c3a 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html
index b5d0d2149b..4ff677b769 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong2_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aadf6522691db02f1aab22c22
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4-members.html
index 7bdc4055ee..c683dfcb55 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html
index e03232f6a5..ace782e1b7 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01longlong4_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a666c4fd30155873e3499f5cd
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4-members.html
index 501443504a..7795163a1c 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html
index 45a392e244..f5d5f1dbcc 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01uint4_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac55e0c5a0bc4c95981744e55
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4-members.html
index b18799de10..9e94e18cc3 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html
index 45ca5ac52f..e5c523c65e 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulong4_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#adc0eec628649de183fe984bb
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4-members.html
index 867a1a97c1..9ebfeac4ff 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html
index e74e490998..2b6d2db2cc 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong2_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a511f088278b3de04feb55ab6
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4-members.html
index 5720978218..e6e4ef8029 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html
index de2f97f02a..9d9da9e673 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01ulonglong4_01_4.html
@@ -112,7 +112,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a2568c1ab218cab6505bd20e3
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4-members.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4-members.html
index 93d5c38756..862d16f2e7 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html b/docs/structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html
index 9ad8844d23..6cafad3681 100644
--- a/docs/structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1alignment__of_3_01volatile_01value__t_01_4.html
@@ -103,7 +103,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1bool__constant-members.html b/docs/structcutlass_1_1platform_1_1bool__constant-members.html
index 970d8749d3..abd1fa9f7f 100644
--- a/docs/structcutlass_1_1platform_1_1bool__constant-members.html
+++ b/docs/structcutlass_1_1platform_1_1bool__constant-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1bool__constant.html b/docs/structcutlass_1_1platform_1_1bool__constant.html
index 77a7942d0c..ea222ccbe9 100644
--- a/docs/structcutlass_1_1platform_1_1bool__constant.html
+++ b/docs/structcutlass_1_1platform_1_1bool__constant.html
@@ -115,7 +115,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1conditional-members.html b/docs/structcutlass_1_1platform_1_1conditional-members.html
index 0e246b140a..0d33dde9d5 100644
--- a/docs/structcutlass_1_1platform_1_1conditional-members.html
+++ b/docs/structcutlass_1_1platform_1_1conditional-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1conditional.html b/docs/structcutlass_1_1platform_1_1conditional.html
index 71ae69b88f..2dc52bba27 100644
--- a/docs/structcutlass_1_1platform_1_1conditional.html
+++ b/docs/structcutlass_1_1platform_1_1conditional.html
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab6484d0dd6449b5195c4e868
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4-members.html b/docs/structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4-members.html
index 309d3523c0..049dc4a618 100644
--- a/docs/structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html b/docs/structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html
index 4eee2e3ea2..f7785b7a08 100644
--- a/docs/structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1conditional_3_01false_00_01T_00_01F_01_4.html
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8d55f500f667de560650554e
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1default__delete-members.html b/docs/structcutlass_1_1platform_1_1default__delete-members.html
index 0d47203dc7..8066c92dcf 100644
--- a/docs/structcutlass_1_1platform_1_1default__delete-members.html
+++ b/docs/structcutlass_1_1platform_1_1default__delete-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1default__delete.html b/docs/structcutlass_1_1platform_1_1default__delete.html
index d15c650d50..f11beac1dc 100644
--- a/docs/structcutlass_1_1platform_1_1default__delete.html
+++ b/docs/structcutlass_1_1platform_1_1default__delete.html
@@ -125,7 +125,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a59e6e3cc95685ac34fa6f9cf
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1default__delete_3_01T[]_4-members.html b/docs/structcutlass_1_1platform_1_1default__delete_3_01T[]_4-members.html
index 2ad2a94889..ba1d7c7b8a 100644
--- a/docs/structcutlass_1_1platform_1_1default__delete_3_01T[]_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1default__delete_3_01T[]_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html b/docs/structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html
index 9051d14f5c..611d31ac79 100644
--- a/docs/structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html
+++ b/docs/structcutlass_1_1platform_1_1default__delete_3_01T[]_4.html
@@ -125,7 +125,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a16c5595a5aec7d7ee34e38be
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1enable__if-members.html b/docs/structcutlass_1_1platform_1_1enable__if-members.html
index cd8ca9d5e5..8a13fe0f6e 100644
--- a/docs/structcutlass_1_1platform_1_1enable__if-members.html
+++ b/docs/structcutlass_1_1platform_1_1enable__if-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1enable__if.html b/docs/structcutlass_1_1platform_1_1enable__if.html
index 2621d1739a..dd6b21d41c 100644
--- a/docs/structcutlass_1_1platform_1_1enable__if.html
+++ b/docs/structcutlass_1_1platform_1_1enable__if.html
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aff9c0f270020cf097addf77e
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html b/docs/structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html
index 22e8b1c946..423fcd4fe0 100644
--- a/docs/structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1enable__if_3_01false_00_01T_01_4.html
@@ -87,7 +87,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1greater-members.html b/docs/structcutlass_1_1platform_1_1greater-members.html
index 4cf39f7c71..502eceb0d7 100644
--- a/docs/structcutlass_1_1platform_1_1greater-members.html
+++ b/docs/structcutlass_1_1platform_1_1greater-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1greater.html b/docs/structcutlass_1_1platform_1_1greater.html
index aadc82c7ed..b040ae73de 100644
--- a/docs/structcutlass_1_1platform_1_1greater.html
+++ b/docs/structcutlass_1_1platform_1_1greater.html
@@ -135,7 +135,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8d56cf343dd33acebe19d0b5
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1integral__constant-members.html b/docs/structcutlass_1_1platform_1_1integral__constant-members.html
index 40aca68b80..0888a9f26d 100644
--- a/docs/structcutlass_1_1platform_1_1integral__constant-members.html
+++ b/docs/structcutlass_1_1platform_1_1integral__constant-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1integral__constant.html b/docs/structcutlass_1_1platform_1_1integral__constant.html
index db936f3f93..716aedc4e3 100644
--- a/docs/structcutlass_1_1platform_1_1integral__constant.html
+++ b/docs/structcutlass_1_1platform_1_1integral__constant.html
@@ -253,7 +253,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9bbaca83ae76941edb9b75b2
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__arithmetic-members.html b/docs/structcutlass_1_1platform_1_1is__arithmetic-members.html
index 1b38edecfb..088ad7900f 100644
--- a/docs/structcutlass_1_1platform_1_1is__arithmetic-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__arithmetic-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__arithmetic.html b/docs/structcutlass_1_1platform_1_1is__arithmetic.html
index a97af770ea..337dca8f08 100644
--- a/docs/structcutlass_1_1platform_1_1is__arithmetic.html
+++ b/docs/structcutlass_1_1platform_1_1is__arithmetic.html
@@ -115,7 +115,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__base__of-members.html b/docs/structcutlass_1_1platform_1_1is__base__of-members.html
index 249c1c9192..5a9b58c9d9 100644
--- a/docs/structcutlass_1_1platform_1_1is__base__of-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__base__of-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__base__of.html b/docs/structcutlass_1_1platform_1_1is__base__of.html
index dedb3f49f1..e3391d184e 100644
--- a/docs/structcutlass_1_1platform_1_1is__base__of.html
+++ b/docs/structcutlass_1_1platform_1_1is__base__of.html
@@ -115,7 +115,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__base__of__helper-members.html b/docs/structcutlass_1_1platform_1_1is__base__of__helper-members.html
index 8b6909276c..3a2bcd26d8 100644
--- a/docs/structcutlass_1_1platform_1_1is__base__of__helper-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__base__of__helper-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__base__of__helper.html b/docs/structcutlass_1_1platform_1_1is__base__of__helper.html
index 023363b0f2..23c1e54c46 100644
--- a/docs/structcutlass_1_1platform_1_1is__base__of__helper.html
+++ b/docs/structcutlass_1_1platform_1_1is__base__of__helper.html
@@ -256,7 +256,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac7e3ab73057682cc2eb6ed74
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy-members.html b/docs/structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy-members.html
index 681dfbf0ff..1554dea396 100644
--- a/docs/structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy-members.html
@@ -84,7 +84,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html b/docs/structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html
index 99556de73f..bf8f329e8d 100644
--- a/docs/structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html
+++ b/docs/structcutlass_1_1platform_1_1is__base__of__helper_1_1dummy.html
@@ -138,7 +138,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8aadc500baf1492b1a4d05cc
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__floating__point-members.html b/docs/structcutlass_1_1platform_1_1is__floating__point-members.html
index d9fc909147..725d40ab82 100644
--- a/docs/structcutlass_1_1platform_1_1is__floating__point-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__floating__point-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__floating__point.html b/docs/structcutlass_1_1platform_1_1is__floating__point.html
index a4612f1743..ea7cc9638c 100644
--- a/docs/structcutlass_1_1platform_1_1is__floating__point.html
+++ b/docs/structcutlass_1_1platform_1_1is__floating__point.html
@@ -115,7 +115,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__fundamental-members.html b/docs/structcutlass_1_1platform_1_1is__fundamental-members.html
index 9594895f58..9a178ab835 100644
--- a/docs/structcutlass_1_1platform_1_1is__fundamental-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__fundamental-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__fundamental.html b/docs/structcutlass_1_1platform_1_1is__fundamental.html
index 0fbbe471b4..028831ed63 100644
--- a/docs/structcutlass_1_1platform_1_1is__fundamental.html
+++ b/docs/structcutlass_1_1platform_1_1is__fundamental.html
@@ -115,7 +115,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral-members.html b/docs/structcutlass_1_1platform_1_1is__integral-members.html
index 1e8b709606..7967813b2d 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral.html b/docs/structcutlass_1_1platform_1_1is__integral.html
index a8218637a0..27f93de9cd 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral.html
@@ -118,7 +118,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01char_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01char_01_4-members.html
index 6de7dfe3b8..1993b9f8eb 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01char_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01char_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html
index faa0e6d2e8..07cfe696cb 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01char_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4-members.html
index 8f7fc5b489..b303b701ad 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html
index 769cba51dc..1b4b4a57fd 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01T_01_4.html
@@ -113,7 +113,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4-members.html
index 435a585bcb..275d16904d 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html
index 44de345ced..3d9479b361 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01const_01volatile_01T_01_4.html
@@ -113,7 +113,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01int_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01int_01_4-members.html
index 28ebf9d1a5..1667f2c2f8 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01int_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01int_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html
index fe037e174f..d3e96de611 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01int_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01_4-members.html
index 679ccf3beb..9c273ee06d 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html
index 2643071c14..170284ec32 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4-members.html
index 82a054faef..f03e2d6ee0 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html
index a3f5c11d5f..cdc7f9eb7a 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01long_01long_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01short_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01short_01_4-members.html
index 3dc681ff1c..5749a385ab 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01short_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01short_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html
index 119f69bf53..44fbff05a9 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01short_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4-members.html
index 74a51c68b8..898e12fab2 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html
index 78ff2a0c7f..122567a456 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01signed_01char_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4-members.html
index ce56848476..ef844b7d28 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html
index eb0734cd7b..e827488947 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01char_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4-members.html
index e334b6af4f..a3d2668c37 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html
index 669a35f45b..35e937cec2 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01int_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4-members.html
index f0de602047..44f6009e8c 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html
index 57166d8f46..334d78ff07 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4-members.html
index 4c796bf97c..ac4ff358db 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html
index 8fb6640e3d..b35f196675 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01long_01long_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4-members.html
index c7dbea3fb9..ac20da4105 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html
index 3dad4c368c..14e0ba1b94 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01unsigned_01short_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4-members.html
index cf6c6e95dd..a2562e4104 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html b/docs/structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html
index 771358c7e9..8b05024267 100644
--- a/docs/structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__integral_3_01volatile_01T_01_4.html
@@ -113,7 +113,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__pointer-members.html b/docs/structcutlass_1_1platform_1_1is__pointer-members.html
index 7f6e12d67d..64a2548506 100644
--- a/docs/structcutlass_1_1platform_1_1is__pointer-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__pointer-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__pointer.html b/docs/structcutlass_1_1platform_1_1is__pointer.html
index f6bd0999e1..20c2f44c71 100644
--- a/docs/structcutlass_1_1platform_1_1is__pointer.html
+++ b/docs/structcutlass_1_1platform_1_1is__pointer.html
@@ -116,7 +116,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__pointer__helper-members.html b/docs/structcutlass_1_1platform_1_1is__pointer__helper-members.html
index 4d36210e63..8f471653a8 100644
--- a/docs/structcutlass_1_1platform_1_1is__pointer__helper-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__pointer__helper-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__pointer__helper.html b/docs/structcutlass_1_1platform_1_1is__pointer__helper.html
index 56fdd506bf..8eca9c947a 100644
--- a/docs/structcutlass_1_1platform_1_1is__pointer__helper.html
+++ b/docs/structcutlass_1_1platform_1_1is__pointer__helper.html
@@ -115,7 +115,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4-members.html
index 9a6bacc855..0dfb85ef22 100644
--- a/docs/structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html b/docs/structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html
index 1e1fb5ed62..95599b82ae 100644
--- a/docs/structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__pointer__helper_3_01T_01_5_01_4.html
@@ -115,7 +115,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__same-members.html b/docs/structcutlass_1_1platform_1_1is__same-members.html
index 3ed687e1bc..cd9ffc5032 100644
--- a/docs/structcutlass_1_1platform_1_1is__same-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__same-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__same.html b/docs/structcutlass_1_1platform_1_1is__same.html
index bc71a8458b..7c844864f3 100644
--- a/docs/structcutlass_1_1platform_1_1is__same.html
+++ b/docs/structcutlass_1_1platform_1_1is__same.html
@@ -115,7 +115,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4-members.html
index 0c4aba4854..4574a6cef7 100644
--- a/docs/structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html b/docs/structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html
index 973be03044..869cfc1279 100644
--- a/docs/structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__same_3_01A_00_01A_01_4.html
@@ -115,7 +115,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__trivially__copyable-members.html b/docs/structcutlass_1_1platform_1_1is__trivially__copyable-members.html
index 1ba94b3611..23208073d9 100644
--- a/docs/structcutlass_1_1platform_1_1is__trivially__copyable-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__trivially__copyable-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__trivially__copyable.html b/docs/structcutlass_1_1platform_1_1is__trivially__copyable.html
index f779e4e4ad..e1a0331ef8 100644
--- a/docs/structcutlass_1_1platform_1_1is__trivially__copyable.html
+++ b/docs/structcutlass_1_1platform_1_1is__trivially__copyable.html
@@ -119,7 +119,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__void-members.html b/docs/structcutlass_1_1platform_1_1is__void-members.html
index a04530c018..7d47918d19 100644
--- a/docs/structcutlass_1_1platform_1_1is__void-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__void-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__void.html b/docs/structcutlass_1_1platform_1_1is__void.html
index e71b03581a..cba57610e9 100644
--- a/docs/structcutlass_1_1platform_1_1is__void.html
+++ b/docs/structcutlass_1_1platform_1_1is__void.html
@@ -116,7 +116,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__volatile-members.html b/docs/structcutlass_1_1platform_1_1is__volatile-members.html
index 95b52e5fdc..1491994fd7 100644
--- a/docs/structcutlass_1_1platform_1_1is__volatile-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__volatile-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__volatile.html b/docs/structcutlass_1_1platform_1_1is__volatile.html
index a75658c052..2b61e1588f 100644
--- a/docs/structcutlass_1_1platform_1_1is__volatile.html
+++ b/docs/structcutlass_1_1platform_1_1is__volatile.html
@@ -115,7 +115,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4-members.html b/docs/structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4-members.html
index bc3af38710..2a288547c9 100644
--- a/docs/structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4-members.html
@@ -87,7 +87,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html b/docs/structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html
index c2817b5f3c..69f0ab20b2 100644
--- a/docs/structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1is__volatile_3_01volatile_01T_01_4.html
@@ -112,7 +112,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1less-members.html b/docs/structcutlass_1_1platform_1_1less-members.html
index 24798c6b08..20986e5fe4 100644
--- a/docs/structcutlass_1_1platform_1_1less-members.html
+++ b/docs/structcutlass_1_1platform_1_1less-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1less.html b/docs/structcutlass_1_1platform_1_1less.html
index abaff3e489..7ad26f16cc 100644
--- a/docs/structcutlass_1_1platform_1_1less.html
+++ b/docs/structcutlass_1_1platform_1_1less.html
@@ -135,7 +135,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#adfb49ee70a700a8483c70b4b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1nullptr__t.html b/docs/structcutlass_1_1platform_1_1nullptr__t.html
index c35b9e853f..add701f116 100644
--- a/docs/structcutlass_1_1platform_1_1nullptr__t.html
+++ b/docs/structcutlass_1_1platform_1_1nullptr__t.html
@@ -87,7 +87,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1plus-members.html b/docs/structcutlass_1_1platform_1_1plus-members.html
index 6055a46c00..a78a34dd78 100644
--- a/docs/structcutlass_1_1platform_1_1plus-members.html
+++ b/docs/structcutlass_1_1platform_1_1plus-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1plus.html b/docs/structcutlass_1_1platform_1_1plus.html
index 71f732c90f..e20d3f7696 100644
--- a/docs/structcutlass_1_1platform_1_1plus.html
+++ b/docs/structcutlass_1_1platform_1_1plus.html
@@ -135,7 +135,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a3bf1e5147df4287bf58ad8f1
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1remove__const-members.html b/docs/structcutlass_1_1platform_1_1remove__const-members.html
index a67005a93f..9e2e153301 100644
--- a/docs/structcutlass_1_1platform_1_1remove__const-members.html
+++ b/docs/structcutlass_1_1platform_1_1remove__const-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1remove__const.html b/docs/structcutlass_1_1platform_1_1remove__const.html
index d0af5788f1..003fd3498a 100644
--- a/docs/structcutlass_1_1platform_1_1remove__const.html
+++ b/docs/structcutlass_1_1platform_1_1remove__const.html
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ac3662947fa50251daf58240a
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4-members.html b/docs/structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4-members.html
index 49041398ab..2f23cff47d 100644
--- a/docs/structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html b/docs/structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html
index a8fff9b4df..a803e99e31 100644
--- a/docs/structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1remove__const_3_01const_01T_01_4.html
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#af68706cfaa6af14edc26ad5b
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1remove__cv-members.html b/docs/structcutlass_1_1platform_1_1remove__cv-members.html
index 64c6607b3e..455f01286b 100644
--- a/docs/structcutlass_1_1platform_1_1remove__cv-members.html
+++ b/docs/structcutlass_1_1platform_1_1remove__cv-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1remove__cv.html b/docs/structcutlass_1_1platform_1_1remove__cv.html
index 5972cb34b5..8a2b4bd7ce 100644
--- a/docs/structcutlass_1_1platform_1_1remove__cv.html
+++ b/docs/structcutlass_1_1platform_1_1remove__cv.html
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a19e5b12cf4eb15ce13d63067
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1remove__volatile-members.html b/docs/structcutlass_1_1platform_1_1remove__volatile-members.html
index 19a47545ac..094fcf664e 100644
--- a/docs/structcutlass_1_1platform_1_1remove__volatile-members.html
+++ b/docs/structcutlass_1_1platform_1_1remove__volatile-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1remove__volatile.html b/docs/structcutlass_1_1platform_1_1remove__volatile.html
index eb259c2e6d..0f52d3e15e 100644
--- a/docs/structcutlass_1_1platform_1_1remove__volatile.html
+++ b/docs/structcutlass_1_1platform_1_1remove__volatile.html
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a4f5b043d46206248d1bbbcf6
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4-members.html b/docs/structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4-members.html
index 09e68535b7..9f6bcace8c 100644
--- a/docs/structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4-members.html
+++ b/docs/structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html b/docs/structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html
index d2a95b212b..787398eb26 100644
--- a/docs/structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html
+++ b/docs/structcutlass_1_1platform_1_1remove__volatile_3_01volatile_01T_01_4.html
@@ -113,7 +113,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aca9bb93efe43106321e4afe0
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:15 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:53 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1sqrt__est-members.html b/docs/structcutlass_1_1sqrt__est-members.html
index 56f161409b..c628495987 100644
--- a/docs/structcutlass_1_1sqrt__est-members.html
+++ b/docs/structcutlass_1_1sqrt__est-members.html
@@ -83,7 +83,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1sqrt__est.html b/docs/structcutlass_1_1sqrt__est.html
index c973ff7234..fa8885d195 100644
--- a/docs/structcutlass_1_1sqrt__est.html
+++ b/docs/structcutlass_1_1sqrt__est.html
@@ -119,7 +119,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#abe44577e3d8f34fc07bb9ecf
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/structcutlass_1_1uint4__t.html b/docs/structcutlass_1_1uint4__t.html
new file mode 100644
index 0000000000..fe2c9166cd
--- /dev/null
+++ b/docs/structcutlass_1_1uint4__t.html
@@ -0,0 +1,92 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::uint4_t Struct Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::uint4_t Struct Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="numeric__types_8h_source.html">numeric_types.h</a>&gt;</code></p>
+<hr/>The documentation for this struct was generated from the following file:<ul>
+<li><a class="el" href="numeric__types_8h_source.html">numeric_types.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/tensor__ref_8h.html b/docs/tensor__ref_8h.html
index 14314c66ff..846363ab9a 100644
--- a/docs/tensor__ref_8h.html
+++ b/docs/tensor__ref_8h.html
@@ -82,17 +82,22 @@
 
 <p>Defines a structure containing strides, bounds, and a pointer to tensor data.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;typeinfo&gt;</code><br />
-<code>#include &lt;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&quot;</code><br />
 </div>
 <p><a href="tensor__ref_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_ &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Structure modeling a pointer and stride into a tensor.  <a href="classcutlass_1_1TensorRef.html#details">More...</a><br /></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1IdentityTensorMapFunc.html">cutlass::IdentityTensorMapFunc&lt; Rank &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specialization for rank=1 case with no internal <a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html">StrideVector</a>.  <a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::StrideVector</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -103,7 +108,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/tensor__ref_8h_source.html b/docs/tensor__ref_8h_source.html
index 8031da7d32..fce87a1721 100644
--- a/docs/tensor__ref_8h_source.html
+++ b/docs/tensor__ref_8h_source.html
@@ -76,40 +76,90 @@
 <div class="title">tensor_ref.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="tensor__ref_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;typeinfo&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Storage_, <span class="keywordtype">int</span> Rank_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html">   42</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> {</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">   45</a></span>&#160;  <span class="keyword">typedef</span> Storage_ <a class="code" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">   48</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> = Rank_;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>* ptr_;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> stride_;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">   68</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">TensorRef</a>() : ptr_(<a class="code" href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a>) {}</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#ae48325312183ff61dbd312c64f31fcb8">   72</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#ae48325312183ff61dbd312c64f31fcb8">TensorRef</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>* ptr, <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <a class="code" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>) : ptr_(ptr), stride_(<a class="code" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>) {}</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674">   76</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674">reset</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>* ptr = <span class="keyword">nullptr</span>, <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <a class="code" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a> = <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a>(0)) {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    ptr_ = ptr;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;    stride_ = <a class="code" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;  }</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c">   83</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;T, Rank&gt;</a> <a class="code" href="classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c">convert</a>() {</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> converted_stride;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> - 1; ++i) {</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      converted_stride[i] = stride_[i] * <a class="code" href="structcutlass_1_1Extent.html">Extent&lt;Storage&gt;::kValue</a> / <a class="code" href="structcutlass_1_1Extent.html">Extent&lt;T&gt;::kValue</a>;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;    }</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;    converted_stride[<a class="code" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> - 1] = stride_[<a class="code" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">Rank</a> - 1];</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;T, Rank&gt;</a>(<span class="keyword">reinterpret_cast&lt;</span>T*<span class="keyword">&gt;</span>(ptr_), converted_stride);</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;  }</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">   95</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">good</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ptr_ != <span class="keyword">nullptr</span>; }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">   99</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>* <a class="code" href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">data</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ptr_; }</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">  103</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> stride_; }</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31">  107</a></span>&#160;  <span class="keywordtype">int</span> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31">stride</a>(<span class="keywordtype">int</span> dim)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> stride_.<a class="code" href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">at</a>(dim); }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77">  111</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77">leading_dim</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="platform_8h.html#abd31f291635329bc15292954f1f01d38">__NV_STD_MAX</a>(stride_[1], stride_[2]); }</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">  115</a></span>&#160;  <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">offset</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <span class="keywordflow">return</span> stride_.template dot&lt;long long&gt;(coord);</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;  }</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00121"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">  121</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">at</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ptr_[<a class="code" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">offset</a>(coord)]; }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a6a2aa88ed77557c089a165da0df1e974">  124</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#a6a2aa88ed77557c089a165da0df1e974">operator[]</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">at</a>(coord); }</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215">  128</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215">at</a>(<span class="keywordtype">int</span> idx)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ptr_[idx]; }</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c">  131</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c">operator[]</a>(<span class="keywordtype">int</span> idx)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">at</a>(idx); }</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00135"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478">  135</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478">advance</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    ptr_ += <a class="code" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">offset</a>(b);</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  }</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00142"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842">  142</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="code" href="classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842">operator+</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">TensorRef</a>(ptr_ + <a class="code" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">offset</a>(b), stride_); }</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938">  146</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="code" href="classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938">operator-</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">TensorRef</a>(ptr_ - <a class="code" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">offset</a>(b), stride_); }</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;};</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="classcutlass_1_1TensorRef_html_af47f192552544272774a29d7a0829a31"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#af47f192552544272774a29d7a0829a31">cutlass::TensorRef::stride</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int const  &amp; stride(int dim) const</div><div class="ttdoc">Returns the stride of the tensor in the given dimension. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:107</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a34e97ab2190b4681d1c1199186d66f1c"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a34e97ab2190b4681d1c1199186d66f1c">cutlass::TensorRef::operator[]</a></div><div class="ttdeci">Storage &amp; operator[](int idx) const</div><div class="ttdoc">Element-wise accessor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:131</div></div>
+<a href="tensor__ref_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> Rank&gt;</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="structcutlass_1_1IdentityTensorMapFunc.html">   41</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1IdentityTensorMapFunc.html">IdentityTensorMapFunc</a> {</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1IdentityTensorMapFunc.html#ac609498e7fe858b4fb3791d1039438f4">   42</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1IdentityTensorMapFunc.html#ac609498e7fe858b4fb3791d1039438f4">kStorageRank</a> = Rank;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1IdentityTensorMapFunc.html#a3922130841c34d3ce8c112ee6fae4ca1">   44</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <a class="code" href="structcutlass_1_1IdentityTensorMapFunc.html#a3922130841c34d3ce8c112ee6fae4ca1">operator()</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span> &amp;coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keywordflow">return</span> coord;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;  }</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;};</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;<span class="comment">/* \brief Structure modeling a pointer and stride into a tensor.</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;<span class="comment">  A tensor consists of an index space with Rank_ dimensions. It is stored in memory modeled</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;<span class="comment">  as an n-D array, where n = StorageRank_. A mapping function maps the logical coordinates of the</span></div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;<span class="comment">  tensor&#39;s index space into the n-D array, and a stride vector maps the n-D array to linear memory.</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="comment">  CUTLASS requires the n-D array&#39;s least significant, &quot;fastest changing&quot; dimension to</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;<span class="comment">  be contiguous in memory. It therefore has a stride of 1 and is not stored. Construction is offered</span></div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;<span class="comment">  from vectors of full StorageRank and of the &#39;compact&#39; rank, though it is in error to construct</span></div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;<span class="comment">  with the least significant stride != 1.</span></div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;<span class="comment">  The requirement that the least significant dimension be consecutive enables numerous optimizations</span></div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;<span class="comment">  and assumptions about vectorizing memory accesses throughout CUTLASS. It also matches various</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;<span class="comment">  BLAS conventions in which only the &quot;leading dimension&quot; or most significant stride of a rank=2</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;<span class="comment">  matrix is provided.</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;<span class="comment">  This does affect the ability of constructing arbitrary &quot;sparse&quot; 2-D matrices in memory where all</span></div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;<span class="comment">  stride elements are &gt; 1. This can be overcome by defining a custom mapping function and a</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;<span class="comment">  StorageRank of 3 or more.</span></div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;<span class="comment">  Examples:</span></div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;<span class="comment">  (These examples use helpers for matrix layouts defined in cutlass/matrix_traits.h)</span></div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;<span class="comment">  1. Column-major matrix may be represented as a rank=2 tensor:</span></div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;<span class="comment">    TensorRef&lt;float, 2, MatrixLayout::ColumnMajor&gt; A(ptr_A, make_Coord(ldm, 1));</span></div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;<span class="comment">  2. Row-major matrix may be represented as a rank=2 tensor:</span></div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;<span class="comment">    TensorRef&lt;float, 2, MatrixLayout::RowMajor&gt; B(ptr_A, ldm);</span></div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;<span class="comment">  3. An interleaved matrix may be represented as a rank=2 tensor:</span></div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;<span class="comment">    TensorRef&lt;int8_t, 2, MatrixLayout::ColumnMajorInterleaved&lt;32&gt; &gt; C;</span></div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;<span class="comment">  4. Defining a sparse matrix with arbitrary strides in each dimension</span></div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;<span class="comment">    struct ContiguousLayout {</span></div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;<span class="comment">      static int const kStorageRank = 3;</span></div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;<span class="comment">      CUTLASS_HOST_DEVICE</span></div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;<span class="comment">      Coord&lt;3&gt; operator()(MatrixCoord const &amp;coord) const {</span></div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;<span class="comment">          return make_Coord(coord.row(), coord.column(), 0);</span></div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;<span class="comment">      }</span></div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="comment">    };</span></div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;<span class="comment">    typedef TensorRef&lt;float, 2, ContiguousLayout&gt; ContiguousTensorRef;</span></div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;<span class="comment">    // Construct the TensorRef object from a pair of stride values</span></div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;<span class="comment">    ContiguousTensorRef D(ptr_D, make_Coord(row_stride, column_stride));</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;<span class="comment">  5. A helper exists to define a TensorRef for a contiguous matrix whose layout</span></div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;<span class="comment">     is not known at compile time.</span></div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="comment">    MatrixLayout::Kind layout;   // Could be MatrixLayout::kRowMajor or MatrixLayout::kColumnMajor</span></div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;<span class="comment">    int ldm;                     // leading dimension</span></div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;<span class="comment">    ContiguousTensorRef E(ptr_E, ContiguousLayout::stride(layout, ldm));</span></div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;<span class="comment">*/</span></div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="keyword">typename</span> Storage_,</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  <span class="keywordtype">int</span> Rank_,</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="keyword">typename</span> MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;,</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;  <span class="keywordtype">int</span> StorageRank_ = MapFunc_::kStorageRank,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  <span class="keyword">typename</span> LongIndex_ = <span class="keywordtype">long</span> <span class="keywordtype">long</span></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;&gt;</div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html">  131</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> {</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00134"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">  134</a></span>&#160;  <span class="keyword">typedef</span> Storage_ <a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;</div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">  137</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a> = Rank_;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">  140</a></span>&#160;  <span class="keyword">typedef</span> MapFunc_ <a class="code" href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">MapFunc</a>;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">  143</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> = StorageRank_;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">  146</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">  149</a></span>&#160;  <span class="keyword">typedef</span> LongIndex_ <a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">  152</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kRank&gt;</a> <a class="code" href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">TensorCoord</a>;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">  155</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">StorageCoord</a>;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">  159</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1&gt; <a class="code" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a>;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Storage&gt;::type</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    Rank_,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;    MapFunc_,</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;    StorageRank_,</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;    Index_,</div><div class="line"><a name="l00168"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">  168</a></span>&#160;    LongIndex_&gt; <a class="code" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a>;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">  173</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a> &gt; 0, <span class="stringliteral">&quot;Cannot define a zero-rank TensorRef&quot;</span>);</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;  <span class="comment">// Definitions included for backwards compatibility - to be removed in next major release</span></div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <a class="code" href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">Coord_t</a>;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;</div><div class="line"><a name="l00183"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">  183</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">Rank</a> = <a class="code" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a>;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>* ptr_;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">StrideVector</a> stride_;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;  <a class="code" href="structcutlass_1_1IdentityTensorMapFunc.html">MapFunc</a> coord_map_;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00204"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">  204</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">TensorRef</a>(<a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr = <span class="keyword">nullptr</span>): ptr_(ptr) {</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1; ++i) {</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;      stride_[i] = 1;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    }</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  }</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  <span class="comment">// Higher ranks are projected onto the fastest-changing rank.</span></div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00213"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">  213</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">TensorRef</a>(<a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>* ptr, <a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> ldm) {</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;    ptr_ = ptr;</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1; ++i) {</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;      stride_[i] = ldm;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;    }</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;  }</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00222"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">  222</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">TensorRef</a>(<a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>* ptr, <a class="code" href="structcutlass_1_1Coord.html">StrideVector</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>) : ptr_(ptr), stride_(<a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>) {</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;  }</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0">  229</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0">TensorRef</a>(<a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>* ptr, <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>) {</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;    <span class="comment">// Fastest-changing stride must be one</span></div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>.<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1) == 1) {</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;      ptr_ = ptr;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1; ++i) {</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;        stride_[i] = <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>[i];</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;      }</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;    }</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;    <span class="keywordflow">else</span> {</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;      <span class="comment">// Fastest-chaning stride must be 1.</span></div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">reset</a>();</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;    }</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;  }</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00245"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">  245</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">TensorRef</a>(</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Storage&gt;::type</a>,</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a>,</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <a class="code" href="structcutlass_1_1IdentityTensorMapFunc.html">MapFunc</a>,</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a>,</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a>,</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a>&gt; <span class="keyword">const</span> &amp;ref</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;  ):</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;    ptr_(ref.<a class="code" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">data</a>()) {</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1; ++i) {</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;      stride_[i] = ref.stride(i);</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;    }</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;  }</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00262"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">  262</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">ConstTensorRef</a> <a class="code" href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">const_ref</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a>(*<span class="keyword">this</span>);</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;  }</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00268"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">  268</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">reset</a>(<a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>* ptr = <span class="keyword">nullptr</span>) {</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;    ptr_ = ptr;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;  }</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00274"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">  274</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">reset</a>(<a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>* ptr, <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> <span class="keyword">const</span> &amp; <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>) {</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;    <span class="comment">// Fastest-changing stride must be one</span></div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>.<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1) == 1) {</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;      ptr_ = ptr;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1; ++i) {</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;        stride_[i] = <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>[i];</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;      }</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;    }</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;    <span class="keywordflow">else</span> {</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;      <span class="comment">// Fastest-changing stride must be 1 - this is an error.</span></div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">reset</a>();</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;    }</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;  }</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00290"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">  290</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">good</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;    <span class="keywordflow">return</span> ptr_ != <span class="keyword">nullptr</span>;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;  }</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00296"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">  296</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> * <a class="code" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">data</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ptr_; }</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00300"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">  300</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> ld;</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1; ++i) {</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      ld[i] = stride_[i];</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;    }</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;    ld[<a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1] = 1;</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;    <span class="keywordflow">return</span> ld;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;  }</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00311"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">  311</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> <a class="code" href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">stride</a>(<span class="keywordtype">int</span> dim)<span class="keyword"> const </span>{</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;    <span class="comment">// fastest-changing stride assumbed to be 1</span></div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;    <span class="keywordflow">if</span> (dim + 1 &gt;= <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a>) {</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;      <span class="keywordflow">return</span> 1;</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;    }</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;    <span class="keywordflow">return</span> stride_.<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(dim);</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;  }</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00321"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">  321</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> <a class="code" href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">leading_dim</a>(<span class="keywordtype">int</span> idx = 0)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>(idx); }</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00325"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">  325</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> <a class="code" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">map</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span> &amp;coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;    <span class="keywordflow">return</span> coord_map_(coord);</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;  }</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00331"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">  331</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> <a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>().template dot&lt;LongIndex&gt;(<a class="code" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">map</a>(coord));</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;  }</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00337"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">  337</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">at</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;    <span class="keywordflow">return</span> ptr_[<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(coord)];</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;  }</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00343"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">  343</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">at</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> idx)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ptr_[idx]; }</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00347"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">  347</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">operator[]</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;    <span class="keywordflow">return</span> ptr_[<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(coord)];</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;  }</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00353"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">  353</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">operator[]</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> idx)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ptr_[idx]; }</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00357"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">  357</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp; <a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> delta) {</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;    ptr_ += delta;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;  }</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00364"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">  364</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="code" href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">operator+</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> result(*<span class="keyword">this</span>);</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;    result.<a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;    <span class="keywordflow">return</span> result;</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;  }</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00372"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">  372</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;  }</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00379"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">  379</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="code" href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">operator-</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> result(*<span class="keyword">this</span>);</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;    result.<a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(-<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;    <span class="keywordflow">return</span> result;</div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;  }</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00387"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">  387</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">operator-=</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(-<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;  }</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;};</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;<span class="comment">// Partial specializations to handle degenerate cases.</span></div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;  <span class="keyword">typename</span> Storage_,</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;  <span class="keywordtype">int</span> Rank_,</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;  <span class="keyword">typename</span> MapFunc_,</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;  <span class="keyword">typename</span> Index_,</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;  <span class="keyword">typename</span> LongIndex_</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;&gt;</div><div class="line"><a name="l00412"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html">  412</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_&gt; {</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00415"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">  415</a></span>&#160;  <span class="keyword">typedef</span> Storage_ <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>;</div><div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;</div><div class="line"><a name="l00418"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#abff03af38d99413315824c476e9a7d78">  418</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a> = Rank_;</div><div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;</div><div class="line"><a name="l00421"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">  421</a></span>&#160;  <span class="keyword">typedef</span> MapFunc_ <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">MapFunc</a>;</div><div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;</div><div class="line"><a name="l00424"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9bae6c2fd5ac6c97c97786c89862c298">  424</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> = 1;</div><div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;</div><div class="line"><a name="l00427"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">  427</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a>;</div><div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;</div><div class="line"><a name="l00430"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">  430</a></span>&#160;  <span class="keyword">typedef</span> LongIndex_ <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a>;</div><div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;</div><div class="line"><a name="l00433"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">  433</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kRank&gt;</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">TensorCoord</a>;</div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;</div><div class="line"><a name="l00436"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">  436</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kStorageRank&gt;</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">StorageCoord</a>;</div><div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;</div><div class="line"><a name="l00440"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_1_1StrideVector.html">  440</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a> { };</div><div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;</div><div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;</div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Storage&gt;::type</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;    Rank_,</div><div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;    MapFunc_,</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a>,</div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;    Index_,</div><div class="line"><a name="l00449"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496">  449</a></span>&#160;    LongIndex_&gt; <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496">ConstTensorRef</a>;</div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;  <span class="comment">// Definitions included for backwards compatibility - to be removed in next major release</span></div><div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;</div><div class="line"><a name="l00456"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a705c22cb328c4dc9365c2f370ece2031">  456</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a705c22cb328c4dc9365c2f370ece2031">Coord_t</a>;</div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;</div><div class="line"><a name="l00459"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a233fba9abdbbd0fe3a2cc7465ea76a41">  459</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">Rank</a> = <a class="code" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a>;</div><div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;</div><div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>* ptr_;</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;</div><div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">MapFunc</a> coord_map_;</div><div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160;</div><div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;</div><div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;</div><div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00477"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa091e497277d0ba8a98c4ebf73c0cdba">  477</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa091e497277d0ba8a98c4ebf73c0cdba">TensorRef</a>(<a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> *ptr = <span class="keyword">nullptr</span>): ptr_(ptr) { }</div><div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;</div><div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00481"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a3464537a35ef7fbfc9349e5ce2233f1c">  481</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a3464537a35ef7fbfc9349e5ce2233f1c">TensorRef</a>(<a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>* ptr, <a class="code" href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">StrideVector</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>) : ptr_(ptr) {</div><div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;</div><div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;  }</div><div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160;</div><div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00488"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeacb444d31783eafe27a9e8d8cab98f8">  488</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeacb444d31783eafe27a9e8d8cab98f8">TensorRef</a>(<a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>* ptr, <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>) {</div><div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;    <span class="comment">// Fastest-changing stride must be one</span></div><div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>.<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1) == 1) {</div><div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160;      ptr_ = ptr;</div><div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;    }</div><div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;    <span class="keywordflow">else</span> {</div><div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;      <span class="comment">// Fastest-chaning stride must be 1.</span></div><div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">reset</a>();</div><div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;    }</div><div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;  }</div><div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160;</div><div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00501"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af815dd66739801b10d43acc097e23636">  501</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af815dd66739801b10d43acc097e23636">TensorRef</a>(</div><div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;</div><div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;      <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Storage&gt;::type</a>,</div><div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">kRank</a>,</div><div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">MapFunc</a>,</div><div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a>,</div><div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a>,</div><div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a>&gt; <span class="keyword">const</span> &amp;ref</div><div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;  ):</div><div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;    ptr_(ref.<a class="code" href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">data</a>()) {</div><div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160;  }</div><div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;</div><div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00515"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0a48de201c35cbc9d5e3b94fa597a617">  515</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">ConstTensorRef</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0a48de201c35cbc9d5e3b94fa597a617">const_ref</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">ConstTensorRef</a>(*<span class="keyword">this</span>);</div><div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;  }</div><div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;</div><div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00521"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a1043f0ef382179b8ecd9f4e710f6e106">  521</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a1043f0ef382179b8ecd9f4e710f6e106">reset</a>(<a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>* ptr = <span class="keyword">nullptr</span>) {</div><div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;    ptr_ = ptr;</div><div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;  }</div><div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;</div><div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00527"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6339a8ac88f9172acf0337d149b98cb4">  527</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6339a8ac88f9172acf0337d149b98cb4">reset</a>(<a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>* ptr, <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> <span class="keyword">const</span> &amp; <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>) {</div><div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;    <span class="comment">// Fastest-changing stride must be one</span></div><div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>.<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1) == 1) {</div><div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;      ptr_ = ptr;</div><div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;    }</div><div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;    <span class="keywordflow">else</span> {</div><div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;      <span class="comment">// Fastest-changing stride must be 1 - this is an error.</span></div><div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">reset</a>();</div><div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;    }</div><div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;  }</div><div class="line"><a name="l00537"></a><span class="lineno">  537</span>&#160;</div><div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00540"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a8e1cfab3a220175dad58239c764a5d98">  540</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a8e1cfab3a220175dad58239c764a5d98">good</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;    <span class="keywordflow">return</span> ptr_ != <span class="keyword">nullptr</span>;</div><div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;  }</div><div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;</div><div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00546"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a67b25cc51ce867b073feead7b94e6aa3">  546</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a> * <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a67b25cc51ce867b073feead7b94e6aa3">data</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ptr_; }</div><div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;</div><div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00550"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9">  550</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9">stride</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> ld;</div><div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160;    ld[<a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">kStorageRank</a> - 1] = 1;</div><div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160;    <span class="keywordflow">return</span> ld;</div><div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;  }</div><div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;</div><div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00558"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af83380ffc0e5949d40d1a5039a5ddc00">  558</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af83380ffc0e5949d40d1a5039a5ddc00">stride</a>(<span class="keywordtype">int</span> dim)<span class="keyword"> const </span>{</div><div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160;    <span class="comment">// fastest-changing stride assumbed to be 1</span></div><div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160;    <span class="keywordflow">return</span> 1;</div><div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;  }</div><div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;</div><div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00565"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6c580a451a36143d1eb0e409e7b13e33">  565</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">Index</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6c580a451a36143d1eb0e409e7b13e33">leading_dim</a>(<span class="keywordtype">int</span> idx = 0)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> 1; }</div><div class="line"><a name="l00566"></a><span class="lineno">  566</span>&#160;</div><div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00569"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a215f63b5a1b3799654c5670ef108fcfb">  569</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a215f63b5a1b3799654c5670ef108fcfb">map</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span> &amp;coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;    <span class="keywordflow">return</span> coord_map_(coord);</div><div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;  }</div><div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;</div><div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00575"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a07c7f56e724cfbc844777e8ee9f616b5">  575</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a07c7f56e724cfbc844777e8ee9f616b5">offset</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>().template dot&lt;LongIndex&gt;(<a class="code" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">map</a>(coord));</div><div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;  }</div><div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160;</div><div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00581"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a597bb02594c918c50f0bdb0cb4ce74c8">  581</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a597bb02594c918c50f0bdb0cb4ce74c8">at</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;    <span class="keywordflow">return</span> ptr_[<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(coord)];</div><div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;  }</div><div class="line"><a name="l00584"></a><span class="lineno">  584</span>&#160;</div><div class="line"><a name="l00586"></a><span class="lineno">  586</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00587"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a92371a586e756734522a853bef74324d">  587</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a92371a586e756734522a853bef74324d">at</a>(<a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> idx)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ptr_[idx]; }</div><div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;</div><div class="line"><a name="l00590"></a><span class="lineno">  590</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00591"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a64a5e91e01555b8bfd22875543573d22">  591</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a64a5e91e01555b8bfd22875543573d22">operator[]</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00592"></a><span class="lineno">  592</span>&#160;    <span class="keywordflow">return</span> ptr_[<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(coord)];</div><div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;  }</div><div class="line"><a name="l00594"></a><span class="lineno">  594</span>&#160;</div><div class="line"><a name="l00596"></a><span class="lineno">  596</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00597"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a57f132816e51bbdb4c807d57c067b619">  597</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">Storage</a>&amp; <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a57f132816e51bbdb4c807d57c067b619">operator[]</a>(<a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> idx)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> ptr_[idx]; }</div><div class="line"><a name="l00598"></a><span class="lineno">  598</span>&#160;</div><div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00601"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a93ff0a9fda3e136a1674aeb82de050db">  601</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> &amp; <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a93ff0a9fda3e136a1674aeb82de050db">add_pointer_offset</a>(<a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">LongIndex</a> delta) {</div><div class="line"><a name="l00602"></a><span class="lineno">  602</span>&#160;    ptr_ += delta;</div><div class="line"><a name="l00603"></a><span class="lineno">  603</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00604"></a><span class="lineno">  604</span>&#160;  }</div><div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160;</div><div class="line"><a name="l00607"></a><span class="lineno">  607</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00608"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ad054f14b5580c9480d671b8fc8ef016a">  608</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ad054f14b5580c9480d671b8fc8ef016a">operator+</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> result(*<span class="keyword">this</span>);</div><div class="line"><a name="l00610"></a><span class="lineno">  610</span>&#160;    result.<a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00611"></a><span class="lineno">  611</span>&#160;    <span class="keywordflow">return</span> result;</div><div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;  }</div><div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;</div><div class="line"><a name="l00615"></a><span class="lineno">  615</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00616"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0753aeb57365a976bc0a88481af504cb">  616</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0753aeb57365a976bc0a88481af504cb">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00618"></a><span class="lineno">  618</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00619"></a><span class="lineno">  619</span>&#160;  }</div><div class="line"><a name="l00620"></a><span class="lineno">  620</span>&#160;</div><div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00623"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#afde28cda18918d3e177d3e5024ed3dd4">  623</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#afde28cda18918d3e177d3e5024ed3dd4">operator-</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a> result(*<span class="keyword">this</span>);</div><div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160;    result.<a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(-<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00626"></a><span class="lineno">  626</span>&#160;    <span class="keywordflow">return</span> result;</div><div class="line"><a name="l00627"></a><span class="lineno">  627</span>&#160;  }</div><div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;</div><div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00631"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a11964d045ac8e41c80026515adb03008">  631</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&amp; <a class="code" href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a11964d045ac8e41c80026515adb03008">operator-=</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(-<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;  }</div><div class="line"><a name="l00635"></a><span class="lineno">  635</span>&#160;};</div><div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;</div><div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;</div><div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a6893c1a9057713560b46a9062b29b116"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6893c1a9057713560b46a9062b29b116">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::StorageCoord</a></div><div class="ttdeci">Coord&lt; kStorageRank &gt; StorageCoord</div><div class="ttdoc">Coordinate in storage n-D array. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:436</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a207a0dabf6c368fa1edcb32baa2110e3"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a207a0dabf6c368fa1edcb32baa2110e3">cutlass::TensorRef::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; operator[](LongIndex idx) const</div><div class="ttdoc">Returns a reference to the element at a given linear index. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:353</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_af815dd66739801b10d43acc097e23636"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af815dd66739801b10d43acc097e23636">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef(TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type, kRank, MapFunc, kStorageRank, Index, LongIndex &gt; const &amp;ref)</div><div class="ttdoc">Enables conversion from TensorRef of non-const type. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:501</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a758f24783e36ffc393b360d0b8640bc6"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a758f24783e36ffc393b360d0b8640bc6">cutlass::TensorRef::Coord_t</a></div><div class="ttdeci">TensorCoord Coord_t</div><div class="ttdoc">Coordinate in logical tensor space. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:173</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a93ff0a9fda3e136a1674aeb82de050db"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a93ff0a9fda3e136a1674aeb82de050db">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::add_pointer_offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef &amp; add_pointer_offset(LongIndex delta)</div><div class="ttdoc">Adds an offset to each pointer. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:601</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_ae1c80b524cd9491e2d499d703e1459f7"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#ae1c80b524cd9491e2d499d703e1459f7">cutlass::TensorRef::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage * data() const</div><div class="ttdoc">Returns the pointer to referenced data. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:296</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a6339a8ac88f9172acf0337d149b98cb4"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6339a8ac88f9172acf0337d149b98cb4">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::reset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void reset(Storage *ptr, StorageCoord const &amp;stride)</div><div class="ttdoc">Updates the pointer, stride, and location within a TensorRef. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:527</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a597bb02594c918c50f0bdb0cb4ce74c8"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a597bb02594c918c50f0bdb0cb4ce74c8">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; at(TensorCoord const &amp;coord) const</div><div class="ttdoc">Returns a reference to the element at a given Coord. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:581</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a7eff42a37e4dbee488bfa726f3f0df4f"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">cutlass::TensorRef::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; at(Coord&lt; Rank &gt; const &amp;coord) const</div><div class="ttdoc">Returns a reference to the element at a given Coord. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:121</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_aab0dafb81a462320e55e0dc4a5886478"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#aab0dafb81a462320e55e0dc4a5886478">cutlass::TensorRef::advance</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef &amp; advance(Coord&lt; Rank &gt; const &amp;b)</div><div class="ttdoc">Adds an offset to the pointer. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:135</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a22ac53a60e63a743613e732586ad0c66"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">cutlass::TensorRef::Rank</a></div><div class="ttdeci">static int const Rank</div><div class="ttdoc">Rank of tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:48</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_aa7b80d225c01c9dc12aafc515cf15842"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#aa7b80d225c01c9dc12aafc515cf15842">cutlass::TensorRef::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef operator+(Coord&lt; Rank &gt; const &amp;b) const</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:142</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_aa091e497277d0ba8a98c4ebf73c0cdba"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa091e497277d0ba8a98c4ebf73c0cdba">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef(Storage *ptr=nullptr)</div><div class="ttdoc">Helper for 1-D memory. All higher ranks are projected onto the fastest changing rank. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:477</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_html_ac3662947fa50251daf58240a9c798085"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">cutlass::platform::remove_const::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:377</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a429692d4ac03a3427fbd8fdfaac4ae31"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a429692d4ac03a3427fbd8fdfaac4ae31">cutlass::TensorRef::kRank</a></div><div class="ttdeci">static int const kRank</div><div class="ttdoc">Logical rank of tensor index space. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:137</div></div>
 <div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a604921388cb7ee18ddb8127b8ca2f7fd"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a604921388cb7ee18ddb8127b8ca2f7fd">cutlass::TensorRef::Storage</a></div><div class="ttdeci">Storage_ Storage</div><div class="ttdoc">Data type of individual access. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:45</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a3843ccfd1d097f25eff45dc159709938"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a3843ccfd1d097f25eff45dc159709938">cutlass::TensorRef::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef operator-(Coord&lt; Rank &gt; const &amp;b) const</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:146</div></div>
-<div class="ttc" id="platform_8h_html_abd31f291635329bc15292954f1f01d38"><div class="ttname"><a href="platform_8h.html#abd31f291635329bc15292954f1f01d38">__NV_STD_MAX</a></div><div class="ttdeci">#define __NV_STD_MAX(a, b)</div><div class="ttdoc">Select maximum(a, b) </div><div class="ttdef"><b>Definition:</b> platform.h:155</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a8e1c61910ffb49ec64930f66dd342b77"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a8e1c61910ffb49ec64930f66dd342b77">cutlass::TensorRef::leading_dim</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int leading_dim() const</div><div class="ttdoc">Returns the maximum stride element as the &amp;#39;leading dimension&amp;#39;. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:111</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a8e23c78658f45c6f197a1774cc85c5b7"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">cutlass::TensorRef::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage * data() const</div><div class="ttdoc">Returns the pointer to referenced data. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:99</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_ae48325312183ff61dbd312c64f31fcb8"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#ae48325312183ff61dbd312c64f31fcb8">cutlass::TensorRef::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef(Storage *ptr, Coord&lt; Rank &gt; stride)</div><div class="ttdoc">Constructs from a pointer, size, and stride. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:72</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a6a2aa88ed77557c089a165da0df1e974"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a6a2aa88ed77557c089a165da0df1e974">cutlass::TensorRef::operator[]</a></div><div class="ttdeci">Storage &amp; operator[](Coord&lt; Rank &gt; const &amp;coord) const</div><div class="ttdoc">Element-wise accessor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:124</div></div>
-<div class="ttc" id="platform_8h_html_ab979d9d4b4923f7c54d6caa6e1a61936"><div class="ttname"><a href="platform_8h.html#ab979d9d4b4923f7c54d6caa6e1a61936">nullptr</a></div><div class="ttdeci">#define nullptr</div><div class="ttdoc">nullptr </div><div class="ttdef"><b>Definition:</b> platform.h:136</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a02ee5d16ed4ce4705a99bb16b2ae1ae8"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">cutlass::TensorRef::offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE long long offset(Coord&lt; Rank &gt; const &amp;coord) const</div><div class="ttdoc">Computes the offset of an index from the origin of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:115</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html"><div class="ttname"><a href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a></div><div class="ttdoc">Structure modeling a pointer and stride into a tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:42</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a7eb4444e2b3fce5a5ccde65a75df633c"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a7eb4444e2b3fce5a5ccde65a75df633c">cutlass::TensorRef::convert</a></div><div class="ttdeci">TensorRef&lt; T, Rank &gt; convert()</div><div class="ttdoc">Conversion function. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:83</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a7a1da27a46883eb68e3f8983670b784b"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a7a1da27a46883eb68e3f8983670b784b">cutlass::TensorRef::reset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void reset(Storage *ptr, StorageCoord const &amp;stride)</div><div class="ttdoc">Updates the pointer, stride, and location within a TensorRef. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:274</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a67b25cc51ce867b073feead7b94e6aa3"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a67b25cc51ce867b073feead7b94e6aa3">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage * data() const</div><div class="ttdoc">Returns the pointer to referenced data. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:546</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a7ec815838aed4e02dd96acb1000614c0"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a7ec815838aed4e02dd96acb1000614c0">cutlass::TensorRef::reset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void reset(Storage *ptr=nullptr)</div><div class="ttdoc">Updates only the pointer. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:268</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a57f132816e51bbdb4c807d57c067b619"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a57f132816e51bbdb4c807d57c067b619">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; operator[](LongIndex idx) const</div><div class="ttdoc">Returns a reference to the element at a given linear index. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:597</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_afe92be0a61fb8fc84426f4907faca6c1"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#afe92be0a61fb8fc84426f4907faca6c1">cutlass::TensorRef::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef(TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type, kRank, MapFunc, kStorageRank, Index, LongIndex &gt; const &amp;ref)</div><div class="ttdoc">Enables conversion from TensorRef of non-const type. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:245</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a0a4fd9ace579b46bc9d575b8adc6882f"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a0a4fd9ace579b46bc9d575b8adc6882f">cutlass::TensorRef::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef operator+(TensorCoord const &amp;b) const</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:364</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_ad0273300d26125278b6930b1e463ff29"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#ad0273300d26125278b6930b1e463ff29">cutlass::TensorRef::MapFunc</a></div><div class="ttdeci">MapFunc_ MapFunc</div><div class="ttdoc">Mapping function from logical coordinate to internal n-D array. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:140</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_ad327edfe1f8085632ff682d354922009"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">cutlass::TensorRef::Storage</a></div><div class="ttdeci">Storage_ Storage</div><div class="ttdoc">Data type of individual access. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:134</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_aa6956072f1231b79fe8925a78c4760b7"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#aa6956072f1231b79fe8925a78c4760b7">cutlass::TensorRef::stride</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index stride(int dim) const</div><div class="ttdoc">Returns the stride of the tensor in the given dimension. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:311</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_af83380ffc0e5949d40d1a5039a5ddc00"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af83380ffc0e5949d40d1a5039a5ddc00">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::stride</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index stride(int dim) const</div><div class="ttdoc">Returns the stride of the tensor in the given dimension. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:558</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a3464537a35ef7fbfc9349e5ce2233f1c"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a3464537a35ef7fbfc9349e5ce2233f1c">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef(Storage *ptr, StrideVector const &amp;stride)</div><div class="ttdoc">Constructs from a single pointer and stride vector. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:481</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a11964d045ac8e41c80026515adb03008"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a11964d045ac8e41c80026515adb03008">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef &amp; operator-=(TensorCoord const &amp;b)</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:631</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_adb52dd6f9f68e7b8b67b8ddfb5c0021c"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">cutlass::TensorRef::stride</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE StorageCoord stride() const</div><div class="ttdoc">Returns the stride of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:300</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a5f0363da1e0544f256438e066d3cc143"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">cutlass::TensorRef::add_pointer_offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef &amp; add_pointer_offset(LongIndex delta)</div><div class="ttdoc">Adds an offset to each pointer. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:357</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a1043f0ef382179b8ecd9f4e710f6e106"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a1043f0ef382179b8ecd9f4e710f6e106">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::reset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void reset(Storage *ptr=nullptr)</div><div class="ttdoc">Updates only the pointer. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:521</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a2beda7a1946bde2858e730bece21b890"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">cutlass::TensorRef::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:146</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_ada832ce3a57aaf4919b1ed89192f1fa6"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#ada832ce3a57aaf4919b1ed89192f1fa6">cutlass::TensorRef::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; operator[](TensorCoord const &amp;coord) const</div><div class="ttdoc">Returns a reference to the element at a given Coord. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:347</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a0c95903f2b959003534cd2d78d4b9496"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0c95903f2b959003534cd2d78d4b9496">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::ConstTensorRef</a></div><div class="ttdeci">TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type const, Rank_, MapFunc_, kStorageRank, Index_, LongIndex_ &gt; ConstTensorRef</div><div class="ttdoc">Tensor reference to of constant value. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:449</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a92371a586e756734522a853bef74324d"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a92371a586e756734522a853bef74324d">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; at(LongIndex idx) const</div><div class="ttdoc">Returns a reference to the element at a given linear index. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:587</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_afde28cda18918d3e177d3e5024ed3dd4"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#afde28cda18918d3e177d3e5024ed3dd4">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef operator-(TensorCoord const &amp;b) const</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:623</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a48b9b4ad9034f6cf2b7c2ee479aea135"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a48b9b4ad9034f6cf2b7c2ee479aea135">cutlass::TensorRef::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef(Storage *ptr, Index ldm)</div><div class="ttdoc">Helper to construct from a pointer and single stride element for 2-D pitch linear memory...</div><div class="ttdef"><b>Definition:</b> tensor_ref.h:213</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a07dfe328d4a8316e79e9acde50582360"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">cutlass::TensorRef::map</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE StorageCoord map(TensorCoord const &amp;coord) const</div><div class="ttdoc">Maps a logical coordinate to an n-D array in memory. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:325</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_ab0cf071be50423dece4e931878573a1c"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#ab0cf071be50423dece4e931878573a1c">cutlass::TensorRef::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; at(LongIndex idx) const</div><div class="ttdoc">Returns a reference to the element at a given linear index. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:343</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a42ca6a39ab0e44296fed71a77c57b7b1"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">cutlass::TensorRef::LongIndex</a></div><div class="ttdeci">LongIndex_ LongIndex</div><div class="ttdoc">Typically, strides in memory can be very large. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:149</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a455a2df539b53086699c210d06df1c5d"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a455a2df539b53086699c210d06df1c5d">cutlass::TensorRef::StorageCoord</a></div><div class="ttdeci">Coord&lt; kStorageRank &gt; StorageCoord</div><div class="ttdoc">Coordinate in storage n-D array. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:155</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_ab5dbedeff1ae3d2936b6ce76023a18f7"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ab5dbedeff1ae3d2936b6ce76023a18f7">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Storage</a></div><div class="ttdeci">Storage_ Storage</div><div class="ttdoc">Data type of individual access. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:415</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_ad054f14b5580c9480d671b8fc8ef016a"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ad054f14b5580c9480d671b8fc8ef016a">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef operator+(TensorCoord const &amp;b) const</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:608</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a5a667a48c64fb916c31802b73b769765"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a5a667a48c64fb916c31802b73b769765">cutlass::TensorRef::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef(Storage *ptr=nullptr)</div><div class="ttdoc">Helper for 1-D memory. All higher ranks are projected onto the fastest changing rank. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:204</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a727d9c25d6df0aa9e795123b638b9306"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a727d9c25d6df0aa9e795123b638b9306">cutlass::TensorRef::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef &amp; operator+=(TensorCoord const &amp;b)</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:372</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a8281d11677512d6e229504ab4babad17"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a8281d11677512d6e229504ab4babad17">cutlass::TensorRef::ConstTensorRef</a></div><div class="ttdeci">TensorRef&lt; typename platform::remove_const&lt; Storage &gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; ConstTensorRef</div><div class="ttdoc">Tensor reference to of constant value. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:168</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html"><div class="ttname"><a href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a></div><div class="ttdef"><b>Definition:</b> tensor_ref.h:131</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_af5615a41f73259e579a122c86e08d6f9"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#af5615a41f73259e579a122c86e08d6f9">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::stride</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE StorageCoord stride() const</div><div class="ttdoc">Returns the stride of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:550</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a35b7e1fc59298e0f06f484652d62fd65"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a35b7e1fc59298e0f06f484652d62fd65">cutlass::TensorRef::TensorCoord</a></div><div class="ttdeci">Coord&lt; kRank &gt; TensorCoord</div><div class="ttdoc">Coordinate in logical tensor space. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:152</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a425ff3d894ed1153eee79b1944fa5ed2"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">cutlass::TensorRef::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdoc">Rank of internal storage. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:143</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a2088b39881deef375af08511bca1e90a"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a2088b39881deef375af08511bca1e90a">cutlass::TensorRef::Rank</a></div><div class="ttdeci">static int const Rank</div><div class="ttdoc">Logical rank of tensor index space. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:183</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a705c22cb328c4dc9365c2f370ece2031"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a705c22cb328c4dc9365c2f370ece2031">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Coord_t</a></div><div class="ttdeci">TensorCoord Coord_t</div><div class="ttdoc">Coordinate in logical tensor space. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:456</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_aeacb444d31783eafe27a9e8d8cab98f8"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeacb444d31783eafe27a9e8d8cab98f8">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef(Storage *ptr, StorageCoord const &amp;stride)</div><div class="ttdef"><b>Definition:</b> tensor_ref.h:488</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a0c049e523ee0fc98769ed8cd2d026780"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">cutlass::TensorRef::good</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool good() const</div><div class="ttdoc">Returns true if the TensorRef may be safely accessed. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:95</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank &gt;</a></div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a8e1cfab3a220175dad58239c764a5d98"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a8e1cfab3a220175dad58239c764a5d98">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::good</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool good() const</div><div class="ttdoc">Returns true if the TensorRef may be safely accessed. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:540</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a6c580a451a36143d1eb0e409e7b13e33"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a6c580a451a36143d1eb0e409e7b13e33">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::leading_dim</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index leading_dim(int idx=0) const</div><div class="ttdoc">Returns the maximum stride element as the &amp;#39;leading dimension&amp;#39;. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:565</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a9eff24a3b74b68d11839b92324613c93"><div class="ttname"><a href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; at()</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:240</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a64a5e91e01555b8bfd22875543573d22"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a64a5e91e01555b8bfd22875543573d22">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; operator[](TensorCoord const &amp;coord) const</div><div class="ttdoc">Returns a reference to the element at a given Coord. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:591</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a0753aeb57365a976bc0a88481af504cb"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0753aeb57365a976bc0a88481af504cb">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef &amp; operator+=(TensorCoord const &amp;b)</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:616</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a4da903ecbeaaf80c35084e8779e920a1"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">cutlass::TensorRef::offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE LongIndex offset(TensorCoord const &amp;coord) const</div><div class="ttdoc">Computes the offset of an index from the origin of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:331</div></div>
+<div class="ttc" id="structcutlass_1_1IdentityTensorMapFunc_html_a3922130841c34d3ce8c112ee6fae4ca1"><div class="ttname"><a href="structcutlass_1_1IdentityTensorMapFunc.html#a3922130841c34d3ce8c112ee6fae4ca1">cutlass::IdentityTensorMapFunc::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; Rank &gt; operator()(Coord&lt; Rank &gt; const &amp;coord) const</div><div class="ttdef"><b>Definition:</b> tensor_ref.h:44</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a9ad2f8da5e7e6b616dd05f792032699b"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a9ad2f8da5e7e6b616dd05f792032699b">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::LongIndex</a></div><div class="ttdeci">LongIndex_ LongIndex</div><div class="ttdoc">Typically, strides in memory can be very large. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:430</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:49</div></div>
 <div class="ttc" id="vector_8h_html"><div class="ttname"><a href="vector_8h.html">vector.h</a></div><div class="ttdoc">Defines a 1D vector of elements held in the registers of each thread. </div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_abefe392e81da2c09cb127f963ae90674"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#abefe392e81da2c09cb127f963ae90674">cutlass::TensorRef::reset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void reset(Storage *ptr=nullptr, Coord&lt; Rank &gt; stride=Coord&lt; Rank &gt;(0))</div><div class="ttdoc">Updates the pointer, stride, and location within a TensorRef. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:76</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_ad10b59430927a354fcd874d2d32f1bd8"><div class="ttname"><a href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int &amp; at()</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:185</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a89380141d25528c4c7ba6c365b96a878"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">cutlass::TensorRef::stride</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; Rank &gt; const  &amp; stride() const</div><div class="ttdoc">Returns the stride of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:103</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a07c7f56e724cfbc844777e8ee9f616b5"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a07c7f56e724cfbc844777e8ee9f616b5">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE LongIndex offset(TensorCoord const &amp;coord) const</div><div class="ttdoc">Computes the offset of an index from the origin of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:575</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a4169a1344897c2c87822ee49d5e0002f"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a4169a1344897c2c87822ee49d5e0002f">cutlass::TensorRef::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; at(TensorCoord const &amp;coord) const</div><div class="ttdoc">Returns a reference to the element at a given Coord. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:337</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a0a48de201c35cbc9d5e3b94fa597a617"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a0a48de201c35cbc9d5e3b94fa597a617">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::const_ref</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstTensorRef const_ref() const</div><div class="ttdoc">Returns a reference to constant-valued tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:515</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_aa72857a51fafb4764ef338aea16ddfa3"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aa72857a51fafb4764ef338aea16ddfa3">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:427</div></div>
+<div class="ttc" id="structcutlass_1_1IdentityTensorMapFunc_html_ac609498e7fe858b4fb3791d1039438f4"><div class="ttname"><a href="structcutlass_1_1IdentityTensorMapFunc.html#ac609498e7fe858b4fb3791d1039438f4">cutlass::IdentityTensorMapFunc::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdef"><b>Definition:</b> tensor_ref.h:42</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a6ab468e38773f5a971a8428673fb5e47"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a6ab468e38773f5a971a8428673fb5e47">cutlass::TensorRef::const_ref</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstTensorRef const_ref() const</div><div class="ttdoc">Returns a reference to constant-valued tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:262</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_a215f63b5a1b3799654c5670ef108fcfb"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#a215f63b5a1b3799654c5670ef108fcfb">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::map</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE StorageCoord map(TensorCoord const &amp;coord) const</div><div class="ttdoc">Maps a logical coordinate to an n-D array in memory. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:569</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_aeca439296c8446741ba84b78f5a601e0"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#aeca439296c8446741ba84b78f5a601e0">cutlass::TensorRef::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef(Storage *ptr, StorageCoord const &amp;stride)</div><div class="ttdef"><b>Definition:</b> tensor_ref.h:229</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_ac19ed34103d115d99e835ad9c1164a2f"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#ac19ed34103d115d99e835ad9c1164a2f">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::MapFunc</a></div><div class="ttdeci">MapFunc_ MapFunc</div><div class="ttdoc">Mapping function from logical coordinate to internal n-D array. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:421</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_afe4fc6fa539f36b2764707d50351905c"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#afe4fc6fa539f36b2764707d50351905c">cutlass::TensorRef::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef(Storage *ptr, StrideVector const &amp;stride)</div><div class="ttdoc">Constructs from a single pointer and stride vector. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:222</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a07c4b1ace7c8799537553b54cfe0a059"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a07c4b1ace7c8799537553b54cfe0a059">cutlass::TensorRef::StrideVector</a></div><div class="ttdeci">Coord&lt; kStorageRank - 1 &gt; StrideVector</div><div class="ttdef"><b>Definition:</b> tensor_ref.h:159</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4_html_aeca2ec193d8a07dc9073c6b199215c88"><div class="ttname"><a href="classcutlass_1_1TensorRef_3_01Storage___00_01Rank___00_01MapFunc___00_011_00_01Index___00_01LongIndex___01_4.html#aeca2ec193d8a07dc9073c6b199215c88">cutlass::TensorRef&lt; Storage_, Rank_, MapFunc_, 1, Index_, LongIndex_ &gt;::TensorCoord</a></div><div class="ttdeci">Coord&lt; kRank &gt; TensorCoord</div><div class="ttdoc">Coordinate in logical tensor space. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:433</div></div>
 <div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a5702dea703104ab431c098c7b039c215"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a5702dea703104ab431c098c7b039c215">cutlass::TensorRef::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; at(int idx) const</div><div class="ttdoc">Returns a reference to the element at a given Coord. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:128</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a54f6edc293b0b8ac97f02e8ab951c478"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a54f6edc293b0b8ac97f02e8ab951c478">cutlass::TensorRef::TensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef()</div><div class="ttdoc">Default ctor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:68</div></div>
-<div class="ttc" id="structcutlass_1_1Extent_html"><div class="ttname"><a href="structcutlass_1_1Extent.html">cutlass::Extent</a></div><div class="ttdoc">Returns the extent of a scalar or vector. </div><div class="ttdef"><b>Definition:</b> vector.h:161</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a4a56b323aed2a3b2c843c276b68378fa"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a4a56b323aed2a3b2c843c276b68378fa">cutlass::TensorRef::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef operator-(TensorCoord const &amp;b) const</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:379</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a2dbee889626b4764d30e9058ef3a7ae8"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a2dbee889626b4764d30e9058ef3a7ae8">cutlass::TensorRef::good</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool good() const</div><div class="ttdoc">Returns true if the TensorRef may be safely accessed. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:290</div></div>
+<div class="ttc" id="structcutlass_1_1IdentityTensorMapFunc_html"><div class="ttname"><a href="structcutlass_1_1IdentityTensorMapFunc.html">cutlass::IdentityTensorMapFunc</a></div><div class="ttdef"><b>Definition:</b> tensor_ref.h:41</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_aa60b92372db1da1d2aa997d6a03e01ca"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#aa60b92372db1da1d2aa997d6a03e01ca">cutlass::TensorRef::leading_dim</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index leading_dim(int idx=0) const</div><div class="ttdoc">Returns the maximum stride element as the &amp;#39;leading dimension&amp;#39;. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:321</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a5b5af26da32278d19c27c0d5a4a18890"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a5b5af26da32278d19c27c0d5a4a18890">cutlass::TensorRef::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef &amp; operator-=(TensorCoord const &amp;b)</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:387</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/tensor__ref__collection_8h.html b/docs/tensor__ref__collection_8h.html
new file mode 100644
index 0000000000..24b9b84cd7
--- /dev/null
+++ b/docs/tensor__ref__collection_8h.html
@@ -0,0 +1,115 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: tensor_ref_collection.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">tensor_ref_collection.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Introduces TensorRefCollection concept and defines TensorRefBatch and TensorRefArray.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="tensor__ref_8h_source.html">cutlass/tensor_ref.h</a>&quot;</code><br />
+</div>
+<p><a href="tensor__ref__collection_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constant iterator over tensors implied by <a class="el" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a>.  <a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;::ConstIterator</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">TensorRefIterator over <a class="el" href="classcutlass_1_1TensorRef.html">TensorRef</a> objects in <a class="el" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a>.  <a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/tensor__ref__collection_8h_source.html b/docs/tensor__ref__collection_8h_source.html
new file mode 100644
index 0000000000..00649cd74e
--- /dev/null
+++ b/docs/tensor__ref__collection_8h_source.html
@@ -0,0 +1,146 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: tensor_ref_collection.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">tensor_ref_collection.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="tensor__ref__collection_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tensor__ref_8h.html">cutlass/tensor_ref.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="comment">// TensorRefCollection is a concept for storing a logical collection of TensorRef objects. Classes</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="comment">// satisfying the TensorRefCollection concept must support the following:</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="comment">//   // Define storage type</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="comment">//   typedef typename TensorRefCollection::Storage Storage;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="comment">//   // Define a type for offsets in memory</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="comment">//   typedef typename TensorRefCollection::LongIndex LongIndex;</span></div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="comment">//   // Define a ConstIterator type satisfying TensorRefIterator</span></div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="comment">//   typedef typename TensorRefCollection::ConstIterator TensorRefIterator;</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="comment">//   // Implement a begin() method.</span></div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="comment">//   TensorRefIterator iterator = collection.begin();</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;<span class="comment">// TensorRefIterator is a concept for accessing an element in a TensorRefCollection. Classes</span></div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;<span class="comment">// satisfying the TensorRefIterator concept must support the following:</span></div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;<span class="comment">//   // Define a TensorRef type accessed by the iterator</span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="comment">//   typedef typename TensorRefIterator::TensorRef TensorRef;</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;<span class="comment">//   // Access the TensorRef</span></div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;<span class="comment">//   TensorRef ref = *iterator;</span></div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;<span class="comment">//   // Pre-increment and post-increment</span></div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;<span class="comment">//   ++iterator;</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;<span class="comment">//   iterator++;</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;<span class="comment">//   // Pre-decrement and post-decrement</span></div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;<span class="comment">//   --iterator;</span></div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;<span class="comment">//   iterator--;</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <span class="keyword">typename</span> Storage_,</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;  <span class="keywordtype">int</span> Rank_,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;  <span class="keyword">typename</span> MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  <span class="keywordtype">int</span> StorageRank_ = MapFunc_::kStorageRank,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;  <span class="keyword">typename</span> LongIndex_ = <span class="keywordtype">long</span> <span class="keywordtype">long</span></div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;&gt;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html">   88</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a>: </div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a>&lt;Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt; {</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">   96</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef&lt;Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt;</a> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">Base</a>;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#aa86a59779c0830e8cf82066853dc1089">   99</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Base::Storage <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#aa86a59779c0830e8cf82066853dc1089">Storage</a>;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#ab12d9d196122dc3075185ab239a27fb4">  102</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#ab12d9d196122dc3075185ab239a27fb4">Index</a>;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#aa3df5b7337d41d8f96717ea73bf3e24e">  105</a></span>&#160;  <span class="keyword">typedef</span> LongIndex_ <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#aa3df5b7337d41d8f96717ea73bf3e24e">LongIndex</a>;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#a9d07d96c2eccba10c3a9e4bef58d4e01">  108</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;kRank&gt;</a> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a9d07d96c2eccba10c3a9e4bef58d4e01">TensorCoord</a>;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">  111</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">Base</a> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a>;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">  114</a></span>&#160;  <span class="keyword">class </span><a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> {</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;  <span class="keyword">public</span>:</div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">  117</a></span>&#160;    <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">Base</a> <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">TensorRef</a>;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="keyword">private</span>:</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;    <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a> <span class="keyword">const</span> &amp;ref_;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> offset_;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <span class="keyword">public</span>:</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed">  131</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed">ConstIterator</a>(</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;      <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html">TensorRefBatchStrided</a> <span class="keyword">const</span> &amp;ref, </div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;      <a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> <a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a> = 0): ref_(ref), offset_(<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>) { }</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">  137</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">TensorRef</a> *<a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">operator</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">TensorRef</a> ref(ref_);</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;      ref.add_pointer_offset(offset_);</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <span class="keywordflow">return</span> ref;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;    }</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00145"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a3481d6f41defd25ab574bb19ee5fe424">  145</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a3481d6f41defd25ab574bb19ee5fe424">operator++</a>() {</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;      offset_ += ref_.<a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a>;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    }</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00152"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#aca860ff7f125e02f35c7dc174e84708d">  152</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#aca860ff7f125e02f35c7dc174e84708d">operator++</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;      offset_ += ref_.<a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a>;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;    }</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00160"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a1d48f4fea3fa85a7bf1b26b421387afd">  160</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a1d48f4fea3fa85a7bf1b26b421387afd">operator+</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx) {</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed">ConstIterator</a>(ref, offset_ + ref_.<a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a> * idx);</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    }</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00166"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab07a5d1a4ec6d96ec53e868b3a6d7cae">  166</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab07a5d1a4ec6d96ec53e868b3a6d7cae">operator+=</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx) {</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;      offset_ += ref_.<a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a> * idx;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;    }</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad5290f0e7814892cb4fff55e9518562b">  173</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad5290f0e7814892cb4fff55e9518562b">operator--</a>() {</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;      offset_ -= ref_.<a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a>;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;    }</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00180"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a09909fbe2e4365b5f34ddb61658f27b3">  180</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a09909fbe2e4365b5f34ddb61658f27b3">operator--</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;      offset_ -= ref_.<a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a>;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;    }</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00188"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad1d8099e8d63b6d88c53738ec68a7589">  188</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad1d8099e8d63b6d88c53738ec68a7589">operator-</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx) {</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed">ConstIterator</a>(ref_, offset_ - ref_.<a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a> * idx);</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    }</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ac4018b51e78842fb252d6917738fa571">  194</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ac4018b51e78842fb252d6917738fa571">operator-=</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx) {</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      offset_ -= ref_.<a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a> * idx;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;    }</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab92bc090d6753ff5e17676ba85a1e478">  201</a></span>&#160;    Stride <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab92bc090d6753ff5e17676ba85a1e478">operator-</a>(<a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <span class="keyword">const</span> &amp;it) {</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;      <span class="keywordflow">return</span> offset_ - it.offset_;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;    }</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;  };</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">  211</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a>;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;  <span class="comment">// Default ctor</span></div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00219"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#aa5d7e9a4589d7dacc5d69ca3c70ecc2b">  219</a></span>&#160;  <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#aa5d7e9a4589d7dacc5d69ca3c70ecc2b">TensorRefBatchStrided</a>(): <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a>(0) { }</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;  <span class="comment">// Constructs form a tensor reference and </span></div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00223"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#abc2ddccdb742f95438b214e0a3a14620">  223</a></span>&#160;  <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#abc2ddccdb742f95438b214e0a3a14620">TensorRefBatchStrided</a>(<a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a> <span class="keyword">const</span> &amp;ref, <a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> _tensor_stride = 0): </div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a>(ref), </div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a>(_tensor_stride) { }</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00229"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#a3d1922402bba34d0bc865fcc3e1a9a5c">  229</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">LongIndex</a> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a3d1922402bba34d0bc865fcc3e1a9a5c">get_pointer_offset</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx)<span class="keyword"> const </span>{</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;    <span class="keywordflow">return</span> idx * <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">tensor_stride</a>;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;  }</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;  <span class="comment">// Returns a reference</span></div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00235"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#aac4b013050925c1e2db4019140e82602">  235</a></span>&#160;  <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#aac4b013050925c1e2db4019140e82602">at</a>(<a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> idx)<span class="keyword"> const </span>{</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;    <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">TensorRef</a> ref(*<span class="keyword">this</span>);</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;    ref.add_pointer_offset(<a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a3d1922402bba34d0bc865fcc3e1a9a5c">get_pointer_offset</a>(idx));</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <span class="keywordflow">return</span> ref;</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;  }</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00243"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefBatchStrided.html#a4f4a2f860cc10688ee27cc9ce1df1015">  243</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="structcutlass_1_1TensorRefBatchStrided.html#a4f4a2f860cc10688ee27cc9ce1df1015">begin</a>() {</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">ConstIterator</a>(*<span class="keyword">this</span>);</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;  }</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;};</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;  <span class="keyword">typename</span> Storage_,</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;  <span class="keywordtype">int</span> Rank_,</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;  <span class="keyword">typename</span> MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;,</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;  <span class="keywordtype">int</span> StorageRank_ = MapFunc_::kStorageRank,</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;  <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;  <span class="keyword">typename</span> LongIndex_ = <span class="keywordtype">long</span> <span class="keywordtype">long</span></div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;&gt;</div><div class="line"><a name="l00272"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html">  272</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a> {</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;</div><div class="line"><a name="l00278"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">  278</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef&lt;Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt;</a> <a class="code" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef</a>;</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;</div><div class="line"><a name="l00281"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">  281</a></span>&#160;  <span class="keyword">typedef</span> Storage_ <a class="code" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">Storage</a>;</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;</div><div class="line"><a name="l00284"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">  284</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a>;</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;</div><div class="line"><a name="l00287"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#a6220549b72ed8451dbf76466b50a96c0">  287</a></span>&#160;  <span class="keyword">typedef</span> LongIndex_ <a class="code" href="structcutlass_1_1TensorRefArray.html#a6220549b72ed8451dbf76466b50a96c0">LongIndex</a>;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00290"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">  290</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a> = <a class="code" href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">TensorRef::kStorageRank</a>;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;</div><div class="line"><a name="l00293"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">  293</a></span>&#160;  <span class="keyword">class </span><a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> {</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;  <span class="keyword">public</span>:</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;</div><div class="line"><a name="l00297"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">  297</a></span>&#160;    <span class="keyword">typedef</span> Base <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">TensorRef</a>;</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;  <span class="keyword">private</span>:</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;    <a class="code" href="structcutlass_1_1TensorRefArray.html">TensorRefArray</a> <span class="keyword">const</span> &amp;ref_;</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;    <span class="keywordtype">int</span> idx_;</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;  <span class="keyword">public</span>:</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00310"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541">  310</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541">ConstIterator</a>(<a class="code" href="structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109">TensorArrayRef</a> <span class="keyword">const</span> &amp;ref, <span class="keywordtype">int</span> idx = 0): ref_(ref), idx_(idx) { }</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00314"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">  314</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">TensorRef</a> *<a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">operator</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;      <span class="keywordflow">return</span> ref_.reference(idx_);</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;    }</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00320"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a8ce80124ab0f4ab9981f1a4d64d976a5">  320</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a8ce80124ab0f4ab9981f1a4d64d976a5">operator++</a>() {</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;      ++idx_;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;    }</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00327"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a051f34d90c0680dc5f4e4e1c4d79e929">  327</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a051f34d90c0680dc5f4e4e1c4d79e929">operator++</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;      <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;      idx_ ++;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;    }</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00334"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a9fcd43018e60f12cb328859c76ec7891">  334</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a9fcd43018e60f12cb328859c76ec7891">operator+</a>(<a class="code" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> idx) {</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541">ConstIterator</a>(ref_, idx_ + idx);</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;    }</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00339"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a22b87d281057c8e03b80db7046c54dd8">  339</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a22b87d281057c8e03b80db7046c54dd8">operator+=</a>(<a class="code" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> idx) {</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;      idx_ += idx;</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;    }</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00345"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a0f395558e2c589ac48179447a23b59d8">  345</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a0f395558e2c589ac48179447a23b59d8">operator--</a>() {</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;      --idx_;</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;    }</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00352"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ac9019febbc8b6bfea06ac4d23d253d57">  352</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ac9019febbc8b6bfea06ac4d23d253d57">operator--</a>(<span class="keywordtype">int</span>) {</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;      <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> ret(*<span class="keyword">this</span>);</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;      --idx_;</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;      <span class="keywordflow">return</span> ret;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;    }</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00359"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ae3561f863072cd7be7dcdee2cb5cc1f0">  359</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> &amp;<a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ae3561f863072cd7be7dcdee2cb5cc1f0">operator-=</a>(<a class="code" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> idx) {</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;      idx_ -= idx;</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;      <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;    }</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00365"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a143ec893406d930aa4c5aa860052197e">  365</a></span>&#160;    <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a143ec893406d930aa4c5aa860052197e">operator-</a>(<a class="code" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> idx) {</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541">ConstIterator</a>(ref_, idx_ + idx);</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;    }</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;  };</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;</div><div class="line"><a name="l00375"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e">  375</a></span>&#160;  <a class="code" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">Storage</a> **<a class="code" href="structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e">pointers</a>;</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;</div><div class="line"><a name="l00378"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#a76228819a72b8ed341e680ba84a960be">  378</a></span>&#160;  <a class="code" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> *<a class="code" href="structcutlass_1_1TensorRefArray.html#a76228819a72b8ed341e680ba84a960be">strides</a>[<a class="code" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a> - 1];</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;  <span class="comment">// Default ctor</span></div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00386"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109">  386</a></span>&#160;  <a class="code" href="structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109">TensorArrayRef</a>() { }</div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;  <span class="comment">// Construct from pointers to arrays to strides</span></div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00390"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#aea35239326dcb23c3c6a18e7b3f92091">  390</a></span>&#160;  <a class="code" href="structcutlass_1_1TensorRefArray.html#aea35239326dcb23c3c6a18e7b3f92091">TensorArrayRef</a>(</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;    <a class="code" href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">Storage</a> **_pointers,</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;    <a class="code" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> _strides[<a class="code" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a> - 1]): <a class="code" href="structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e">pointers</a>(_pointers) { </div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;    <span class="comment">// Copy pointers to strides arrays</span></div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a> - 1; ++i) {</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;      <a class="code" href="structcutlass_1_1TensorRefArray.html#a76228819a72b8ed341e680ba84a960be">strides</a>[i] = _strides[i];</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;    }</div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;  }</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;  <span class="comment">// Returns a TensorRef at the given index in the collection</span></div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00402"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#a2a95fd42d48c550a45f340b04f9dfe3d">  402</a></span>&#160;  <a class="code" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef</a> <a class="code" href="structcutlass_1_1TensorRefArray.html#a2a95fd42d48c550a45f340b04f9dfe3d">at</a>(<a class="code" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a> idx)<span class="keyword"> const </span>{</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&lt;<a class="code" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a> - 1, <a class="code" href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">Index</a>&gt; stride;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; <a class="code" href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">kStorageRank</a> - 1; ++i) {</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;      stride[i] = stride_[idx][i];</div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;    }</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">TensorRef</a>(<a class="code" href="structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e">pointers</a>[idx], stride);</div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;  }</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;</div><div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00413"></a><span class="lineno"><a class="line" href="structcutlass_1_1TensorRefArray.html#a6b0f0d9cef4a2f3f4a8bf6c192a282db">  413</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a> <a class="code" href="structcutlass_1_1TensorRefArray.html#a6b0f0d9cef4a2f3f4a8bf6c192a282db">begin</a>() {</div><div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">ConstIterator</a>(*<span class="keyword">this</span>);</div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;  }</div><div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;};</div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;</div><div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;</div><div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html">cutlass::TensorRefBatchStrided::ConstIterator</a></div><div class="ttdoc">Constant iterator over tensors implied by TensorRefBatchStrided. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:114</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_ad5290f0e7814892cb4fff55e9518562b"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad5290f0e7814892cb4fff55e9518562b">cutlass::TensorRefBatchStrided::ConstIterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator--()</div><div class="ttdoc">Moves to the previous tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:173</div></div>
+<div class="ttc" id="tensor__ref_8h_html"><div class="ttname"><a href="tensor__ref_8h.html">tensor_ref.h</a></div><div class="ttdoc">Defines a structure containing strides, bounds, and a pointer to tensor data. </div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_a0f395558e2c589ac48179447a23b59d8"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a0f395558e2c589ac48179447a23b59d8">cutlass::TensorRefArray::ConstIterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator--()</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:345</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_a76228819a72b8ed341e680ba84a960be"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#a76228819a72b8ed341e680ba84a960be">cutlass::TensorRefArray::strides</a></div><div class="ttdeci">Index * strides[kStorageRank - 1]</div><div class="ttdoc">Array of strides. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:378</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_ab6a6ed8af1a4b3da33e840409c0a72d8"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#ab6a6ed8af1a4b3da33e840409c0a72d8">cutlass::TensorRefArray::Storage</a></div><div class="ttdeci">Storage_ Storage</div><div class="ttdoc">Element pointed to by the TensorRef. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:281</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html">cutlass::TensorRefArray</a></div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:272</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_a131bdcf213e3d46672c9b3b34d6bf243"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#a131bdcf213e3d46672c9b3b34d6bf243">cutlass::TensorRefArray::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdoc">Rank of the stride vector. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:290</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_aa86a59779c0830e8cf82066853dc1089"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#aa86a59779c0830e8cf82066853dc1089">cutlass::TensorRefBatchStrided::Storage</a></div><div class="ttdeci">Base::Storage Storage</div><div class="ttdoc">Storage type. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:99</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_ae3561f863072cd7be7dcdee2cb5cc1f0"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ae3561f863072cd7be7dcdee2cb5cc1f0">cutlass::TensorRefArray::ConstIterator::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator-=(Index idx)</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:359</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_a6220549b72ed8451dbf76466b50a96c0"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#a6220549b72ed8451dbf76466b50a96c0">cutlass::TensorRefArray::LongIndex</a></div><div class="ttdeci">LongIndex_ LongIndex</div><div class="ttdoc">Typically, strides in memory can be very large. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:287</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_a4f4a2f860cc10688ee27cc9ce1df1015"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#a4f4a2f860cc10688ee27cc9ce1df1015">cutlass::TensorRefBatchStrided::begin</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator begin()</div><div class="ttdoc">Returns an iterator. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:243</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_a27a1e93508bb9c602028cabc3431815f"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#a27a1e93508bb9c602028cabc3431815f">cutlass::TensorRefBatchStrided::tensor_stride</a></div><div class="ttdeci">LongIndex tensor_stride</div><div class="ttdoc">Stride between tensors. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:211</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_aca860ff7f125e02f35c7dc174e84708d"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#aca860ff7f125e02f35c7dc174e84708d">cutlass::TensorRefBatchStrided::ConstIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator++(int)</div><div class="ttdoc">Advances the iterator to point to the next tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:152</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_a0d5f100b9b87f881e7ecaced63bce9dd"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#a0d5f100b9b87f881e7ecaced63bce9dd">cutlass::TensorRefBatchStrided::TensorRef</a></div><div class="ttdeci">Base TensorRef</div><div class="ttdoc">Tensor reference implied by the TensorRefBatchStrided. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:111</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_ab0ea61995928c0935ec03c260463ef15"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab0ea61995928c0935ec03c260463ef15">cutlass::TensorRefBatchStrided::ConstIterator::operator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef * operator() const</div><div class="ttdoc">Obtains a TensorRef pointed to by the iterator. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:137</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_a09909fbe2e4365b5f34ddb61658f27b3"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a09909fbe2e4365b5f34ddb61658f27b3">cutlass::TensorRefBatchStrided::ConstIterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator--(int)</div><div class="ttdoc">Moves to the previous tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:180</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_a6b0f0d9cef4a2f3f4a8bf6c192a282db"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#a6b0f0d9cef4a2f3f4a8bf6c192a282db">cutlass::TensorRefArray::begin</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator begin()</div><div class="ttdoc">Returns an TesnorRefIterator over the TensorRef objects in this collection. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:413</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html">cutlass::TensorRefArray::ConstIterator</a></div><div class="ttdoc">TensorRefIterator over TensorRef objects in TensorRefArray. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:293</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a2beda7a1946bde2858e730bece21b890"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">cutlass::TensorRef::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:146</div></div>
+<div class="ttc" id="cutlass_8h_html_a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><div class="ttname"><a href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:62</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_a45331031771aeb9f71d5c1abdf42e541"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a45331031771aeb9f71d5c1abdf42e541">cutlass::TensorRefArray::ConstIterator::ConstIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator(TensorArrayRef const &amp;ref, int idx=0)</div><div class="ttdoc">Constructs a ConstIterator over the TensorRef objects. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:310</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_a066d684240f8a24e1ba621ae3904ec75"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#a066d684240f8a24e1ba621ae3904ec75">cutlass::TensorRefArray::TensorRef</a></div><div class="ttdeci">TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; TensorRef</div><div class="ttdoc">TensorRef type obtained from the TensorRefArray. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:278</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_a8f4658dd194b305ae4f150cf371869d9"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#a8f4658dd194b305ae4f150cf371869d9">cutlass::TensorRefArray::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:284</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_a143ec893406d930aa4c5aa860052197e"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a143ec893406d930aa4c5aa860052197e">cutlass::TensorRefArray::ConstIterator::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator-(Index idx)</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:365</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a42ca6a39ab0e44296fed71a77c57b7b1"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a42ca6a39ab0e44296fed71a77c57b7b1">cutlass::TensorRef::LongIndex</a></div><div class="ttdeci">LongIndex_ LongIndex</div><div class="ttdoc">Typically, strides in memory can be very large. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:149</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_ac9019febbc8b6bfea06ac4d23d253d57"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ac9019febbc8b6bfea06ac4d23d253d57">cutlass::TensorRefArray::ConstIterator::operator--</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator--(int)</div><div class="ttdoc">Advances to next TensorRef. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:352</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_ab92bc090d6753ff5e17676ba85a1e478"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab92bc090d6753ff5e17676ba85a1e478">cutlass::TensorRefBatchStrided::ConstIterator::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Stride operator-(ConstIterator const &amp;it)</div><div class="ttdoc">Returns the difference in offset between two iterators. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:201</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_aa6e59a5ecb15c9842c5ee80cc168f679"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#aa6e59a5ecb15c9842c5ee80cc168f679">cutlass::TensorRefArray::ConstIterator::operator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef * operator() const</div><div class="ttdoc">Obtains a TensorRef pointed to by this iterator. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:314</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_a2a95fd42d48c550a45f340b04f9dfe3d"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#a2a95fd42d48c550a45f340b04f9dfe3d">cutlass::TensorRefArray::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef at(Index idx) const</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:402</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_aa3df5b7337d41d8f96717ea73bf3e24e"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#aa3df5b7337d41d8f96717ea73bf3e24e">cutlass::TensorRefBatchStrided::LongIndex</a></div><div class="ttdeci">LongIndex_ LongIndex</div><div class="ttdoc">Typically, strides in memory can be very large. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:105</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a425ff3d894ed1153eee79b1944fa5ed2"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a425ff3d894ed1153eee79b1944fa5ed2">cutlass::TensorRef::kStorageRank</a></div><div class="ttdeci">static int const kStorageRank</div><div class="ttdoc">Rank of internal storage. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:143</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_a9d07d96c2eccba10c3a9e4bef58d4e01"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#a9d07d96c2eccba10c3a9e4bef58d4e01">cutlass::TensorRefBatchStrided::TensorCoord</a></div><div class="ttdeci">Coord&lt; kRank &gt; TensorCoord</div><div class="ttdoc">Coordinate in logical tensor space. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:108</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_aac4b013050925c1e2db4019140e82602"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#aac4b013050925c1e2db4019140e82602">cutlass::TensorRefBatchStrided::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef at(Index idx) const</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:235</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_ad1d8099e8d63b6d88c53738ec68a7589"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ad1d8099e8d63b6d88c53738ec68a7589">cutlass::TensorRefBatchStrided::ConstIterator::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator-(Index idx)</div><div class="ttdoc">Returns an iterator moved forward by (idx) amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:188</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_aa5d7e9a4589d7dacc5d69ca3c70ecc2b"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#aa5d7e9a4589d7dacc5d69ca3c70ecc2b">cutlass::TensorRefBatchStrided::TensorRefBatchStrided</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRefBatchStrided()</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:219</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a4da903ecbeaaf80c35084e8779e920a1"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">cutlass::TensorRef::offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE LongIndex offset(TensorCoord const &amp;coord) const</div><div class="ttdoc">Computes the offset of an index from the origin of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:331</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:49</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_ab12d9d196122dc3075185ab239a27fb4"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#ab12d9d196122dc3075185ab239a27fb4">cutlass::TensorRefBatchStrided::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:102</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_a1d48f4fea3fa85a7bf1b26b421387afd"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a1d48f4fea3fa85a7bf1b26b421387afd">cutlass::TensorRefBatchStrided::ConstIterator::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator+(Index idx)</div><div class="ttdoc">Returns an iterator advanced by (idx) amount. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:160</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_ab07a5d1a4ec6d96ec53e868b3a6d7cae"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ab07a5d1a4ec6d96ec53e868b3a6d7cae">cutlass::TensorRefBatchStrided::ConstIterator::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator+=(Index idx)</div><div class="ttdoc">Advances this iterator by (idx) and returns a reference to self. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:166</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_ae322501a04b0008e5db4f7fccb6e903e"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#ae322501a04b0008e5db4f7fccb6e903e">cutlass::TensorRefArray::pointers</a></div><div class="ttdeci">Storage ** pointers</div><div class="ttdoc">Base addresses. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:375</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_a3d1922402bba34d0bc865fcc3e1a9a5c"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#a3d1922402bba34d0bc865fcc3e1a9a5c">cutlass::TensorRefBatchStrided::get_pointer_offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE LongIndex get_pointer_offset(Index idx) const</div><div class="ttdoc">Gets the pointer offset. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:229</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html">cutlass::TensorRefBatchStrided</a></div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:88</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_a9fcd43018e60f12cb328859c76ec7891"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a9fcd43018e60f12cb328859c76ec7891">cutlass::TensorRefArray::ConstIterator::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator+(Index idx)</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:334</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_ac4018b51e78842fb252d6917738fa571"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#ac4018b51e78842fb252d6917738fa571">cutlass::TensorRefBatchStrided::ConstIterator::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator-=(Index idx)</div><div class="ttdoc">Moves this iterator by (idx) and returns a reference to self. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:194</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_a5557f98c75b51751f834c4a7d6385efc"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a5557f98c75b51751f834c4a7d6385efc">cutlass::TensorRefBatchStrided::ConstIterator::TensorRef</a></div><div class="ttdeci">Base TensorRef</div><div class="ttdoc">TensorRef returned by the iterator. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:117</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_abc2ddccdb742f95438b214e0a3a14620"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#abc2ddccdb742f95438b214e0a3a14620">cutlass::TensorRefBatchStrided::TensorRefBatchStrided</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRefBatchStrided(TensorRef const &amp;ref, LongIndex _tensor_stride=0)</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:223</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_a22b87d281057c8e03b80db7046c54dd8"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a22b87d281057c8e03b80db7046c54dd8">cutlass::TensorRefArray::ConstIterator::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator+=(Index idx)</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:339</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_a28da80c1ba56e354ddb9352b54b231ed"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a28da80c1ba56e354ddb9352b54b231ed">cutlass::TensorRefBatchStrided::ConstIterator::ConstIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator(TensorRefBatchStrided const &amp;ref, LongIndex offset=0)</div><div class="ttdoc">Constructs a ConstIterator from a parent TensorRefBatchStrided. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:131</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator_html_a3481d6f41defd25ab574bb19ee5fe424"><div class="ttname"><a href="classcutlass_1_1TensorRefBatchStrided_1_1ConstIterator.html#a3481d6f41defd25ab574bb19ee5fe424">cutlass::TensorRefBatchStrided::ConstIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator++()</div><div class="ttdoc">Advances the iterator to point to the next tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:145</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefBatchStrided_html_ac92b0cbb46cea7a04ee4660c2603b000"><div class="ttname"><a href="structcutlass_1_1TensorRefBatchStrided.html#ac92b0cbb46cea7a04ee4660c2603b000">cutlass::TensorRefBatchStrided::Base</a></div><div class="ttdeci">TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Base</div><div class="ttdoc">Underlying TensorRef type. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:96</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_a771ede5f73ec18729cc9a5946cf86109"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#a771ede5f73ec18729cc9a5946cf86109">cutlass::TensorRefArray::TensorArrayRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorArrayRef()</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:386</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_a8ce80124ab0f4ab9981f1a4d64d976a5"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a8ce80124ab0f4ab9981f1a4d64d976a5">cutlass::TensorRefArray::ConstIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator &amp; operator++()</div><div class="ttdoc">Advances to next TensorRef. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:320</div></div>
+<div class="ttc" id="structcutlass_1_1TensorRefArray_html_aea35239326dcb23c3c6a18e7b3f92091"><div class="ttname"><a href="structcutlass_1_1TensorRefArray.html#aea35239326dcb23c3c6a18e7b3f92091">cutlass::TensorRefArray::TensorArrayRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorArrayRef(Storage **_pointers, Index _strides[kStorageRank - 1])</div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:390</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_ad19f348ecb951eae63a3ef2c47d34f4f"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#ad19f348ecb951eae63a3ef2c47d34f4f">cutlass::TensorRefArray::ConstIterator::TensorRef</a></div><div class="ttdeci">Base TensorRef</div><div class="ttdoc">TensorRef returned by the iterator. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:297</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRefArray_1_1ConstIterator_html_a051f34d90c0680dc5f4e4e1c4d79e929"><div class="ttname"><a href="classcutlass_1_1TensorRefArray_1_1ConstIterator.html#a051f34d90c0680dc5f4e4e1c4d79e929">cutlass::TensorRefArray::ConstIterator::operator++</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstIterator operator++(int)</div><div class="ttdoc">Advances to next TensorRef. </div><div class="ttdef"><b>Definition:</b> tensor_ref_collection.h:327</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/tensor__view_8h.html b/docs/tensor__view_8h.html
index 7fa3cfcf82..5a359b84e7 100644
--- a/docs/tensor__view_8h.html
+++ b/docs/tensor__view_8h.html
@@ -83,15 +83,15 @@
 <p>Defines a structure containing strides and a pointer to tensor data.  
 <a href="#details">More...</a></p>
 <div class="textblock"><code>#include &lt;cmath&gt;</code><br />
-<code>#include &lt;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="tensor__ref_8h_source.html">cutlass/tensor_ref.h</a>&gt;</code><br />
+<code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tensor__ref_8h_source.html">cutlass/tensor_ref.h</a>&quot;</code><br />
 </div>
 <p><a href="tensor__view_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; T &gt;</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Host-side reference implementation of tensor operations.  <a href="classcutlass_1_1TensorView.html#details">More...</a><br /></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1TensorView.html">cutlass::TensorView&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Defines a view into a logical tensor.  <a href="classcutlass_1_1TensorView.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
@@ -99,10 +99,13 @@
 <tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
-</div><!-- contents -->
+<a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
+<div class="textblock"><p>TensorView is derived from TensorRef and contributes bounds to the tensor's index space. Thus, it is a complete mathematical object and may be used in tensor algorithms. It is decoupled from data storage and is therefore lightweight and may be embedded in larger tensor objects or memory structures.</p>
+<p>See <a class="el" href="tensor__ref_8h.html" title="Defines a structure containing strides, bounds, and a pointer to tensor data. ">cutlass/tensor_ref.h</a> for more details about the mapping of the logical tensor index space to linear memory. </p>
+</div></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/tensor__view_8h_source.html b/docs/tensor__view_8h_source.html
index 655854021d..d86617150b 100644
--- a/docs/tensor__view_8h_source.html
+++ b/docs/tensor__view_8h_source.html
@@ -76,50 +76,58 @@
 <div class="title">tensor_view.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="tensor__view_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;cmath&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="tensor__ref_8h.html">cutlass/tensor_ref.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html">   42</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1TensorView.html">TensorView</a> : <span class="keyword">public</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef</a>&lt;T, 4&gt; {</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4">   45</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;T, 4&gt;</a> <a class="code" href="classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4">Base</a>;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">   48</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorRef.html">Base</a> <a class="code" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a>;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">   51</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef&lt;T const, 4&gt;</a> <a class="code" href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">ConstTensorRef_t</a>;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">   54</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">Rank</a> = <a class="code" href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">TensorRef_t::Rank</a>;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">   57</a></span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">int</span> <a class="code" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">Offset_t</a>;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">   60</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <a class="code" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a>;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef_t</a> ref_;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord_t</a> size_;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  <span class="comment">// Device and Host Methods</span></div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a22401348796d603546e44d6c196018dc">   80</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html#a22401348796d603546e44d6c196018dc">TensorView</a>() {}</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a80480aa986a488a106a9b0aea331c317">   84</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html#a80480aa986a488a106a9b0aea331c317">TensorView</a>(<a class="code" href="classcutlass_1_1TensorRef.html">TensorRef_t</a> <span class="keyword">const</span>&amp; _ref, <a class="code" href="structcutlass_1_1Coord.html">Coord_t</a> <span class="keyword">const</span>&amp; _size) : <a class="code" href="classcutlass_1_1TensorRef.html">Base</a>(_ref), size_(_size) {}</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a837881bc82704491accf54aad2b9def9">   88</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1TensorView.html#a837881bc82704491accf54aad2b9def9">good</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a>().<a class="code" href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">good</a>(); }</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a248e4240ccf96c976254464710a73fc8">   92</a></span>&#160;  T* <a class="code" href="classcutlass_1_1TensorView.html#a248e4240ccf96c976254464710a73fc8">data</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a>().<a class="code" href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">data</a>(); }</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00096"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a8b1785a1ea5d7aa7eba8e45297d539d3">   96</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1TensorView.html#a8b1785a1ea5d7aa7eba8e45297d539d3">reset</a>(<a class="code" href="classcutlass_1_1TensorRef.html">TensorRef_t</a> <span class="keyword">const</span>&amp; _ref = <a class="code" href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">TensorRef_t</a>(0), <a class="code" href="structcutlass_1_1Coord.html">Coord_t</a> <span class="keyword">const</span>&amp; _size = <a class="code" href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">Coord_t</a>()) {</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;    Base::operator=(_ref);</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    size_ = _size;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;  }</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">  103</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef_t</a>&amp; <a class="code" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a>() { <span class="keywordflow">return</span> *<span class="keyword">this</span>; }</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a23564f1d333bb16343ed3a885f894285">  107</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">ConstTensorRef_t</a> <a class="code" href="classcutlass_1_1TensorView.html#a23564f1d333bb16343ed3a885f894285">const_ref</a>() { <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">ConstTensorRef_t</a>(<a class="code" href="classcutlass_1_1TensorView.html#a248e4240ccf96c976254464710a73fc8">data</a>(), <a class="code" href="classcutlass_1_1TensorView.html#a3ac125a25199fd91f73d2cfe9fc3d09b">stride</a>()); }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a5cbff89d3d8dc71d27a4d6c1d7abb58a">  111</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef_t</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorView.html#a5cbff89d3d8dc71d27a4d6c1d7abb58a">ref</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> *<span class="keyword">this</span>; }</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027">  115</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord_t</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027">size</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> size_; }</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a6218d8555679966eab784a6bb1fa4ed1">  119</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="classcutlass_1_1TensorView.html#a6218d8555679966eab784a6bb1fa4ed1">size</a>(<span class="keywordtype">int</span> dim)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> size_.<a class="code" href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">at</a>(dim); }</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00123"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a3ac125a25199fd91f73d2cfe9fc3d09b">  123</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord_t</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorView.html#a3ac125a25199fd91f73d2cfe9fc3d09b">stride</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a>().<a class="code" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>(); }</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a522630bb0df977282a9bff17e6fee843">  127</a></span>&#160;  <span class="keywordtype">int</span> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorView.html#a522630bb0df977282a9bff17e6fee843">stride</a>(<span class="keywordtype">int</span> dim)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a>().<a class="code" href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">stride</a>(dim); }</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#aa9e9e19f35ce3111f64b763ca49b51ef">  131</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html">TensorView</a>&amp; <a class="code" href="classcutlass_1_1TensorView.html#aa9e9e19f35ce3111f64b763ca49b51ef">operator=</a>(<a class="code" href="classcutlass_1_1TensorView.html">TensorView</a> <span class="keyword">const</span>&amp; _tensor) {</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;    Base::operator=(_tensor._ref);</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;    size_ = _tensor.size_;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  }</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00139"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a064f3630e69798e7915f910c4ee99ab7">  139</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">Offset_t</a> <a class="code" href="classcutlass_1_1TensorView.html#a064f3630e69798e7915f910c4ee99ab7">offset</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord_t</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a>().<a class="code" href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">offset</a>(coord); }</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#aa94063d9a9c6e599d3f53e22433274be">  143</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1TensorView.html#aa94063d9a9c6e599d3f53e22433274be">contains</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord_t</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> dim = 0; dim &lt; <a class="code" href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">Rank</a>; ++dim) {</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;      <span class="keywordflow">if</span> (coord.<a class="code" href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">at</a>(dim) &gt;= size_.<a class="code" href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">at</a>(dim)) {</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;        <span class="keywordflow">return</span> <span class="keyword">false</span>;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      }</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    }</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">true</span>;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;  }</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00154"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#ad894a8b373c413d308cb1b7c7ba545ce">  154</a></span>&#160;  T&amp; <a class="code" href="classcutlass_1_1TensorView.html#ad894a8b373c413d308cb1b7c7ba545ce">at</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord_t</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a>().<a class="code" href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">at</a>(coord); }</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a7fe7e44e15fd1ac58fb55edf72e8fb23">  157</a></span>&#160;  T&amp; <a class="code" href="classcutlass_1_1TensorView.html#a7fe7e44e15fd1ac58fb55edf72e8fb23">operator[]</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;Rank&gt;</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#ad894a8b373c413d308cb1b7c7ba545ce">at</a>(coord); }</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00161"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#acc55581896fae8c0449b44b56d750155">  161</a></span>&#160;  T&amp; <a class="code" href="classcutlass_1_1TensorView.html#acc55581896fae8c0449b44b56d750155">at</a>(<a class="code" href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">Offset_t</a> idx)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a>().<a class="code" href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">at</a>(idx); }</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00165"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#aee43c516397d7c06eb8012711d8d7c15">  165</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html">TensorView&lt;T&gt;</a> <a class="code" href="classcutlass_1_1TensorView.html#aee43c516397d7c06eb8012711d8d7c15">subview</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord_t</a> <span class="keyword">const</span>&amp; location, <a class="code" href="structcutlass_1_1Coord.html">Coord_t</a> <a class="code" href="classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027">size</a>)<span class="keyword"> const </span>{</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html">TensorView&lt;T&gt;</a>(<a class="code" href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">ref</a>() + location, <a class="code" href="classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027">size</a>.<a class="code" href="structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e">clamp</a>(size_ - location));</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;  }</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;};</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="classcutlass_1_1TensorView_html_a5cbff89d3d8dc71d27a4d6c1d7abb58a"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a5cbff89d3d8dc71d27a4d6c1d7abb58a">cutlass::TensorView::ref</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef_t const  &amp; ref() const</div><div class="ttdoc">Accesses the tensor reference pointing to data. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:111</div></div>
+<a href="tensor__view_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &lt;cmath&gt;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tensor__ref_8h.html">cutlass/tensor_ref.h</a>&quot;</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="keyword">typename</span> Storage_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keywordtype">int</span> Rank_ = 4,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <span class="keyword">typename</span> MapFunc_ = IdentityTensorMapFunc&lt;Rank_&gt;,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <span class="keywordtype">int</span> StorageRank_ = MapFunc_::kStorageRank,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="keyword">typename</span> LongIndex_ = <span class="keywordtype">long</span> <span class="keywordtype">long</span></div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;&gt;</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html">   63</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1TensorView.html">TensorView</a> : <span class="keyword">public</span> <a class="code" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a>&lt;Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt; {</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">   66</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef&lt;Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_&gt;</a> <a class="code" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a>;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a>&lt;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Storage_&gt;::type</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    Rank_,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;    MapFunc_,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    StorageRank_,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;    Index_,</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a3861f7f09da0b8153d0e3686f2c7cf57">   75</a></span>&#160;    LongIndex_&gt; <a class="code" href="classcutlass_1_1TensorView.html#a3861f7f09da0b8153d0e3686f2c7cf57">ConstTensorRef</a>;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">   78</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a> <a class="code" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a>;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a52fb77744c7c7ecf0f8a3a725556293d">   81</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Base::Storage <a class="code" href="classcutlass_1_1TensorView.html#a52fb77744c7c7ecf0f8a3a725556293d">Storage</a>;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a5a3f096a01e6a2dfe984d7e605380599">   84</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Base::Index <a class="code" href="classcutlass_1_1TensorView.html#a5a3f096a01e6a2dfe984d7e605380599">Index</a>;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#ada8a241b6b2c5439183b0d6c456c934e">   87</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Coord.html">TensorRef::TensorCoord</a> <a class="code" href="classcutlass_1_1TensorView.html#ada8a241b6b2c5439183b0d6c456c934e">TensorCoord</a>;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#abaf7ec0e96bc99cf0ce243e703b8711c">   90</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Coord.html">TensorRef::StorageCoord</a> <a class="code" href="classcutlass_1_1TensorView.html#abaf7ec0e96bc99cf0ce243e703b8711c">StorageCoord</a>;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a625892aa9063eebf769bb2ed0cba7684">   94</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Coord.html">TensorRef::StrideVector</a> <a class="code" href="classcutlass_1_1TensorView.html#a625892aa9063eebf769bb2ed0cba7684">StrideVector</a>;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorView.html">TensorView</a>&lt;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">platform::remove_const&lt;Storage&gt;::type</a> <span class="keyword">const</span>,</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    Rank_,</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;    MapFunc_,</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;    StorageRank_,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;    Index_,</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#ab879a7b6552c879a81c49cbc0946d719">  103</a></span>&#160;    LongIndex_&gt; <a class="code" href="classcutlass_1_1TensorView.html#ab879a7b6552c879a81c49cbc0946d719">ConstTensorView</a>;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <span class="comment">// Definitions included for backwards compatibility - to be removed in next major release</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#ab16a0244199ca2800ea5460ed8ed6ae2">  110</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <a class="code" href="classcutlass_1_1TensorView.html#ab16a0244199ca2800ea5460ed8ed6ae2">Coord_t</a>;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a8dbb7043546fae133547d2c3e46dddab">  113</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="classcutlass_1_1TensorView.html#a8dbb7043546fae133547d2c3e46dddab">Rank</a> = Base::kRank;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a408d9a8026115bdaf70a37c86dc720b1">  116</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Base::LongIndex <a class="code" href="classcutlass_1_1TensorView.html#a408d9a8026115bdaf70a37c86dc720b1">Offset_t</a>;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a25eb8c0fe380114ddaabb37453be4606">  119</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a> <a class="code" href="classcutlass_1_1TensorView.html#a25eb8c0fe380114ddaabb37453be4606">TensorRef_t</a>;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a162c4cb4f4e866892d63cd37f7f72165">  122</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="classcutlass_1_1TensorRef.html">TensorRef::ConstTensorRef</a> <a class="code" href="classcutlass_1_1TensorView.html#a162c4cb4f4e866892d63cd37f7f72165">ConstTensorRef_t</a>;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160; <span class="keyword">private</span>:</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> size_;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  <span class="comment">// Device and Host Methods</span></div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00139"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a36d48227f65ad482a7bded99d6a3d0c1">  139</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html#a36d48227f65ad482a7bded99d6a3d0c1">TensorView</a>() {}</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#aad06edac0f43c358c5644dffb5fe9ad7">  143</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html#aad06edac0f43c358c5644dffb5fe9ad7">TensorView</a>(<a class="code" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a> <span class="keyword">const</span>&amp; _ref, <a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; _size) : <a class="code" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a>(_ref), size_(_size) {}</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00147"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a73f049694ca1ea4825b5a651852827f5">  147</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html#a73f049694ca1ea4825b5a651852827f5">TensorView</a>(</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr,</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">StrideVector</a> <span class="keyword">const</span> &amp;<a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>,</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a></div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  ):</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    <a class="code" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a>(ptr, <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>), size_(<a class="code" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a>) {}</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00156"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#af64d4195fd6ba2cba53179e1ae678737">  156</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html#af64d4195fd6ba2cba53179e1ae678737">TensorView</a>(</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    <a class="code" href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">Storage</a> *ptr,</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> <span class="keyword">const</span> &amp;<a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>,</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a></div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;  ):</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;    <a class="code" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a>(ptr, <a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>), size_(<a class="code" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a>) {}</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00165"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#ae142eb93cf91e000b635d32fcacf1db3">  165</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1TensorView.html#ae142eb93cf91e000b635d32fcacf1db3">reset</a>(<a class="code" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a> <span class="keyword">const</span>&amp; _ref = <a class="code" href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">Base</a>(), <a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; _size = <a class="code" href="classcutlass_1_1TensorView.html#ada8a241b6b2c5439183b0d6c456c934e">TensorCoord</a>()) {</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;    Base::operator=(_ref);</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;    size_ = _size;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  }</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">  172</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; <a class="code" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> size_; }</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00176"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a3778dc1c62a27ed811f1bb82a420096e">  176</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">Index</a> <a class="code" href="classcutlass_1_1TensorView.html#a3778dc1c62a27ed811f1bb82a420096e">size</a>(<span class="keywordtype">int</span> dim)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> size_.<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(dim); }</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00180"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#acf0c156efb9197bc7538f7e9057d8a68">  180</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html">TensorView</a>&amp; <a class="code" href="classcutlass_1_1TensorView.html#acf0c156efb9197bc7538f7e9057d8a68">operator=</a>(<a class="code" href="classcutlass_1_1TensorView.html">TensorView</a> <span class="keyword">const</span>&amp; _tensor) {</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    Base::operator=(_tensor);</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    size_ = _tensor.size_;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;  }</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00188"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a3f448bcf6e664c244f472e2659215628">  188</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="classcutlass_1_1TensorView.html#a3f448bcf6e664c244f472e2659215628">contains</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; coord)<span class="keyword"> const </span>{</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> dim = 0; dim &lt; Rank_; ++dim) {</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;      <span class="keywordflow">if</span> (coord[dim] &gt;= size_[dim]) {</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;        <span class="keywordflow">return</span> <span class="keyword">false</span>;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;      }</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;    }</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">true</span>;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;  }</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00200"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a7e2beb56a3bc2d58c9ec65467b78c4f3">  200</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a> <a class="code" href="classcutlass_1_1TensorView.html#a7e2beb56a3bc2d58c9ec65467b78c4f3">ref</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a>(*<span class="keyword">this</span>);</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;  }</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00206"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a559f7210b445c77a167ab1f41c8d0827">  206</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorRef.html">ConstTensorRef</a> <a class="code" href="classcutlass_1_1TensorView.html#a559f7210b445c77a167ab1f41c8d0827">const_ref</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#a3861f7f09da0b8153d0e3686f2c7cf57">ConstTensorRef</a>(*<span class="keyword">this</span>);</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  }</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00212"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#ad4b3faa318699b786f94cf8735a11dbb">  212</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html">TensorView</a> <a class="code" href="classcutlass_1_1TensorView.html#ad4b3faa318699b786f94cf8735a11dbb">subview</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; location, <a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <a class="code" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a>)<span class="keyword"> const </span>{</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1TensorView.html#a36d48227f65ad482a7bded99d6a3d0c1">TensorView</a>((*<span class="keyword">this</span>) + location, <a class="code" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a>.<a class="code" href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">clamp</a>(size_ - location));</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;  }</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#ad870c366ffe904d3363df1dfb0d5f04c">  218</a></span>&#160;  <span class="keywordtype">size_t</span> <a class="code" href="classcutlass_1_1TensorView.html#ad870c366ffe904d3363df1dfb0d5f04c">capacity</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;    <span class="keywordtype">int</span> max_rank = 0;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">StorageCoord</a> mapped_size(this-&gt;<a class="code" href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">map</a>(<a class="code" href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">size</a>()));</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Base::kStorageRank; ++i) {</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;      <span class="keywordflow">if</span> (!i ||</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;        this-&gt;<a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>(i) * mapped_size[i] &gt; this-&gt;<a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>(max_rank) * mapped_size[max_rank]) {</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;        max_rank = i;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;      }</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;    }</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;    <span class="keywordflow">return</span> this-&gt;<a class="code" href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">stride</a>(max_rank) * mapped_size[max_rank];</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;  }</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00235"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#aa2390d8e127a51df239affd2ca36e97a">  235</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html">TensorView</a> <a class="code" href="classcutlass_1_1TensorView.html#aa2390d8e127a51df239affd2ca36e97a">operator+</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;    <a class="code" href="classcutlass_1_1TensorView.html">TensorView</a> result(*<span class="keyword">this</span>);</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;    result.<a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(this-&gt;<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <span class="keywordflow">return</span> result;</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;  }</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00243"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a4fa8fa35d00eb4d0097da492c738cddc">  243</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html">TensorView</a>&amp; <a class="code" href="classcutlass_1_1TensorView.html#a4fa8fa35d00eb4d0097da492c738cddc">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(this-&gt;<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;  }</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00250"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#a1e4b2bb02c5843898f72f62787403add">  250</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html">TensorView</a> <a class="code" href="classcutlass_1_1TensorView.html#a1e4b2bb02c5843898f72f62787403add">operator-</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;    <a class="code" href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">TensorRef</a> result(*<span class="keyword">this</span>);</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;    result.add_pointer_offset(-this-&gt;<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;    <span class="keywordflow">return</span> result;</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;  }</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00258"></a><span class="lineno"><a class="line" href="classcutlass_1_1TensorView.html#abc088fad6debb6a0ceb04c5d2767e81b">  258</a></span>&#160;  <a class="code" href="classcutlass_1_1TensorView.html">TensorView</a>&amp; <a class="code" href="classcutlass_1_1TensorView.html#abc088fad6debb6a0ceb04c5d2767e81b">operator-=</a>(<a class="code" href="structcutlass_1_1Coord.html">TensorCoord</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;    this-&gt;<a class="code" href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">add_pointer_offset</a>(-this-&gt;<a class="code" href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">offset</a>(b));</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;  }</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;};</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="classcutlass_1_1TensorView_html_a5a3f096a01e6a2dfe984d7e605380599"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a5a3f096a01e6a2dfe984d7e605380599">cutlass::TensorView::Index</a></div><div class="ttdeci">Base::Index Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:84</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_ae142eb93cf91e000b635d32fcacf1db3"><div class="ttname"><a href="classcutlass_1_1TensorView.html#ae142eb93cf91e000b635d32fcacf1db3">cutlass::TensorView::reset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void reset(Base const &amp;_ref=Base(), TensorCoord const &amp;_size=TensorCoord())</div><div class="ttdoc">Updates the reference and size of a Tensor_view object. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:165</div></div>
 <div class="ttc" id="tensor__ref_8h_html"><div class="ttname"><a href="tensor__ref_8h.html">tensor_ref.h</a></div><div class="ttdoc">Defines a structure containing strides, bounds, and a pointer to tensor data. </div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a7eff42a37e4dbee488bfa726f3f0df4f"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a7eff42a37e4dbee488bfa726f3f0df4f">cutlass::TensorRef::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage &amp; at(Coord&lt; Rank &gt; const &amp;coord) const</div><div class="ttdoc">Returns a reference to the element at a given Coord. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:121</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a215946fb080a5253815feb1f639c8f6f"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a215946fb080a5253815feb1f639c8f6f">cutlass::TensorView::Offset_t</a></div><div class="ttdeci">int Offset_t</div><div class="ttdoc">Type used to compute the offset of an element to the base of a tensor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:57</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a22ac53a60e63a743613e732586ad0c66"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a22ac53a60e63a743613e732586ad0c66">cutlass::TensorRef&lt; T, 4 &gt;::Rank</a></div><div class="ttdeci">static int const Rank</div><div class="ttdoc">Rank of tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:48</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a22401348796d603546e44d6c196018dc"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a22401348796d603546e44d6c196018dc">cutlass::TensorView::TensorView</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView()</div><div class="ttdoc">Default constructor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:80</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a6218d8555679966eab784a6bb1fa4ed1"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a6218d8555679966eab784a6bb1fa4ed1">cutlass::TensorView::size</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int size(int dim) const</div><div class="ttdoc">Accesses the size. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:119</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_a482ada6da62f427987c22098796fcf7e"><div class="ttname"><a href="structcutlass_1_1Coord.html#a482ada6da62f427987c22098796fcf7e">cutlass::Coord::clamp</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; clamp(Coord&lt; N &gt; const &amp;max, Coord&lt; N &gt; const &amp;min=Coord&lt; N &gt;())</div><div class="ttdoc">Clamps a coordinate to a range specified by maximum and minimum values. </div><div class="ttdef"><b>Definition:</b> coord.h:219</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a4037baf5069138ec3967810d2e185017"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a4037baf5069138ec3967810d2e185017">cutlass::TensorView::Coord_t</a></div><div class="ttdeci">Coord&lt; Rank &gt; Coord_t</div><div class="ttdoc">Coordinate into tensor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:60</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a8b1785a1ea5d7aa7eba8e45297d539d3"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a8b1785a1ea5d7aa7eba8e45297d539d3">cutlass::TensorView::reset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void reset(TensorRef_t const &amp;_ref=TensorRef_t(0), Coord_t const &amp;_size=Coord_t())</div><div class="ttdoc">Updates the reference and size of a Tensor_view object. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:96</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_aa94063d9a9c6e599d3f53e22433274be"><div class="ttname"><a href="classcutlass_1_1TensorView.html#aa94063d9a9c6e599d3f53e22433274be">cutlass::TensorView::contains</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool contains(Coord_t const &amp;coord) const</div><div class="ttdoc">Determines whether a location is within a tensor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:143</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a522630bb0df977282a9bff17e6fee843"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a522630bb0df977282a9bff17e6fee843">cutlass::TensorView::stride</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int const  &amp; stride(int dim) const</div><div class="ttdoc">Accesses the stride. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:127</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a22c39e8cf314884c5d523914cf4cac90"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a22c39e8cf314884c5d523914cf4cac90">cutlass::TensorView::Rank</a></div><div class="ttdeci">static int const Rank</div><div class="ttdoc">Rank of tensor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:54</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_acc55581896fae8c0449b44b56d750155"><div class="ttname"><a href="classcutlass_1_1TensorView.html#acc55581896fae8c0449b44b56d750155">cutlass::TensorView::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T &amp; at(Offset_t idx) const</div><div class="ttdoc">Element-wise accessor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:161</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a23564f1d333bb16343ed3a885f894285"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a23564f1d333bb16343ed3a885f894285">cutlass::TensorView::const_ref</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstTensorRef_t const_ref()</div><div class="ttdef"><b>Definition:</b> tensor_view.h:107</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a8e23c78658f45c6f197a1774cc85c5b7"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a8e23c78658f45c6f197a1774cc85c5b7">cutlass::TensorRef::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Storage * data() const</div><div class="ttdoc">Returns the pointer to referenced data. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:99</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html"><div class="ttname"><a href="classcutlass_1_1TensorView.html">cutlass::TensorView</a></div><div class="ttdoc">Host-side reference implementation of tensor operations. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:42</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a02ee5d16ed4ce4705a99bb16b2ae1ae8"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a02ee5d16ed4ce4705a99bb16b2ae1ae8">cutlass::TensorRef::offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE long long offset(Coord&lt; Rank &gt; const &amp;coord) const</div><div class="ttdoc">Computes the offset of an index from the origin of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:115</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html"><div class="ttname"><a href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a></div><div class="ttdoc">Structure modeling a pointer and stride into a tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:42</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a27f09c55f879410cceb75eb25fe542d4"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a27f09c55f879410cceb75eb25fe542d4">cutlass::TensorView::Base</a></div><div class="ttdeci">TensorRef&lt; T, 4 &gt; Base</div><div class="ttdoc">Reference and stride. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:45</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_af64d4195fd6ba2cba53179e1ae678737"><div class="ttname"><a href="classcutlass_1_1TensorView.html#af64d4195fd6ba2cba53179e1ae678737">cutlass::TensorView::TensorView</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView(Storage *ptr, StorageCoord const &amp;stride, TensorCoord const &amp;size)</div><div class="ttdoc">Constructs a TensorView from a pointer, a stride vector, and size. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:156</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1remove__const_html_ac3662947fa50251daf58240a9c798085"><div class="ttname"><a href="structcutlass_1_1platform_1_1remove__const.html#ac3662947fa50251daf58240a9c798085">cutlass::platform::remove_const::type</a></div><div class="ttdeci">T type</div><div class="ttdef"><b>Definition:</b> platform.h:377</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a25eb8c0fe380114ddaabb37453be4606"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a25eb8c0fe380114ddaabb37453be4606">cutlass::TensorView::TensorRef_t</a></div><div class="ttdeci">TensorRef TensorRef_t</div><div class="ttdoc">Base class. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:119</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a3778dc1c62a27ed811f1bb82a420096e"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a3778dc1c62a27ed811f1bb82a420096e">cutlass::TensorView::size</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index size(int dim) const</div><div class="ttdoc">Accesses the size. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:176</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a52fb77744c7c7ecf0f8a3a725556293d"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a52fb77744c7c7ecf0f8a3a725556293d">cutlass::TensorView::Storage</a></div><div class="ttdeci">Base::Storage Storage</div><div class="ttdoc">Storage type. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:81</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_af0237fca8d8df1cf4f17d9cb43eae507"><div class="ttname"><a href="classcutlass_1_1TensorView.html#af0237fca8d8df1cf4f17d9cb43eae507">cutlass::TensorView::TensorRef</a></div><div class="ttdeci">Base TensorRef</div><div class="ttdoc">Base tensor reference. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:78</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_ab879a7b6552c879a81c49cbc0946d719"><div class="ttname"><a href="classcutlass_1_1TensorView.html#ab879a7b6552c879a81c49cbc0946d719">cutlass::TensorView::ConstTensorView</a></div><div class="ttdeci">TensorView&lt; typename platform::remove_const&lt; Storage &gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; ConstTensorView</div><div class="ttdoc">TensorView of constant value. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:103</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_ad327edfe1f8085632ff682d354922009"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#ad327edfe1f8085632ff682d354922009">cutlass::TensorRef::Storage</a></div><div class="ttdeci">Storage_ Storage</div><div class="ttdoc">Data type of individual access. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:134</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_adb52dd6f9f68e7b8b67b8ddfb5c0021c"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#adb52dd6f9f68e7b8b67b8ddfb5c0021c">cutlass::TensorRef::stride</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE StorageCoord stride() const</div><div class="ttdoc">Returns the stride of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:300</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_ad116076aa4ec7dc2d4b23b62e5dfbb7a"><div class="ttname"><a href="classcutlass_1_1TensorView.html#ad116076aa4ec7dc2d4b23b62e5dfbb7a">cutlass::TensorView::size</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorCoord const  &amp; size() const</div><div class="ttdoc">Accesses the size. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:172</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a5f0363da1e0544f256438e066d3cc143"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a5f0363da1e0544f256438e066d3cc143">cutlass::TensorRef::add_pointer_offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef &amp; add_pointer_offset(LongIndex delta)</div><div class="ttdoc">Adds an offset to each pointer. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:357</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a2beda7a1946bde2858e730bece21b890"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a2beda7a1946bde2858e730bece21b890">cutlass::TensorRef::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:146</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a3861f7f09da0b8153d0e3686f2c7cf57"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a3861f7f09da0b8153d0e3686f2c7cf57">cutlass::TensorView::ConstTensorRef</a></div><div class="ttdeci">TensorRef&lt; typename platform::remove_const&lt; Storage_ &gt;::type const, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; ConstTensorRef</div><div class="ttdoc">Tensor reference to of constant value. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:75</div></div>
+<div class="ttc" id="cutlass_8h_html_a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><div class="ttname"><a href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:62</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_abc088fad6debb6a0ceb04c5d2767e81b"><div class="ttname"><a href="classcutlass_1_1TensorView.html#abc088fad6debb6a0ceb04c5d2767e81b">cutlass::TensorView::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView &amp; operator-=(TensorCoord const &amp;b)</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:258</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a07dfe328d4a8316e79e9acde50582360"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a07dfe328d4a8316e79e9acde50582360">cutlass::TensorRef::map</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE StorageCoord map(TensorCoord const &amp;coord) const</div><div class="ttdoc">Maps a logical coordinate to an n-D array in memory. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:325</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html"><div class="ttname"><a href="classcutlass_1_1TensorView.html">cutlass::TensorView</a></div><div class="ttdoc">Defines a view into a logical tensor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:63</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_aad06edac0f43c358c5644dffb5fe9ad7"><div class="ttname"><a href="classcutlass_1_1TensorView.html#aad06edac0f43c358c5644dffb5fe9ad7">cutlass::TensorView::TensorView</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView(Base const &amp;_ref, TensorCoord const &amp;_size)</div><div class="ttdoc">Constructs a TensorView from a TensorRef and size. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:143</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a2d0d8ed1c19485318e84db99b8b4e9e6"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a2d0d8ed1c19485318e84db99b8b4e9e6">cutlass::TensorView::Base</a></div><div class="ttdeci">TensorRef&lt; Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_ &gt; Base</div><div class="ttdoc">Base tensor reference. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:66</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html"><div class="ttname"><a href="classcutlass_1_1TensorRef.html">cutlass::TensorRef</a></div><div class="ttdef"><b>Definition:</b> tensor_ref.h:131</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_acf0c156efb9197bc7538f7e9057d8a68"><div class="ttname"><a href="classcutlass_1_1TensorView.html#acf0c156efb9197bc7538f7e9057d8a68">cutlass::TensorView::operator=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView &amp; operator=(TensorView const &amp;_tensor)</div><div class="ttdoc">Assigns the Tensor_view. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:180</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_ad870c366ffe904d3363df1dfb0d5f04c"><div class="ttname"><a href="classcutlass_1_1TensorView.html#ad870c366ffe904d3363df1dfb0d5f04c">cutlass::TensorView::capacity</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE size_t capacity() const</div><div class="ttdoc">Returns the number of scalar elements needed to store tensor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:218</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a837881bc82704491accf54aad2b9def9"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a837881bc82704491accf54aad2b9def9">cutlass::TensorView::good</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool good() const</div><div class="ttdoc">Returns true if the Tensor_view is bound to some memory. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:88</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a0c049e523ee0fc98769ed8cd2d026780"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a0c049e523ee0fc98769ed8cd2d026780">cutlass::TensorRef::good</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool good() const</div><div class="ttdoc">Returns true if the TensorRef may be safely accessed. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:95</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a064f3630e69798e7915f910c4ee99ab7"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a064f3630e69798e7915f910c4ee99ab7">cutlass::TensorView::offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Offset_t offset(Coord_t const &amp;coord) const</div><div class="ttdoc">Returns the index of an element. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:139</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a248e4240ccf96c976254464710a73fc8"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a248e4240ccf96c976254464710a73fc8">cutlass::TensorView::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T * data() const</div><div class="ttdoc">Returns a pointer to data. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:92</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; Rank &gt;</a></div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a7fe7e44e15fd1ac58fb55edf72e8fb23"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a7fe7e44e15fd1ac58fb55edf72e8fb23">cutlass::TensorView::operator[]</a></div><div class="ttdeci">T &amp; operator[](Coord&lt; Rank &gt; const &amp;coord) const</div><div class="ttdoc">Element-wise accessor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:157</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a762fc3d887ab14f4c7bcde85f0af16ab"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a762fc3d887ab14f4c7bcde85f0af16ab">cutlass::TensorView::TensorRef_t</a></div><div class="ttdeci">Base TensorRef_t</div><div class="ttdoc">Reference and stride. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:48</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html_ad10b59430927a354fcd874d2d32f1bd8"><div class="ttname"><a href="structcutlass_1_1Coord.html#ad10b59430927a354fcd874d2d32f1bd8">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int &amp; at()</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:185</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_ad894a8b373c413d308cb1b7c7ba545ce"><div class="ttname"><a href="classcutlass_1_1TensorView.html#ad894a8b373c413d308cb1b7c7ba545ce">cutlass::TensorView::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE T &amp; at(Coord_t const &amp;coord) const</div><div class="ttdoc">Element-wise accessor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:154</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a541a7c22e7109d4059044f146fe69027"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a541a7c22e7109d4059044f146fe69027">cutlass::TensorView::size</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord_t const  &amp; size() const</div><div class="ttdoc">Accesses the size. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:115</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a3ac125a25199fd91f73d2cfe9fc3d09b"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a3ac125a25199fd91f73d2cfe9fc3d09b">cutlass::TensorView::stride</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord_t const  &amp; stride() const</div><div class="ttdoc">Accesses the stride. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:123</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a8650860460ea24944c803a671095be09"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a8650860460ea24944c803a671095be09">cutlass::TensorView::ref</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef_t &amp; ref()</div><div class="ttdoc">Accesses the tensor reference pointing to data. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:103</div></div>
-<div class="ttc" id="classcutlass_1_1TensorRef_html_a89380141d25528c4c7ba6c365b96a878"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a89380141d25528c4c7ba6c365b96a878">cutlass::TensorRef::stride</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; Rank &gt; const  &amp; stride() const</div><div class="ttdoc">Returns the stride of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:103</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_aa9e9e19f35ce3111f64b763ca49b51ef"><div class="ttname"><a href="classcutlass_1_1TensorView.html#aa9e9e19f35ce3111f64b763ca49b51ef">cutlass::TensorView::operator=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView &amp; operator=(TensorView const &amp;_tensor)</div><div class="ttdoc">Assigns the Tensor_view. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:131</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a9eff24a3b74b68d11839b92324613c93"><div class="ttname"><a href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">cutlass::Coord::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; at()</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:240</div></div>
+<div class="ttc" id="classcutlass_1_1TensorRef_html_a4da903ecbeaaf80c35084e8779e920a1"><div class="ttname"><a href="classcutlass_1_1TensorRef.html#a4da903ecbeaaf80c35084e8779e920a1">cutlass::TensorRef::offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE LongIndex offset(TensorCoord const &amp;coord) const</div><div class="ttdoc">Computes the offset of an index from the origin of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_ref.h:331</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_ada8a241b6b2c5439183b0d6c456c934e"><div class="ttname"><a href="classcutlass_1_1TensorView.html#ada8a241b6b2c5439183b0d6c456c934e">cutlass::TensorView::TensorCoord</a></div><div class="ttdeci">TensorRef::TensorCoord TensorCoord</div><div class="ttdoc">Coordinate in logical tensor space. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:87</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a408d9a8026115bdaf70a37c86dc720b1"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a408d9a8026115bdaf70a37c86dc720b1">cutlass::TensorView::Offset_t</a></div><div class="ttdeci">Base::LongIndex Offset_t</div><div class="ttdoc">Type used to compute the offset of an element to the base of a tensor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:116</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_ab16a0244199ca2800ea5460ed8ed6ae2"><div class="ttname"><a href="classcutlass_1_1TensorView.html#ab16a0244199ca2800ea5460ed8ed6ae2">cutlass::TensorView::Coord_t</a></div><div class="ttdeci">TensorCoord Coord_t</div><div class="ttdoc">Coordinate in logical tensor space. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:110</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_ad4b3faa318699b786f94cf8735a11dbb"><div class="ttname"><a href="classcutlass_1_1TensorView.html#ad4b3faa318699b786f94cf8735a11dbb">cutlass::TensorView::subview</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView subview(TensorCoord const &amp;location, TensorCoord size) const</div><div class="ttdoc">Returns a Tensor_view given location and size quantities. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:212</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a7e2beb56a3bc2d58c9ec65467b78c4f3"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a7e2beb56a3bc2d58c9ec65467b78c4f3">cutlass::TensorView::ref</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorRef ref() const</div><div class="ttdoc">Returns a TensorRef pointing to the first element of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:200</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:49</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a8dbb7043546fae133547d2c3e46dddab"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a8dbb7043546fae133547d2c3e46dddab">cutlass::TensorView::Rank</a></div><div class="ttdeci">static int const Rank</div><div class="ttdoc">Logical rank of tensor index space. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:113</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a4fa8fa35d00eb4d0097da492c738cddc"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a4fa8fa35d00eb4d0097da492c738cddc">cutlass::TensorView::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView &amp; operator+=(TensorCoord const &amp;b)</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:243</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a559f7210b445c77a167ab1f41c8d0827"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a559f7210b445c77a167ab1f41c8d0827">cutlass::TensorView::const_ref</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ConstTensorRef const_ref() const</div><div class="ttdoc">Returns a TensorRef pointing to the first element of the tensor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:206</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a625892aa9063eebf769bb2ed0cba7684"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a625892aa9063eebf769bb2ed0cba7684">cutlass::TensorView::StrideVector</a></div><div class="ttdeci">TensorRef::StrideVector StrideVector</div><div class="ttdef"><b>Definition:</b> tensor_view.h:94</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a1e4b2bb02c5843898f72f62787403add"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a1e4b2bb02c5843898f72f62787403add">cutlass::TensorView::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView operator-(TensorCoord const &amp;b) const</div><div class="ttdoc">Returns a TensorRef offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:250</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a36d48227f65ad482a7bded99d6a3d0c1"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a36d48227f65ad482a7bded99d6a3d0c1">cutlass::TensorView::TensorView</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView()</div><div class="ttdoc">Default constructor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:139</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a73f049694ca1ea4825b5a651852827f5"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a73f049694ca1ea4825b5a651852827f5">cutlass::TensorView::TensorView</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView(Storage *ptr, StrideVector const &amp;stride, TensorCoord const &amp;size)</div><div class="ttdoc">Constructs a TensorView from a pointer, a stride vector, and size. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:147</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a404a3b4e00f59cac71d41fb1bbba38ba"><div class="ttname"><a href="structcutlass_1_1Coord.html#a404a3b4e00f59cac71d41fb1bbba38ba">cutlass::Coord::clamp</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; clamp(Coord&lt; kRank &gt; const &amp;max, Coord&lt; kRank &gt; const &amp;min=Coord&lt; kRank &gt;())</div><div class="ttdoc">Clamps a coordinate to a range specified by maximum and minimum values. </div><div class="ttdef"><b>Definition:</b> coord.h:274</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_aa2390d8e127a51df239affd2ca36e97a"><div class="ttname"><a href="classcutlass_1_1TensorView.html#aa2390d8e127a51df239affd2ca36e97a">cutlass::TensorView::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView operator+(TensorCoord const &amp;b) const</div><div class="ttdoc">Returns a TensorView offset by a given amount. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:235</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a162c4cb4f4e866892d63cd37f7f72165"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a162c4cb4f4e866892d63cd37f7f72165">cutlass::TensorView::ConstTensorRef_t</a></div><div class="ttdeci">TensorRef::ConstTensorRef ConstTensorRef_t</div><div class="ttdoc">TensorRef to const-valued type. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:122</div></div>
 <div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a80480aa986a488a106a9b0aea331c317"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a80480aa986a488a106a9b0aea331c317">cutlass::TensorView::TensorView</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView(TensorRef_t const &amp;_ref, Coord_t const &amp;_size)</div><div class="ttdoc">Constructs a Tensor_view from a TensorRef and size. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:84</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_a8ef76170bc5ba832dc01339133021830"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a8ef76170bc5ba832dc01339133021830">cutlass::TensorView::ConstTensorRef_t</a></div><div class="ttdeci">TensorRef&lt; T const, 4 &gt; ConstTensorRef_t</div><div class="ttdoc">Reference to constant type. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:51</div></div>
-<div class="ttc" id="classcutlass_1_1TensorView_html_aee43c516397d7c06eb8012711d8d7c15"><div class="ttname"><a href="classcutlass_1_1TensorView.html#aee43c516397d7c06eb8012711d8d7c15">cutlass::TensorView::subview</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TensorView&lt; T &gt; subview(Coord_t const &amp;location, Coord_t size) const</div><div class="ttdoc">Returns a Tensor_view given location and size quantities. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:165</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_abaf7ec0e96bc99cf0ce243e703b8711c"><div class="ttname"><a href="classcutlass_1_1TensorView.html#abaf7ec0e96bc99cf0ce243e703b8711c">cutlass::TensorView::StorageCoord</a></div><div class="ttdeci">TensorRef::StorageCoord StorageCoord</div><div class="ttdoc">Coordinate in storage n-D array. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:90</div></div>
+<div class="ttc" id="classcutlass_1_1TensorView_html_a3f448bcf6e664c244f472e2659215628"><div class="ttname"><a href="classcutlass_1_1TensorView.html#a3f448bcf6e664c244f472e2659215628">cutlass::TensorView::contains</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool contains(TensorCoord const &amp;coord) const</div><div class="ttdoc">Determines whether a location is within a tensor. </div><div class="ttdef"><b>Definition:</b> tensor_view.h:188</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/thread__multiply__add_8h.html b/docs/thread__multiply__add_8h.html
index ab673590a5..a5df6a91f3 100644
--- a/docs/thread__multiply__add_8h.html
+++ b/docs/thread__multiply__add_8h.html
@@ -82,13 +82,13 @@
 
 <p>Template implementing matrix multiply-add operations on fragments.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
 </div>
 <p><a href="thread__multiply__add_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
 Classes</h2></td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; AccumulatorsPerThread_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd&lt; ThreadGemmShape_, ThreadsPerWarp_, ScalarA_, ScalarB_, ScalarC_, kLayout_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Template performing matrix multiply-add operation within a thread.  <a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
@@ -102,7 +102,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/thread__multiply__add_8h_source.html b/docs/thread__multiply__add_8h_source.html
index 45c64172b4..69f018e38e 100644
--- a/docs/thread__multiply__add_8h_source.html
+++ b/docs/thread__multiply__add_8h_source.html
@@ -76,28 +76,31 @@
 <div class="title">thread_multiply_add.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="thread__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> AccumulatorsPerThread_,</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_,</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;          <span class="keyword">typename</span> ScalarA_,</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;          <span class="keyword">typename</span> ScalarB_,</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;          <span class="keyword">typename</span> ScalarC_&gt;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">   43</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a> {</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">   45</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">InstructionShape</a>;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5">   47</a></span>&#160;  <span class="keyword">typedef</span> AccumulatorsPerThread_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5">AccumulatorsPerThread</a>;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e">   49</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e">ThreadsPerWarp</a>;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">   51</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">ShapeMul&lt;AccumulatorsPerThread, ThreadsPerWarp&gt;::Shape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">AccumulatorsPerWarp</a>;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217">   53</a></span>&#160;  <span class="keyword">typedef</span> ScalarA_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217">ScalarA</a>;</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914">   55</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarA, AccumulatorsPerThread::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914">FragmentA</a>;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767">   57</a></span>&#160;  <span class="keyword">typedef</span> ScalarB_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767">ScalarB</a>;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620">   59</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarB, AccumulatorsPerThread::kH&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620">FragmentB</a>;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">   61</a></span>&#160;  <span class="keyword">typedef</span> ScalarC_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">ScalarC</a>;</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">   63</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarC, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW, 16&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">Accumulators</a>;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ab271a3f11ccde4b629ddb11b78c0d555">   66</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ab271a3f11ccde4b629ddb11b78c0d555">ThreadMultiplyAdd</a>() {}</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5dcf66c8126ec8adf8e66d4bf5b2f347">   69</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5dcf66c8126ec8adf8e66d4bf5b2f347">multiply_add</a>(<a class="code" href="structcutlass_1_1Fragment.html">FragmentA</a> <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">FragmentB</a> <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a> <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a>&amp; d) {</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; AccumulatorsPerThread::kH; ++j) {</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; AccumulatorsPerThread::kW; ++i) {</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;        d[j * AccumulatorsPerThread::kW + i] = a[i] * b[j] + c[j * AccumulatorsPerThread::kW + i];</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;      }</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    }</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;  }</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;};</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_ad2fbba0a70da29af27ed4578577abc5e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad2fbba0a70da29af27ed4578577abc5e">cutlass::gemm::ThreadMultiplyAdd::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The number of threads per warp. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:49</div></div>
+<a href="thread__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> ThreadGemmShape_,</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;          <span class="keyword">typename</span> ThreadsPerWarp_,</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;          <span class="keyword">typename</span> ScalarA_,</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;          <span class="keyword">typename</span> ScalarB_,</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;          <span class="keyword">typename</span> ScalarC_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_ = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>&gt;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">   44</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">ThreadMultiplyAdd</a> {</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">   46</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">InstructionShape</a>;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">   48</a></span>&#160;  <span class="keyword">typedef</span> ThreadGemmShape_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">ThreadGemmShape</a>;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad8ea3777c307bf3f8c58a8df3966715d">   50</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">ThreadGemmShape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad8ea3777c307bf3f8c58a8df3966715d">AccumulatorsPerThread</a>;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b">   52</a></span>&#160;  <span class="keyword">typedef</span> ThreadsPerWarp_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b">ThreadsPerWarp</a>;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">   54</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">ShapeMul&lt;ThreadGemmShape, ThreadsPerWarp&gt;::Shape</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">AccumulatorsPerWarp</a>;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363">   56</a></span>&#160;  <span class="keyword">typedef</span> ScalarA_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363">ScalarA</a>;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649">   58</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarA, AccumulatorsPerThread::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649">FragmentA</a>;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c">   60</a></span>&#160;  <span class="keyword">typedef</span> ScalarB_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c">ScalarB</a>;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad">   62</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarB, AccumulatorsPerThread::kH&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad">FragmentB</a>;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">   64</a></span>&#160;  <span class="keyword">typedef</span> ScalarC_ <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">ScalarC</a>;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">   66</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Fragment.html">Fragment&lt;ScalarC, AccumulatorsPerThread::kH * AccumulatorsPerThread::kW, 16&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">Accumulators</a>;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac087f0b397599221b74d220fcb1c7121">   69</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac087f0b397599221b74d220fcb1c7121">ThreadMultiplyAdd</a>() {}</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7989d48e4c2e16b7804b813630f347cb">   72</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7989d48e4c2e16b7804b813630f347cb">multiply_add</a>(<a class="code" href="structcutlass_1_1Fragment.html">FragmentA</a> <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">FragmentB</a> <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a> <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;                                   <a class="code" href="structcutlass_1_1Fragment.html">Accumulators</a>&amp; d) {</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;    <span class="keywordflow">if</span>(kLayout_ == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>) {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; AccumulatorsPerThread::kH; ++j) {</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; AccumulatorsPerThread::kW; ++i) {</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;          d[j * AccumulatorsPerThread::kW + i] = a[i] * b[j] + c[j * AccumulatorsPerThread::kW + i];</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;        }</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;      }</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    }</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;    <span class="keywordflow">else</span> {</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;      <span class="keywordflow">for</span>(<span class="keywordtype">int</span> i = 0; i &lt; AccumulatorsPerThread::kW; ++i) {</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;        <span class="keywordflow">for</span>(<span class="keywordtype">int</span> j = 0; j &lt; AccumulatorsPerThread::kH; ++j) {</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;          d[i * AccumulatorsPerThread::kH + j] = a[i] * b[j] + c[i * AccumulatorsPerThread::kH + j];</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;        }</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;      }</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;    }</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;  }</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;};</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a7c1cc536ac6ad12800f9e2b5ec682649"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7c1cc536ac6ad12800f9e2b5ec682649">cutlass::gemm::ThreadMultiplyAdd::FragmentA</a></div><div class="ttdeci">Fragment&lt; ScalarA, AccumulatorsPerThread::kW &gt; FragmentA</div><div class="ttdoc">The fragment for A. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:58</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeMul_html_a8875fc5e861339f981360ed774e8cc94"><div class="ttname"><a href="structcutlass_1_1ShapeMul.html#a8875fc5e861339f981360ed774e8cc94">cutlass::ShapeMul::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD *B_::kD, A_::kH *B_::kH, A_::kW *B_::kW, A_::kC *B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:119</div></div>
 <div class="ttc" id="structcutlass_1_1Fragment_html"><div class="ttname"><a href="structcutlass_1_1Fragment.html">cutlass::Fragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> fragment.h:99</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a69d387d932b628dc51c18fcc178c4914"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a69d387d932b628dc51c18fcc178c4914">cutlass::gemm::ThreadMultiplyAdd::FragmentA</a></div><div class="ttdeci">Fragment&lt; ScalarA, AccumulatorsPerThread::kW &gt; FragmentA</div><div class="ttdoc">The fragment for A. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:55</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a5dcf66c8126ec8adf8e66d4bf5b2f347"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5dcf66c8126ec8adf8e66d4bf5b2f347">cutlass::gemm::ThreadMultiplyAdd::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:69</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_ac6381210d447fda9b0e9a028d167f22b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac6381210d447fda9b0e9a028d167f22b">cutlass::gemm::ThreadMultiplyAdd::InstructionShape</a></div><div class="ttdeci">Shape&lt; 1, 1, 1, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:45</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a1af758cb98c33060462a2706856b0a01"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1af758cb98c33060462a2706856b0a01">cutlass::gemm::ThreadMultiplyAdd::ScalarC</a></div><div class="ttdeci">ScalarC_ ScalarC</div><div class="ttdoc">The type for C and D. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:61</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_ab271a3f11ccde4b629ddb11b78c0d555"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ab271a3f11ccde4b629ddb11b78c0d555">cutlass::gemm::ThreadMultiplyAdd::ThreadMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE ThreadMultiplyAdd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:66</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a9f706e141ec3bc880fa17a5731d8370e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a9f706e141ec3bc880fa17a5731d8370e">cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerWarp</a></div><div class="ttdeci">ShapeMul&lt; ThreadGemmShape, ThreadsPerWarp &gt;::Shape AccumulatorsPerWarp</div><div class="ttdoc">The number of accumulators per warp. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:54</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a6c9a73da33b5ba70307a719db988b56c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6c9a73da33b5ba70307a719db988b56c">cutlass::gemm::ThreadMultiplyAdd::ScalarB</a></div><div class="ttdeci">ScalarB_ ScalarB</div><div class="ttdoc">The type for B. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a7989d48e4c2e16b7804b813630f347cb"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a7989d48e4c2e16b7804b813630f347cb">cutlass::gemm::ThreadMultiplyAdd::multiply_add</a></div><div class="ttdeci">CUTLASS_DEVICE void multiply_add(FragmentA const &amp;a, FragmentB const &amp;b, Accumulators const &amp;c, Accumulators &amp;d)</div><div class="ttdoc">Multiply : d = a*b + c. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:72</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_ac087f0b397599221b74d220fcb1c7121"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ac087f0b397599221b74d220fcb1c7121">cutlass::gemm::ThreadMultiplyAdd::ThreadMultiplyAdd</a></div><div class="ttdeci">CUTLASS_DEVICE ThreadMultiplyAdd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a33a68b52cca697bd505bfd982938143e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a33a68b52cca697bd505bfd982938143e">cutlass::gemm::ThreadMultiplyAdd::ThreadGemmShape</a></div><div class="ttdeci">ThreadGemmShape_ ThreadGemmShape</div><div class="ttdoc">The shape of a thread-leveel matrix multiply accumulate. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:48</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a002b1944b25cc8fe0862f40a8c8555c5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a002b1944b25cc8fe0862f40a8c8555c5">cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerThread</a></div><div class="ttdeci">AccumulatorsPerThread_ AccumulatorsPerThread</div><div class="ttdoc">The number of accumulators per thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:47</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a42d181e7f4d0d0a15e1c911d3498b767"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a42d181e7f4d0d0a15e1c911d3498b767">cutlass::gemm::ThreadMultiplyAdd::ScalarB</a></div><div class="ttdeci">ScalarB_ ScalarB</div><div class="ttdoc">The type for B. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:57</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a760a5262f419b789540e7bbb2fda4b9d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a760a5262f419b789540e7bbb2fda4b9d">cutlass::gemm::ThreadMultiplyAdd::Accumulators</a></div><div class="ttdeci">Fragment&lt; ScalarC, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW, 16 &gt; Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:63</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a382242001b4c8e18ea5f2de724902217"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a382242001b4c8e18ea5f2de724902217">cutlass::gemm::ThreadMultiplyAdd::ScalarA</a></div><div class="ttdeci">ScalarA_ ScalarA</div><div class="ttdoc">The type for A. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:53</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a5429a730a1dea00dc4aecbe8e3ef1620"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a5429a730a1dea00dc4aecbe8e3ef1620">cutlass::gemm::ThreadMultiplyAdd::FragmentB</a></div><div class="ttdeci">Fragment&lt; ScalarB, AccumulatorsPerThread::kH &gt; FragmentB</div><div class="ttdoc">The fragment for B. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:59</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a72d1ac143dab68b6cdd73d057315fcb6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a72d1ac143dab68b6cdd73d057315fcb6">cutlass::gemm::ThreadMultiplyAdd::Accumulators</a></div><div class="ttdeci">Fragment&lt; ScalarC, AccumulatorsPerThread::kH *AccumulatorsPerThread::kW, 16 &gt; Accumulators</div><div class="ttdoc">The accumulators. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:66</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a6bb4f6a102edc2c8fba5b67abf05c363"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a6bb4f6a102edc2c8fba5b67abf05c363">cutlass::gemm::ThreadMultiplyAdd::ScalarA</a></div><div class="ttdeci">ScalarA_ ScalarA</div><div class="ttdoc">The type for A. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:56</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html">cutlass::gemm::ThreadMultiplyAdd</a></div><div class="ttdoc">Template performing matrix multiply-add operation within a thread. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:44</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a19bd7eb621b08f192bc01a4634853a9b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a19bd7eb621b08f192bc01a4634853a9b">cutlass::gemm::ThreadMultiplyAdd::ThreadsPerWarp</a></div><div class="ttdeci">ThreadsPerWarp_ ThreadsPerWarp</div><div class="ttdoc">The number of threads per warp. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_af41778b170d940d10bd53f13d34912b1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#af41778b170d940d10bd53f13d34912b1">cutlass::gemm::ThreadMultiplyAdd::ScalarC</a></div><div class="ttdeci">ScalarC_ ScalarC</div><div class="ttdoc">The type for C and D. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:64</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_ad8ea3777c307bf3f8c58a8df3966715d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#ad8ea3777c307bf3f8c58a8df3966715d">cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerThread</a></div><div class="ttdeci">ThreadGemmShape AccumulatorsPerThread</div><div class="ttdoc">Aliased to &quot;AccumulatorsPerThread&quot; for compatibility. Expect to be renamed in CUTLASS v2...</div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:50</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a56d687b878397c694e7338fa750995af"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a56d687b878397c694e7338fa750995af">cutlass::gemm::ThreadMultiplyAdd::InstructionShape</a></div><div class="ttdeci">Shape&lt; 1, 1, 1, 1 &gt; InstructionShape</div><div class="ttdoc">The shape of the instruction. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:46</div></div>
 <div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_aa83190df3c1639b6dd632cd4b9278d77"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#aa83190df3c1639b6dd632cd4b9278d77">cutlass::gemm::ThreadMultiplyAdd::AccumulatorsPerWarp</a></div><div class="ttdeci">ShapeMul&lt; AccumulatorsPerThread, ThreadsPerWarp &gt;::Shape AccumulatorsPerWarp</div><div class="ttdoc">The number of accumulators per warp. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:51</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ThreadMultiplyAdd_html_a1401162276ea0858ea85a8e4785adbad"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ThreadMultiplyAdd.html#a1401162276ea0858ea85a8e4785adbad">cutlass::gemm::ThreadMultiplyAdd::FragmentB</a></div><div class="ttdeci">Fragment&lt; ScalarB, AccumulatorsPerThread::kH &gt; FragmentB</div><div class="ttdoc">The fragment for B. </div><div class="ttdef"><b>Definition:</b> thread_multiply_add.h:62</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/threadblock__swizzle_8h.html b/docs/threadblock__swizzle_8h.html
new file mode 100644
index 0000000000..3720edaabb
--- /dev/null
+++ b/docs/threadblock__swizzle_8h.html
@@ -0,0 +1,126 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: threadblock_swizzle.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle">
+<div class="title">threadblock_swizzle.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Defies functors for mapping blockIdx to partitions of the GEMM computation.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="gemm__coord_8h_source.html">cutlass/gemm/gemm_coord.h</a>&quot;</code><br />
+</div>
+<p><a href="threadblock__swizzle_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1swizzleDirection.html">cutlass::gemm::swizzleDirection</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle&lt; groupCols, swDirection &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle&lt; groupRows, swDirection &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:namespacecutlass_1_1gemm"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html">cutlass::gemm</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a2336880c866ef4e73bbe0c3dbcb6c40e"><td class="memTemplParams" colspan="2">template&lt;enum swizzleDirection::Kind &gt; </td></tr>
+<tr class="memitem:a2336880c866ef4e73bbe0c3dbcb6c40e"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a2336880c866ef4e73bbe0c3dbcb6c40e">cutlass::gemm::getLinearIdx</a> (int groups)</td></tr>
+<tr class="separator:a2336880c866ef4e73bbe0c3dbcb6c40e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a37c566ad59d61647374f215c3d33f088"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
+<tr class="memitem:a37c566ad59d61647374f215c3d33f088"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE int&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass_1_1gemm.html#a37c566ad59d61647374f215c3d33f088">cutlass::gemm::getLinearIdx&lt; swizzleDirection::Boustrophedon &gt;</a> (int groups)</td></tr>
+<tr class="separator:a37c566ad59d61647374f215c3d33f088"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/threadblock__swizzle_8h_source.html b/docs/threadblock__swizzle_8h_source.html
new file mode 100644
index 0000000000..3153f6aaf9
--- /dev/null
+++ b/docs/threadblock__swizzle_8h_source.html
@@ -0,0 +1,120 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: threadblock_swizzle.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li><li class="navelem"><a class="el" href="dir_18d6a367a3982a494d65599933fc67a3.html">gemm</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">threadblock_swizzle.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="threadblock__swizzle_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__coord_8h.html">cutlass/gemm/gemm_coord.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1swizzleDirection.html">   36</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1swizzleDirection.html">swizzleDirection</a> {</div><div class="line"><a name="l00037"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5">   37</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8">Kind</a> { <a class="code" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa">Boustrophedon</a>, <a class="code" href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5">OneDirection</a> };</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;};</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="comment">// helper template function</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">template</span> &lt;enum swizzleDirection::Kind&gt;</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html#a2336880c866ef4e73bbe0c3dbcb6c40e">   41</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">int</span> <a class="code" href="namespacecutlass_1_1gemm.html#a2336880c866ef4e73bbe0c3dbcb6c40e">getLinearIdx</a>(<span class="keywordtype">int</span> groups) {</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;  <span class="comment">// groupCols is not needed for OneDirection Swizzle</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;  <span class="keywordflow">return</span> blockIdx.y * gridDim.x + blockIdx.x;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;}</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="namespacecutlass_1_1gemm.html#a37c566ad59d61647374f215c3d33f088">   46</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">int</span> getLinearIdx&lt;swizzleDirection::Boustrophedon&gt;(<span class="keywordtype">int</span> groups) {</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;  <span class="comment">// reverse blockIdx.x for some columns</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;  <span class="keywordflow">if</span> ((blockIdx.y / groups) % 2 == 1)</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;    <span class="keywordflow">return</span> blockIdx.y * gridDim.x + (gridDim.x - blockIdx.x - 1);</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;  <span class="keywordflow">else</span></div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <span class="keywordflow">return</span> blockIdx.y * gridDim.x + blockIdx.x;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;}</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">   65</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">IdentityBlockSwizzle</a> {</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a046a5dfd01164df2abd514e9a52987c3">   67</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a046a5dfd01164df2abd514e9a52987c3">IdentityBlockSwizzle</a>() {}</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;</div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">   70</a></span>&#160;  CUTLASS_DEVICE dim3 <a class="code" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">swizzle</a>() { <span class="keywordflow">return</span> blockIdx; }</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#afc20f302a5cc5b736cfc1c91dfcaa57c">   73</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dim3 <a class="code" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#afc20f302a5cc5b736cfc1c91dfcaa57c">get_grid_layout</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <span class="keyword">const</span> &amp;problem_size,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;                                           <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;OutputTile) {</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;    <span class="comment">/*OutputTile and problem_size are both in KNM order*/</span></div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;    dim3 grid;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    grid.x = (problem_size.<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>() + OutputTile[2] - 1) / OutputTile[2];</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;    grid.y = (problem_size.<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>() + OutputTile[1] - 1) / OutputTile[1];</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;    grid.z = problem_size.<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">batch</a>();</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;    <span class="keywordflow">return</span> grid;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;  }</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a386e5cf702b0dcc3d57f9fdb4ab5d236">   84</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a386e5cf702b0dcc3d57f9fdb4ab5d236">get_threadblock_offset</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;OutputTile) {</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    dim3 block = <a class="code" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">swizzle</a>();</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> threadblock_offset =</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;        <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, block.y * OutputTile[1], block.x * OutputTile[2]);</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;    <span class="keywordflow">return</span> threadblock_offset;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  }</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a8f84a2b830caecff3edd052dc24635e6">   92</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a8f84a2b830caecff3edd052dc24635e6">get_batch_id</a>() {</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;    dim3 block = <a class="code" href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">swizzle</a>();</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;    <span class="keywordflow">return</span> block.z;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;};</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="comment">/*</span></div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;<span class="comment">ColumnMajorBlockSwizzle&lt;1, OneDirection&gt; is equivalent with IdentityBlockSwizzle</span></div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;<span class="comment">groupCols has the effect of controlling the schedulling of thread blocks</span></div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="comment">settings with different groupCols can contribute to the overall performance by affecting L2 cache</span></div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;<span class="comment">hit rate</span></div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;<span class="comment">consider a regular thread block mapping btween matrix C and different thread blocks</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;<span class="comment">note that C is column major, and the leading dimension of thread block id is blockIdx.x</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;<span class="comment">let&#39;s look at an example where gridIdx.x = 6, gridIdx.y = 7, gridIdx.z = 1</span></div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;<span class="comment">(blockIdx.x, blockIdx.y)</span></div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="comment">mapping between threadblockID and C matrix:</span></div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;<span class="comment">(0,0) | (0,1) | (0,2) | (0,3) | (0,4) | (0,5) | (0,6) |</span></div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;<span class="comment">(1,0) | (1,1) | (1,2) | (1,3) | (1,4) | (1,5) | (1,6) |</span></div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="comment">(2,0) | (2,1) | (2,2) | (2,3) | (2,4) | (2,5) | (2,6) |</span></div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;<span class="comment">(3,0) | (3,1) | (3,2) | (3,3) | (3,4) | (3,5) | (3,6) |</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;<span class="comment">(4,0) | (4,1) | (4,2) | (4,3) | (4,4) | (4,5) | (4,6) |</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;<span class="comment">(5,0) | (5,1) | (5,2) | (5,3) | (5,4) | (5,5) | (5,6) |</span></div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;<span class="comment">A ColumnMajorBlockSwizzle&lt;1, OneDirection&gt; will imply the above order where threadblocks are</span></div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;<span class="comment">launched in a column major</span></div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;<span class="comment">A ColumnMajorBlockSwizzle&lt;2, OneDirection&gt; swizzles things a little,</span></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;<span class="comment">(0,0) | (3,0) | (0,2) | (3,2) | (0,4) | (3,4) | (0,6) |</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;<span class="comment">(0,1) | (3,1) | (0,3) | (3,3) | (0,5) | (3,5) | (1,6) |</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;<span class="comment">(1,0) | (4,0) | (1,2) | (4,2) | (1,4) | (4,4) | (2,6) |</span></div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;<span class="comment">(1,1) | (4,1) | (1,3) | (4,3) | (1,5) | (4,5) | (3,6) |</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;<span class="comment">(2,0) | (5,0) | (2,2) | (5,2) | (2,4) | (5,4) | (4,6) |</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;<span class="comment">(2,1) | (5,1) | (2,3) | (5,3) | (2,5) | (5,5) | (5,6) |</span></div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;<span class="comment">so in memory, it would apprear that we work on 2 columns at a time rather than 1</span></div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;<span class="comment">Note that the index here really represent how each block maps to memory</span></div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;<span class="comment">A ColumnMajorBlockSwizzle&lt;1, Boustrophedon&gt; is similar to ColumnMajorBlockSwizzle&lt;1, OneDirection&gt;</span></div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;<span class="comment">except that every column flips the ordering against the previous one</span></div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;<span class="comment">(0,0) | (5,1) | (0,2) | (5,3) | (0,4) | (5,5) | (0,6) |</span></div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;<span class="comment">(1,0) | (4,1) | (1,2) | (4,3) | (1,4) | (4,5) | (1,6) |</span></div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;<span class="comment">(2,0) | (3,1) | (2,2) | (3,3) | (2,4) | (3,5) | (2,6) |</span></div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;<span class="comment">(3,0) | (2,1) | (3,2) | (2,3) | (3,4) | (2,5) | (3,6) |</span></div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;<span class="comment">(4,0) | (1,1) | (4,2) | (1,3) | (4,4) | (1,5) | (4,6) |</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;<span class="comment">(5,0) | (0,1) | (5,2) | (0,3) | (5,4) | (0,5) | (5,6) |</span></div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;<span class="comment">similarily, A ColumnMajorBlockSwizzle&lt;2, Boustrophedon&gt; looks like</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;<span class="comment">(0,0) | (3,0) | (2,3) | (5,3) | (0,4) | (3,4) | (5,6) |</span></div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;<span class="comment">(0,1) | (3,1) | (2,2) | (5,2) | (0,5) | (3,5) | (4,6) |</span></div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;<span class="comment">(1,0) | (4,0) | (1,3) | (4,3) | (1,4) | (4,4) | (3,6) |</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;<span class="comment">(1,1) | (4,1) | (1,2) | (4,2) | (1,5) | (4,5) | (2,6) |</span></div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;<span class="comment">(2,0) | (5,0) | (0,3) | (3,3) | (2,4) | (5,4) | (1,6) |</span></div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;<span class="comment">(2,1) | (5,1) | (0,2) | (3,2) | (2,5) | (5,5) | (0,6) |</span></div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;<span class="comment">*/</span></div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> groupCols, enum swizzleDirection::Kind swDirection&gt;</div><div class="line"><a name="l00181"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">  181</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">ColumnMajorBlockSwizzle</a> {</div><div class="line"><a name="l00183"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a6d0ee4e76371af26030ab4922e6c915a">  183</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a6d0ee4e76371af26030ab4922e6c915a">ColumnMajorBlockSwizzle</a>() {}</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b">  186</a></span>&#160;  CUTLASS_DEVICE dim3 <a class="code" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b">swizzle</a>() {</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    assert(gridDim.z == 1);</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;    <span class="keywordtype">int</span> linearIdx = getLinearIdx&lt;swDirection&gt;(groupCols);</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;    dim3 swizzledBlockIdx;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;    <span class="keywordtype">int</span> currGroupCols = groupCols;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;    <span class="keywordtype">int</span> prevGroupCols = groupCols;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;    <span class="keywordflow">if</span> ((gridDim.y % groupCols != 0) &amp;&amp; ((blockIdx.y + (gridDim.y % groupCols)) &gt;= gridDim.y)) {</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;      <span class="comment">// last colmuns if gridDim.y is not divisble by groupCols</span></div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      currGroupCols = gridDim.y % groupCols;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;    }</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    swizzledBlockIdx.x = (linearIdx / currGroupCols) % gridDim.x;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;    swizzledBlockIdx.y =</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;        linearIdx % currGroupCols + prevGroupCols * (linearIdx / (prevGroupCols * gridDim.x));</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;    swizzledBlockIdx.z = blockIdx.z;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;    <span class="keywordflow">return</span> swizzledBlockIdx;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;  }</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;</div><div class="line"><a name="l00207"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a927ce3eed4cd22554f9e6fe20a1ccc6e">  207</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dim3 <a class="code" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a927ce3eed4cd22554f9e6fe20a1ccc6e">get_grid_layout</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <span class="keyword">const</span> &amp;problem_size,</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;                                           <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;OutputTile) {</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;    dim3 grid;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;    grid.x = (problem_size.<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>() + OutputTile[2] - 1) / OutputTile[2];</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;    grid.y = (problem_size.<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>() + OutputTile[1] - 1) / OutputTile[1];</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;    grid.z = problem_size.<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">batch</a>();</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;    <span class="keywordflow">return</span> grid;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;  }</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a380fb7f905548c52933ea411166424b4">  217</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a380fb7f905548c52933ea411166424b4">get_threadblock_offset</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;OutputTile) {</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;    dim3 block = <a class="code" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b">swizzle</a>();</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> threadblock_offset =</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;        <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, block.y * OutputTile[1], block.x * OutputTile[2]);</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;    <span class="keywordflow">return</span> threadblock_offset;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;  }</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;</div><div class="line"><a name="l00225"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#abb21a72e2cef3217f446f70758c59c1e">  225</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#abb21a72e2cef3217f446f70758c59c1e">get_batch_id</a>() {</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;    dim3 block = <a class="code" href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b">swizzle</a>();</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;    <span class="keywordflow">return</span> block.z;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;  }</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;};</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;<span class="comment">/*</span></div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;<span class="comment">consider a regular thread block mapping btween matrix C and different thread blocks</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;<span class="comment">note that C is column major, and the leading dimension of thread block id is blockIdx.x</span></div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;<span class="comment">let&#39;s look at an example where gridIdx.x = 6, gridIdx.y = 7, gridIdx.z = 1</span></div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;<span class="comment">(blockIdx.x, blockIdx.y)</span></div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;<span class="comment">mapping between threadblockID and C matrix:</span></div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;<span class="comment">(0,0) | (0,1) | (0,2) | (0,3) | (0,4) | (0,5) | (0,6) |</span></div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;<span class="comment">(1,0) | (1,1) | (1,2) | (1,3) | (1,4) | (1,5) | (1,6) |</span></div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;<span class="comment">(2,0) | (2,1) | (2,2) | (2,3) | (2,4) | (2,5) | (2,6) |</span></div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;<span class="comment">(3,0) | (3,1) | (3,2) | (3,3) | (3,4) | (3,5) | (3,6) |</span></div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;<span class="comment">(4,0) | (4,1) | (4,2) | (4,3) | (4,4) | (4,5) | (4,6) |</span></div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;<span class="comment">(5,0) | (5,1) | (5,2) | (5,3) | (5,4) | (5,5) | (5,6) |</span></div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;<span class="comment">-------------------------------------------------------</span></div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;<span class="comment">A RowMajorBlockSwizzle&lt;1, OneDirection&gt; will effectively transpose the map</span></div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;<span class="comment">(0,0) | (1,0) | (2,0) | (3,0) | (4,0) | (5,0) |</span></div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;<span class="comment">(0,1) | (1,1) | (2,1) | (3,1) | (4,1) | (5,1) |</span></div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;<span class="comment">(0,2) | (1,2) | (2,2) | (3,2) | (4,2) | (5,2) |</span></div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;<span class="comment">(0,3) | (1,3) | (2,3) | (3,3) | (4,3) | (5,3) |</span></div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;<span class="comment">(0,4) | (1,4) | (2,4) | (3,4) | (4,4) | (5,4) |</span></div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;<span class="comment">---------------------------------------------</span></div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;<span class="comment">(0,5) | (1,5) | (2,5) | (3,5) | (4,5) | (5,5) |</span></div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;<span class="comment">(0,6) | (1,6) | (2,6) | (3,6) | (4,6) | (5,6) |</span></div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;<span class="comment">It would aprear in memory we are working on 1 row at a time</span></div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;<span class="comment">A ColumnMajorBlockSwizzle&lt;2, OneDirection&gt; swizzles things a little bit more</span></div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;<span class="comment">(0,0) | (1,3) | (2,0) | (3,3) | (4,0) | (5,3) |</span></div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;<span class="comment">(1,0) | (0,4) | (3,0) | (2,4) | (5,0) | (4,4) |</span></div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;<span class="comment">(0,1) | (1,4) | (2,1) | (3,4) | (4,1) | (5,4) |</span></div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;<span class="comment">(1,1) | (0,5) | (3,1) | (2,5) | (5,1) | (4,5) |</span></div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;<span class="comment">(0,2) | (1,5) | (2,2) | (3,5) | (4,2) | (5,5) |</span></div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;<span class="comment">---------------------------------------------</span></div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;<span class="comment">(1,2) | (0,6) | (3,2) | (2,6) | (5,2) | (4,6) |</span></div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;<span class="comment">(0,3) | (1,6) | (2,3) | (3,6) | (4,3) | (5,6) |</span></div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;<span class="comment">so in memory, it would apprear that we work on 2 rows at a time rather than 1 row</span></div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;<span class="comment">Note that the index here really represent how each block maps to memory</span></div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;<span class="comment">A RowMajorBlockSwizzle&lt;1, Boustrophedon&gt; is similar to RowMajorBlockSwizzle&lt;1, OneDirection&gt;</span></div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;<span class="comment">except that every column flips the ordering against the previous one</span></div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;<span class="comment">(0,0) | (1,6) | (2,0) | (3,6) | (4,0) | (5,6) |</span></div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;<span class="comment">(0,1) | (1,5) | (2,1) | (3,5) | (4,1) | (5,5) |</span></div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;<span class="comment">(0,2) | (1,4) | (2,2) | (3,4) | (4,2) | (5,4) |</span></div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;<span class="comment">(0,3) | (1,3) | (2,3) | (3,3) | (4,3) | (5,3) |</span></div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;<span class="comment">(0,4) | (1,2) | (2,4) | (3,2) | (4,4) | (5,2) |</span></div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;<span class="comment">---------------------------------------------</span></div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;<span class="comment">(0,5) | (1,1) | (2,5) | (3,1) | (4,5) | (5,1) |</span></div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;<span class="comment">(0,6) | (1,0) | (2,6) | (3,0) | (4,6) | (5,0) |</span></div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;<span class="comment">similarily, A RowMajorBlockSwizzle&lt;2, Boustrophedon&gt; looks like</span></div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;<span class="comment">(0,0) | (1,3) | (2,3) | (3,6) | (4,0) | (5,3) |</span></div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;<span class="comment">(1,0) | (0,4) | (3,2) | (2,6) | (5,0) | (4,4) |</span></div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;<span class="comment">(0,1) | (1,4) | (2,2) | (3,5) | (4,1) | (5,4) |</span></div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;<span class="comment">(1,1) | (0,5) | (3,1) | (2,5) | (5,1) | (4,5) |</span></div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;<span class="comment">(0,2) | (1,5) | (2,1) | (3,4) | (4,2) | (5,5) |</span></div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;<span class="comment">---------------------------------------------</span></div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;<span class="comment">(1,2) | (0,6) | (3,0) | (2,4) | (5,2) | (4,6) |</span></div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;<span class="comment">(0,3) | (1,6) | (2,0) | (3,3) | (4,3) | (5,6) |</span></div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;<span class="comment">-----------------------------------------------</span></div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;<span class="comment"></span></div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;<span class="comment">*/</span></div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> groupRows, enum swizzleDirection::Kind swDirection&gt;</div><div class="line"><a name="l00334"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">  334</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">RowMajorBlockSwizzle</a> {</div><div class="line"><a name="l00336"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a4ed7847f8ddad11a6765d914b6f32fcd">  336</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a4ed7847f8ddad11a6765d914b6f32fcd">RowMajorBlockSwizzle</a>() {}</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;</div><div class="line"><a name="l00339"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d">  339</a></span>&#160;  CUTLASS_DEVICE dim3 <a class="code" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d">swizzle</a>() {</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;    assert(gridDim.z == 1);</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;    <span class="keywordtype">int</span> linearIdx = getLinearIdx&lt;swDirection&gt;(groupRows);</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;    dim3 swizzledBlockIdx;</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;    <span class="keywordtype">int</span> currGroupRows = groupRows;</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;    <span class="keywordtype">int</span> prevGroupRows = groupRows;</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;    <span class="keywordflow">if</span> ((gridDim.y % groupRows != 0) &amp;&amp; ((blockIdx.y + (gridDim.y % groupRows)) &gt;= gridDim.y)) {</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;      <span class="comment">// last columns</span></div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;      currGroupRows = gridDim.y % groupRows;</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;    }</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;    swizzledBlockIdx.x =</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;        linearIdx % currGroupRows + prevGroupRows * (linearIdx / (prevGroupRows * gridDim.x));</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;    swizzledBlockIdx.y = (linearIdx / currGroupRows) % gridDim.x;</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;    swizzledBlockIdx.z = blockIdx.z;</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;    <span class="keywordflow">return</span> swizzledBlockIdx;</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;  }</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;</div><div class="line"><a name="l00360"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#aa9fc825e19404ff527cb3d2dcc55ae1c">  360</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> dim3 <a class="code" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#aa9fc825e19404ff527cb3d2dcc55ae1c">get_grid_layout</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html">GemmCoord</a> <span class="keyword">const</span> &amp;problem_size,</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;                                           <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;OutputTile) {</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;    dim3 grid;</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;    grid.x = (problem_size.<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">n</a>() + OutputTile[1] - 1) / OutputTile[1];</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;    grid.y = (problem_size.<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">m</a>() + OutputTile[2] - 1) / OutputTile[2];</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;    grid.z = problem_size.<a class="code" href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">batch</a>();</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;    <span class="keywordflow">return</span> grid;</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;  }</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;</div><div class="line"><a name="l00370"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#af7c1b4e0afb08e893cd14a169a0b47cd">  370</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#af7c1b4e0afb08e893cd14a169a0b47cd">get_threadblock_offset</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;OutputTile) {</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;    dim3 block = <a class="code" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d">swizzle</a>();</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> threadblock_offset =</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;        <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, block.y * OutputTile[1], block.x * OutputTile[2]);</div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;    <span class="keywordflow">return</span> threadblock_offset;</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;  }</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;</div><div class="line"><a name="l00378"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a9be74716c0e3dc6a7f4cdd64cbb16211">  378</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a9be74716c0e3dc6a7f4cdd64cbb16211">get_batch_id</a>() {</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;    dim3 block = <a class="code" href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d">swizzle</a>();</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;    <span class="keywordflow">return</span> block.z;</div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;  }</div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;};</div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;</div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1swizzleDirection_html_aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a7c9f735f930f7acf8a16ef43c5fadda5">cutlass::gemm::swizzleDirection::OneDirection</a></div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:37</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IdentityBlockSwizzle_html_a046a5dfd01164df2abd514e9a52987c3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a046a5dfd01164df2abd514e9a52987c3">cutlass::gemm::IdentityBlockSwizzle::IdentityBlockSwizzle</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE IdentityBlockSwizzle()</div><div class="ttdoc">Ctor. aka ColumnMajorBlockSwizzle&lt;1&gt; </div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:67</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IdentityBlockSwizzle_html_a8f84a2b830caecff3edd052dc24635e6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a8f84a2b830caecff3edd052dc24635e6">cutlass::gemm::IdentityBlockSwizzle::get_batch_id</a></div><div class="ttdeci">CUTLASS_DEVICE int get_batch_id()</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:92</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle_html_a380fb7f905548c52933ea411166424b4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a380fb7f905548c52933ea411166424b4">cutlass::gemm::ColumnMajorBlockSwizzle::get_threadblock_offset</a></div><div class="ttdeci">CUTLASS_DEVICE Coord&lt; 3 &gt; get_threadblock_offset(Coord&lt; 3 &gt; const &amp;OutputTile)</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:217</div></div>
+<div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a7c582518db6860e19286361b162c4fcd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a7c582518db6860e19286361b162c4fcd">cutlass::gemm::GemmCoord::n</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; n() const</div><div class="ttdoc">Returns the GEMM N coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:97</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html">cutlass::gemm::GemmCoord</a></div><div class="ttdef"><b>Definition:</b> gemm_coord.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html">cutlass::gemm::ColumnMajorBlockSwizzle</a></div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:181</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle_html_af7c1b4e0afb08e893cd14a169a0b47cd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#af7c1b4e0afb08e893cd14a169a0b47cd">cutlass::gemm::RowMajorBlockSwizzle::get_threadblock_offset</a></div><div class="ttdeci">CUTLASS_DEVICE Coord&lt; 3 &gt; get_threadblock_offset(Coord&lt; 3 &gt; const &amp;OutputTile)</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:370</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle_html_a4ed7847f8ddad11a6765d914b6f32fcd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a4ed7847f8ddad11a6765d914b6f32fcd">cutlass::gemm::RowMajorBlockSwizzle::RowMajorBlockSwizzle</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE RowMajorBlockSwizzle()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:336</div></div>
+<div class="ttc" id="namespacecutlass_1_1gemm_html_a2336880c866ef4e73bbe0c3dbcb6c40e"><div class="ttname"><a href="namespacecutlass_1_1gemm.html#a2336880c866ef4e73bbe0c3dbcb6c40e">cutlass::gemm::getLinearIdx</a></div><div class="ttdeci">CUTLASS_DEVICE int getLinearIdx(int groups)</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:41</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle_html_a927ce3eed4cd22554f9e6fe20a1ccc6e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a927ce3eed4cd22554f9e6fe20a1ccc6e">cutlass::gemm::ColumnMajorBlockSwizzle::get_grid_layout</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE dim3 get_grid_layout(GemmCoord const &amp;problem_size, Coord&lt; 3 &gt; const &amp;OutputTile)</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:207</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle_html_aa9fc825e19404ff527cb3d2dcc55ae1c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#aa9fc825e19404ff527cb3d2dcc55ae1c">cutlass::gemm::RowMajorBlockSwizzle::get_grid_layout</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE dim3 get_grid_layout(GemmCoord const &amp;problem_size, Coord&lt; 3 &gt; const &amp;OutputTile)</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:360</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IdentityBlockSwizzle_html_a0a366c072ee66bbcb390acd7b8bbe5f8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a0a366c072ee66bbcb390acd7b8bbe5f8">cutlass::gemm::IdentityBlockSwizzle::swizzle</a></div><div class="ttdeci">CUTLASS_DEVICE dim3 swizzle()</div><div class="ttdoc">Swizzle the block index. </div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:70</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle_html_abb21a72e2cef3217f446f70758c59c1e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#abb21a72e2cef3217f446f70758c59c1e">cutlass::gemm::ColumnMajorBlockSwizzle::get_batch_id</a></div><div class="ttdeci">CUTLASS_DEVICE int get_batch_id()</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:225</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IdentityBlockSwizzle_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html">cutlass::gemm::IdentityBlockSwizzle</a></div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:65</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IdentityBlockSwizzle_html_a386e5cf702b0dcc3d57f9fdb4ab5d236"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#a386e5cf702b0dcc3d57f9fdb4ab5d236">cutlass::gemm::IdentityBlockSwizzle::get_threadblock_offset</a></div><div class="ttdeci">CUTLASS_DEVICE Coord&lt; 3 &gt; get_threadblock_offset(Coord&lt; 3 &gt; const &amp;OutputTile)</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:84</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle_html_a9be74716c0e3dc6a7f4cdd64cbb16211"><div class="ttname"><a href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a9be74716c0e3dc6a7f4cdd64cbb16211">cutlass::gemm::RowMajorBlockSwizzle::get_batch_id</a></div><div class="ttdeci">CUTLASS_DEVICE int get_batch_id()</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:378</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle_html_a6d0ee4e76371af26030ab4922e6c915a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#a6d0ee4e76371af26030ab4922e6c915a">cutlass::gemm::ColumnMajorBlockSwizzle::ColumnMajorBlockSwizzle</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ColumnMajorBlockSwizzle()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:183</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle_html_aaeb1e1167144352521651547815e003b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ColumnMajorBlockSwizzle.html#aaeb1e1167144352521651547815e003b">cutlass::gemm::ColumnMajorBlockSwizzle::swizzle</a></div><div class="ttdeci">CUTLASS_DEVICE dim3 swizzle()</div><div class="ttdoc">Swizzle the block index. </div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:186</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_a9167769a2b915eb92fb4ca37b9212793"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#a9167769a2b915eb92fb4ca37b9212793">cutlass::gemm::GemmCoord::m</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; m() const</div><div class="ttdoc">Returns the GEMM M coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:89</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle_html_a668d220ad1f163b72e40106b719e0c8d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html#a668d220ad1f163b72e40106b719e0c8d">cutlass::gemm::RowMajorBlockSwizzle::swizzle</a></div><div class="ttdeci">CUTLASS_DEVICE dim3 swizzle()</div><div class="ttdoc">Swizzle the block index. </div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:339</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1swizzleDirection_html_aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8a3172f5122c4348fdf4eb2480601249fa">cutlass::gemm::swizzleDirection::Boustrophedon</a></div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:37</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmCoord_html_ac441e93411ed6954a93ab36f0c747d26"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmCoord.html#ac441e93411ed6954a93ab36f0c747d26">cutlass::gemm::GemmCoord::batch</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; batch() const</div><div class="ttdoc">Returns the GEMM batch coordinate. </div><div class="ttdef"><b>Definition:</b> gemm_coord.h:113</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1swizzleDirection_html_aba1528de966f236380c5f55942802fb8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1swizzleDirection.html#aba1528de966f236380c5f55942802fb8">cutlass::gemm::swizzleDirection::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:37</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1swizzleDirection_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1swizzleDirection.html">cutlass::gemm::swizzleDirection</a></div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1RowMajorBlockSwizzle.html">cutlass::gemm::RowMajorBlockSwizzle</a></div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:334</div></div>
+<div class="ttc" id="gemm__coord_8h_html"><div class="ttname"><a href="gemm__coord_8h.html">gemm_coord.h</a></div><div class="ttdoc">GemmCoord is a structure derived from Coord&lt;4&gt; that specifies a location within the coordinate system...</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1IdentityBlockSwizzle_html_afc20f302a5cc5b736cfc1c91dfcaa57c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1IdentityBlockSwizzle.html#afc20f302a5cc5b736cfc1c91dfcaa57c">cutlass::gemm::IdentityBlockSwizzle::get_grid_layout</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE dim3 get_grid_layout(GemmCoord const &amp;problem_size, Coord&lt; 3 &gt; const &amp;OutputTile)</div><div class="ttdef"><b>Definition:</b> threadblock_swizzle.h:73</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/tile__allocation_8h.html b/docs/tile__allocation_8h.html
new file mode 100644
index 0000000000..5953680f83
--- /dev/null
+++ b/docs/tile__allocation_8h.html
@@ -0,0 +1,114 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: tile_allocation.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">tile_allocation.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Defines a fragment based on a Shape&lt;&gt; template.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tensor__ref_8h_source.html">cutlass/tensor_ref.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="zip__tensor__ref_8h_source.html">cutlass/zip_tensor_ref.h</a>&quot;</code><br />
+</div>
+<p><a href="tile__allocation_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation&lt; Scalar_, Shape_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Class for storing a tile in memory and accessing it through a tensor ref.  <a href="structcutlass_1_1TileAllocation.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation&lt; First_, Second_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Manages a pair of tile allocations as if they are one allocation.  <a href="structcutlass_1_1ZipTileAllocation.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/tile__allocation_8h_source.html b/docs/tile__allocation_8h_source.html
new file mode 100644
index 0000000000..b27e0dcce0
--- /dev/null
+++ b/docs/tile__allocation_8h_source.html
@@ -0,0 +1,121 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: tile_allocation.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">tile_allocation.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="tile__allocation_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tensor__ref_8h.html">cutlass/tensor_ref.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="zip__tensor__ref_8h.html">cutlass/zip_tensor_ref.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Shape_&gt;</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html">   41</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileAllocation.html">TileAllocation</a> {</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">   47</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a>;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">   50</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1StorageType.html">StorageType&lt;sizeof(Scalar)&gt;::Type</a> <a class="code" href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">Storage</a>;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">   53</a></span>&#160;  <span class="keyword">typedef</span> Shape_ <a class="code" href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">Shape</a>;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#aba9164abe2fd7a091a858b23c0d3ac9c">   56</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">ShapeStrides&lt;Shape, 1&gt;::Shape</a> <a class="code" href="structcutlass_1_1TileAllocation.html#aba9164abe2fd7a091a858b23c0d3ac9c">Strides</a>;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">   59</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef&lt;Scalar const, 4&gt;</a> <a class="code" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">ConstTensorRef</a>;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">   62</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef&lt;Scalar, 4&gt;</a> <a class="code" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a>;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604">   69</a></span>&#160;  <a class="code" href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">Storage</a> <a class="code" href="structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604">storage</a>[<a class="code" href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">Shape::kD</a>][<a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Shape::kH</a>][<a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Shape::kW</a>][<a class="code" href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">Shape::kC</a>];</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#a69c43b27939e9ecebd23edb18ed3a9dc">   77</a></span>&#160;  <a class="code" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a> *<a class="code" href="structcutlass_1_1TileAllocation.html#a69c43b27939e9ecebd23edb18ed3a9dc">data</a>() { <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a> *<span class="keyword">&gt;</span>(&amp;<a class="code" href="structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604">storage</a>[0][0][0][0]); }</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#acc3f2c29fe21316091a1405613083000">   81</a></span>&#160;  <a class="code" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a> <span class="keyword">const</span> *<a class="code" href="structcutlass_1_1TileAllocation.html#acc3f2c29fe21316091a1405613083000">data</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">Scalar</a> <span class="keyword">const </span>*<span class="keyword">&gt;</span>(&amp;<a class="code" href="structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604">storage</a>[0][0][0][0]); }</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#a3466ef2b478e4617aa1ff261217cfd05">   85</a></span>&#160;  <a class="code" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a> <a class="code" href="structcutlass_1_1TileAllocation.html#a3466ef2b478e4617aa1ff261217cfd05">reference</a>() {</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">TensorRef</a>(<a class="code" href="structcutlass_1_1TileAllocation.html#a69c43b27939e9ecebd23edb18ed3a9dc">data</a>(), <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(Strides::kD, Strides::kH, Strides::kW, Strides::kC));</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;  }</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileAllocation.html#afcdc0be82acf0b4ae66468e2170c5a0d">   91</a></span>&#160;  <a class="code" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">ConstTensorRef</a> <a class="code" href="structcutlass_1_1TileAllocation.html#afcdc0be82acf0b4ae66468e2170c5a0d">reference</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">ConstTensorRef</a>(<a class="code" href="structcutlass_1_1TileAllocation.html#a69c43b27939e9ecebd23edb18ed3a9dc">data</a>(), <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(Strides::kD, Strides::kH, Strides::kW, Strides::kC));</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  }</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;};</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> First_, <span class="keyword">typename</span> Second_&gt;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileAllocation.html">  100</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ZipTileAllocation.html">ZipTileAllocation</a> {</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">  106</a></span>&#160;  <span class="keyword">typedef</span> First_ <a class="code" href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">First</a>;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">  109</a></span>&#160;  <span class="keyword">typedef</span> Second_ <a class="code" href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">Second</a>;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">  112</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef&lt;typename First::TensorRef, typename Second::TensorRef&gt;</a> <a class="code" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">TensorRef</a>;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef&lt;typename First::ConstTensorRef, typename Second::ConstTensorRef&gt;</a></div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">  116</a></span>&#160;      <a class="code" href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">ConstTensorRef</a>;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014">  123</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">First</a> <a class="code" href="structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014">first</a>;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc">  126</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">Second</a> <a class="code" href="structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc">second</a>;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00134"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileAllocation.html#a0d00001220df7f2bdb1f09ae3f37c585">  134</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipTensorRef.html">TensorRef</a> <a class="code" href="structcutlass_1_1ZipTileAllocation.html#a0d00001220df7f2bdb1f09ae3f37c585">reference</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">TensorRef</a>(<a class="code" href="structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014">first</a>.reference(), <a class="code" href="structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc">second</a>.reference()); }</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00138"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileAllocation.html#af9964904e789b3ab58334f1ec1ceee56">  138</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipTensorRef.html">ConstTensorRef</a> <a class="code" href="structcutlass_1_1ZipTileAllocation.html#af9964904e789b3ab58334f1ec1ceee56">reference</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">ConstTensorRef</a>(<a class="code" href="structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014">first</a>.reference(), <a class="code" href="structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc">second</a>.reference()); }</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;};</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html_a0d00001220df7f2bdb1f09ae3f37c585"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html#a0d00001220df7f2bdb1f09ae3f37c585">cutlass::ZipTileAllocation::reference</a></div><div class="ttdeci">CUTLASS_DEVICE TensorRef reference()</div><div class="ttdoc">Returns a TensorRef object pointing to the data. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:134</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html_aba6d5cfb32cfed340d8af2971ec50af4"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html#aba6d5cfb32cfed340d8af2971ec50af4">cutlass::ZipTileAllocation::ConstTensorRef</a></div><div class="ttdeci">ZipTensorRef&lt; typename First::ConstTensorRef, typename Second::ConstTensorRef &gt; ConstTensorRef</div><div class="ttdoc">Defines the tensor reference for this allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:116</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeStrides_html_a76cde4c3ebd1d191e0191826b2663be4"><div class="ttname"><a href="structcutlass_1_1ShapeStrides.html#a76cde4c3ebd1d191e0191826b2663be4">cutlass::ShapeStrides::Shape</a></div><div class="ttdeci">Shape&lt; Shape_::kH *Shape_::kW *Shape_::kC, Shape_::kW *Shape_::kC, Shape_::kC, elementsPerAccess &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:170</div></div>
+<div class="ttc" id="tensor__ref_8h_html"><div class="ttname"><a href="tensor__ref_8h.html">tensor_ref.h</a></div><div class="ttdoc">Defines a structure containing strides, bounds, and a pointer to tensor data. </div></div>
+<div class="ttc" id="structcutlass_1_1ZipTensorRef_html"><div class="ttname"><a href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef</a></div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:38</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_aa0bf6caeab13dc004350c6c0cfe0df80"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#aa0bf6caeab13dc004350c6c0cfe0df80">cutlass::TileAllocation::TensorRef</a></div><div class="ttdeci">TensorRef&lt; Scalar, 4 &gt; TensorRef</div><div class="ttdoc">Defines the tensor reference for this allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_acc3f2c29fe21316091a1405613083000"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#acc3f2c29fe21316091a1405613083000">cutlass::TileAllocation::data</a></div><div class="ttdeci">CUTLASS_DEVICE Scalar const  * data() const</div><div class="ttdoc">Returns a const pointer to the raw data. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:81</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_a3466ef2b478e4617aa1ff261217cfd05"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#a3466ef2b478e4617aa1ff261217cfd05">cutlass::TileAllocation::reference</a></div><div class="ttdeci">CUTLASS_DEVICE TensorRef reference()</div><div class="ttdoc">Returns a TensorRef object pointing to the data. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:85</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html_ac6b988a7e6cd8ec83fae642342209527"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html#ac6b988a7e6cd8ec83fae642342209527">cutlass::ZipTileAllocation::Second</a></div><div class="ttdeci">Second_ Second</div><div class="ttdoc">Second tensor allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:109</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_a3c1ba61c511110b14558941367ad4604"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#a3c1ba61c511110b14558941367ad4604">cutlass::TileAllocation::storage</a></div><div class="ttdeci">Storage storage[Shape::kD][Shape::kH][Shape::kW][Shape::kC]</div><div class="ttdoc">Storage. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html_a1c274bfb4401beabaf62fed9c2054ddf"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html#a1c274bfb4401beabaf62fed9c2054ddf">cutlass::ZipTileAllocation::TensorRef</a></div><div class="ttdeci">ZipTensorRef&lt; typename First::TensorRef, typename Second::TensorRef &gt; TensorRef</div><div class="ttdoc">Defines the tensor reference for this allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:112</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_aba9164abe2fd7a091a858b23c0d3ac9c"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#aba9164abe2fd7a091a858b23c0d3ac9c">cutlass::TileAllocation::Strides</a></div><div class="ttdeci">ShapeStrides&lt; Shape, 1 &gt;::Shape Strides</div><div class="ttdoc">Strides. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:56</div></div>
+<div class="ttc" id="structcutlass_1_1Shape_html_a3a20d9062bba613c160bb2cd14f80a5e"><div class="ttname"><a href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">cutlass::Shape::kH</a></div><div class="ttdeci">static int const kH</div><div class="ttdoc">The height of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:68</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html_a94abc7e74632b14718fd2d5b78cceafc"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html#a94abc7e74632b14718fd2d5b78cceafc">cutlass::ZipTileAllocation::second</a></div><div class="ttdeci">Second second</div><div class="ttdoc">Second tensor allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:126</div></div>
+<div class="ttc" id="structcutlass_1_1StorageType_html"><div class="ttname"><a href="structcutlass_1_1StorageType.html">cutlass::StorageType</a></div><div class="ttdef"><b>Definition:</b> fragment.h:76</div></div>
+<div class="ttc" id="structcutlass_1_1Shape_html_a3f2433fd6401dd28f1130499f9fd340c"><div class="ttname"><a href="structcutlass_1_1Shape.html#a3f2433fd6401dd28f1130499f9fd340c">cutlass::Shape::kC</a></div><div class="ttdeci">static int const kC</div><div class="ttdoc">The number of scalars per element. </div><div class="ttdef"><b>Definition:</b> shape.h:72</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_a122fa067390f45b29946286271654033"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#a122fa067390f45b29946286271654033">cutlass::TileAllocation::ConstTensorRef</a></div><div class="ttdeci">TensorRef&lt; Scalar const, 4 &gt; ConstTensorRef</div><div class="ttdoc">Defines the tensor reference for this allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:59</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html_a6c0f139eef549521763b36cb1e45a014"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html#a6c0f139eef549521763b36cb1e45a014">cutlass::ZipTileAllocation::first</a></div><div class="ttdeci">First first</div><div class="ttdoc">First tensor allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:123</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_afcdc0be82acf0b4ae66468e2170c5a0d"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#afcdc0be82acf0b4ae66468e2170c5a0d">cutlass::TileAllocation::reference</a></div><div class="ttdeci">CUTLASS_DEVICE ConstTensorRef reference() const</div><div class="ttdoc">Returns a TensorRef object pointing to the data. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:91</div></div>
+<div class="ttc" id="zip__tensor__ref_8h_html"><div class="ttname"><a href="zip__tensor__ref_8h.html">zip_tensor_ref.h</a></div><div class="ttdoc">Defines a structure containing a pair of TensorRef-like objects. </div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_a98f1243dc279999e3ff083ef45dee3f6"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#a98f1243dc279999e3ff083ef45dee3f6">cutlass::TileAllocation::Scalar</a></div><div class="ttdeci">Scalar_ Scalar</div><div class="ttdoc">Scalar element. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:47</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html">cutlass::ZipTileAllocation</a></div><div class="ttdoc">Manages a pair of tile allocations as if they are one allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:100</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_a2254302a3ce0b4da5c3657ada0cb8ccc"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#a2254302a3ce0b4da5c3657ada0cb8ccc">cutlass::TileAllocation::Shape</a></div><div class="ttdeci">Shape_ Shape</div><div class="ttdoc">Size of the allocation in units of scalars. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:53</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html">cutlass::TileAllocation</a></div><div class="ttdoc">Class for storing a tile in memory and accessing it through a tensor ref. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:41</div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_a69c43b27939e9ecebd23edb18ed3a9dc"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#a69c43b27939e9ecebd23edb18ed3a9dc">cutlass::TileAllocation::data</a></div><div class="ttdeci">CUTLASS_DEVICE Scalar * data()</div><div class="ttdoc">Returns a pointer to the raw data. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:77</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html_af9964904e789b3ab58334f1ec1ceee56"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html#af9964904e789b3ab58334f1ec1ceee56">cutlass::ZipTileAllocation::reference</a></div><div class="ttdeci">CUTLASS_DEVICE ConstTensorRef reference() const</div><div class="ttdoc">Returns a TensorRef object pointing to the data. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:138</div></div>
+<div class="ttc" id="structcutlass_1_1Shape_html_a78836a20250ff24c25a6622ad818b421"><div class="ttname"><a href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">cutlass::Shape::kW</a></div><div class="ttdeci">static int const kW</div><div class="ttdoc">The width of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:70</div></div>
+<div class="ttc" id="structcutlass_1_1Shape_html_a19086a5567d6c710ec853e35a7f29c25"><div class="ttname"><a href="structcutlass_1_1Shape.html#a19086a5567d6c710ec853e35a7f29c25">cutlass::Shape::kD</a></div><div class="ttdeci">static int const kD</div><div class="ttdoc">The depth of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:66</div></div>
+<div class="ttc" id="shape_8h_html"><div class="ttname"><a href="shape_8h.html">shape.h</a></div><div class="ttdoc">Defines Shape implementing the Layout concept for representing a 4D hypercube of objects. </div></div>
+<div class="ttc" id="structcutlass_1_1TileAllocation_html_ace1f396620f3eb69c367bdf69aa27ebd"><div class="ttname"><a href="structcutlass_1_1TileAllocation.html#ace1f396620f3eb69c367bdf69aa27ebd">cutlass::TileAllocation::Storage</a></div><div class="ttdeci">StorageType&lt; sizeof(Scalar)&gt;::Type Storage</div><div class="ttdoc">The actual storage (may differ from the scalar type) </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:50</div></div>
+<div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileAllocation_html_acbdbed808b27997a0e8c22adfa9cc9b2"><div class="ttname"><a href="structcutlass_1_1ZipTileAllocation.html#acbdbed808b27997a0e8c22adfa9cc9b2">cutlass::ZipTileAllocation::First</a></div><div class="ttdeci">First_ First</div><div class="ttdoc">First tensor allocation. </div><div class="ttdef"><b>Definition:</b> tile_allocation.h:106</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/tile__coord_8h.html b/docs/tile__coord_8h.html
new file mode 100644
index 0000000000..953deb98d7
--- /dev/null
+++ b/docs/tile__coord_8h.html
@@ -0,0 +1,107 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: tile_coord.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">tile_coord.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Defines a coordinate used for the CUTLASS 4-D tile structure.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+</div>
+<p><a href="tile__coord_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileCoord.html">cutlass::TileCoord&lt; Index_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/tile__coord_8h_source.html b/docs/tile__coord_8h_source.html
new file mode 100644
index 0000000000..9fb8d1fa97
--- /dev/null
+++ b/docs/tile__coord_8h_source.html
@@ -0,0 +1,128 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: tile_coord.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">tile_coord.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="tile__coord_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html">   40</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileCoord.html">TileCoord</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1Coord.html">Coord</a>&lt;4, Index_&gt; {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;  </div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">   43</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a>;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">   46</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4, Index&gt;</a> <a class="code" href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">Base</a>;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#ab5ebf352327baadcc740175d6b39adcb">   49</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileCoord.html#ab5ebf352327baadcc740175d6b39adcb">kD</a> = 0;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a24d32587359493bb965745f5551e1624">   52</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileCoord.html#a24d32587359493bb965745f5551e1624">kH</a> = 1;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#ac2c14af3ceffd5ef8f17c9e0efb4e5ec">   55</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileCoord.html#ac2c14af3ceffd5ef8f17c9e0efb4e5ec">kW</a> = 2;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a8236879e1670072033983b7ec4b7ae32">   58</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileCoord.html#a8236879e1670072033983b7ec4b7ae32">kC</a> = 3;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">   66</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">TileCoord</a>() { }</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00070"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#ac760795433c0f0ccc5c44fb58626f51d">   70</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#ac760795433c0f0ccc5c44fb58626f51d">TileCoord</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3, Index&gt;</a> <span class="keyword">const</span> &amp;coord): </div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Base</a>(<a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(coord[0], coord[1], coord[2], 0)) { }</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a752dcc11f1a018de692e5846a80fe185">   75</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a752dcc11f1a018de692e5846a80fe185">TileCoord</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4, Index&gt;</a> <span class="keyword">const</span> &amp;coord): <a class="code" href="structcutlass_1_1Coord.html">Base</a>(coord) { }</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a2ff6ac0ad18cff304ee7f79597fdc274">   79</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a2ff6ac0ad18cff304ee7f79597fdc274">TileCoord</a>(<a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> coord[4]): <a class="code" href="structcutlass_1_1Coord.html">Base</a>(coord) { }</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;  </div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a28ee00699941f879cfa92327c038fca6">   83</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a28ee00699941f879cfa92327c038fca6">TileCoord</a>(<a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <a class="code" href="structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b">d</a>, <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <a class="code" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">h</a>, <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <a class="code" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">w</a>, <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <a class="code" href="structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c">c</a>): <a class="code" href="structcutlass_1_1Coord.html">Base</a>(<a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b">d</a>, <a class="code" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">h</a>, <a class="code" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">w</a>, <a class="code" href="structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c">c</a>)) { }</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00087"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b">   87</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <span class="keyword">const</span> &amp; <a class="code" href="structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b">d</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kD); }</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00091"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#aec4ffcdc8fbf57a8b649fff38af55007">   91</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &amp; <a class="code" href="structcutlass_1_1TileCoord.html#aec4ffcdc8fbf57a8b649fff38af55007">d</a>() { <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kD); }</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">   95</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <span class="keyword">const</span> &amp; <a class="code" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">h</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kH); }</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a1d91ffa0a63ad03431ff79185526f92f">   99</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &amp; <a class="code" href="structcutlass_1_1TileCoord.html#a1d91ffa0a63ad03431ff79185526f92f">h</a>() { <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kH); }</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">  103</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <span class="keyword">const</span> &amp; <a class="code" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">w</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kW); }</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a8f83026751c83f57c1854c8544e75bd0">  107</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &amp; <a class="code" href="structcutlass_1_1TileCoord.html#a8f83026751c83f57c1854c8544e75bd0">w</a>() { <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kW); }</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c">  111</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> <span class="keyword">const</span> &amp; <a class="code" href="structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c">c</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kC); }</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#ad8281750f2978c6c1c91982f347a14cd">  115</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">Index</a> &amp; <a class="code" href="structcutlass_1_1TileCoord.html#ad8281750f2978c6c1c91982f347a14cd">c</a>() { <span class="keywordflow">return</span> this-&gt;<a class="code" href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">at</a>(kC); }</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a0927c4ba212d00f3687034afe6bb8daf">  119</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;2&gt;</a> <a class="code" href="structcutlass_1_1TileCoord.html#a0927c4ba212d00f3687034afe6bb8daf">hw</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">h</a>(), <a class="code" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">w</a>());</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  }</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a11bb7593ce7bba2dcedd199322a8b42b">  125</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1TileCoord.html#a11bb7593ce7bba2dcedd199322a8b42b">hwc</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">h</a>(), <a class="code" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">w</a>(), <a class="code" href="structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c">c</a>());</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  }</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#abe65d1a0ff3798b662376032d51e9713">  131</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1TileCoord.html#abe65d1a0ff3798b662376032d51e9713">dhw</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b">d</a>(), <a class="code" href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">h</a>(), <a class="code" href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">w</a>());</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  }</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;  <span class="comment">// Coord operators</span></div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00141"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a3bfa2daa0e63144c1e8510ba336f185b">  141</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html">TileCoord</a> <a class="code" href="structcutlass_1_1TileCoord.html#a3bfa2daa0e63144c1e8510ba336f185b">operator+</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">TileCoord</a>(Base::operator+(b));</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;  }</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00147"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a9f274d8e93f9cd3e0a9699e11b85fa7c">  147</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html">TileCoord</a> <a class="code" href="structcutlass_1_1TileCoord.html#a9f274d8e93f9cd3e0a9699e11b85fa7c">operator-</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">TileCoord</a>(Base::operator-(b));</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;  }</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00153"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#ab8fbb13cc5ea4f580a7fc32963de9553">  153</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html">TileCoord</a> <a class="code" href="structcutlass_1_1TileCoord.html#ab8fbb13cc5ea4f580a7fc32963de9553">operator*</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">TileCoord</a>(Base::operator*(b));</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  }</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a5d2cc915343a3b90fb530348ddd329d2">  159</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html">TileCoord</a> <a class="code" href="structcutlass_1_1TileCoord.html#a5d2cc915343a3b90fb530348ddd329d2">operator/</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b)<span class="keyword"> const </span>{</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">TileCoord</a>(Base::operator/(b));</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  }</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00165"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a812760c633ea813db8a2bc24826c68df">  165</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html">TileCoord</a>&amp; <a class="code" href="structcutlass_1_1TileCoord.html#a812760c633ea813db8a2bc24826c68df">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">Base::operator+=</a>(b);</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  }</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#a02da20e580962fe0754a772842045389">  172</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html">TileCoord</a>&amp; <a class="code" href="structcutlass_1_1TileCoord.html#a02da20e580962fe0754a772842045389">operator-=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">Base::operator-=</a>(b);</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;  }</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#ae946b3af6b795d26632da7ca66b3751c">  179</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html">TileCoord</a>&amp; <a class="code" href="structcutlass_1_1TileCoord.html#ae946b3af6b795d26632da7ca66b3751c">operator*=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">Base::operator*=</a>(b);</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;  }</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileCoord.html#ac3207d8aa879c86a907cdcc93ccb2eb5">  186</a></span>&#160;  <a class="code" href="structcutlass_1_1TileCoord.html">TileCoord</a>&amp; <a class="code" href="structcutlass_1_1TileCoord.html#ac3207d8aa879c86a907cdcc93ccb2eb5">operator/=</a>(<a class="code" href="structcutlass_1_1Coord.html">Base</a> <span class="keyword">const</span>&amp; b) {</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">Base::operator/=</a>(b);</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;  }</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;};</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1TileCoord_html_a8236879e1670072033983b7ec4b7ae32"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a8236879e1670072033983b7ec4b7ae32">cutlass::TileCoord::kC</a></div><div class="ttdeci">static int kC</div><div class="ttdoc">C dimension. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:58</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_ab5ebf352327baadcc740175d6b39adcb"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#ab5ebf352327baadcc740175d6b39adcb">cutlass::TileCoord::kD</a></div><div class="ttdeci">static int kD</div><div class="ttdoc">D dimension. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:49</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a24d32587359493bb965745f5551e1624"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a24d32587359493bb965745f5551e1624">cutlass::TileCoord::kH</a></div><div class="ttdeci">static int kH</div><div class="ttdoc">H dimension. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:52</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_abe65d1a0ff3798b662376032d51e9713"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#abe65d1a0ff3798b662376032d51e9713">cutlass::TileCoord::dhw</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 3 &gt; dhw() const</div><div class="ttdoc">Gets D, H, and W dimensions as a Coord&lt;3&gt; </div><div class="ttdef"><b>Definition:</b> tile_coord.h:131</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_aeebb556622fe87c0902448de13a30e0c"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#aeebb556622fe87c0902448de13a30e0c">cutlass::TileCoord::c</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; c() const</div><div class="ttdoc">Returns the Celement of the coordinate. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:111</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_ac7c697a6fd23c7f49ff19aa6db4a41a3"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#ac7c697a6fd23c7f49ff19aa6db4a41a3">cutlass::TileCoord::h</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; h() const</div><div class="ttdoc">Returns the H element of the coordinate. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:95</div></div>
+<div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a7018df7f2dbc7d70345d5f076fb26259"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a7018df7f2dbc7d70345d5f076fb26259">cutlass::TileCoord::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a21ae028c4ee3e5cbe5bf9d47a41e6613"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a21ae028c4ee3e5cbe5bf9d47a41e6613">cutlass::TileCoord::w</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; w() const</div><div class="ttdoc">Returns the W element of the coordinate. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:103</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a07a067df652b64bd580f2ddf373e292b"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a07a067df652b64bd580f2ddf373e292b">cutlass::TileCoord::d</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index const  &amp; d() const</div><div class="ttdoc">Returns the D element of the coordinate. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:87</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a02da20e580962fe0754a772842045389"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a02da20e580962fe0754a772842045389">cutlass::TileCoord::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord &amp; operator-=(Base const &amp;b)</div><div class="ttdoc">In-place subtraction. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:172</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a28ee00699941f879cfa92327c038fca6"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a28ee00699941f879cfa92327c038fca6">cutlass::TileCoord::TileCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord(Index d, Index h, Index w, Index c)</div><div class="ttdoc">Helper to construct from a row and column. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:83</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a752dcc11f1a018de692e5846a80fe185"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a752dcc11f1a018de692e5846a80fe185">cutlass::TileCoord::TileCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord(Coord&lt; 4, Index &gt; const &amp;coord)</div><div class="ttdoc">Constructs from Coord&lt;4&gt; </div><div class="ttdef"><b>Definition:</b> tile_coord.h:75</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_ab8fbb13cc5ea4f580a7fc32963de9553"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#ab8fbb13cc5ea4f580a7fc32963de9553">cutlass::TileCoord::operator*</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord operator*(Base const &amp;b) const</div><div class="ttdoc">Element-wise multiplication. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:153</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_ad8281750f2978c6c1c91982f347a14cd"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#ad8281750f2978c6c1c91982f347a14cd">cutlass::TileCoord::c</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; c()</div><div class="ttdoc">Returns the C element of the coordinate. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:115</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ad4303b578b72b5cb2a0198375290e168"><div class="ttname"><a href="structcutlass_1_1Coord.html#ad4303b578b72b5cb2a0198375290e168">cutlass::Coord::operator*=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator*=(Coord const &amp;b)</div><div class="ttdoc">In-place multiplication. </div><div class="ttdef"><b>Definition:</b> coord.h:197</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_ac760795433c0f0ccc5c44fb58626f51d"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#ac760795433c0f0ccc5c44fb58626f51d">cutlass::TileCoord::TileCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord(Coord&lt; 3, Index &gt; const &amp;coord)</div><div class="ttdoc">Constructs from Coord&lt;3&gt; and infers coord[kC] = 0. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:70</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a9f274d8e93f9cd3e0a9699e11b85fa7c"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a9f274d8e93f9cd3e0a9699e11b85fa7c">cutlass::TileCoord::operator-</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord operator-(Base const &amp;b) const</div><div class="ttdoc">Element-wise subtraction. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:147</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_ae946b3af6b795d26632da7ca66b3751c"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#ae946b3af6b795d26632da7ca66b3751c">cutlass::TileCoord::operator*=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord &amp; operator*=(Base const &amp;b)</div><div class="ttdoc">In-place multiplication. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:179</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html"><div class="ttname"><a href="structcutlass_1_1TileCoord.html">cutlass::TileCoord</a></div><div class="ttdef"><b>Definition:</b> tile_coord.h:40</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a11bb7593ce7bba2dcedd199322a8b42b"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a11bb7593ce7bba2dcedd199322a8b42b">cutlass::TileCoord::hwc</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 3 &gt; hwc() const</div><div class="ttdoc">Gets H, W, and C dimensions as a Coord&lt;3&gt; </div><div class="ttdef"><b>Definition:</b> tile_coord.h:125</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_ae0c8cd0657a73f3ffff99e9546ea8a95"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#ae0c8cd0657a73f3ffff99e9546ea8a95">cutlass::TileCoord::TileCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord()</div><div class="ttdoc">Default ctor. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:66</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a8f83026751c83f57c1854c8544e75bd0"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a8f83026751c83f57c1854c8544e75bd0">cutlass::TileCoord::w</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; w()</div><div class="ttdoc">Returns the W element of the coordinate. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:107</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a0927c4ba212d00f3687034afe6bb8daf"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a0927c4ba212d00f3687034afe6bb8daf">cutlass::TileCoord::hw</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 2 &gt; hw() const</div><div class="ttdoc">Gets H and W dimensions as a Coord&lt;2&gt; </div><div class="ttdef"><b>Definition:</b> tile_coord.h:119</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a304334cbcad636d7b058fdc6310f0e6b"><div class="ttname"><a href="structcutlass_1_1Coord.html#a304334cbcad636d7b058fdc6310f0e6b">cutlass::Coord::operator-=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator-=(Coord const &amp;b)</div><div class="ttdoc">In-place subtraction. </div><div class="ttdef"><b>Definition:</b> coord.h:188</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a5d2cc915343a3b90fb530348ddd329d2"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a5d2cc915343a3b90fb530348ddd329d2">cutlass::TileCoord::operator/</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord operator/(Base const &amp;b) const</div><div class="ttdoc">Element-wise division. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ae4f2cb12b84411118cb93e7c4cb88b20"><div class="ttname"><a href="structcutlass_1_1Coord.html#ae4f2cb12b84411118cb93e7c4cb88b20">cutlass::Coord::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator+=(Coord const &amp;b)</div><div class="ttdoc">In-place addition. </div><div class="ttdef"><b>Definition:</b> coord.h:179</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_ab40c6bb58967d6be5a349bf6276c2eca"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#ab40c6bb58967d6be5a349bf6276c2eca">cutlass::TileCoord::Base</a></div><div class="ttdeci">Coord&lt; 4, Index &gt; Base</div><div class="ttdoc">Underlying Coord&lt;4&gt; </div><div class="ttdef"><b>Definition:</b> tile_coord.h:46</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_a9eff24a3b74b68d11839b92324613c93"><div class="ttname"><a href="structcutlass_1_1Coord.html#a9eff24a3b74b68d11839b92324613c93">cutlass::Coord&lt; 4, Index_ &gt;::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; at()</div><div class="ttdoc">Gets the index of a given Coord element. </div><div class="ttdef"><b>Definition:</b> coord.h:240</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_ac3207d8aa879c86a907cdcc93ccb2eb5"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#ac3207d8aa879c86a907cdcc93ccb2eb5">cutlass::TileCoord::operator/=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord &amp; operator/=(Base const &amp;b)</div><div class="ttdoc">In-place division. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:186</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html_ac87199c4c9a4e20aac4eb6e3b9a68f28"><div class="ttname"><a href="structcutlass_1_1Coord.html#ac87199c4c9a4e20aac4eb6e3b9a68f28">cutlass::Coord::operator/=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord &amp; operator/=(Coord const &amp;b)</div><div class="ttdoc">In-place division. </div><div class="ttdef"><b>Definition:</b> coord.h:206</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a2ff6ac0ad18cff304ee7f79597fdc274"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a2ff6ac0ad18cff304ee7f79597fdc274">cutlass::TileCoord::TileCoord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord(Index coord[4])</div><div class="ttdoc">Constructs from an array of coordinate elements. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:79</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_ac2c14af3ceffd5ef8f17c9e0efb4e5ec"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#ac2c14af3ceffd5ef8f17c9e0efb4e5ec">cutlass::TileCoord::kW</a></div><div class="ttdeci">static int kW</div><div class="ttdoc">W dimension. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:55</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:49</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a1d91ffa0a63ad03431ff79185526f92f"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a1d91ffa0a63ad03431ff79185526f92f">cutlass::TileCoord::h</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; h()</div><div class="ttdoc">Returns the H element of the coordinate. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:99</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a812760c633ea813db8a2bc24826c68df"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a812760c633ea813db8a2bc24826c68df">cutlass::TileCoord::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord &amp; operator+=(Base const &amp;b)</div><div class="ttdoc">In-place addition. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:165</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_a3bfa2daa0e63144c1e8510ba336f185b"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#a3bfa2daa0e63144c1e8510ba336f185b">cutlass::TileCoord::operator+</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileCoord operator+(Base const &amp;b) const</div><div class="ttdoc">Element-wise addition. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:141</div></div>
+<div class="ttc" id="structcutlass_1_1TileCoord_html_aec4ffcdc8fbf57a8b649fff38af55007"><div class="ttname"><a href="structcutlass_1_1TileCoord.html#aec4ffcdc8fbf57a8b649fff38af55007">cutlass::TileCoord::d</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index &amp; d()</div><div class="ttdoc">Returns the D element of the coordinate. </div><div class="ttdef"><b>Definition:</b> tile_coord.h:91</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/tile__iterator_8h.html b/docs/tile__iterator_8h.html
index 2b778c1905..fb872e973f 100644
--- a/docs/tile__iterator_8h.html
+++ b/docs/tile__iterator_8h.html
@@ -82,10 +82,13 @@
 
 <p>Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="load__store_8h_source.html">cutlass/load_store.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="predicate__vector_8h_source.html">cutlass/predicate_vector.h</a>&gt;</code><br />
-<code>#include &lt;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tensor__ref_8h_source.html">cutlass/tensor_ref.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="fragment_8h_source.html">cutlass/fragment.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="load__store_8h_source.html">cutlass/load_store.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="predicate__vector_8h_source.html">cutlass/predicate_vector.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&quot;</code><br />
+<code>#include &lt;cstdio&gt;</code><br />
 </div>
 <p><a href="tile__iterator_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -94,28 +97,30 @@
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1IteratorAdvance.html">cutlass::IteratorAdvance</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies dimension in which post-increment accesses advance.  <a href="structcutlass_1_1IteratorAdvance.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1IteratorFragment.html">cutlass::IteratorFragment</a></td></tr>
-<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix.  <a href="structcutlass_1_1IteratorFragment.html#details">More...</a><br /></td></tr>
-<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileTraits.html">cutlass::TileTraits&lt; Tile_, Delta_, Iterations_, ThreadOffset_, AccessSize &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">A template defining <a class="el" href="group__tile__traits__concept.html">Tile Traits Concept</a>.  <a href="structcutlass_1_1TileTraits.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor&lt; Delta_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Functor computing a predicate given the logical position of an access.  <a href="structcutlass_1_1RegularTilePredicateFunctor.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1DumpType.html">cutlass::DumpType&lt; T &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Iterator for accessing a stripmined tile in memory.  <a href="structcutlass_1_1TileIteratorBase.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters to the iterator.  <a href="structcutlass_1_1TileIteratorBase_1_1Params.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">An iterator implementing <a class="el" href="group__tile__load__iterator__concept.html">Tile Load Iterator Concept</a> for loading a tile from memory.  <a href="structcutlass_1_1TileLoadIterator.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters.  <a href="structcutlass_1_1TileLoadIterator_1_1Params.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">An iterator implementing <a class="el" href="group__tile__store__iterator__concept.html">Tile Store Iterator Concept</a> for storing a tile to memory.  <a href="structcutlass_1_1TileStoreIterator.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt;::Params</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt;::Params</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters.  <a href="structcutlass_1_1TileStoreIterator_1_1Params.html#details">More...</a><br /></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
@@ -127,7 +132,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/tile__iterator_8h_source.html b/docs/tile__iterator_8h_source.html
index 69ef0b1752..7c0ade6bf1 100644
--- a/docs/tile__iterator_8h_source.html
+++ b/docs/tile__iterator_8h_source.html
@@ -76,169 +76,216 @@
 <div class="title">tile_iterator.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="tile__iterator_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="load__store_8h.html">cutlass/load_store.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="predicate__vector_8h.html">cutlass/predicate_vector.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1IteratorAdvance.html">   61</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1IteratorAdvance.html">IteratorAdvance</a> {</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">   62</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">Kind</a> { <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5">kD</a>, <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">kH</a>, <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">kW</a> };</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;};</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1IteratorFragment.html">   66</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1IteratorFragment.html">IteratorFragment</a> {</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">   67</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">Kind</a> { <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80aeca44a186befa21ccae44eb4dc7b6954">kScalar</a>, <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">kWmmaMatrix</a> };</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;};</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Delta_, <span class="keyword">typename</span> Iterations_, <span class="keyword">typename</span> ThreadOffset_&gt;</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html">   77</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraits.html">TileTraits</a> {</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html#ab831be0adb255eece4f2e12fd9713831">   79</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1TileTraits.html#ab831be0adb255eece4f2e12fd9713831">Tile</a>;</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html#af88f5cea9f452d83004ea0fa0f9d56eb">   82</a></span>&#160;  <span class="keyword">typedef</span> Delta_ <a class="code" href="structcutlass_1_1TileTraits.html#af88f5cea9f452d83004ea0fa0f9d56eb">Delta</a>;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html#af7ae2fdb4c8f1702169cc7d437d2b469">   85</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1TileTraits.html#af7ae2fdb4c8f1702169cc7d437d2b469">Iterations</a>;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html#af9c0fc178dac7f9dac8d254da34e04dd">   88</a></span>&#160;  <span class="keyword">typedef</span> ThreadOffset_ <a class="code" href="structcutlass_1_1TileTraits.html#af9c0fc178dac7f9dac8d254da34e04dd">ThreadOffset</a>;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;};</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Traits_,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;          <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> Advance_ = <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <a class="code" href="structcutlass_1_1MemorySpace.html">MemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">MemorySpace::kGeneric</a>,</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;          <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;          <span class="keyword">typename</span> FragmentElement_ = Scalar_,</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;          <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> IteratorFragment_ = <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80aeca44a186befa21ccae44eb4dc7b6954">IteratorFragment::kScalar</a>,</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;          <span class="keyword">typename</span> Skew_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, 0, 0&gt;</a> &gt;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html">  102</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a> {</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">  104</a></span>&#160;  <span class="keyword">typedef</span> Traits_ <a class="code" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Traits</a>;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">  107</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a>;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">  110</a></span>&#160;  <span class="keyword">typedef</span> FragmentElement_ <a class="code" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">FragmentElement</a>;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">  113</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a> = Advance_;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">  116</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a> = IteratorFragment_;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">  119</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">  122</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a>;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">  125</a></span>&#160;  <span class="keyword">typedef</span> Skew_ <a class="code" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Skew</a>;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">  128</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Tile <a class="code" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Tile</a>;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">  131</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Delta <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Delta</a>;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">  134</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ImmediateOffsetStrides <a class="code" href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;</div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">  137</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Iterations <a class="code" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Iterations</a>;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">  140</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ThreadOffset <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a>;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">  143</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a> = Tile::kC;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">  146</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;FragmentElement, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a>;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">  149</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a> =</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;      (<a class="code" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">kIteratorFragment</a> == <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">IteratorFragment::kWmmaMatrix</a> ? 16 : <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">AccessType</a>));</div><div class="line"><a name="l00152"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">  152</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment&lt;Scalar, ShapeCount&lt;Tile&gt;::kCount</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">kFragmentSize</a>&gt; <a class="code" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Storage</a>;</div><div class="line"><a name="l00154"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">  154</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment&lt;FragmentElement, ShapeCount&lt;Iterations&gt;::kCount</a> * <a class="code" href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a>;</div><div class="line"><a name="l00156"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">  156</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator&lt;Fragment, Iterations, AccessType&gt;</a> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a>;</div><div class="line"><a name="l00158"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">  158</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator&lt;Fragment, Iterations, AccessType&gt;</a> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">FragmentConstIterator</a>;</div><div class="line"><a name="l00160"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">  160</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">FragmentShape</a>;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">  163</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector&lt;ShapeCount&lt;Iterations&gt;::kCount</a>&gt; <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">PredicateVector</a>;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  <span class="comment">// Params struct</span></div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html">  170</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Params</a> {</div><div class="line"><a name="l00171"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">  171</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a>;</div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">  172</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>;</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">  173</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a>;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;</div><div class="line"><a name="l00175"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">  175</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a>;</div><div class="line"><a name="l00176"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">  176</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a>;</div><div class="line"><a name="l00177"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">  177</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a>;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">  179</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a>;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00183"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">  183</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">initialize</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d,</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h,</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w,</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_d,</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_h,</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_w,</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_advance) {</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a> = _stride_d;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a> = _stride_h;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a> = _stride_w;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a> = _inc_d;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a> = _inc_h;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a> = _inc_w;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a> = _inc_advance;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;    }</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">  203</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">initialize</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d, <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h, <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w) {</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a> = _stride_d;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a> = _stride_h;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a> = _stride_w;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a> * Delta::kW;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a> * Delta::kH - <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a> * Delta::kW * (Iterations::kW - 1);</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;        <span class="comment">// Advance in the H dimension.</span></div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a> = 0;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">IteratorAdvance::kW</a>) {</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;        <span class="comment">// Advance in the W dimension.</span></div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a> * Tile::kW - <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a> * Tile::kH;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;        <span class="comment">// Advance in the D dimension.</span></div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a>;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;      }</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a> = 0;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    }</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;</div><div class="line"><a name="l00227"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">  227</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">initialize</a>() {</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a> = 0;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a> = 0;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a> = 1;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a> = 0;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;    }</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  };</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00239"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">  239</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">true</span>; }</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;  <span class="comment">// Static function members</span></div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00247"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">  247</a></span>&#160;  CUTLASS_DEVICE <span class="keyword">static</span> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">initialize_predicates</a>(PredicateIterator predicate_it,</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;                                                   <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;bounds,</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;                                                   <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0)) {</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Iterations::kD; ++d) {</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <span class="keywordtype">bool</span> enable_d = (d * Delta::kD + offset[0] &lt; bounds[0]);</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;        <span class="keywordtype">bool</span> enable_h = (h * Delta::kH + offset[1] &lt; bounds[1]);</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w) {</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;          <span class="keywordtype">bool</span> enable_w = (w * Tile::kC * Delta::kW + offset[2] &lt; bounds[2]);</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;          predicate_it.set(d, h, w, 0, enable_d &amp;&amp; enable_h &amp;&amp; enable_w);</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;        }</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;      }</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;    }</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;  }</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;};</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Traits_,</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;          <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> Advance_ = <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> MemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">MemorySpace::kGeneric</a>,</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;          <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;          <span class="keyword">typename</span> FragmentElement_ = Scalar_,</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;          <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> IteratorFragment_ = <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80aeca44a186befa21ccae44eb4dc7b6954">IteratorFragment::kScalar</a>,</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;          <span class="keyword">typename</span> Skew_ = Shape&lt;0, 0, 0, 0&gt; &gt;</div><div class="line"><a name="l00302"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html">  302</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_,</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;                                                  Scalar_,</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;                                                  Advance_,</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;                                                  MemorySpace,</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;                                                  Index_,</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;                                                  FragmentElement_,</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;                                                  IteratorFragment_,</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;                                                  Skew_&gt; {</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_,</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;                           Scalar_,</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;                           Advance_,</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>,</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;                           Index_,</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;                           FragmentElement_,</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;                           IteratorFragment_,</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;                           Skew_&gt;</div><div class="line"><a name="l00319"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3">  319</a></span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3">Base</a>;</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;</div><div class="line"><a name="l00322"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a">  322</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Base::Traits</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a">Traits</a>;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;</div><div class="line"><a name="l00325"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">  325</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Base::Scalar</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a>;</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;</div><div class="line"><a name="l00328"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464">  328</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">Base::FragmentElement</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464">FragmentElement</a>;</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;</div><div class="line"><a name="l00331"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">  331</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">kAdvance</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">Base::kAdvance</a>;</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;</div><div class="line"><a name="l00334"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98">  334</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98">kIteratorFragment</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">Base::kIteratorFragment</a>;</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;</div><div class="line"><a name="l00337"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1">  337</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1">kMemorySpace</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">Base::kMemorySpace</a>;</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;</div><div class="line"><a name="l00340"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36">  340</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Base::Index</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36">Index</a>;</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;</div><div class="line"><a name="l00343"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c">  343</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::Skew</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c">Skew</a>;</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;</div><div class="line"><a name="l00346"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10">  346</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Base::Tile</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10">Tile</a>;</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;</div><div class="line"><a name="l00349"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf">  349</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Base::Delta</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf">Delta</a>;</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;</div><div class="line"><a name="l00352"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">  352</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Base::Iterations</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">Iterations</a>;</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;</div><div class="line"><a name="l00355"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">  355</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">Base::ThreadOffset</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">ThreadOffset</a>;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;</div><div class="line"><a name="l00358"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869">  358</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">Base::FragmentShape</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869">FragmentShape</a>;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;</div><div class="line"><a name="l00361"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0">  361</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Base::AccessType</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0">AccessType</a>;</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;</div><div class="line"><a name="l00364"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">  364</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Base::Fragment</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">Fragment</a>;</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;</div><div class="line"><a name="l00367"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591">  367</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">Base::FragmentIterator</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591">FragmentIterator</a>;</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;</div><div class="line"><a name="l00370"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76">  370</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">Base::FragmentConstIterator</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76">FragmentConstIterator</a>;</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;</div><div class="line"><a name="l00373"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328">  373</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">Base::PredicateVector</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328">PredicateVector</a>;</div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;</div><div class="line"><a name="l00376"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">  376</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Base::Storage</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a>;</div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;</div><div class="line"><a name="l00379"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76">  379</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Base::Params <a class="code" href="structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76">BaseParams</a>;</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;</div><div class="line"><a name="l00382"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc">  382</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc">kRequiresLoadFence</a> = Tile::kD == 1 };</div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;</div><div class="line"><a name="l00385"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">  385</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> <span class="keyword">const</span> *<a class="code" href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">Pointer</a>;</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;</div><div class="line"><a name="l00388"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html">  388</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html">BaseParams</a> {</div><div class="line"><a name="l00390"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">  390</a></span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> <span class="keyword">const</span> *<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a>;</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;</div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00394"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76">  394</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76">initialize</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a> <span class="keyword">const</span> &amp;storage) {</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> = &amp;storage[0];</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;    }</div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00401"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#afd9e82df76ad35fe883b7834457242b2">  401</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#afd9e82df76ad35fe883b7834457242b2">initialize</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> <span class="keyword">const</span> *ptr, <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a>) {</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">Base::Params::initialize</a>(<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a>);</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> = ptr;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;    }</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00409"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aa3922946bb0da0c0040dec44aa389ec1">  409</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aa3922946bb0da0c0040dec44aa389ec1">initialize</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">Scalar</a> <span class="keyword">const</span> *ptr,</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d,</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h,</div><div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w,</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_d,</div><div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_h,</div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_w,</div><div class="line"><a name="l00416"></a><span class="lineno">  416</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_advance) {</div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> = ptr;</div><div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">Base::Params::initialize</a>(</div><div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;          _stride_d, _stride_h, _stride_w, _inc_d, _inc_h, _inc_w, _inc_advance);</div><div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;    }</div><div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;</div><div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;    <span class="comment">// Initializes params to default values</span></div><div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00425"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8">  425</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8">initialize</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">Base::Params::initialize</a>(); }</div><div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;  };</div><div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;</div><div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;</div><div class="line"><a name="l00433"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">  433</a></span>&#160;  Params <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>;</div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;</div><div class="line"><a name="l00436"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">  436</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">thread_offset</a>;</div><div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;</div><div class="line"><a name="l00439"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">  439</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a>;</div><div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;</div><div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;  <span class="comment">// Static member functions</span></div><div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;</div><div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00447"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5">  447</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5">initialize_predicates</a>(PredicateIterator predicate_it,</div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;bounds,</div><div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,</div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;                                                                                           0,</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;                                                                                           0)) {</div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">Base::initialize_predicates</a>(</div><div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;        predicate_it,</div><div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;        bounds,</div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;        block_offset + <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">thread_offset</a>[1], <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">thread_offset</a>[2] * Tile::kC));</div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;  }</div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;</div><div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;</div><div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00464"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e">  464</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e">TileLoadIterator</a>() {}</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;</div><div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00468"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a93e166575be3b2f7489833ae5da23f23">  468</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadIterator.html#a93e166575be3b2f7489833ae5da23f23">TileLoadIterator</a>(Params <span class="keyword">const</span> &amp;_params,</div><div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;                   <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0),</div><div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">ThreadOffset</a>())</div><div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;      : <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>(_params), <a class="code" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a>(0) {</div><div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">thread_offset</a> = thread_offset_func();</div><div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;</div><div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> block_offset_h = 0;</div><div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> block_offset_w = 0;</div><div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;      block_offset_h = block_offset[1];</div><div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;      block_offset_w = block_offset[2];</div><div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;    } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;      block_offset_h = block_offset[2];</div><div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;      block_offset_w = block_offset[1];</div><div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;    }</div><div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;</div><div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> += block_offset[0] * <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a> +</div><div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;                      (block_offset_h + <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">thread_offset</a>[1]) * <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a> +</div><div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160;                      (block_offset_w + <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">thread_offset</a>[2] * Tile::kC) / Tile::kC * <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a>;</div><div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;  }</div><div class="line"><a name="l00488"></a><span class="lineno">  488</span>&#160;</div><div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00491"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a53282fa4cb33cfcec79033d26e418af6">  491</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadIterator.html#a53282fa4cb33cfcec79033d26e418af6">TileLoadIterator</a>(Params <span class="keyword">const</span> &amp;,</div><div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;                   <a class="code" href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">SharedStorage</a> &amp;shared_storage,</div><div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;                   <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0),</div><div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">ThreadOffset</a>())</div><div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;      : <a class="code" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a>(0) {</div><div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> offset = thread_offset_func()[2];</div><div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> = &amp;shared_storage[offset];</div><div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160;  }</div><div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;</div><div class="line"><a name="l00501"></a><span class="lineno">  501</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00502"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4">  502</a></span>&#160;  <a class="code" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> <span class="keyword">const</span> *<a class="code" href="structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4">data</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a>; }</div><div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;</div><div class="line"><a name="l00505"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5">  505</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5">inc_d</a>() { <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> += <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a>; }</div><div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;</div><div class="line"><a name="l00508"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface">  508</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface">inc_h</a>() { <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> += <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a>; }</div><div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;</div><div class="line"><a name="l00511"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">  511</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">inc_w</a>() { <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> += <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a>; }</div><div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;</div><div class="line"><a name="l00514"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37">  514</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37">inc_advance</a>() { <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> += <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">inc_advance</a>; }</div><div class="line"><a name="l00515"></a><span class="lineno">  515</span>&#160;</div><div class="line"><a name="l00517"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64">  517</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64">inc_stage</a>() {</div><div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;    <span class="keywordflow">if</span> (Tile::kD &gt; 1) {</div><div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> kStageSize = Tile::kH * Tile::kW * Tile::kC;</div><div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a> == Tile::kD - 1) {</div><div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;        <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> -= (Tile::kD - 1) * kStageSize;</div><div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;        <a class="code" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a> = 0;</div><div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;        <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">pointer</a> += kStageSize;</div><div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;        <a class="code" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a> = <a class="code" href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">stage</a> + 1;</div><div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;      }</div><div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;    }</div><div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;  }</div><div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;</div><div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00533"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915">  533</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915">load_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment, PredicateIterator pred_it) {</div><div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a> frag_iterator(fragment);</div><div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;</div><div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Iterations::kD; ++d) {</div><div class="line"><a name="l00537"></a><span class="lineno">  537</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w, ++pred_it) {</div><div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;          <span class="keywordflow">if</span> (*pred_it) {</div><div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;            <a class="code" href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">Load&lt;typename Fragment::Element, Tile::kC, kMemorySpace&gt;::load</a>(</div><div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;                reinterpret_cast&lt;AccessType &amp;&gt;(frag_iterator.at(d, h, w, 0)), <a class="code" href="structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4">data</a>(), 0);</div><div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;          }</div><div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;</div><div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;          <span class="keywordflow">if</span> (w &lt; Iterations::kW - 1) {</div><div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;            <a class="code" href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">inc_w</a>();</div><div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;          }</div><div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;        }</div><div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;        <span class="keywordflow">if</span> (h &lt; Iterations::kH - 1) {</div><div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;          <a class="code" href="structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface">inc_h</a>();</div><div class="line"><a name="l00550"></a><span class="lineno">  550</span>&#160;        }</div><div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;      }</div><div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160;      <span class="keywordflow">if</span> (d &lt; Iterations::kD - 1) {</div><div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160;        <a class="code" href="structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5">inc_d</a>();</div><div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;      }</div><div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;    }</div><div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37">inc_advance</a>();</div><div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;  }</div><div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;</div><div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00561"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d">  561</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d">load_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment) {</div><div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> pred_it;</div><div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915">load_post_increment</a>(fragment, pred_it);</div><div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;  }</div><div class="line"><a name="l00565"></a><span class="lineno">  565</span>&#160;</div><div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00568"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140">  568</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140">load</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment, PredicateIterator pred_it)<span class="keyword"> const </span>{</div><div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> _load_it(*<span class="keyword">this</span>);</div><div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;    _load_it.<a class="code" href="structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915">load_post_increment</a>(fragment, pred_it);</div><div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;  }</div><div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;</div><div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00575"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db">  575</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db">load</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment)<span class="keyword"> const </span>{</div><div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> pred_it;</div><div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140">load</a>(fragment, pred_it);</div><div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160;  }</div><div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160;};</div><div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;</div><div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;</div><div class="line"><a name="l00606"></a><span class="lineno">  606</span>&#160;</div><div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Traits_,</div><div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00614"></a><span class="lineno">  614</span>&#160;          <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> Advance_ = <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00615"></a><span class="lineno">  615</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> MemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">MemorySpace::kGeneric</a>,</div><div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;          <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;          <span class="keyword">typename</span> FragmentElement_ = Scalar_,</div><div class="line"><a name="l00618"></a><span class="lineno">  618</span>&#160;          <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> IteratorFragment_ = <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80aeca44a186befa21ccae44eb4dc7b6954">IteratorFragment::kScalar</a>,</div><div class="line"><a name="l00619"></a><span class="lineno">  619</span>&#160;          <span class="keyword">typename</span> Skew_ = Shape&lt;0, 0, 0, 0&gt; &gt;</div><div class="line"><a name="l00620"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html">  620</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_,</div><div class="line"><a name="l00621"></a><span class="lineno">  621</span>&#160;                                                   Scalar_,</div><div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160;                                                   Advance_,</div><div class="line"><a name="l00623"></a><span class="lineno">  623</span>&#160;                                                   MemorySpace,</div><div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;                                                   Index_,</div><div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160;                                                   FragmentElement_,</div><div class="line"><a name="l00626"></a><span class="lineno">  626</span>&#160;                                                   IteratorFragment_,</div><div class="line"><a name="l00627"></a><span class="lineno">  627</span>&#160;                                                   Skew_&gt; {</div><div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_,</div><div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;                           Scalar_,</div><div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160;                           Advance_,</div><div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>,</div><div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;                           Index_,</div><div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;                           FragmentElement_,</div><div class="line"><a name="l00635"></a><span class="lineno">  635</span>&#160;                           IteratorFragment_,</div><div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;                           Skew_&gt;</div><div class="line"><a name="l00637"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#af4576dca736bab8ac73b308522cb4a67">  637</a></span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator.html#af4576dca736bab8ac73b308522cb4a67">Base</a>;</div><div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;</div><div class="line"><a name="l00640"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a6f50a8aec2d7045e9057b93df08172a8">  640</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">Base::Traits</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a6f50a8aec2d7045e9057b93df08172a8">Traits</a>;</div><div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;</div><div class="line"><a name="l00643"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">  643</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Base::Scalar</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a>;</div><div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160;</div><div class="line"><a name="l00646"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a2b13136a970fae187fcb377c9be28fac">  646</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">Base::FragmentElement</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a2b13136a970fae187fcb377c9be28fac">FragmentElement</a>;</div><div class="line"><a name="l00647"></a><span class="lineno">  647</span>&#160;</div><div class="line"><a name="l00649"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a8059c57030df99b73309e9210ec5f624">  649</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a8059c57030df99b73309e9210ec5f624">kAdvance</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">Base::kAdvance</a>;</div><div class="line"><a name="l00650"></a><span class="lineno">  650</span>&#160;</div><div class="line"><a name="l00652"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a94c0567316118abfb84fc28560a5a46a">  652</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">IteratorFragment::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a94c0567316118abfb84fc28560a5a46a">kIteratorFragment</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">Base::kIteratorFragment</a>;</div><div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;</div><div class="line"><a name="l00655"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#adaebec9eacf767f63f048033de73ea5b">  655</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#adaebec9eacf767f63f048033de73ea5b">kMemorySpace</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">Base::kMemorySpace</a>;</div><div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;</div><div class="line"><a name="l00658"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a5ac2280dfcac08cec17b8c0db1c4593e">  658</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Base::Index</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5ac2280dfcac08cec17b8c0db1c4593e">Index</a>;</div><div class="line"><a name="l00659"></a><span class="lineno">  659</span>&#160;</div><div class="line"><a name="l00661"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a57348779bb004ed1ea0fd9cc252e895d">  661</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">Base::Skew</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a57348779bb004ed1ea0fd9cc252e895d">Skew</a>;</div><div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;</div><div class="line"><a name="l00664"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a8a87c8ef986e110a01a9226012594a61">  664</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">Base::Tile</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a8a87c8ef986e110a01a9226012594a61">Tile</a>;</div><div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160;</div><div class="line"><a name="l00667"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a1c433ba0eea5e6a46f36101d8de98ed0">  667</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">Base::Delta</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a1c433ba0eea5e6a46f36101d8de98ed0">Delta</a>;</div><div class="line"><a name="l00668"></a><span class="lineno">  668</span>&#160;</div><div class="line"><a name="l00670"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a552a67fb03c28e985d143f6193f88308">  670</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">Base::Iterations</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a552a67fb03c28e985d143f6193f88308">Iterations</a>;</div><div class="line"><a name="l00671"></a><span class="lineno">  671</span>&#160;</div><div class="line"><a name="l00673"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27">  673</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">Base::ThreadOffset</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27">ThreadOffset</a>;</div><div class="line"><a name="l00674"></a><span class="lineno">  674</span>&#160;</div><div class="line"><a name="l00676"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a3b872e85844c9e009fa480a71a829136">  676</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">Base::FragmentShape</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a3b872e85844c9e009fa480a71a829136">FragmentShape</a>;</div><div class="line"><a name="l00677"></a><span class="lineno">  677</span>&#160;</div><div class="line"><a name="l00679"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a0e79ed59263ebc3478c43f2f9a50cb5a">  679</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Base::AccessType</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a0e79ed59263ebc3478c43f2f9a50cb5a">AccessType</a>;</div><div class="line"><a name="l00680"></a><span class="lineno">  680</span>&#160;</div><div class="line"><a name="l00682"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">  682</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Base::Fragment</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">Fragment</a>;</div><div class="line"><a name="l00683"></a><span class="lineno">  683</span>&#160;</div><div class="line"><a name="l00685"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a0843b2d82422e7178f324a8d3be9d705">  685</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">Base::FragmentIterator</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a0843b2d82422e7178f324a8d3be9d705">FragmentIterator</a>;</div><div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;</div><div class="line"><a name="l00688"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a48de0db7ee2ee9699b946a9d5a0364c7">  688</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">Base::FragmentConstIterator</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a48de0db7ee2ee9699b946a9d5a0364c7">FragmentConstIterator</a>;</div><div class="line"><a name="l00689"></a><span class="lineno">  689</span>&#160;</div><div class="line"><a name="l00691"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a5aa507eaeb63951f8e69fb223ec41809">  691</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">Base::PredicateVector</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5aa507eaeb63951f8e69fb223ec41809">PredicateVector</a>;</div><div class="line"><a name="l00692"></a><span class="lineno">  692</span>&#160;</div><div class="line"><a name="l00694"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">  694</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">Base::Storage</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">SharedStorage</a>;</div><div class="line"><a name="l00695"></a><span class="lineno">  695</span>&#160;</div><div class="line"><a name="l00697"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a5484b46ac2646edb7a185b51137f70c0">  697</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Base::Params</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5484b46ac2646edb7a185b51137f70c0">BaseParams</a>;</div><div class="line"><a name="l00698"></a><span class="lineno">  698</span>&#160;</div><div class="line"><a name="l00700"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html">  700</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html">BaseParams</a> {</div><div class="line"><a name="l00702"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">  702</a></span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a> *<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a>;</div><div class="line"><a name="l00703"></a><span class="lineno">  703</span>&#160;</div><div class="line"><a name="l00705"></a><span class="lineno">  705</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00706"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a71f5238a712f7b2f377fb58938ac829b">  706</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a71f5238a712f7b2f377fb58938ac829b">initialize</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">SharedStorage</a> &amp;storage) {</div><div class="line"><a name="l00707"></a><span class="lineno">  707</span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a> = &amp;storage[0];</div><div class="line"><a name="l00708"></a><span class="lineno">  708</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;    }</div><div class="line"><a name="l00710"></a><span class="lineno">  710</span>&#160;</div><div class="line"><a name="l00712"></a><span class="lineno">  712</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00713"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#af0d26a2df2a1a5ba3c3169b736bd5d43">  713</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#af0d26a2df2a1a5ba3c3169b736bd5d43">initialize</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a> *ptr, <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a>) {</div><div class="line"><a name="l00714"></a><span class="lineno">  714</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">Base::Params::initialize</a>(<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a>);</div><div class="line"><a name="l00715"></a><span class="lineno">  715</span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a> = ptr;</div><div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00717"></a><span class="lineno">  717</span>&#160;    }</div><div class="line"><a name="l00718"></a><span class="lineno">  718</span>&#160;</div><div class="line"><a name="l00720"></a><span class="lineno">  720</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00721"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ac1cfe92f1543ba445fa10f1859a0db98">  721</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ac1cfe92f1543ba445fa10f1859a0db98">initialize</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">Scalar</a> *ptr,</div><div class="line"><a name="l00722"></a><span class="lineno">  722</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_d,</div><div class="line"><a name="l00723"></a><span class="lineno">  723</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_h,</div><div class="line"><a name="l00724"></a><span class="lineno">  724</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _stride_w,</div><div class="line"><a name="l00725"></a><span class="lineno">  725</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_d,</div><div class="line"><a name="l00726"></a><span class="lineno">  726</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_h,</div><div class="line"><a name="l00727"></a><span class="lineno">  727</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_w,</div><div class="line"><a name="l00728"></a><span class="lineno">  728</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">Index</a> _inc_advance) {</div><div class="line"><a name="l00729"></a><span class="lineno">  729</span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a> = ptr;</div><div class="line"><a name="l00730"></a><span class="lineno">  730</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">Base::Params::initialize</a>(</div><div class="line"><a name="l00731"></a><span class="lineno">  731</span>&#160;          _stride_d, _stride_h, _stride_w, _inc_d, _inc_h, _inc_w, _inc_advance);</div><div class="line"><a name="l00732"></a><span class="lineno">  732</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00733"></a><span class="lineno">  733</span>&#160;    }</div><div class="line"><a name="l00734"></a><span class="lineno">  734</span>&#160;</div><div class="line"><a name="l00736"></a><span class="lineno">  736</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00737"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#af884f720d36aa82e7f972932686ae986">  737</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#af884f720d36aa82e7f972932686ae986">initialize</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">Base::Params::initialize</a>(); }</div><div class="line"><a name="l00738"></a><span class="lineno">  738</span>&#160;  };</div><div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;</div><div class="line"><a name="l00740"></a><span class="lineno">  740</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160;</div><div class="line"><a name="l00745"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">  745</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>;</div><div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;</div><div class="line"><a name="l00748"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">  748</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">thread_offset</a>;</div><div class="line"><a name="l00749"></a><span class="lineno">  749</span>&#160;</div><div class="line"><a name="l00751"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">  751</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">stage</a>;</div><div class="line"><a name="l00752"></a><span class="lineno">  752</span>&#160;</div><div class="line"><a name="l00753"></a><span class="lineno">  753</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00754"></a><span class="lineno">  754</span>&#160;  <span class="comment">// Static member functions</span></div><div class="line"><a name="l00755"></a><span class="lineno">  755</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00756"></a><span class="lineno">  756</span>&#160;</div><div class="line"><a name="l00758"></a><span class="lineno">  758</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00759"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#af92ba20db048a9ec96976a1673f0f7c2">  759</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#af92ba20db048a9ec96976a1673f0f7c2">initialize_predicates</a>(PredicateIterator predicate_it,</div><div class="line"><a name="l00760"></a><span class="lineno">  760</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;bounds,</div><div class="line"><a name="l00761"></a><span class="lineno">  761</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,</div><div class="line"><a name="l00762"></a><span class="lineno">  762</span>&#160;                                                                                           0,</div><div class="line"><a name="l00763"></a><span class="lineno">  763</span>&#160;                                                                                           0)) {</div><div class="line"><a name="l00764"></a><span class="lineno">  764</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">Base::initialize_predicates</a>(</div><div class="line"><a name="l00765"></a><span class="lineno">  765</span>&#160;        predicate_it,</div><div class="line"><a name="l00766"></a><span class="lineno">  766</span>&#160;        bounds,</div><div class="line"><a name="l00767"></a><span class="lineno">  767</span>&#160;        block_offset + <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, <a class="code" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">thread_offset</a>[1], <a class="code" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">thread_offset</a>[2] * Tile::kC));</div><div class="line"><a name="l00768"></a><span class="lineno">  768</span>&#160;  }</div><div class="line"><a name="l00769"></a><span class="lineno">  769</span>&#160;</div><div class="line"><a name="l00770"></a><span class="lineno">  770</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00771"></a><span class="lineno">  771</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00772"></a><span class="lineno">  772</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00773"></a><span class="lineno">  773</span>&#160;</div><div class="line"><a name="l00775"></a><span class="lineno">  775</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00776"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aac4d49854d63f632627b6974f9b59dbb">  776</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreIterator.html#aac4d49854d63f632627b6974f9b59dbb">TileStoreIterator</a>() {}</div><div class="line"><a name="l00777"></a><span class="lineno">  777</span>&#160;</div><div class="line"><a name="l00779"></a><span class="lineno">  779</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00780"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a037ccd942359e6bc8640a240b13cd330">  780</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreIterator.html#a037ccd942359e6bc8640a240b13cd330">TileStoreIterator</a>(<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;_params,</div><div class="line"><a name="l00781"></a><span class="lineno">  781</span>&#160;                    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0),</div><div class="line"><a name="l00782"></a><span class="lineno">  782</span>&#160;                    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27">ThreadOffset</a>())</div><div class="line"><a name="l00783"></a><span class="lineno">  783</span>&#160;      : <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>(_params), <a class="code" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">stage</a>(0) {</div><div class="line"><a name="l00784"></a><span class="lineno">  784</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">thread_offset</a> = thread_offset_func();</div><div class="line"><a name="l00785"></a><span class="lineno">  785</span>&#160;</div><div class="line"><a name="l00786"></a><span class="lineno">  786</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a> += block_offset[0] * <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">stride_d</a> +</div><div class="line"><a name="l00787"></a><span class="lineno">  787</span>&#160;                      (block_offset[1] + <a class="code" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">thread_offset</a>[1]) * <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">stride_h</a> +</div><div class="line"><a name="l00788"></a><span class="lineno">  788</span>&#160;                      (block_offset[2] + <a class="code" href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">thread_offset</a>[2] * Tile::kC) / Tile::kC * <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">stride_w</a>;</div><div class="line"><a name="l00789"></a><span class="lineno">  789</span>&#160;  }</div><div class="line"><a name="l00790"></a><span class="lineno">  790</span>&#160;</div><div class="line"><a name="l00792"></a><span class="lineno">  792</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00793"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a4f89c5182659de94605300e15c3651b2">  793</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreIterator.html#a4f89c5182659de94605300e15c3651b2">TileStoreIterator</a>(<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;,</div><div class="line"><a name="l00794"></a><span class="lineno">  794</span>&#160;                    <a class="code" href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">SharedStorage</a> &amp;shared_storage,</div><div class="line"><a name="l00795"></a><span class="lineno">  795</span>&#160;                    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0),</div><div class="line"><a name="l00796"></a><span class="lineno">  796</span>&#160;                    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27">ThreadOffset</a>())</div><div class="line"><a name="l00797"></a><span class="lineno">  797</span>&#160;      : <a class="code" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">stage</a>(0) {</div><div class="line"><a name="l00798"></a><span class="lineno">  798</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> offset = thread_offset_func()[2];</div><div class="line"><a name="l00799"></a><span class="lineno">  799</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a> = &amp;shared_storage[offset];</div><div class="line"><a name="l00800"></a><span class="lineno">  800</span>&#160;  }</div><div class="line"><a name="l00801"></a><span class="lineno">  801</span>&#160;</div><div class="line"><a name="l00803"></a><span class="lineno">  803</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00804"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a5ebab59862d5f50ad980871515d999b0">  804</a></span>&#160;  <a class="code" href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">Scalar</a> *<a class="code" href="structcutlass_1_1TileStoreIterator.html#a5ebab59862d5f50ad980871515d999b0">data</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a>; }</div><div class="line"><a name="l00805"></a><span class="lineno">  805</span>&#160;</div><div class="line"><a name="l00807"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a74dffe1ddcc84935ab170117e939b7e3">  807</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a74dffe1ddcc84935ab170117e939b7e3">inc_d</a>() { <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a> += <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">inc_d</a>; }</div><div class="line"><a name="l00808"></a><span class="lineno">  808</span>&#160;</div><div class="line"><a name="l00810"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a3793f5d5846862f22f1de736e36ae7c1">  810</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a3793f5d5846862f22f1de736e36ae7c1">inc_h</a>() { <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a> += <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">inc_h</a>; }</div><div class="line"><a name="l00811"></a><span class="lineno">  811</span>&#160;</div><div class="line"><a name="l00813"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aa573a47a9ffc3e07239a09e2bc470cf1">  813</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa573a47a9ffc3e07239a09e2bc470cf1">inc_w</a>() { <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a> += <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">inc_w</a>; }</div><div class="line"><a name="l00814"></a><span class="lineno">  814</span>&#160;</div><div class="line"><a name="l00816"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a1614b27755cf82c0e1f3e7852c5a4c75">  816</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a1614b27755cf82c0e1f3e7852c5a4c75">inc_advance</a>() {}</div><div class="line"><a name="l00817"></a><span class="lineno">  817</span>&#160;</div><div class="line"><a name="l00819"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a187e0852ec4862f6d3cb6249bedc3bb3">  819</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a187e0852ec4862f6d3cb6249bedc3bb3">inc_stage</a>() {</div><div class="line"><a name="l00820"></a><span class="lineno">  820</span>&#160;    <span class="keywordflow">if</span> (Tile::kD &gt; 1) {</div><div class="line"><a name="l00821"></a><span class="lineno">  821</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> kStageSize = Tile::kH * Tile::kW * Tile::kC;</div><div class="line"><a name="l00822"></a><span class="lineno">  822</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">stage</a> == Tile::kD - 1) {</div><div class="line"><a name="l00823"></a><span class="lineno">  823</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a> -= (Tile::kD - 1) * kStageSize;</div><div class="line"><a name="l00824"></a><span class="lineno">  824</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">stage</a> = 0;</div><div class="line"><a name="l00825"></a><span class="lineno">  825</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00826"></a><span class="lineno">  826</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">pointer</a> += kStageSize;</div><div class="line"><a name="l00827"></a><span class="lineno">  827</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">stage</a> = <a class="code" href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">stage</a> + 1;</div><div class="line"><a name="l00828"></a><span class="lineno">  828</span>&#160;      }</div><div class="line"><a name="l00829"></a><span class="lineno">  829</span>&#160;    }</div><div class="line"><a name="l00830"></a><span class="lineno">  830</span>&#160;  }</div><div class="line"><a name="l00831"></a><span class="lineno">  831</span>&#160;</div><div class="line"><a name="l00832"></a><span class="lineno">  832</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00834"></a><span class="lineno">  834</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00835"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a57aa2c36eb6ad9d2500c1f5396b3a526">  835</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a57aa2c36eb6ad9d2500c1f5396b3a526">store_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment, PredicateIterator pred_it) {</div><div class="line"><a name="l00836"></a><span class="lineno">  836</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">FragmentIterator</a> frag_iterator(fragment);</div><div class="line"><a name="l00837"></a><span class="lineno">  837</span>&#160;</div><div class="line"><a name="l00838"></a><span class="lineno">  838</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Iterations::kD; ++d) {</div><div class="line"><a name="l00839"></a><span class="lineno">  839</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l00840"></a><span class="lineno">  840</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w, ++pred_it) {</div><div class="line"><a name="l00841"></a><span class="lineno">  841</span>&#160;          <span class="keywordflow">if</span> (*pred_it) {</div><div class="line"><a name="l00842"></a><span class="lineno">  842</span>&#160;            <a class="code" href="structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf">Store&lt;typename Fragment::Element, Tile::kC, kMemorySpace&gt;::store</a>(</div><div class="line"><a name="l00843"></a><span class="lineno">  843</span>&#160;                reinterpret_cast&lt;AccessType &amp;&gt;(frag_iterator.at(d, h, w, 0)), <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5ebab59862d5f50ad980871515d999b0">data</a>(), 0);</div><div class="line"><a name="l00844"></a><span class="lineno">  844</span>&#160;          }</div><div class="line"><a name="l00845"></a><span class="lineno">  845</span>&#160;          <span class="keywordflow">if</span> (w &lt; Iterations::kW - 1) {</div><div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160;            <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa573a47a9ffc3e07239a09e2bc470cf1">inc_w</a>();</div><div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160;          }</div><div class="line"><a name="l00848"></a><span class="lineno">  848</span>&#160;        }</div><div class="line"><a name="l00849"></a><span class="lineno">  849</span>&#160;        <span class="keywordflow">if</span> (h &lt; Iterations::kH - 1) {</div><div class="line"><a name="l00850"></a><span class="lineno">  850</span>&#160;          <a class="code" href="structcutlass_1_1TileStoreIterator.html#a3793f5d5846862f22f1de736e36ae7c1">inc_h</a>();</div><div class="line"><a name="l00851"></a><span class="lineno">  851</span>&#160;        }</div><div class="line"><a name="l00852"></a><span class="lineno">  852</span>&#160;      }</div><div class="line"><a name="l00853"></a><span class="lineno">  853</span>&#160;      <span class="keywordflow">if</span> (d &lt; Iterations::kD - 1) {</div><div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#a74dffe1ddcc84935ab170117e939b7e3">inc_d</a>();</div><div class="line"><a name="l00855"></a><span class="lineno">  855</span>&#160;      }</div><div class="line"><a name="l00856"></a><span class="lineno">  856</span>&#160;    }</div><div class="line"><a name="l00857"></a><span class="lineno">  857</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a1614b27755cf82c0e1f3e7852c5a4c75">inc_advance</a>();</div><div class="line"><a name="l00858"></a><span class="lineno">  858</span>&#160;  }</div><div class="line"><a name="l00859"></a><span class="lineno">  859</span>&#160;</div><div class="line"><a name="l00861"></a><span class="lineno">  861</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00862"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#ae63949f58c1b32959bbfa5b64d521f0f">  862</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#ae63949f58c1b32959bbfa5b64d521f0f">store_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment) {</div><div class="line"><a name="l00863"></a><span class="lineno">  863</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> pred_it;</div><div class="line"><a name="l00864"></a><span class="lineno">  864</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a57aa2c36eb6ad9d2500c1f5396b3a526">store_post_increment</a>(fragment, pred_it);</div><div class="line"><a name="l00865"></a><span class="lineno">  865</span>&#160;  }</div><div class="line"><a name="l00866"></a><span class="lineno">  866</span>&#160;</div><div class="line"><a name="l00868"></a><span class="lineno">  868</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00869"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a53820de506cecb1f5fb07b3385d8272a">  869</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a53820de506cecb1f5fb07b3385d8272a">store</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment, PredicateIterator pred_it)<span class="keyword"> const </span>{</div><div class="line"><a name="l00870"></a><span class="lineno">  870</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> _store_it(*<span class="keyword">this</span>);</div><div class="line"><a name="l00871"></a><span class="lineno">  871</span>&#160;    _store_it.<a class="code" href="structcutlass_1_1TileStoreIterator.html#a57aa2c36eb6ad9d2500c1f5396b3a526">store_post_increment</a>(fragment, pred_it);</div><div class="line"><a name="l00872"></a><span class="lineno">  872</span>&#160;  }</div><div class="line"><a name="l00873"></a><span class="lineno">  873</span>&#160;</div><div class="line"><a name="l00875"></a><span class="lineno">  875</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00876"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a60258b7c1a1708f97e28f8f6c292bfe4">  876</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a60258b7c1a1708f97e28f8f6c292bfe4">store</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">Fragment</a> &amp;fragment)<span class="keyword"> const </span>{</div><div class="line"><a name="l00877"></a><span class="lineno">  877</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> pred_it;</div><div class="line"><a name="l00878"></a><span class="lineno">  878</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a53820de506cecb1f5fb07b3385d8272a">store</a>(fragment, pred_it);</div><div class="line"><a name="l00879"></a><span class="lineno">  879</span>&#160;  }</div><div class="line"><a name="l00880"></a><span class="lineno">  880</span>&#160;};</div><div class="line"><a name="l00881"></a><span class="lineno">  881</span>&#160;}</div><div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a4e0b2bc06bb8f52313e4d8c51ab30ff2"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a4e0b2bc06bb8f52313e4d8c51ab30ff2">cutlass::TileIteratorBase::kFragmentSize</a></div><div class="ttdeci">static int const kFragmentSize</div><div class="ttdoc">The size of storage needed per fragment. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:149</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aba1d75a0cd5f11dee2aecf89b2b13d98"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aba1d75a0cd5f11dee2aecf89b2b13d98">cutlass::TileLoadIterator::kIteratorFragment</a></div><div class="ttdeci">static IteratorFragment::Kind const kIteratorFragment</div><div class="ttdoc">Specifies type of iterator fragment storage (Salar or WmmaMatrix) </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:334</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a1614b27755cf82c0e1f3e7852c5a4c75"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a1614b27755cf82c0e1f3e7852c5a4c75">cutlass::TileStoreIterator::inc_advance</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_advance()</div><div class="ttdoc">Increment in the next dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:816</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a25a241bbdc0b0121992019a16f1a6d60"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a25a241bbdc0b0121992019a16f1a6d60">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::FragmentConstIterator</a></div><div class="ttdeci">FragmentConstIterator&lt; Fragment, Iterations, AccessType &gt; FragmentConstIterator</div><div class="ttdoc">The fragment const iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:158</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_af4576dca736bab8ac73b308522cb4a67"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#af4576dca736bab8ac73b308522cb4a67">cutlass::TileStoreIterator::Base</a></div><div class="ttdeci">TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Base</div><div class="ttdoc">Base class. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:637</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a95da23108b74ad085024ab45e84083e1"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a95da23108b74ad085024ab45e84083e1">cutlass::TileStoreIterator::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:682</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aebbe5a0996dcd362caad618e78dc2591"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aebbe5a0996dcd362caad618e78dc2591">cutlass::TileLoadIterator::FragmentIterator</a></div><div class="ttdeci">Base::FragmentIterator FragmentIterator</div><div class="ttdoc">Fragment iterator definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:367</div></div>
+<a href="tile__iterator_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tensor__ref_8h.html">cutlass/tensor_ref.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="load__store_8h.html">cutlass/load_store.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="predicate__vector_8h.html">cutlass/predicate_vector.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &lt;cstdio&gt;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1IteratorAdvance.html">   64</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1IteratorAdvance.html">IteratorAdvance</a> {</div><div class="line"><a name="l00065"></a><span class="lineno"><a class="line" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">   65</a></span>&#160;  <span class="keyword">enum</span> <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">Kind</a> { <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5">kD</a>, <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">kH</a>, <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">kW</a> };</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;};</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;          <span class="keyword">typename</span> Delta_,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;          <span class="keyword">typename</span> Iterations_,</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;          <span class="keyword">typename</span> ThreadOffset_,</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;          <span class="keywordtype">int</span> AccessSize&gt;</div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html">   78</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraits.html">TileTraits</a> {</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html#a3632c351a28f71f6c140dd33089d80b0">   80</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1TileTraits.html#a3632c351a28f71f6c140dd33089d80b0">Tile</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html#ad6d99ccf2fcd2bd47e45d068f4d99c82">   83</a></span>&#160;  <span class="keyword">typedef</span> Delta_ <a class="code" href="structcutlass_1_1TileTraits.html#ad6d99ccf2fcd2bd47e45d068f4d99c82">Delta</a>;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html#a46b9e04bb8d33fcf8fc116cc48a555fc">   86</a></span>&#160;  <span class="keyword">typedef</span> Iterations_ <a class="code" href="structcutlass_1_1TileTraits.html#a46b9e04bb8d33fcf8fc116cc48a555fc">Iterations</a>;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;  <span class="comment">// ThreadOffset should be a functor defined like:</span></div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  <span class="comment">// struct ThreadOffsetExample {</span></div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  <span class="comment">//   CUTLASS_DEVICE</span></div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;  <span class="comment">//   Coord&lt;4&gt; operator()() const {</span></div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;  <span class="comment">//      return make_Coord(0, threadIdx.y, threadIdx.x, 0);</span></div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  <span class="comment">//   }</span></div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  <span class="comment">// };</span></div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html#a671ef48f4141a9de30b6ec6fb0be1feb">   99</a></span>&#160;  <span class="keyword">typedef</span> ThreadOffset_ <a class="code" href="structcutlass_1_1TileTraits.html#a671ef48f4141a9de30b6ec6fb0be1feb">ThreadOffset</a>;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html#a3db8202befa891bbc7c0a53c535cd21f">  102</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, 0, 0&gt;</a> <a class="code" href="structcutlass_1_1TileTraits.html#a3db8202befa891bbc7c0a53c535cd21f">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraits.html#a0a494c2eacb51b65487f8405908a0214">  105</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraits.html#a0a494c2eacb51b65487f8405908a0214">kAccessSize</a> = AccessSize;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;};</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Delta_&gt;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1RegularTilePredicateFunctor.html">  112</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html">RegularTilePredicateFunctor</a> {</div><div class="line"><a name="l00113"></a><span class="lineno"><a class="line" href="structcutlass_1_1RegularTilePredicateFunctor.html#acd32282ce7852c4669098c06bcd9a360">  113</a></span>&#160;  <span class="keyword">typedef</span> Delta_ <a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html#acd32282ce7852c4669098c06bcd9a360">Delta</a>;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">  116</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">bounds</a>;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1RegularTilePredicateFunctor.html#a0e0b728d3685097a9280fbca6a47a2af">  120</a></span>&#160;  <a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html#a0e0b728d3685097a9280fbca6a47a2af">RegularTilePredicateFunctor</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> _bounds) : <a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">bounds</a>(_bounds) {}</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1RegularTilePredicateFunctor.html#a084c0a2732827a74f7a30873c5883827">  124</a></span>&#160;  <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html#a084c0a2732827a74f7a30873c5883827">operator()</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> iteration, <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> offset)<span class="keyword"> const </span>{</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;    <span class="keywordflow">return</span> (iteration[0] * Delta::kD + offset[0] &lt; <a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">bounds</a>[0]) &amp;&amp;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;           (iteration[1] * Delta::kH + offset[1] &lt; <a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">bounds</a>[1]) &amp;&amp;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;           (iteration[2] * Delta::kW + offset[2] &lt; <a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">bounds</a>[2]);</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  }</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;};</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00134"></a><span class="lineno"><a class="line" href="structcutlass_1_1DumpType.html">  134</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1DumpType.html">DumpType</a> {};</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Traits_,</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;          <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> Advance_ = <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <a class="code" href="structcutlass_1_1MemorySpace.html">MemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">MemorySpace::kGeneric</a>,</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;          <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;          <span class="keyword">typename</span> FragmentElement_ = Scalar_,</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;          <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> FragmentElementType_ = <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>,</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;          <span class="keyword">typename</span> Skew_ = <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, 0, 0&gt;</a> &gt;</div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html">  144</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a> {</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">  146</a></span>&#160;  <span class="keyword">typedef</span> Traits_ <a class="code" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Traits</a>;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">  149</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a>;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">  152</a></span>&#160;  <span class="keyword">typedef</span> FragmentElement_ <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">FragmentElement</a>;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">  155</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a> = Advance_;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">  158</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a> = FragmentElementType_;</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;</div><div class="line"><a name="l00161"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">  161</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">kMemorySpace</a> = <a class="code" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">  164</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a>;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">  167</a></span>&#160;  <span class="keyword">typedef</span> Skew_ <a class="code" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Skew</a>;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">  170</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Tile <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Tile</a>;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">  173</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Delta <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Delta</a>;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;</div><div class="line"><a name="l00176"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">  176</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ImmediateOffsetStrides <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">  179</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Iterations <a class="code" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Iterations</a>;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">  182</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ThreadOffset <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a>;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">  185</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a> = Traits::kAccessSize;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;</div><div class="line"><a name="l00188"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">  188</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Vectorize&lt;FragmentElement, kAccessSize&gt;::Type</a> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a>;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">  191</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a> =</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;      (<a class="code" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">kFragmentElementType</a> == <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a> ? 16 : <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">AccessType</a>));</div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">  194</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment&lt;Scalar, ShapeCount&lt;Tile&gt;::kCount</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">kFragmentSize</a>&gt; <a class="code" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Storage</a>;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">  196</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment&lt;FragmentElement, ShapeCount&lt;Iterations&gt;::kCount</a> * <a class="code" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">kAccessSize</a>&gt; <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">  199</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator&lt;Fragment, Iterations, AccessType&gt;</a> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a>;</div><div class="line"><a name="l00201"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">  201</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator&lt;Fragment, Iterations, AccessType&gt;</a> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a>;</div><div class="line"><a name="l00203"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">  203</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">FragmentIterator::FragmentShape</a> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">FragmentShape</a>;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">  206</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector&lt;ShapeCount&lt;Iterations&gt;::kCount</a>&gt; <a class="code" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">PredicateVector</a>;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;  <span class="comment">// Params struct</span></div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;</div><div class="line"><a name="l00213"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html">  213</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Params</a> {</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;    <span class="comment">// Dat members</span></div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;</div><div class="line"><a name="l00219"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">  219</a></span>&#160;    <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>;</div><div class="line"><a name="l00220"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">  220</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>;</div><div class="line"><a name="l00221"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">  221</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">  223</a></span>&#160;    <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a>;</div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">  224</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a>;</div><div class="line"><a name="l00225"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">  225</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a>;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;</div><div class="line"><a name="l00227"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">  227</a></span>&#160;    <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a>;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;    <span class="comment">// Methods</span></div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00235"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">  235</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">Params</a>() : <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>(0), <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>(0), <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>(0), <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a>(0), <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a>(0), <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a>(0) {}</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00239"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">  239</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">Params</a>(<span class="keywordtype">long</span> <span class="keywordtype">long</span> _stride_d,</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h,</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w,</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;           <span class="keywordtype">long</span> <span class="keywordtype">long</span> _inc_d,</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h,</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w,</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;           <span class="keywordtype">long</span> <span class="keywordtype">long</span> _inc_advance)</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;        : <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>(_stride_d),</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>(_stride_h),</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>(_stride_w),</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a>(_inc_d),</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a>(_inc_h),</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a>(_inc_w),</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a>(_inc_advance) {}</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00256"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">  256</a></span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">Params</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <span class="keyword">const</span> &amp;stride) {</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">initialize</a>(stride);</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;    }</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00262"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">  262</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">initialize</a>(<span class="keywordtype">long</span> <span class="keywordtype">long</span> _stride_d,</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h,</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w,</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;                   <span class="keywordtype">long</span> <span class="keywordtype">long</span> _inc_d,</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h,</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w,</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;                   <span class="keywordtype">long</span> <span class="keywordtype">long</span> _inc_advance) {</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a> = _stride_d;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> = _stride_h;</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a> = _stride_w;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a> = _inc_d;</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a> = _inc_h;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a> = _inc_w;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = _inc_advance;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;    }</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00283"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">  283</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">initialize</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <span class="keyword">const</span> &amp;stride) {</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">initialize</a>(stride[0], stride[1], stride[2]);</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;    }</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00289"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">  289</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">initialize</a>(<span class="keywordtype">long</span> <span class="keywordtype">long</span> _stride_d, <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h, <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w) {</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a> = _stride_d;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> = _stride_h;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a> = _stride_w;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a> * Delta::kW;</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> * Delta::kH - <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a> * Delta::kW * (Iterations::kW - 1);</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a> * Delta::kD - <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> * Delta::kH * (Iterations::kH - 1) -</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;              <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a> * Delta::kW * (Iterations::kW - 1);</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = 0;</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>) {</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;        <span class="comment">// Advance in the H dimension.</span></div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = Tile::kH * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>;</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;      } <span class="keywordflow">else</span> <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">IteratorAdvance::kW</a>) {</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;        <span class="comment">// Advance in the W dimension.</span></div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = Tile::kW * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;        <span class="comment">// Advance in the D dimension.</span></div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;        <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = Tile::kD * <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>;</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;      }</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> -= <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a> * Delta::kD * (Iterations::kD - 1) +</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;                     <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> * Delta::kH * (Iterations::kH - 1) +</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;                     <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a> * Delta::kW * (Iterations::kW - 1);</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;    }</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;</div><div class="line"><a name="l00321"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">  321</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">initialize</a>() {</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a> = 0;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> = 0;</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a> = 1;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = 0;</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a> = <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a> = 0;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;    }</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;  };</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;</div><div class="line"><a name="l00334"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">  334</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <span class="keyword">true</span>; }</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;  <span class="comment">// Static function members</span></div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> PredicateIterator, <span class="keyword">typename</span> PredicateFunctor&gt;</div><div class="line"><a name="l00342"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">  342</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keyword">static</span> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">initialize_predicates</a>(PredicateIterator predicate_it,</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;                                                   PredicateFunctor <span class="keyword">const</span> &amp;predicate_func,</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;                                                   <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;offset) {</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;    <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Iterations::kD; ++d) {</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;      <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;        <a class="code" href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w) {</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;          <span class="keywordtype">bool</span> enable = predicate_func(<a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(d, h, w), offset);</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;          predicate_it.set(enable);</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;          ++predicate_it;</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;        }</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;      }</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;    }</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;  }</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;};</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;</div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;</div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Traits_,</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;          <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> Advance_ = <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> MemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">MemorySpace::kGeneric</a>,</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;          <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;          <span class="keyword">typename</span> FragmentElement_ = Scalar_,</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;          <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> FragmentElementType_ = <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>,</div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;          <span class="keyword">typename</span> Skew_ = Shape&lt;0, 0, 0, 0&gt; &gt;</div><div class="line"><a name="l00399"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html">  399</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_,</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;                                                  Scalar_,</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;                                                  Advance_,</div><div class="line"><a name="l00402"></a><span class="lineno">  402</span>&#160;                                                  MemorySpace,</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;                                                  Index_,</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;                                                  FragmentElement_,</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;                                                  FragmentElementType_,</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;                                                  Skew_&gt; {</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_,</div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;                           Scalar_,</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;                           Advance_,</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>,</div><div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;                           Index_,</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;                           FragmentElement_,</div><div class="line"><a name="l00414"></a><span class="lineno">  414</span>&#160;                           FragmentElementType_,</div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;                           Skew_&gt;</div><div class="line"><a name="l00416"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">  416</a></span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">Base</a>;</div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;</div><div class="line"><a name="l00419"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">  419</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Base::Traits</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">Traits</a>;</div><div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;</div><div class="line"><a name="l00422"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">  422</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Base::Scalar</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a>;</div><div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;</div><div class="line"><a name="l00425"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">  425</a></span>&#160;  <span class="keyword">typedef</span> FragmentElement_ <a class="code" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">FragmentElement</a>;</div><div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;</div><div class="line"><a name="l00428"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">  428</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">kAdvance</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">Base::kAdvance</a>;</div><div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;</div><div class="line"><a name="l00431"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">  431</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">kFragmentElementType</a> = FragmentElementType_;</div><div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;</div><div class="line"><a name="l00434"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">  434</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">kMemorySpace</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">Base::kMemorySpace</a>;</div><div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;</div><div class="line"><a name="l00437"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">  437</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Base::Index</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">Index</a>;</div><div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;</div><div class="line"><a name="l00440"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">  440</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1Shape.html">Base::Skew</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">Skew</a>;</div><div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;</div><div class="line"><a name="l00443"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">  443</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Base::Tile</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">Tile</a>;</div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;</div><div class="line"><a name="l00446"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">  446</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Base::Delta</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">Delta</a>;</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;</div><div class="line"><a name="l00449"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">  449</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Base::Iterations</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">Iterations</a>;</div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;</div><div class="line"><a name="l00452"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">  452</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">Base::ThreadOffset</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">ThreadOffset</a>;</div><div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;</div><div class="line"><a name="l00455"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">  455</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">Base::FragmentShape</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">FragmentShape</a>;</div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;</div><div class="line"><a name="l00458"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">  458</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Base::AccessType</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">AccessType</a>;</div><div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;</div><div class="line"><a name="l00461"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">  461</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">kAccessSize</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">Base::kAccessSize</a>;</div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;</div><div class="line"><a name="l00464"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">  464</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Base::Fragment</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">Fragment</a>;</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;</div><div class="line"><a name="l00467"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">  467</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">Base::FragmentIterator</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">FragmentIterator</a>;</div><div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160;</div><div class="line"><a name="l00470"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">  470</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">Base::FragmentConstIterator</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">FragmentConstIterator</a>;</div><div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;</div><div class="line"><a name="l00473"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">  473</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">Base::PredicateVector</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">PredicateVector</a>;</div><div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;</div><div class="line"><a name="l00476"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">  476</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Base::Storage</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a>;</div><div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;</div><div class="line"><a name="l00479"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">  479</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Base::Params <a class="code" href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">BaseParams</a>;</div><div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;</div><div class="line"><a name="l00482"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126">  482</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126">kRequiresLoadFence</a> = Tile::kD == 1 };</div><div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;</div><div class="line"><a name="l00485"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">  485</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> <span class="keyword">const</span> *<a class="code" href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">Pointer</a>;</div><div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160;</div><div class="line"><a name="l00488"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">  488</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef&lt;Scalar const, 4&gt;</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a>;</div><div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;</div><div class="line"><a name="l00491"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html">  491</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html">Params</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html">BaseParams</a> {</div><div class="line"><a name="l00493"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">  493</a></span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> <span class="keyword">const</span> *<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a>;</div><div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;</div><div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;    <span class="comment">// Methods</span></div><div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160;</div><div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00501"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5">  501</a></span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5">Params</a>() : <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a>(0){ <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(); }</div><div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;</div><div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00505"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a88a90437f11d029ef109ebb4f828f282">  505</a></span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a88a90437f11d029ef109ebb4f828f282">Params</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> <span class="keyword">const</span> *ptr) : <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a>(ptr) { <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(); }</div><div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;</div><div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00509"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192">  509</a></span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192">Params</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> <span class="keyword">const</span> &amp;ref): <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a>(ref.data()) {</div><div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(ref.stride());</div><div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160;    }</div><div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;</div><div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00515"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a78380e92553010656516400d51e14c7e">  515</a></span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a78380e92553010656516400d51e14c7e">Params</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> <span class="keyword">const</span> *ptr,</div><div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160;           <span class="keywordtype">long</span> <span class="keywordtype">long</span> _stride_d,</div><div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h,</div><div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w,</div><div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;           <span class="keywordtype">long</span> <span class="keywordtype">long</span> _inc_d,</div><div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h,</div><div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w,</div><div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_advance)</div><div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;        : <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a>(ptr) {</div><div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(</div><div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;          _stride_d, _stride_h, _stride_w, _inc_d, _inc_h, _inc_w, _inc_advance);</div><div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;    }</div><div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;</div><div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00530"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8c9856709d3392d8b70dce9a13fa529a">  530</a></span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8c9856709d3392d8b70dce9a13fa529a">Params</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> <span class="keyword">const</span> *ptr, <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>)</div><div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;        : <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a>(ptr) {</div><div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>);</div><div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;    }</div><div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;</div><div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00537"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803">  537</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803">initialize</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">TensorRef</a> <span class="keyword">const</span> &amp;ref) {</div><div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> = ref.data();</div><div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(ref.stride());</div><div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;    }</div><div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;</div><div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00544"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a61b898051d0397b013407a4c90409aa0">  544</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a61b898051d0397b013407a4c90409aa0">initialize</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">SharedStorage</a> <span class="keyword">const</span> &amp;storage) {</div><div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> = &amp;storage[0];</div><div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>();</div><div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;    }</div><div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;</div><div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00552"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8869188d1c3b867fe6389aadf04837bf">  552</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8869188d1c3b867fe6389aadf04837bf">initialize</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> <span class="keyword">const</span> *ptr) {</div><div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> = ptr;</div><div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>();</div><div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;    }</div><div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;</div><div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00560"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662">  560</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662">initialize</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> <span class="keyword">const</span> *ptr, <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>) {</div><div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>);</div><div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> = ptr;</div><div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;    }</div><div class="line"><a name="l00565"></a><span class="lineno">  565</span>&#160;</div><div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00568"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a53917e002fd29a5650752c65f96b353d">  568</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a53917e002fd29a5650752c65f96b353d">initialize</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a> <span class="keyword">const</span> *ptr,</div><div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;                   <span class="keywordtype">long</span> <span class="keywordtype">long</span> _stride_d,</div><div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h,</div><div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w,</div><div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;                   <span class="keywordtype">long</span> <span class="keywordtype">long</span> _inc_d,</div><div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h,</div><div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w,</div><div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_advance) {</div><div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;      <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> = ptr;</div><div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(</div><div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160;          _stride_d, _stride_h, _stride_w, _inc_d, _inc_h, _inc_w, _inc_advance);</div><div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;    }</div><div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;</div><div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;    <span class="comment">// Initializes params to default values</span></div><div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00584"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d">  584</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d">initialize</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(); }</div><div class="line"><a name="l00585"></a><span class="lineno">  585</span>&#160;  };</div><div class="line"><a name="l00586"></a><span class="lineno">  586</span>&#160;</div><div class="line"><a name="l00587"></a><span class="lineno">  587</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00589"></a><span class="lineno">  589</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00590"></a><span class="lineno">  590</span>&#160;</div><div class="line"><a name="l00592"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">  592</a></span>&#160;  Params <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>;</div><div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;</div><div class="line"><a name="l00595"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">  595</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a>;</div><div class="line"><a name="l00596"></a><span class="lineno">  596</span>&#160;</div><div class="line"><a name="l00598"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">  598</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a>;</div><div class="line"><a name="l00599"></a><span class="lineno">  599</span>&#160;</div><div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00601"></a><span class="lineno">  601</span>&#160;  <span class="comment">// Predicate initialization</span></div><div class="line"><a name="l00602"></a><span class="lineno">  602</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00603"></a><span class="lineno">  603</span>&#160;</div><div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160;  <span class="keyword">template</span> &lt;</div><div class="line"><a name="l00607"></a><span class="lineno">  607</span>&#160;      <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00608"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">  608</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">initialize_predicates</a>(PredicateIterator predicate_it,</div><div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;bounds,</div><div class="line"><a name="l00610"></a><span class="lineno">  610</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,</div><div class="line"><a name="l00611"></a><span class="lineno">  611</span>&#160;                                                                                           0,</div><div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;                                                                                           0)) {</div><div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">Base::initialize_predicates</a>(</div><div class="line"><a name="l00614"></a><span class="lineno">  614</span>&#160;        predicate_it,</div><div class="line"><a name="l00615"></a><span class="lineno">  615</span>&#160;        <a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html">RegularTilePredicateFunctor&lt;typename Traits::Delta&gt;</a>(bounds),</div><div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;        block_offset + <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a>[0], <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a>[1], <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a>[2]));</div><div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;  }</div><div class="line"><a name="l00618"></a><span class="lineno">  618</span>&#160;</div><div class="line"><a name="l00620"></a><span class="lineno">  620</span>&#160;  <span class="keyword">template</span> &lt;</div><div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160;      <span class="keyword">typename</span> PredicateIterator,</div><div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;      <span class="keyword">typename</span> PredicateFunctor&gt;</div><div class="line"><a name="l00625"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">  625</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">initialize_predicates</a>(PredicateIterator predicate_it,</div><div class="line"><a name="l00626"></a><span class="lineno">  626</span>&#160;                                                 PredicateFunctor <span class="keyword">const</span> &amp;functor,</div><div class="line"><a name="l00627"></a><span class="lineno">  627</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset) {</div><div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">Base::initialize_predicates</a>(</div><div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;        predicate_it,</div><div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;        functor,</div><div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160;        block_offset + <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a>[0], <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a>[1], <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a>[2]));</div><div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;  }</div><div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;</div><div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00635"></a><span class="lineno">  635</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;</div><div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00640"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">  640</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">TileLoadIterator</a>() {}</div><div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;</div><div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00644"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">  644</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">TileLoadIterator</a>(Params <span class="keyword">const</span> &amp;_params,</div><div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;                   <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0),</div><div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">ThreadOffset</a>())</div><div class="line"><a name="l00647"></a><span class="lineno">  647</span>&#160;      : <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>(_params), <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a>(0) {</div><div class="line"><a name="l00648"></a><span class="lineno">  648</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a> = thread_offset_func();</div><div class="line"><a name="l00649"></a><span class="lineno">  649</span>&#160;</div><div class="line"><a name="l00650"></a><span class="lineno">  650</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> pointer_offset = <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">Index</a>((block_offset[0] + <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a>[0]) * <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>) +</div><div class="line"><a name="l00651"></a><span class="lineno">  651</span>&#160;                           <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">Index</a>((block_offset[1] + <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a>[1]) * <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>) +</div><div class="line"><a name="l00652"></a><span class="lineno">  652</span>&#160;                           <a class="code" href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">Index</a>((block_offset[2] + <a class="code" href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">thread_offset</a>[2]) * <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>);</div><div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;</div><div class="line"><a name="l00654"></a><span class="lineno">  654</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += pointer_offset;</div><div class="line"><a name="l00655"></a><span class="lineno">  655</span>&#160;  }</div><div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;</div><div class="line"><a name="l00658"></a><span class="lineno">  658</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00659"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">  659</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">TileLoadIterator</a>(Params <span class="keyword">const</span> &amp;,</div><div class="line"><a name="l00660"></a><span class="lineno">  660</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> <span class="keyword">const</span> *ptr,</div><div class="line"><a name="l00661"></a><span class="lineno">  661</span>&#160;                   <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0),</div><div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">ThreadOffset</a>())</div><div class="line"><a name="l00663"></a><span class="lineno">  663</span>&#160;      : <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a>(0) {</div><div class="line"><a name="l00664"></a><span class="lineno">  664</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> = ptr + thread_offset_func()[2];</div><div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160;</div><div class="line"><a name="l00666"></a><span class="lineno">  666</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a> = 0;</div><div class="line"><a name="l00667"></a><span class="lineno">  667</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> = 0;</div><div class="line"><a name="l00668"></a><span class="lineno">  668</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a> = 1;</div><div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;</div><div class="line"><a name="l00670"></a><span class="lineno">  670</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a> = <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a> = <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a> = <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = 0;</div><div class="line"><a name="l00671"></a><span class="lineno">  671</span>&#160;  }</div><div class="line"><a name="l00672"></a><span class="lineno">  672</span>&#160;</div><div class="line"><a name="l00674"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">  674</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">inc_d</a>() { <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a>; }</div><div class="line"><a name="l00675"></a><span class="lineno">  675</span>&#160;</div><div class="line"><a name="l00677"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">  677</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">inc_h</a>() { <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a>; }</div><div class="line"><a name="l00678"></a><span class="lineno">  678</span>&#160;</div><div class="line"><a name="l00680"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">  680</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">inc_w</a>() { <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a>; }</div><div class="line"><a name="l00681"></a><span class="lineno">  681</span>&#160;</div><div class="line"><a name="l00683"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">  683</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">inc_advance</a>() { <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a>; }</div><div class="line"><a name="l00684"></a><span class="lineno">  684</span>&#160;</div><div class="line"><a name="l00686"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">  686</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">load_element</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> &amp;value, <span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00687"></a><span class="lineno">  687</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00688"></a><span class="lineno">  688</span>&#160;        <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">ComputeOffsetFromStrides&lt;typename Base::ImmediateOffsetStrides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l00689"></a><span class="lineno">  689</span>&#160;    <a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;<a class="code" href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">Scalar</a>,</div><div class="line"><a name="l00690"></a><span class="lineno">  690</span>&#160;         <a class="code" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">kAccessSize</a>,</div><div class="line"><a name="l00691"></a><span class="lineno">  691</span>&#160;         <a class="code" href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">kMemorySpace</a>,</div><div class="line"><a name="l00692"></a><span class="lineno">  692</span>&#160;         <a class="code" href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">kFragmentElementType</a>,</div><div class="line"><a name="l00693"></a><span class="lineno">  693</span>&#160;         <a class="code" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">FragmentElement</a>,</div><div class="line"><a name="l00694"></a><span class="lineno">  694</span>&#160;         Tile::kW,</div><div class="line"><a name="l00695"></a><span class="lineno">  695</span>&#160;         <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">FragmentElement</a>) * <a class="code" href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">kAccessSize</a>&gt;::<a class="code" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">load</a>(value, <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a>, offset);</div><div class="line"><a name="l00696"></a><span class="lineno">  696</span>&#160;  }</div><div class="line"><a name="l00697"></a><span class="lineno">  697</span>&#160;</div><div class="line"><a name="l00699"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">  699</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">inc_stage</a>() {</div><div class="line"><a name="l00700"></a><span class="lineno">  700</span>&#160;    <span class="keywordflow">if</span> (Tile::kD &gt; 1) {</div><div class="line"><a name="l00701"></a><span class="lineno">  701</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> kStageSize = Tile::kH * Tile::kW * Tile::kC;</div><div class="line"><a name="l00702"></a><span class="lineno">  702</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a> == Tile::kD - 1) {</div><div class="line"><a name="l00703"></a><span class="lineno">  703</span>&#160;        <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> -= (Tile::kD - 1) * kStageSize;</div><div class="line"><a name="l00704"></a><span class="lineno">  704</span>&#160;        <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a> = 0;</div><div class="line"><a name="l00705"></a><span class="lineno">  705</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l00706"></a><span class="lineno">  706</span>&#160;        <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += kStageSize;</div><div class="line"><a name="l00707"></a><span class="lineno">  707</span>&#160;        <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a> = <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">stage</a> + 1;</div><div class="line"><a name="l00708"></a><span class="lineno">  708</span>&#160;      }</div><div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;    }</div><div class="line"><a name="l00710"></a><span class="lineno">  710</span>&#160;  }</div><div class="line"><a name="l00711"></a><span class="lineno">  711</span>&#160;</div><div class="line"><a name="l00713"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">  713</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> &amp; <a class="code" href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;offset) {</div><div class="line"><a name="l00714"></a><span class="lineno">  714</span>&#160;    <span class="keywordtype">long</span> <span class="keywordtype">long</span> _offset = offset.template dot&lt;long long&gt;(</div><div class="line"><a name="l00715"></a><span class="lineno">  715</span>&#160;      <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>)</div><div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;    );</div><div class="line"><a name="l00717"></a><span class="lineno">  717</span>&#160;</div><div class="line"><a name="l00718"></a><span class="lineno">  718</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += _offset;</div><div class="line"><a name="l00719"></a><span class="lineno">  719</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00720"></a><span class="lineno">  720</span>&#160;  }</div><div class="line"><a name="l00721"></a><span class="lineno">  721</span>&#160;</div><div class="line"><a name="l00723"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">  723</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">add_pointer_offset</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> offset) { <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">pointer</a> += offset; }</div><div class="line"><a name="l00724"></a><span class="lineno">  724</span>&#160;</div><div class="line"><a name="l00725"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11">  725</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11">stride_advance</a>(<span class="keywordtype">void</span>) {</div><div class="line"><a name="l00726"></a><span class="lineno">  726</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> stride = <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>;</div><div class="line"><a name="l00727"></a><span class="lineno">  727</span>&#160;    <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">kAdvance</a> == <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">IteratorAdvance::kW</a>) {</div><div class="line"><a name="l00728"></a><span class="lineno">  728</span>&#160;      stride = <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>;</div><div class="line"><a name="l00729"></a><span class="lineno">  729</span>&#160;    }</div><div class="line"><a name="l00730"></a><span class="lineno">  730</span>&#160;    <span class="keywordflow">return</span> stride;</div><div class="line"><a name="l00731"></a><span class="lineno">  731</span>&#160;  }</div><div class="line"><a name="l00732"></a><span class="lineno">  732</span>&#160;</div><div class="line"><a name="l00734"></a><span class="lineno">  734</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00735"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">  735</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">load_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it) {</div><div class="line"><a name="l00736"></a><span class="lineno">  736</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a> frag_iterator(fragment);</div><div class="line"><a name="l00737"></a><span class="lineno">  737</span>&#160;</div><div class="line"><a name="l00738"></a><span class="lineno">  738</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Iterations::kD; ++d) {</div><div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l00740"></a><span class="lineno">  740</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w, ++pred_it) {</div><div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Iterations::kC; ++c) {</div><div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;            <span class="keywordflow">if</span> (*pred_it) {</div><div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160;              <a class="code" href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">load_element</a>(</div><div class="line"><a name="l00744"></a><span class="lineno">  744</span>&#160;                  reinterpret_cast&lt;AccessType &amp;&gt;(frag_iterator.at(d, h, w, c)), d, h, w, c);</div><div class="line"><a name="l00745"></a><span class="lineno">  745</span>&#160;            }</div><div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;          }</div><div class="line"><a name="l00747"></a><span class="lineno">  747</span>&#160;          <span class="keywordflow">if</span> (w &lt; Iterations::kW - 1) {</div><div class="line"><a name="l00748"></a><span class="lineno">  748</span>&#160;            <a class="code" href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">inc_w</a>();</div><div class="line"><a name="l00749"></a><span class="lineno">  749</span>&#160;          }</div><div class="line"><a name="l00750"></a><span class="lineno">  750</span>&#160;        }</div><div class="line"><a name="l00751"></a><span class="lineno">  751</span>&#160;        <span class="keywordflow">if</span> (h &lt; Iterations::kH - 1) {</div><div class="line"><a name="l00752"></a><span class="lineno">  752</span>&#160;          <a class="code" href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">inc_h</a>();</div><div class="line"><a name="l00753"></a><span class="lineno">  753</span>&#160;        }</div><div class="line"><a name="l00754"></a><span class="lineno">  754</span>&#160;      }</div><div class="line"><a name="l00755"></a><span class="lineno">  755</span>&#160;      <span class="keywordflow">if</span> (d &lt; Iterations::kD - 1) {</div><div class="line"><a name="l00756"></a><span class="lineno">  756</span>&#160;        <a class="code" href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">inc_d</a>();</div><div class="line"><a name="l00757"></a><span class="lineno">  757</span>&#160;      }</div><div class="line"><a name="l00758"></a><span class="lineno">  758</span>&#160;    }</div><div class="line"><a name="l00759"></a><span class="lineno">  759</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">inc_advance</a>();</div><div class="line"><a name="l00760"></a><span class="lineno">  760</span>&#160;  }</div><div class="line"><a name="l00761"></a><span class="lineno">  761</span>&#160;</div><div class="line"><a name="l00763"></a><span class="lineno">  763</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00764"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">  764</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">load_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment) {</div><div class="line"><a name="l00765"></a><span class="lineno">  765</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> pred_it;</div><div class="line"><a name="l00766"></a><span class="lineno">  766</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">load_post_increment</a>(fragment, pred_it);</div><div class="line"><a name="l00767"></a><span class="lineno">  767</span>&#160;  }</div><div class="line"><a name="l00768"></a><span class="lineno">  768</span>&#160;</div><div class="line"><a name="l00770"></a><span class="lineno">  770</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00771"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">  771</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">load</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it)<span class="keyword"> const </span>{</div><div class="line"><a name="l00772"></a><span class="lineno">  772</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html">TileLoadIterator</a> _load_it(*<span class="keyword">this</span>);</div><div class="line"><a name="l00773"></a><span class="lineno">  773</span>&#160;    _load_it.<a class="code" href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">load_post_increment</a>(fragment, pred_it);</div><div class="line"><a name="l00774"></a><span class="lineno">  774</span>&#160;  }</div><div class="line"><a name="l00775"></a><span class="lineno">  775</span>&#160;</div><div class="line"><a name="l00777"></a><span class="lineno">  777</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00778"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">  778</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">load</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)<span class="keyword"> const </span>{</div><div class="line"><a name="l00779"></a><span class="lineno">  779</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> pred_it;</div><div class="line"><a name="l00780"></a><span class="lineno">  780</span>&#160;    <a class="code" href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">load</a>(fragment, pred_it);</div><div class="line"><a name="l00781"></a><span class="lineno">  781</span>&#160;  }</div><div class="line"><a name="l00782"></a><span class="lineno">  782</span>&#160;</div><div class="line"><a name="l00784"></a><span class="lineno">  784</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00785"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">  785</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">load</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, <span class="keywordtype">int</span> d) {</div><div class="line"><a name="l00786"></a><span class="lineno">  786</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a> frag_iterator(fragment);</div><div class="line"><a name="l00787"></a><span class="lineno">  787</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l00788"></a><span class="lineno">  788</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w) {</div><div class="line"><a name="l00789"></a><span class="lineno">  789</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Iterations::kC; ++c) {</div><div class="line"><a name="l00790"></a><span class="lineno">  790</span>&#160;          <a class="code" href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">load_element</a>(reinterpret_cast&lt;AccessType &amp;&gt;(frag_iterator.at(0, h, w, c)), d, h, w, c);</div><div class="line"><a name="l00791"></a><span class="lineno">  791</span>&#160;        }</div><div class="line"><a name="l00792"></a><span class="lineno">  792</span>&#160;      }</div><div class="line"><a name="l00793"></a><span class="lineno">  793</span>&#160;    }</div><div class="line"><a name="l00794"></a><span class="lineno">  794</span>&#160;  }</div><div class="line"><a name="l00795"></a><span class="lineno">  795</span>&#160;};</div><div class="line"><a name="l00796"></a><span class="lineno">  796</span>&#160;</div><div class="line"><a name="l00798"></a><span class="lineno">  798</span>&#160;</div><div class="line"><a name="l00822"></a><span class="lineno">  822</span>&#160;</div><div class="line"><a name="l00828"></a><span class="lineno">  828</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Traits_,</div><div class="line"><a name="l00829"></a><span class="lineno">  829</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00830"></a><span class="lineno">  830</span>&#160;          <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> Advance_ = <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00831"></a><span class="lineno">  831</span>&#160;          <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> MemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">MemorySpace::kGeneric</a>,</div><div class="line"><a name="l00832"></a><span class="lineno">  832</span>&#160;          <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00833"></a><span class="lineno">  833</span>&#160;          <span class="keyword">typename</span> FragmentElement_ = Scalar_,</div><div class="line"><a name="l00834"></a><span class="lineno">  834</span>&#160;          <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> FragmentElementType_ = <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">FragmentElementType::kScalar</a>,</div><div class="line"><a name="l00835"></a><span class="lineno">  835</span>&#160;          <span class="keyword">typename</span> Skew_ = Shape&lt;0, 0, 0, 0&gt; &gt;</div><div class="line"><a name="l00836"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html">  836</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_,</div><div class="line"><a name="l00837"></a><span class="lineno">  837</span>&#160;                                                   Scalar_,</div><div class="line"><a name="l00838"></a><span class="lineno">  838</span>&#160;                                                   Advance_,</div><div class="line"><a name="l00839"></a><span class="lineno">  839</span>&#160;                                                   MemorySpace,</div><div class="line"><a name="l00840"></a><span class="lineno">  840</span>&#160;                                                   Index_,</div><div class="line"><a name="l00841"></a><span class="lineno">  841</span>&#160;                                                   FragmentElement_,</div><div class="line"><a name="l00842"></a><span class="lineno">  842</span>&#160;                                                   FragmentElementType_,</div><div class="line"><a name="l00843"></a><span class="lineno">  843</span>&#160;                                                   Skew_&gt; {</div><div class="line"><a name="l00845"></a><span class="lineno">  845</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;Traits_,</div><div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160;                           Scalar_,</div><div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160;                           Advance_,</div><div class="line"><a name="l00848"></a><span class="lineno">  848</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html">MemorySpace</a>,</div><div class="line"><a name="l00849"></a><span class="lineno">  849</span>&#160;                           Index_,</div><div class="line"><a name="l00850"></a><span class="lineno">  850</span>&#160;                           FragmentElement_,</div><div class="line"><a name="l00851"></a><span class="lineno">  851</span>&#160;                           FragmentElementType_,</div><div class="line"><a name="l00852"></a><span class="lineno">  852</span>&#160;                           Skew_&gt;</div><div class="line"><a name="l00853"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a24fa369165de783a72311d8ec3115c48">  853</a></span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator.html#a24fa369165de783a72311d8ec3115c48">Base</a>;</div><div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;</div><div class="line"><a name="l00856"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a5016bd7b24938026a2879ec0054eb3b6">  856</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">Base::Traits</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5016bd7b24938026a2879ec0054eb3b6">Traits</a>;</div><div class="line"><a name="l00857"></a><span class="lineno">  857</span>&#160;</div><div class="line"><a name="l00859"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">  859</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Base::Scalar</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a>;</div><div class="line"><a name="l00860"></a><span class="lineno">  860</span>&#160;</div><div class="line"><a name="l00862"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">  862</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">Base::FragmentElement</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">FragmentElement</a>;</div><div class="line"><a name="l00863"></a><span class="lineno">  863</span>&#160;</div><div class="line"><a name="l00865"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a44200854ad5b35c1863f73c435b8750b">  865</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">IteratorAdvance::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a44200854ad5b35c1863f73c435b8750b">kAdvance</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">Base::kAdvance</a>;</div><div class="line"><a name="l00866"></a><span class="lineno">  866</span>&#160;</div><div class="line"><a name="l00868"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f">  868</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">FragmentElementType::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f">kFragmentElementType</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">Base::kFragmentElementType</a>;</div><div class="line"><a name="l00869"></a><span class="lineno">  869</span>&#160;</div><div class="line"><a name="l00871"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f">  871</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f">kMemorySpace</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">Base::kMemorySpace</a>;</div><div class="line"><a name="l00872"></a><span class="lineno">  872</span>&#160;</div><div class="line"><a name="l00874"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">  874</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">kAccessSize</a> = <a class="code" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">Base::kAccessSize</a>;</div><div class="line"><a name="l00875"></a><span class="lineno">  875</span>&#160;</div><div class="line"><a name="l00877"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aae07fdedeef68abd4e6c099924c70910">  877</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Base::Index</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#aae07fdedeef68abd4e6c099924c70910">Index</a>;</div><div class="line"><a name="l00878"></a><span class="lineno">  878</span>&#160;</div><div class="line"><a name="l00880"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a18248da35dc9a0ae2411121bee323085">  880</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">Base::Skew</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a18248da35dc9a0ae2411121bee323085">Skew</a>;</div><div class="line"><a name="l00881"></a><span class="lineno">  881</span>&#160;</div><div class="line"><a name="l00883"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#ad18ee6f519b03e1dbf711339b63e16d6">  883</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">Base::Tile</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#ad18ee6f519b03e1dbf711339b63e16d6">Tile</a>;</div><div class="line"><a name="l00884"></a><span class="lineno">  884</span>&#160;</div><div class="line"><a name="l00886"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#afdb38f790d9c7cf1ac238643103b45ce">  886</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">Base::Delta</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#afdb38f790d9c7cf1ac238643103b45ce">Delta</a>;</div><div class="line"><a name="l00887"></a><span class="lineno">  887</span>&#160;</div><div class="line"><a name="l00889"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a8628ea7116f736b59c644fc0d85d395f">  889</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">Base::Iterations</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a8628ea7116f736b59c644fc0d85d395f">Iterations</a>;</div><div class="line"><a name="l00890"></a><span class="lineno">  890</span>&#160;</div><div class="line"><a name="l00892"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a">  892</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">Base::ThreadOffset</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a">ThreadOffset</a>;</div><div class="line"><a name="l00893"></a><span class="lineno">  893</span>&#160;</div><div class="line"><a name="l00895"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a82ceeea55603dbb0c6e5bf9c22ac692e">  895</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">Base::FragmentShape</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a82ceeea55603dbb0c6e5bf9c22ac692e">FragmentShape</a>;</div><div class="line"><a name="l00896"></a><span class="lineno">  896</span>&#160;</div><div class="line"><a name="l00898"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a10431ed94c0dd66a8c1d01ba7c8b5aa2">  898</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Base::AccessType</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a10431ed94c0dd66a8c1d01ba7c8b5aa2">AccessType</a>;</div><div class="line"><a name="l00899"></a><span class="lineno">  899</span>&#160;</div><div class="line"><a name="l00901"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">  901</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Base::Fragment</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">Fragment</a>;</div><div class="line"><a name="l00902"></a><span class="lineno">  902</span>&#160;</div><div class="line"><a name="l00904"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#ace8a65d90db264a0ee93a810be38918f">  904</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">Base::FragmentIterator</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#ace8a65d90db264a0ee93a810be38918f">FragmentIterator</a>;</div><div class="line"><a name="l00905"></a><span class="lineno">  905</span>&#160;</div><div class="line"><a name="l00907"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#adfcd8a2e63bd0c515ef03760cc1c4283">  907</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">Base::FragmentConstIterator</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#adfcd8a2e63bd0c515ef03760cc1c4283">FragmentConstIterator</a>;</div><div class="line"><a name="l00908"></a><span class="lineno">  908</span>&#160;</div><div class="line"><a name="l00910"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a6157fe8a2ffefd45eba6f3953f0e2994">  910</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">Base::PredicateVector</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a6157fe8a2ffefd45eba6f3953f0e2994">PredicateVector</a>;</div><div class="line"><a name="l00911"></a><span class="lineno">  911</span>&#160;</div><div class="line"><a name="l00913"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">  913</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">Base::Storage</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">SharedStorage</a>;</div><div class="line"><a name="l00914"></a><span class="lineno">  914</span>&#160;</div><div class="line"><a name="l00916"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a5dd2a31d41d9098e928c559af12cbe66">  916</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html">Base::Params</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a5dd2a31d41d9098e928c559af12cbe66">BaseParams</a>;</div><div class="line"><a name="l00917"></a><span class="lineno">  917</span>&#160;</div><div class="line"><a name="l00919"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#adc4182adb78e34b7741f297eca86fe35">  919</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> *<a class="code" href="structcutlass_1_1TileStoreIterator.html#adc4182adb78e34b7741f297eca86fe35">Pointer</a>;</div><div class="line"><a name="l00920"></a><span class="lineno">  920</span>&#160;</div><div class="line"><a name="l00922"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">  922</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">TensorRef&lt;Scalar, 4&gt;</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">TensorRef</a>;</div><div class="line"><a name="l00923"></a><span class="lineno">  923</span>&#160;</div><div class="line"><a name="l00925"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html">  925</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html">BaseParams</a> {</div><div class="line"><a name="l00927"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">  927</a></span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a>;</div><div class="line"><a name="l00928"></a><span class="lineno">  928</span>&#160;</div><div class="line"><a name="l00929"></a><span class="lineno">  929</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00930"></a><span class="lineno">  930</span>&#160;    <span class="comment">// Methods</span></div><div class="line"><a name="l00931"></a><span class="lineno">  931</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00932"></a><span class="lineno">  932</span>&#160;</div><div class="line"><a name="l00933"></a><span class="lineno">  933</span>&#160;    <span class="comment">// Default constructor</span></div><div class="line"><a name="l00934"></a><span class="lineno">  934</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00935"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a79304c022d2466c97cd671a98128815a">  935</a></span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a79304c022d2466c97cd671a98128815a">Params</a>() : <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a>(0) {}</div><div class="line"><a name="l00936"></a><span class="lineno">  936</span>&#160;</div><div class="line"><a name="l00937"></a><span class="lineno">  937</span>&#160;    <span class="comment">// Default constructor</span></div><div class="line"><a name="l00938"></a><span class="lineno">  938</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00939"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ae1cb260e7b05034ec9b7fa61c92bbc80">  939</a></span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ae1cb260e7b05034ec9b7fa61c92bbc80">Params</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr) : <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a>(ptr) { <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(); }</div><div class="line"><a name="l00940"></a><span class="lineno">  940</span>&#160;</div><div class="line"><a name="l00942"></a><span class="lineno">  942</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00943"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#afae37ebc78884290300f38fce7c021b1">  943</a></span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#afae37ebc78884290300f38fce7c021b1">Params</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">TensorRef</a> <span class="keyword">const</span> &amp;ref): <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a>(ref.data()) {</div><div class="line"><a name="l00944"></a><span class="lineno">  944</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(ref.stride());</div><div class="line"><a name="l00945"></a><span class="lineno">  945</span>&#160;    }</div><div class="line"><a name="l00946"></a><span class="lineno">  946</span>&#160;</div><div class="line"><a name="l00947"></a><span class="lineno">  947</span>&#160;    <span class="comment">// Default constructor</span></div><div class="line"><a name="l00948"></a><span class="lineno">  948</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00949"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#aa131e0ef02ce37038c1a17bea7088ef6">  949</a></span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#aa131e0ef02ce37038c1a17bea7088ef6">Params</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr, <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>) {</div><div class="line"><a name="l00950"></a><span class="lineno">  950</span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ad90642d96a3b5354813fbf4d9b04b83f">initialize</a>(ptr, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>);</div><div class="line"><a name="l00951"></a><span class="lineno">  951</span>&#160;    }</div><div class="line"><a name="l00952"></a><span class="lineno">  952</span>&#160;</div><div class="line"><a name="l00953"></a><span class="lineno">  953</span>&#160;    <span class="comment">// Default constructor</span></div><div class="line"><a name="l00954"></a><span class="lineno">  954</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00955"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9cf4cd4ecb0a81cf3c03a70c7bfc4e09">  955</a></span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9cf4cd4ecb0a81cf3c03a70c7bfc4e09">Params</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr,</div><div class="line"><a name="l00956"></a><span class="lineno">  956</span>&#160;           <span class="keywordtype">long</span> <span class="keywordtype">long</span> _stride_d,</div><div class="line"><a name="l00957"></a><span class="lineno">  957</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h,</div><div class="line"><a name="l00958"></a><span class="lineno">  958</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w,</div><div class="line"><a name="l00959"></a><span class="lineno">  959</span>&#160;           <span class="keywordtype">long</span> <span class="keywordtype">long</span> _inc_d,</div><div class="line"><a name="l00960"></a><span class="lineno">  960</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h,</div><div class="line"><a name="l00961"></a><span class="lineno">  961</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w,</div><div class="line"><a name="l00962"></a><span class="lineno">  962</span>&#160;           <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_advance) {</div><div class="line"><a name="l00963"></a><span class="lineno">  963</span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ad90642d96a3b5354813fbf4d9b04b83f">initialize</a>(ptr, _stride_d, _stride_h, _stride_w, _inc_d, _inc_h, _inc_w, _inc_advance);</div><div class="line"><a name="l00964"></a><span class="lineno">  964</span>&#160;    }</div><div class="line"><a name="l00965"></a><span class="lineno">  965</span>&#160;</div><div class="line"><a name="l00967"></a><span class="lineno">  967</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00968"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#aca14058b112b7d5105658457341726cb">  968</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#aca14058b112b7d5105658457341726cb">initialize</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">SharedStorage</a> &amp;storage) {</div><div class="line"><a name="l00969"></a><span class="lineno">  969</span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> = &amp;storage[0];</div><div class="line"><a name="l00970"></a><span class="lineno">  970</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>();</div><div class="line"><a name="l00971"></a><span class="lineno">  971</span>&#160;    }</div><div class="line"><a name="l00972"></a><span class="lineno">  972</span>&#160;</div><div class="line"><a name="l00974"></a><span class="lineno">  974</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00975"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a0d36c05a4a757db5ebfe5f180b174b8c">  975</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a0d36c05a4a757db5ebfe5f180b174b8c">initialize</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr) {</div><div class="line"><a name="l00976"></a><span class="lineno">  976</span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> = ptr;</div><div class="line"><a name="l00977"></a><span class="lineno">  977</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>();</div><div class="line"><a name="l00978"></a><span class="lineno">  978</span>&#160;    }</div><div class="line"><a name="l00979"></a><span class="lineno">  979</span>&#160;</div><div class="line"><a name="l00981"></a><span class="lineno">  981</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00982"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a23c9e9d1d2bed7e5d8579df9cc42dda3">  982</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a23c9e9d1d2bed7e5d8579df9cc42dda3">initialize</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr, <span class="keywordtype">long</span> <span class="keywordtype">long</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>) {</div><div class="line"><a name="l00983"></a><span class="lineno">  983</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>);</div><div class="line"><a name="l00984"></a><span class="lineno">  984</span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> = ptr;</div><div class="line"><a name="l00985"></a><span class="lineno">  985</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00986"></a><span class="lineno">  986</span>&#160;    }</div><div class="line"><a name="l00987"></a><span class="lineno">  987</span>&#160;</div><div class="line"><a name="l00989"></a><span class="lineno">  989</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00990"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6a7702de0e88449b3d1864b208adf87a">  990</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6a7702de0e88449b3d1864b208adf87a">initialize</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a> *ptr,</div><div class="line"><a name="l00991"></a><span class="lineno">  991</span>&#160;                   <span class="keywordtype">long</span> <span class="keywordtype">long</span> _stride_d,</div><div class="line"><a name="l00992"></a><span class="lineno">  992</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_h,</div><div class="line"><a name="l00993"></a><span class="lineno">  993</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _stride_w,</div><div class="line"><a name="l00994"></a><span class="lineno">  994</span>&#160;                   <span class="keywordtype">long</span> <span class="keywordtype">long</span> _inc_d,</div><div class="line"><a name="l00995"></a><span class="lineno">  995</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_h,</div><div class="line"><a name="l00996"></a><span class="lineno">  996</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_w,</div><div class="line"><a name="l00997"></a><span class="lineno">  997</span>&#160;                   <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> _inc_advance) {</div><div class="line"><a name="l00998"></a><span class="lineno">  998</span>&#160;      <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> = ptr;</div><div class="line"><a name="l00999"></a><span class="lineno">  999</span>&#160;      <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(</div><div class="line"><a name="l01000"></a><span class="lineno"> 1000</span>&#160;          _stride_d, _stride_h, _stride_w, _inc_d, _inc_h, _inc_w, _inc_advance);</div><div class="line"><a name="l01001"></a><span class="lineno"> 1001</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l01002"></a><span class="lineno"> 1002</span>&#160;    }</div><div class="line"><a name="l01003"></a><span class="lineno"> 1003</span>&#160;</div><div class="line"><a name="l01005"></a><span class="lineno"> 1005</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l01006"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ad90642d96a3b5354813fbf4d9b04b83f"> 1006</a></span>&#160;    <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#ad90642d96a3b5354813fbf4d9b04b83f">initialize</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">Base::Params::initialize</a>(); }</div><div class="line"><a name="l01007"></a><span class="lineno"> 1007</span>&#160;  };</div><div class="line"><a name="l01008"></a><span class="lineno"> 1008</span>&#160;</div><div class="line"><a name="l01009"></a><span class="lineno"> 1009</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l01010"></a><span class="lineno"> 1010</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l01011"></a><span class="lineno"> 1011</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l01012"></a><span class="lineno"> 1012</span>&#160;</div><div class="line"><a name="l01014"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d"> 1014</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>;</div><div class="line"><a name="l01015"></a><span class="lineno"> 1015</span>&#160;</div><div class="line"><a name="l01017"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825"> 1017</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a>;</div><div class="line"><a name="l01018"></a><span class="lineno"> 1018</span>&#160;</div><div class="line"><a name="l01020"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e"> 1020</a></span>&#160;  <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">stage</a>;</div><div class="line"><a name="l01021"></a><span class="lineno"> 1021</span>&#160;</div><div class="line"><a name="l01022"></a><span class="lineno"> 1022</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l01023"></a><span class="lineno"> 1023</span>&#160;  <span class="comment">// Predicate initialization</span></div><div class="line"><a name="l01024"></a><span class="lineno"> 1024</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l01025"></a><span class="lineno"> 1025</span>&#160;</div><div class="line"><a name="l01027"></a><span class="lineno"> 1027</span>&#160;  <span class="keyword">template</span> &lt;</div><div class="line"><a name="l01029"></a><span class="lineno"> 1029</span>&#160;      <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l01030"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#acb6bc889b93d25c9e483a0b7297d7c89"> 1030</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#acb6bc889b93d25c9e483a0b7297d7c89">initialize_predicates</a>(PredicateIterator predicate_it,</div><div class="line"><a name="l01031"></a><span class="lineno"> 1031</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;bounds,</div><div class="line"><a name="l01032"></a><span class="lineno"> 1032</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,</div><div class="line"><a name="l01033"></a><span class="lineno"> 1033</span>&#160;                                                                                           0,</div><div class="line"><a name="l01034"></a><span class="lineno"> 1034</span>&#160;                                                                                           0)) {</div><div class="line"><a name="l01035"></a><span class="lineno"> 1035</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">Base::initialize_predicates</a>(</div><div class="line"><a name="l01036"></a><span class="lineno"> 1036</span>&#160;        predicate_it,</div><div class="line"><a name="l01037"></a><span class="lineno"> 1037</span>&#160;        <a class="code" href="structcutlass_1_1RegularTilePredicateFunctor.html">RegularTilePredicateFunctor&lt;typename Traits::Delta&gt;</a>(bounds),</div><div class="line"><a name="l01038"></a><span class="lineno"> 1038</span>&#160;        block_offset + <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a>[0], <a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a>[1], <a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a>[2]));</div><div class="line"><a name="l01039"></a><span class="lineno"> 1039</span>&#160;  }</div><div class="line"><a name="l01040"></a><span class="lineno"> 1040</span>&#160;</div><div class="line"><a name="l01042"></a><span class="lineno"> 1042</span>&#160;  <span class="keyword">template</span> &lt;</div><div class="line"><a name="l01044"></a><span class="lineno"> 1044</span>&#160;      <span class="keyword">typename</span> PredicateIterator,</div><div class="line"><a name="l01046"></a><span class="lineno"> 1046</span>&#160;      <span class="keyword">typename</span> PredicateFunctor&gt;</div><div class="line"><a name="l01047"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a890a7239a89679662aeaea797ba32d32"> 1047</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a890a7239a89679662aeaea797ba32d32">initialize_predicates</a>(PredicateIterator predicate_it,</div><div class="line"><a name="l01048"></a><span class="lineno"> 1048</span>&#160;                                                 PredicateFunctor <span class="keyword">const</span> &amp;functor,</div><div class="line"><a name="l01049"></a><span class="lineno"> 1049</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset) {</div><div class="line"><a name="l01050"></a><span class="lineno"> 1050</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">Base::initialize_predicates</a>(</div><div class="line"><a name="l01051"></a><span class="lineno"> 1051</span>&#160;        predicate_it,</div><div class="line"><a name="l01052"></a><span class="lineno"> 1052</span>&#160;        functor,</div><div class="line"><a name="l01053"></a><span class="lineno"> 1053</span>&#160;        block_offset + <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a>[0], <a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a>[1], <a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a>[2]));</div><div class="line"><a name="l01054"></a><span class="lineno"> 1054</span>&#160;  }</div><div class="line"><a name="l01055"></a><span class="lineno"> 1055</span>&#160;</div><div class="line"><a name="l01056"></a><span class="lineno"> 1056</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l01057"></a><span class="lineno"> 1057</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l01058"></a><span class="lineno"> 1058</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l01059"></a><span class="lineno"> 1059</span>&#160;</div><div class="line"><a name="l01061"></a><span class="lineno"> 1061</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l01062"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a9f4501c6e8ba0f4511919c1b63c14e69"> 1062</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreIterator.html#a9f4501c6e8ba0f4511919c1b63c14e69">TileStoreIterator</a>() {}</div><div class="line"><a name="l01063"></a><span class="lineno"> 1063</span>&#160;</div><div class="line"><a name="l01065"></a><span class="lineno"> 1065</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l01066"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aa563bb10f8e58d97e81959556923e210"> 1066</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa563bb10f8e58d97e81959556923e210">TileStoreIterator</a>(<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;_params,</div><div class="line"><a name="l01067"></a><span class="lineno"> 1067</span>&#160;                    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0),</div><div class="line"><a name="l01068"></a><span class="lineno"> 1068</span>&#160;                    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a">ThreadOffset</a>())</div><div class="line"><a name="l01069"></a><span class="lineno"> 1069</span>&#160;      : <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>(_params), <a class="code" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">stage</a>(0) {</div><div class="line"><a name="l01070"></a><span class="lineno"> 1070</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a> = thread_offset_func();</div><div class="line"><a name="l01071"></a><span class="lineno"> 1071</span>&#160;</div><div class="line"><a name="l01072"></a><span class="lineno"> 1072</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> += (block_offset[0] + <a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a>[0]) * <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a> +</div><div class="line"><a name="l01073"></a><span class="lineno"> 1073</span>&#160;                      (block_offset[1] + <a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a>[1]) * <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> +</div><div class="line"><a name="l01074"></a><span class="lineno"> 1074</span>&#160;                      (block_offset[2] + <a class="code" href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">thread_offset</a>[2]) * <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>;</div><div class="line"><a name="l01075"></a><span class="lineno"> 1075</span>&#160;  }</div><div class="line"><a name="l01076"></a><span class="lineno"> 1076</span>&#160;</div><div class="line"><a name="l01078"></a><span class="lineno"> 1078</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l01079"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a2b58a21331cf3255f5d3938a39babf20"> 1079</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreIterator.html#a2b58a21331cf3255f5d3938a39babf20">TileStoreIterator</a>(<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;, <a class="code" href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">Scalar</a> *ptr, <a class="code" href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a">ThreadOffset</a>())</div><div class="line"><a name="l01080"></a><span class="lineno"> 1080</span>&#160;      : <a class="code" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">stage</a>(0) {</div><div class="line"><a name="l01081"></a><span class="lineno"> 1081</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> = ptr + thread_offset_func()[2];</div><div class="line"><a name="l01082"></a><span class="lineno"> 1082</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a> = 0;</div><div class="line"><a name="l01083"></a><span class="lineno"> 1083</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a> = 0;</div><div class="line"><a name="l01084"></a><span class="lineno"> 1084</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a> = 1;</div><div class="line"><a name="l01085"></a><span class="lineno"> 1085</span>&#160;</div><div class="line"><a name="l01086"></a><span class="lineno"> 1086</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a> = <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a> = <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a> = <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">inc_advance</a> = 0;</div><div class="line"><a name="l01087"></a><span class="lineno"> 1087</span>&#160;  }</div><div class="line"><a name="l01088"></a><span class="lineno"> 1088</span>&#160;</div><div class="line"><a name="l01090"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975"> 1090</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975">inc_d</a>() { <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> += <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">inc_d</a>; }</div><div class="line"><a name="l01091"></a><span class="lineno"> 1091</span>&#160;</div><div class="line"><a name="l01093"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d"> 1093</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d">inc_h</a>() { <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> += <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">inc_h</a>; }</div><div class="line"><a name="l01094"></a><span class="lineno"> 1094</span>&#160;</div><div class="line"><a name="l01096"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1"> 1096</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1">inc_w</a>() { <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> += <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">inc_w</a>; }</div><div class="line"><a name="l01097"></a><span class="lineno"> 1097</span>&#160;</div><div class="line"><a name="l01099"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d"> 1099</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d">inc_advance</a>() {}</div><div class="line"><a name="l01100"></a><span class="lineno"> 1100</span>&#160;</div><div class="line"><a name="l01102"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#ad61206a742c8c5ab5bcd64b76ece9f74"> 1102</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#ad61206a742c8c5ab5bcd64b76ece9f74">inc_stage</a>() {</div><div class="line"><a name="l01103"></a><span class="lineno"> 1103</span>&#160;    <span class="keywordflow">if</span> (Tile::kD &gt; 1) {</div><div class="line"><a name="l01104"></a><span class="lineno"> 1104</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> kStageSize = Tile::kH * Tile::kW * Tile::kC;</div><div class="line"><a name="l01105"></a><span class="lineno"> 1105</span>&#160;      <span class="keywordflow">if</span> (<a class="code" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">stage</a> == Tile::kD - 1) {</div><div class="line"><a name="l01106"></a><span class="lineno"> 1106</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> -= (Tile::kD - 1) * kStageSize;</div><div class="line"><a name="l01107"></a><span class="lineno"> 1107</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">stage</a> = 0;</div><div class="line"><a name="l01108"></a><span class="lineno"> 1108</span>&#160;      } <span class="keywordflow">else</span> {</div><div class="line"><a name="l01109"></a><span class="lineno"> 1109</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> += kStageSize;</div><div class="line"><a name="l01110"></a><span class="lineno"> 1110</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">stage</a> = <a class="code" href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">stage</a> + 1;</div><div class="line"><a name="l01111"></a><span class="lineno"> 1111</span>&#160;      }</div><div class="line"><a name="l01112"></a><span class="lineno"> 1112</span>&#160;    }</div><div class="line"><a name="l01113"></a><span class="lineno"> 1113</span>&#160;  }</div><div class="line"><a name="l01114"></a><span class="lineno"> 1114</span>&#160;</div><div class="line"><a name="l01116"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a57b284e6cbff892d45e5cfeb0ae1e3ed"> 1116</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> &amp; <a class="code" href="structcutlass_1_1TileStoreIterator.html#a57b284e6cbff892d45e5cfeb0ae1e3ed">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;offset) {</div><div class="line"><a name="l01117"></a><span class="lineno"> 1117</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> += offset.template dot&lt;long long&gt;(</div><div class="line"><a name="l01118"></a><span class="lineno"> 1118</span>&#160;      <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">stride_d</a>, <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">stride_h</a>, <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">stride_w</a>)</div><div class="line"><a name="l01119"></a><span class="lineno"> 1119</span>&#160;    );</div><div class="line"><a name="l01120"></a><span class="lineno"> 1120</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l01121"></a><span class="lineno"> 1121</span>&#160;  }</div><div class="line"><a name="l01122"></a><span class="lineno"> 1122</span>&#160;</div><div class="line"><a name="l01124"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aa6977ded39ead005b3435f13f0e51116"> 1124</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa6977ded39ead005b3435f13f0e51116">add_pointer_offset</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">Index</a> offset) { <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a> += offset; }</div><div class="line"><a name="l01125"></a><span class="lineno"> 1125</span>&#160;</div><div class="line"><a name="l01127"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a1f7c4143443d2bee4a69d1b380576f08"> 1127</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a1f7c4143443d2bee4a69d1b380576f08">store_element</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> <span class="keyword">const</span> &amp;value, <span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) {</div><div class="line"><a name="l01128"></a><span class="lineno"> 1128</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l01129"></a><span class="lineno"> 1129</span>&#160;        <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">ComputeOffsetFromStrides&lt;typename Base::ImmediateOffsetStrides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l01130"></a><span class="lineno"> 1130</span>&#160;    <a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;<a class="code" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a>,</div><div class="line"><a name="l01131"></a><span class="lineno"> 1131</span>&#160;          <a class="code" href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">kAccessSize</a>,</div><div class="line"><a name="l01132"></a><span class="lineno"> 1132</span>&#160;          <a class="code" href="structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f">kMemorySpace</a>,</div><div class="line"><a name="l01133"></a><span class="lineno"> 1133</span>&#160;          <a class="code" href="structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f">kFragmentElementType</a>,</div><div class="line"><a name="l01134"></a><span class="lineno"> 1134</span>&#160;          <a class="code" href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">FragmentElement</a>,</div><div class="line"><a name="l01135"></a><span class="lineno"> 1135</span>&#160;          Tile::kW,</div><div class="line"><a name="l01136"></a><span class="lineno"> 1136</span>&#160;          <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">FragmentElement</a>) * <a class="code" href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">kAccessSize</a>&gt;::<a class="code" href="structcutlass_1_1TileStoreIterator.html#a0218adf569557b17d8e36a3d97fb185e">store</a>(value, <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a>, offset);</div><div class="line"><a name="l01137"></a><span class="lineno"> 1137</span>&#160;  }</div><div class="line"><a name="l01138"></a><span class="lineno"> 1138</span>&#160;</div><div class="line"><a name="l01140"></a><span class="lineno"> 1140</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l01141"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#adbb7fdb5710295cdfb86e090a8c40f44"> 1141</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#adbb7fdb5710295cdfb86e090a8c40f44">store_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> <span class="keyword">const</span> &amp;fragment, PredicateIterator pred_it) {</div><div class="line"><a name="l01142"></a><span class="lineno"> 1142</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">FragmentConstIterator</a> frag_iterator(fragment);</div><div class="line"><a name="l01143"></a><span class="lineno"> 1143</span>&#160;</div><div class="line"><a name="l01144"></a><span class="lineno"> 1144</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Iterations::kD; ++d) {</div><div class="line"><a name="l01145"></a><span class="lineno"> 1145</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l01146"></a><span class="lineno"> 1146</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w, ++pred_it) {</div><div class="line"><a name="l01147"></a><span class="lineno"> 1147</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Iterations::kC; ++c) {</div><div class="line"><a name="l01148"></a><span class="lineno"> 1148</span>&#160;            <span class="keywordflow">if</span> (*pred_it) {</div><div class="line"><a name="l01149"></a><span class="lineno"> 1149</span>&#160;              <a class="code" href="structcutlass_1_1TileStoreIterator.html#a1f7c4143443d2bee4a69d1b380576f08">store_element</a>(</div><div class="line"><a name="l01150"></a><span class="lineno"> 1150</span>&#160;                  reinterpret_cast&lt;AccessType const &amp;&gt;(frag_iterator.at(d, h, w, c)), d, h, w, c);</div><div class="line"><a name="l01151"></a><span class="lineno"> 1151</span>&#160;            }</div><div class="line"><a name="l01152"></a><span class="lineno"> 1152</span>&#160;          }</div><div class="line"><a name="l01153"></a><span class="lineno"> 1153</span>&#160;          <span class="keywordflow">if</span> (w &lt; Iterations::kW - 1) {</div><div class="line"><a name="l01154"></a><span class="lineno"> 1154</span>&#160;            <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1">inc_w</a>();</div><div class="line"><a name="l01155"></a><span class="lineno"> 1155</span>&#160;          }</div><div class="line"><a name="l01156"></a><span class="lineno"> 1156</span>&#160;        }</div><div class="line"><a name="l01157"></a><span class="lineno"> 1157</span>&#160;        <span class="keywordflow">if</span> (h &lt; Iterations::kH - 1) {</div><div class="line"><a name="l01158"></a><span class="lineno"> 1158</span>&#160;          <a class="code" href="structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d">inc_h</a>();</div><div class="line"><a name="l01159"></a><span class="lineno"> 1159</span>&#160;        }</div><div class="line"><a name="l01160"></a><span class="lineno"> 1160</span>&#160;      }</div><div class="line"><a name="l01161"></a><span class="lineno"> 1161</span>&#160;      <span class="keywordflow">if</span> (d &lt; Iterations::kD - 1) {</div><div class="line"><a name="l01162"></a><span class="lineno"> 1162</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975">inc_d</a>();</div><div class="line"><a name="l01163"></a><span class="lineno"> 1163</span>&#160;      }</div><div class="line"><a name="l01164"></a><span class="lineno"> 1164</span>&#160;    }</div><div class="line"><a name="l01165"></a><span class="lineno"> 1165</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d">inc_advance</a>();</div><div class="line"><a name="l01166"></a><span class="lineno"> 1166</span>&#160;  }</div><div class="line"><a name="l01167"></a><span class="lineno"> 1167</span>&#160;</div><div class="line"><a name="l01169"></a><span class="lineno"> 1169</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l01170"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a35ab2595b09912d31a60c2a4e5847c88"> 1170</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a35ab2595b09912d31a60c2a4e5847c88">store_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> <span class="keyword">const</span> &amp;fragment) {</div><div class="line"><a name="l01171"></a><span class="lineno"> 1171</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> pred_it;</div><div class="line"><a name="l01172"></a><span class="lineno"> 1172</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#adbb7fdb5710295cdfb86e090a8c40f44">store_post_increment</a>(fragment, pred_it);</div><div class="line"><a name="l01173"></a><span class="lineno"> 1173</span>&#160;  }</div><div class="line"><a name="l01174"></a><span class="lineno"> 1174</span>&#160;</div><div class="line"><a name="l01176"></a><span class="lineno"> 1176</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l01177"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a0218adf569557b17d8e36a3d97fb185e"> 1177</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a0218adf569557b17d8e36a3d97fb185e">store</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> <span class="keyword">const</span> &amp;fragment, PredicateIterator pred_it)<span class="keyword"> const </span>{</div><div class="line"><a name="l01178"></a><span class="lineno"> 1178</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> _store_it(*<span class="keyword">this</span>);</div><div class="line"><a name="l01179"></a><span class="lineno"> 1179</span>&#160;    _store_it.<a class="code" href="structcutlass_1_1TileStoreIterator.html#adbb7fdb5710295cdfb86e090a8c40f44">store_post_increment</a>(fragment, pred_it);</div><div class="line"><a name="l01180"></a><span class="lineno"> 1180</span>&#160;  }</div><div class="line"><a name="l01181"></a><span class="lineno"> 1181</span>&#160;</div><div class="line"><a name="l01183"></a><span class="lineno"> 1183</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l01184"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aa27a456bf12d0e44adc89a1c2ca7bc3b"> 1184</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa27a456bf12d0e44adc89a1c2ca7bc3b">store</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> <span class="keyword">const</span> &amp;fragment)<span class="keyword"> const </span>{</div><div class="line"><a name="l01185"></a><span class="lineno"> 1185</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> pred_it;</div><div class="line"><a name="l01186"></a><span class="lineno"> 1186</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a0218adf569557b17d8e36a3d97fb185e">store</a>(fragment, pred_it);</div><div class="line"><a name="l01187"></a><span class="lineno"> 1187</span>&#160;  }</div><div class="line"><a name="l01188"></a><span class="lineno"> 1188</span>&#160;</div><div class="line"><a name="l01190"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c"> 1190</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c">load_element</a>(<a class="code" href="unioncutlass_1_1Vector.html">AccessType</a> &amp;value, <span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l01191"></a><span class="lineno"> 1191</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l01192"></a><span class="lineno"> 1192</span>&#160;        <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">ComputeOffsetFromStrides&lt;typename Base::ImmediateOffsetStrides&gt;::get</a>(d, h, w, c);</div><div class="line"><a name="l01193"></a><span class="lineno"> 1193</span>&#160;</div><div class="line"><a name="l01194"></a><span class="lineno"> 1194</span>&#160;    <a class="code" href="structcutlass_1_1Load.html">Load</a>&lt;<a class="code" href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">Scalar</a>,</div><div class="line"><a name="l01195"></a><span class="lineno"> 1195</span>&#160;         <a class="code" href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">kAccessSize</a>,</div><div class="line"><a name="l01196"></a><span class="lineno"> 1196</span>&#160;         <a class="code" href="structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f">kMemorySpace</a>,</div><div class="line"><a name="l01197"></a><span class="lineno"> 1197</span>&#160;         <a class="code" href="structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f">kFragmentElementType</a>,</div><div class="line"><a name="l01198"></a><span class="lineno"> 1198</span>&#160;         <a class="code" href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">FragmentElement</a>,</div><div class="line"><a name="l01199"></a><span class="lineno"> 1199</span>&#160;         Tile::kW,</div><div class="line"><a name="l01200"></a><span class="lineno"> 1200</span>&#160;         <span class="keyword">sizeof</span>(<a class="code" href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">FragmentElement</a>) * <a class="code" href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">kAccessSize</a>&gt;::<a class="code" href="structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6">load</a>(value, <a class="code" href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">params</a>.<a class="code" href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">pointer</a>, offset);</div><div class="line"><a name="l01201"></a><span class="lineno"> 1201</span>&#160;  }</div><div class="line"><a name="l01202"></a><span class="lineno"> 1202</span>&#160;</div><div class="line"><a name="l01204"></a><span class="lineno"> 1204</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l01205"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a57c56e2fe02fc5c771283e35d59b9214"> 1205</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a57c56e2fe02fc5c771283e35d59b9214">load_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it) {</div><div class="line"><a name="l01206"></a><span class="lineno"> 1206</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a> frag_iterator(fragment);</div><div class="line"><a name="l01207"></a><span class="lineno"> 1207</span>&#160;</div><div class="line"><a name="l01208"></a><span class="lineno"> 1208</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> d = 0; d &lt; Iterations::kD; ++d) {</div><div class="line"><a name="l01209"></a><span class="lineno"> 1209</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l01210"></a><span class="lineno"> 1210</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w, ++pred_it) {</div><div class="line"><a name="l01211"></a><span class="lineno"> 1211</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Iterations::kC; ++c) {</div><div class="line"><a name="l01212"></a><span class="lineno"> 1212</span>&#160;            <span class="keywordflow">if</span> (*pred_it) {</div><div class="line"><a name="l01213"></a><span class="lineno"> 1213</span>&#160;              <a class="code" href="structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c">load_element</a>(</div><div class="line"><a name="l01214"></a><span class="lineno"> 1214</span>&#160;                  reinterpret_cast&lt;AccessType &amp;&gt;(frag_iterator.at(d, h, w, c)), d, h, w, c);</div><div class="line"><a name="l01215"></a><span class="lineno"> 1215</span>&#160;            }</div><div class="line"><a name="l01216"></a><span class="lineno"> 1216</span>&#160;          }</div><div class="line"><a name="l01217"></a><span class="lineno"> 1217</span>&#160;          <span class="keywordflow">if</span> (w &lt; Iterations::kW - 1) {</div><div class="line"><a name="l01218"></a><span class="lineno"> 1218</span>&#160;            <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1">inc_w</a>();</div><div class="line"><a name="l01219"></a><span class="lineno"> 1219</span>&#160;          }</div><div class="line"><a name="l01220"></a><span class="lineno"> 1220</span>&#160;        }</div><div class="line"><a name="l01221"></a><span class="lineno"> 1221</span>&#160;        <span class="keywordflow">if</span> (h &lt; Iterations::kH - 1) {</div><div class="line"><a name="l01222"></a><span class="lineno"> 1222</span>&#160;          <a class="code" href="structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d">inc_h</a>();</div><div class="line"><a name="l01223"></a><span class="lineno"> 1223</span>&#160;        }</div><div class="line"><a name="l01224"></a><span class="lineno"> 1224</span>&#160;      }</div><div class="line"><a name="l01225"></a><span class="lineno"> 1225</span>&#160;      <span class="keywordflow">if</span> (d &lt; Iterations::kD - 1) {</div><div class="line"><a name="l01226"></a><span class="lineno"> 1226</span>&#160;        <a class="code" href="structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975">inc_d</a>();</div><div class="line"><a name="l01227"></a><span class="lineno"> 1227</span>&#160;      }</div><div class="line"><a name="l01228"></a><span class="lineno"> 1228</span>&#160;    }</div><div class="line"><a name="l01229"></a><span class="lineno"> 1229</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d">inc_advance</a>();</div><div class="line"><a name="l01230"></a><span class="lineno"> 1230</span>&#160;  }</div><div class="line"><a name="l01231"></a><span class="lineno"> 1231</span>&#160;</div><div class="line"><a name="l01233"></a><span class="lineno"> 1233</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l01234"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#adfbd262dfb19fffd91e0712190d9712d"> 1234</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#adfbd262dfb19fffd91e0712190d9712d">load_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment) {</div><div class="line"><a name="l01235"></a><span class="lineno"> 1235</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> pred_it;</div><div class="line"><a name="l01236"></a><span class="lineno"> 1236</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#a57c56e2fe02fc5c771283e35d59b9214">load_post_increment</a>(fragment, pred_it);</div><div class="line"><a name="l01237"></a><span class="lineno"> 1237</span>&#160;  }</div><div class="line"><a name="l01238"></a><span class="lineno"> 1238</span>&#160;</div><div class="line"><a name="l01240"></a><span class="lineno"> 1240</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l01241"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6"> 1241</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6">load</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, PredicateIterator pred_it)<span class="keyword"> const </span>{</div><div class="line"><a name="l01242"></a><span class="lineno"> 1242</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html">TileStoreIterator</a> _load_it(*<span class="keyword">this</span>);</div><div class="line"><a name="l01243"></a><span class="lineno"> 1243</span>&#160;    _load_it.<a class="code" href="structcutlass_1_1TileStoreIterator.html#a57c56e2fe02fc5c771283e35d59b9214">load_post_increment</a>(fragment, pred_it);</div><div class="line"><a name="l01244"></a><span class="lineno"> 1244</span>&#160;  }</div><div class="line"><a name="l01245"></a><span class="lineno"> 1245</span>&#160;</div><div class="line"><a name="l01247"></a><span class="lineno"> 1247</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l01248"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#a8c42ab8699c3fd74dc7b59d559364b9a"> 1248</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#a8c42ab8699c3fd74dc7b59d559364b9a">load</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment)<span class="keyword"> const </span>{</div><div class="line"><a name="l01249"></a><span class="lineno"> 1249</span>&#160;    <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">PredicateVector::TrivialIterator</a> pred_it;</div><div class="line"><a name="l01250"></a><span class="lineno"> 1250</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6">load</a>(fragment, pred_it);</div><div class="line"><a name="l01251"></a><span class="lineno"> 1251</span>&#160;  }</div><div class="line"><a name="l01252"></a><span class="lineno"> 1252</span>&#160;</div><div class="line"><a name="l01254"></a><span class="lineno"> 1254</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l01255"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreIterator.html#ad33c46a584deb1c7968e08e349382af3"> 1255</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreIterator.html#ad33c46a584deb1c7968e08e349382af3">load</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a> &amp;fragment, <span class="keywordtype">int</span> d) {</div><div class="line"><a name="l01256"></a><span class="lineno"> 1256</span>&#160;    <a class="code" href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">FragmentIterator</a> frag_iterator(fragment);</div><div class="line"><a name="l01257"></a><span class="lineno"> 1257</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> h = 0; h &lt; Iterations::kH; ++h) {</div><div class="line"><a name="l01258"></a><span class="lineno"> 1258</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> w = 0; w &lt; Iterations::kW; ++w) {</div><div class="line"><a name="l01259"></a><span class="lineno"> 1259</span>&#160;        <span class="keywordflow">for</span> (<span class="keywordtype">int</span> c = 0; c &lt; Iterations::kC; ++c) {</div><div class="line"><a name="l01260"></a><span class="lineno"> 1260</span>&#160;          <a class="code" href="structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c">load_element</a>(reinterpret_cast&lt;AccessType &amp;&gt;(frag_iterator.at(0, h, w, c)), d, h, w, c);</div><div class="line"><a name="l01261"></a><span class="lineno"> 1261</span>&#160;        }</div><div class="line"><a name="l01262"></a><span class="lineno"> 1262</span>&#160;      }</div><div class="line"><a name="l01263"></a><span class="lineno"> 1263</span>&#160;    }</div><div class="line"><a name="l01264"></a><span class="lineno"> 1264</span>&#160;  }</div><div class="line"><a name="l01265"></a><span class="lineno"> 1265</span>&#160;};</div><div class="line"><a name="l01266"></a><span class="lineno"> 1266</span>&#160;</div><div class="line"><a name="l01268"></a><span class="lineno"> 1268</span>&#160;</div><div class="line"><a name="l01269"></a><span class="lineno"> 1269</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_a6a7702de0e88449b3d1864b208adf87a"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6a7702de0e88449b3d1864b208adf87a">cutlass::TileStoreIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</div><div class="ttdoc">Initializes params. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:990</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a9bda55335fb2e90af2ee7d20571f3d9b"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a9bda55335fb2e90af2ee7d20571f3d9b">cutlass::TileLoadIterator::inc_advance</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_advance()</div><div class="ttdoc">Increment in the next dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:683</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a320c917d585df901e66257c7d9b4780c"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a320c917d585df901e66257c7d9b4780c">cutlass::TileStoreIterator::load_element</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_element(AccessType &amp;value, int d, int h, int w, int c) const</div><div class="ttdoc">Loads a single fragment element from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1190</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a24716c07ab1d7834a79d52231a990973"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a24716c07ab1d7834a79d52231a990973">cutlass::TileIteratorBase::AccessType</a></div><div class="ttdeci">Vectorize&lt; FragmentElement, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The elements loaded/store by one instruction. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:188</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_ad18ee6f519b03e1dbf711339b63e16d6"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#ad18ee6f519b03e1dbf711339b63e16d6">cutlass::TileStoreIterator::Tile</a></div><div class="ttdeci">Base::Tile Tile</div><div class="ttdoc">Tile shape. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:883</div></div>
+<div class="ttc" id="structcutlass_1_1RegularTilePredicateFunctor_html_acd32282ce7852c4669098c06bcd9a360"><div class="ttname"><a href="structcutlass_1_1RegularTilePredicateFunctor.html#acd32282ce7852c4669098c06bcd9a360">cutlass::RegularTilePredicateFunctor::Delta</a></div><div class="ttdeci">Delta_ Delta</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:113</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a6157fe8a2ffefd45eba6f3953f0e2994"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a6157fe8a2ffefd45eba6f3953f0e2994">cutlass::TileStoreIterator::PredicateVector</a></div><div class="ttdeci">Base::PredicateVector PredicateVector</div><div class="ttdoc">Default predicate mask type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:910</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a9a1098e6c7b8c7c377031fe59a18fbf5"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a1098e6c7b8c7c377031fe59a18fbf5">cutlass::TileLoadIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params()</div><div class="ttdoc">Initialize params to access storage object. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:501</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a4ffe90c974b260220fe0b44274095322"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a4ffe90c974b260220fe0b44274095322">cutlass::TileLoadIterator::TileLoadIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileLoadIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Constructs a tile load iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:644</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a61b898051d0397b013407a4c90409aa0"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a61b898051d0397b013407a4c90409aa0">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(SharedStorage const &amp;storage)</div><div class="ttdoc">Initialize params to access storage object. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:544</div></div>
+<div class="ttc" id="structcutlass_1_1TileTraits_html_a3632c351a28f71f6c140dd33089d80b0"><div class="ttname"><a href="structcutlass_1_1TileTraits.html#a3632c351a28f71f6c140dd33089d80b0">cutlass::TileTraits::Tile</a></div><div class="ttdeci">Tile_ Tile</div><div class="ttdoc">Shape of the tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:80</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ab49ff66953031a8cfcfa11ddc092025c"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ab49ff66953031a8cfcfa11ddc092025c">cutlass::TileIteratorBase::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:164</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a7f1499ada284c21624487d4d3a5dbd10"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a7f1499ada284c21624487d4d3a5dbd10">cutlass::TileLoadIterator::Tile</a></div><div class="ttdeci">Base::Tile Tile</div><div class="ttdoc">Tile shape. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:346</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a2716b9010d2902b90e63abb0531ee915"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a2716b9010d2902b90e63abb0531ee915">cutlass::TileLoadIterator::load_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)</div><div class="ttdoc">Loads a fragment and advances the iterator to the next tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:533</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a8a1527b4b469ae1f97afde2502ece70d"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a8a1527b4b469ae1f97afde2502ece70d">cutlass::TileLoadIterator::ThreadOffset</a></div><div class="ttdeci">Base::ThreadOffset ThreadOffset</div><div class="ttdoc">ThreadOffset functor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:355</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a8059c57030df99b73309e9210ec5f624"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a8059c57030df99b73309e9210ec5f624">cutlass::TileStoreIterator::kAdvance</a></div><div class="ttdeci">static IteratorAdvance::Kind const kAdvance</div><div class="ttdoc">Specifies in which dimension post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:649</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a14f4b356c9cd320e6e7b451edbf58c24"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a14f4b356c9cd320e6e7b451edbf58c24">cutlass::TileIteratorBase::FragmentShape</a></div><div class="ttdeci">FragmentIterator::FragmentShape FragmentShape</div><div class="ttdoc">The shape of the fragment. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:160</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a5abf4755aee07dc58b1d6183fbf4786f"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a5abf4755aee07dc58b1d6183fbf4786f">cutlass::TileIteratorBase::ThreadOffset</a></div><div class="ttdeci">Traits::ThreadOffset ThreadOffset</div><div class="ttdoc">Thread offset. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:140</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a94c0567316118abfb84fc28560a5a46a"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a94c0567316118abfb84fc28560a5a46a">cutlass::TileStoreIterator::kIteratorFragment</a></div><div class="ttdeci">static IteratorFragment::Kind const kIteratorFragment</div><div class="ttdoc">Specifies type of iterator fragment storage (Salar or WmmaMatrix) </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:652</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ae89afbcf642b3023770ff22969c51d16"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ae89afbcf642b3023770ff22969c51d16">cutlass::TileIteratorBase::Skew</a></div><div class="ttdeci">Skew_ Skew</div><div class="ttdoc">Skew quantity. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:125</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a3b872e85844c9e009fa480a71a829136"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a3b872e85844c9e009fa480a71a829136">cutlass::TileStoreIterator::FragmentShape</a></div><div class="ttdeci">Base::FragmentShape FragmentShape</div><div class="ttdoc">Fragment type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:676</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_a71f5238a712f7b2f377fb58938ac829b"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#a71f5238a712f7b2f377fb58938ac829b">cutlass::TileStoreIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(SharedStorage &amp;storage)</div><div class="ttdoc">Initialize params to access storage object. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:706</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html">cutlass::MemorySpace</a></div><div class="ttdoc">Enum to specify which memory space data resides in. </div><div class="ttdef"><b>Definition:</b> load_store.h:39</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a11ec4297c9a1352c8005ac222892b35c"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a11ec4297c9a1352c8005ac222892b35c">cutlass::TileLoadIterator::Skew</a></div><div class="ttdeci">Base::Skew Skew</div><div class="ttdoc">Skew quantity. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:343</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738dda"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">cutlass::IteratorAdvance::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_af496afebb8983e5d346c681334955224"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#af496afebb8983e5d346c681334955224">cutlass::TileIteratorBase::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize()</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:227</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a57348779bb004ed1ea0fd9cc252e895d"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a57348779bb004ed1ea0fd9cc252e895d">cutlass::TileStoreIterator::Skew</a></div><div class="ttdeci">Base::Skew Skew</div><div class="ttdoc">Skew quantity. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:661</div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_ab7922305d47b67e6cfb439e4e8d9f09b"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#ab7922305d47b67e6cfb439e4e8d9f09b">cutlass::TileStoreIterator::SharedStorage</a></div><div class="ttdeci">Base::Storage SharedStorage</div><div class="ttdoc">Storage object which may be stored to. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:694</div></div>
-<div class="ttc" id="structcutlass_1_1TileTraits_html"><div class="ttname"><a href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a></div><div class="ttdoc">A template defining Tile Traits Concept. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:77</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_afb6320b600f1f561594a9fb543b954e4"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#afb6320b600f1f561594a9fb543b954e4">cutlass::TileLoadIterator::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar const  * data() const</div><div class="ttdoc">Returns the current pointer. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:502</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a1bc1bd4893c14b313ee71b71db2903f3"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a1bc1bd4893c14b313ee71b71db2903f3">cutlass::TileLoadIterator::Base</a></div><div class="ttdeci">TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, IteratorFragment_, Skew_ &gt; Base</div><div class="ttdoc">Base class. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:319</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a53282fa4cb33cfcec79033d26e418af6"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a53282fa4cb33cfcec79033d26e418af6">cutlass::TileLoadIterator::TileLoadIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileLoadIterator(Params const &amp;, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Constructs a tile load iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:491</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_afd9e82df76ad35fe883b7834457242b2"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#afd9e82df76ad35fe883b7834457242b2">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar const *ptr, Index stride_d, Index stride_h, Index stride_w)</div><div class="ttdoc">Initializes params to access a raw pointer. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:401</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a788bab4fa46dc26854348b751cf1cc76"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a788bab4fa46dc26854348b751cf1cc76">cutlass::TileLoadIterator::BaseParams</a></div><div class="ttdeci">Base::Params BaseParams</div><div class="ttdoc">IteratorBase parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:379</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a5e6c00b99e0f752137b07f7059f6ee0f"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a5e6c00b99e0f752137b07f7059f6ee0f">cutlass::TileStoreIterator::params</a></div><div class="ttdeci">Params params</div><div class="ttdoc">Parameters structure. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:745</div></div>
-<div class="ttc" id="structcutlass_1_1Load_html_ad033ebc1452d96b18913333bf7068140"><div class="ttname"><a href="structcutlass_1_1Load.html#ad033ebc1452d96b18913333bf7068140">cutlass::Load::load</a></div><div class="ttdeci">static CUTLASS_DEVICE void load(AccessType &amp;dst, Scalar_ const *pointer, int offset)</div><div class="ttdoc">The load function. </div><div class="ttdef"><b>Definition:</b> load_store.h:59</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_aeeea0f8bdee876553a4908b9b7cbaf76"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#aeeea0f8bdee876553a4908b9b7cbaf76">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(SharedStorage const &amp;storage)</div><div class="ttdoc">Initialize params to access storage object. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:394</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84eaee9d9d6cea8079c32c9383bde45161fc">cutlass::TileLoadIterator::kRequiresLoadFence</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:382</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ae8dff52e619f06fbdbca8cb847c79895"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ae8dff52e619f06fbdbca8cb847c79895">cutlass::TileLoadIterator::Scalar</a></div><div class="ttdeci">Base::Scalar Scalar</div><div class="ttdoc">Scalar element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:325</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a4af8eeabe7c1ec0362782687a84466e0"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a4af8eeabe7c1ec0362782687a84466e0">cutlass::TileLoadIterator::AccessType</a></div><div class="ttdeci">Base::AccessType AccessType</div><div class="ttdoc">Memory access type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:361</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a53820de506cecb1f5fb07b3385d8272a"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a53820de506cecb1f5fb07b3385d8272a">cutlass::TileStoreIterator::store</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store(Fragment &amp;fragment, PredicateIterator pred_it) const</div><div class="ttdoc">Stores a fragment without advancing the iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:869</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a69d2f21c8188fb3229af8c2dbe0a23b6"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a69d2f21c8188fb3229af8c2dbe0a23b6">cutlass::TileLoadIterator::kAdvance</a></div><div class="ttdeci">static IteratorAdvance::Kind const kAdvance</div><div class="ttdoc">Specifies in which dimension post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:331</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a195993d58ae0eeb53203116ac02ab38d"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a195993d58ae0eeb53203116ac02ab38d">cutlass::TileLoadIterator::load_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_post_increment(Fragment &amp;fragment)</div><div class="ttdoc">Loads a fragment and advances the iterator to the next tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:561</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a93e166575be3b2f7489833ae5da23f23"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a93e166575be3b2f7489833ae5da23f23">cutlass::TileLoadIterator::TileLoadIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileLoadIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Constructs a tile load iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:468</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_af78a2bf3e7507dc7f50343a3c209f770"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#af78a2bf3e7507dc7f50343a3c209f770">cutlass::TileIteratorBase::valid</a></div><div class="ttdeci">CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Is the iterator valid? </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:239</div></div>
-<div class="ttc" id="structcutlass_1_1TileTraits_html_af7ae2fdb4c8f1702169cc7d437d2b469"><div class="ttname"><a href="structcutlass_1_1TileTraits.html#af7ae2fdb4c8f1702169cc7d437d2b469">cutlass::TileTraits::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">Number of accesses performed. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:85</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_af0d26a2df2a1a5ba3c3169b736bd5d43"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#af0d26a2df2a1a5ba3c3169b736bd5d43">cutlass::TileStoreIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar *ptr, Index stride_d, Index stride_h, Index stride_w)</div><div class="ttdoc">Initializes params to access a raw pointer. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:713</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aaafe35622751532971c1b7efc54c888b"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aaafe35622751532971c1b7efc54c888b">cutlass::TileLoadIterator::params</a></div><div class="ttdeci">Params params</div><div class="ttdoc">Parameters structure. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:433</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">cutlass::PredicateVector::TrivialIterator</a></div><div class="ttdoc">Iterator that always returns true. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:308</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_ad52318b430437575b55099ca992ca3a7"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#ad52318b430437575b55099ca992ca3a7">cutlass::TileStoreIterator::Scalar</a></div><div class="ttdeci">Base::Scalar Scalar</div><div class="ttdoc">Scalar element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:643</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a6f50a8aec2d7045e9057b93df08172a8"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a6f50a8aec2d7045e9057b93df08172a8">cutlass::TileStoreIterator::Traits</a></div><div class="ttdeci">Base::Traits Traits</div><div class="ttdoc">concept TileTraits </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:640</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03c"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:40</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a58e8c883aea4cfdfa5a84c25a4704ebc"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a58e8c883aea4cfdfa5a84c25a4704ebc">cutlass::TileIteratorBase::Params::stride_h</a></div><div class="ttdeci">Index stride_h</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:172</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_ae63949f58c1b32959bbfa5b64d521f0f"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#ae63949f58c1b32959bbfa5b64d521f0f">cutlass::TileStoreIterator::store_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store_post_increment(Fragment &amp;fragment)</div><div class="ttdoc">Stores a fragment and advances to the next tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:862</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a6ca47fd6e2f9cbb3498c138417ea414a"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a6ca47fd6e2f9cbb3498c138417ea414a">cutlass::TileIteratorBase::Storage</a></div><div class="ttdeci">Fragment&lt; Scalar, ShapeCount&lt; Tile &gt;::kCount, kFragmentSize &gt; Storage</div><div class="ttdoc">The storage. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:152</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_aebaecd0f971245ffc5a50fe5f7a9b4e8"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#aebaecd0f971245ffc5a50fe5f7a9b4e8">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize()</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:425</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a74dffe1ddcc84935ab170117e939b7e3"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a74dffe1ddcc84935ab170117e939b7e3">cutlass::TileStoreIterator::inc_d</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_d()</div><div class="ttdoc">Increment in the D dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:807</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a9720b1e4a10c2d5aa85f9a9c66a31bbf"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a9720b1e4a10c2d5aa85f9a9c66a31bbf">cutlass::TileLoadIterator::Iterations</a></div><div class="ttdeci">Base::Iterations Iterations</div><div class="ttdoc">Iterations. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:352</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_af884f720d36aa82e7f972932686ae986"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#af884f720d36aa82e7f972932686ae986">cutlass::TileStoreIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize()</div><div class="ttdoc">Initializes params to default values. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:737</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a4c7a3a4917245de8269b74bdabe16b76"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a4c7a3a4917245de8269b74bdabe16b76">cutlass::TileLoadIterator::FragmentConstIterator</a></div><div class="ttdeci">Base::FragmentConstIterator FragmentConstIterator</div><div class="ttdoc">Fragment const iterator definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:370</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a44665808adfd69df0d26cec4b1840cc3"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a44665808adfd69df0d26cec4b1840cc3">cutlass::TileIteratorBase::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:122</div></div>
-<div class="ttc" id="structcutlass_1_1Store_html_a1117fa7b7bdeeb3a7f2d647a1d340aaf"><div class="ttname"><a href="structcutlass_1_1Store.html#a1117fa7b7bdeeb3a7f2d647a1d340aaf">cutlass::Store::store</a></div><div class="ttdeci">static CUTLASS_DEVICE void store(AccessType const &amp;src, Scalar_ *pointer, int offset)</div><div class="ttdoc">The store function. </div><div class="ttdef"><b>Definition:</b> load_store.h:136</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_aea591d4278a8338ae8b50fa0b8f3a366"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#aea591d4278a8338ae8b50fa0b8f3a366">cutlass::TileIteratorBase::Params::inc_h</a></div><div class="ttdeci">Index inc_h</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:176</div></div>
+<div class="ttc" id="tensor__ref_8h_html"><div class="ttname"><a href="tensor__ref_8h.html">tensor_ref.h</a></div><div class="ttdoc">Defines a structure containing strides, bounds, and a pointer to tensor data. </div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a6c570dfa1cb68d436d8da6bd23cce6ce"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a6c570dfa1cb68d436d8da6bd23cce6ce">cutlass::TileLoadIterator::Iterations</a></div><div class="ttdeci">Base::Iterations Iterations</div><div class="ttdoc">Iterations. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:449</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a2ef70d9e13b5aa7e4a53233b153d7edd"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a2ef70d9e13b5aa7e4a53233b153d7edd">cutlass::TileIteratorBase::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Coord&lt; 4 &gt; const &amp;stride)</div><div class="ttdoc">Initializes the parameters object from a vector of strides. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:283</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ac811886f3412861928040546282b6973"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ac811886f3412861928040546282b6973">cutlass::TileIteratorBase::valid</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Is the iterator valid? </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:334</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ae50ca325a827bdf1d1bfab3ba6e204c1"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ae50ca325a827bdf1d1bfab3ba6e204c1">cutlass::TileIteratorBase::Skew</a></div><div class="ttdeci">Skew_ Skew</div><div class="ttdoc">Skew quantity. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:167</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a84f2f19069c3b003b1fcad438f690bc8"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a84f2f19069c3b003b1fcad438f690bc8">cutlass::TileLoadIterator::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars accessed per load/store. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:461</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html">cutlass::MemorySpace</a></div><div class="ttdoc">Enum to specify which memory space data resides in. </div><div class="ttdef"><b>Definition:</b> load_store.h:38</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_adfbd262dfb19fffd91e0712190d9712d"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#adfbd262dfb19fffd91e0712190d9712d">cutlass::TileStoreIterator::load_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_post_increment(Fragment &amp;fragment)</div><div class="ttdoc">Loads a fragment and advances the iterator to the next tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1234</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aae07fdedeef68abd4e6c099924c70910"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aae07fdedeef68abd4e6c099924c70910">cutlass::TileStoreIterator::Index</a></div><div class="ttdeci">Base::Index Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:877</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a57eff980f6b1086abe39dd617de5b948"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a57eff980f6b1086abe39dd617de5b948">cutlass::TileLoadIterator::SharedStorage</a></div><div class="ttdeci">Base::Storage SharedStorage</div><div class="ttdoc">Storage object that may be loaded from. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:476</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aff36e4a3de7e27667542564e0ec96a7e"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aff36e4a3de7e27667542564e0ec96a7e">cutlass::TileStoreIterator::stage</a></div><div class="ttdeci">int stage</div><div class="ttdoc">The stage. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1020</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a88eaa581e0b5419b98ee5a71073d0539"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a88eaa581e0b5419b98ee5a71073d0539">cutlass::TileLoadIterator::Tile</a></div><div class="ttdeci">Base::Tile Tile</div><div class="ttdoc">Tile shape. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:443</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a53917e002fd29a5650752c65f96b353d"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a53917e002fd29a5650752c65f96b353d">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar const *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</div><div class="ttdoc">Initializes params. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:568</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a59d40c5bd544fdabf42787b9f11cce51"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a59d40c5bd544fdabf42787b9f11cce51">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::FragmentIterator</a></div><div class="ttdeci">FragmentIterator&lt; Fragment, Iterations, AccessType &gt; FragmentIterator</div><div class="ttdoc">The fragment iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:199</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_adc4182adb78e34b7741f297eca86fe35"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#adc4182adb78e34b7741f297eca86fe35">cutlass::TileStoreIterator::Pointer</a></div><div class="ttdeci">Scalar * Pointer</div><div class="ttdoc">Pointer to underlying type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:919</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a0fec2c1f9c0b8fbde4ca6faf123b59a5"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a0fec2c1f9c0b8fbde4ca6faf123b59a5">cutlass::TileIteratorBase::ThreadOffset</a></div><div class="ttdeci">Traits::ThreadOffset ThreadOffset</div><div class="ttdoc">Thread offset. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:182</div></div>
+<div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738dda"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738dda">cutlass::IteratorAdvance::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a802c270449da579ed8661e915d27ce60"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a802c270449da579ed8661e915d27ce60">cutlass::TileIteratorBase::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)</div><div class="ttdoc">Initializes params. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:262</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1TileTraits_html_a3db8202befa891bbc7c0a53c535cd21f"><div class="ttname"><a href="structcutlass_1_1TileTraits.html#a3db8202befa891bbc7c0a53c535cd21f">cutlass::TileTraits::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; 0, 0, 0, 0 &gt; ImmediateOffsetStrides</div><div class="ttdoc">Strides for immediate offset computation. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:102</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ad272502e5a54615584bb037a33ff1dca"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ad272502e5a54615584bb037a33ff1dca">cutlass::TileLoadIterator::FragmentConstIterator</a></div><div class="ttdeci">Base::FragmentConstIterator FragmentConstIterator</div><div class="ttdoc">Fragment const iterator definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:470</div></div>
+<div class="ttc" id="structcutlass_1_1TileTraits_html"><div class="ttname"><a href="structcutlass_1_1TileTraits.html">cutlass::TileTraits</a></div><div class="ttdoc">A template defining Tile Traits Concept. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:78</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a70dfd0b62feb082d8da34af09d9524a6"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a70dfd0b62feb082d8da34af09d9524a6">cutlass::TileLoadIterator::FragmentElement</a></div><div class="ttdeci">FragmentElement_ FragmentElement</div><div class="ttdoc">Fragment element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:425</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a1dcbf633eac61ff06980e4992fbe8264"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a1dcbf633eac61ff06980e4992fbe8264">cutlass::TileLoadIterator::Base</a></div><div class="ttdeci">TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Base</div><div class="ttdoc">Base class. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:416</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a60bbb4d4a6a5b8fb32e176e7d33f9e82"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a60bbb4d4a6a5b8fb32e176e7d33f9e82">cutlass::TileLoadIterator::initialize_predicates</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Initializes a predicate vector using a RegularTilePredicateFunctor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:608</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a9ffa12dcd7ed1e96845e1cd273d9f219"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::Fragment</a></div><div class="ttdeci">Fragment&lt; FragmentElement, ShapeCount&lt; Iterations &gt;::kCount *kAccessSize &gt; Fragment</div><div class="ttdoc">The fragment. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:196</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_adbf563ecda4ffd4110d288f521c7e0da"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#adbf563ecda4ffd4110d288f521c7e0da">cutlass::TileIteratorBase::Iterations</a></div><div class="ttdeci">Traits::Iterations Iterations</div><div class="ttdoc">Iterations. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:179</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a1b070fc66109d372f5a45a5857594ac6"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a1b070fc66109d372f5a45a5857594ac6">cutlass::TileLoadIterator::load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load(Fragment &amp;fragment, int d)</div><div class="ttdoc">Loads a fragment without advancing the iterator.. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:785</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_afc68649cb9bb32931b27e711c7ce2604"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#afc68649cb9bb32931b27e711c7ce2604">cutlass::TileLoadIterator::Delta</a></div><div class="ttdeci">Base::Delta Delta</div><div class="ttdoc">Delta. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:446</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a4d437597ae736c581a9ba0764f9d955f"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a4d437597ae736c581a9ba0764f9d955f">cutlass::TileLoadIterator::load_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)</div><div class="ttdoc">Loads a fragment and advances the iterator to the next tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:735</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentElementType_html_a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd"><div class="ttname"><a href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">cutlass::FragmentElementType::kWmmaMatrix</a></div><div class="ttdef"><b>Definition:</b> load_store.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a3175746438646453e93e6e08e954bc8d"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a3175746438646453e93e6e08e954bc8d">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize()</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:584</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a44424164c9347f9916b2b86858706043"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a44424164c9347f9916b2b86858706043">cutlass::TileLoadIterator::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">Source or destination memory space. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:434</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ab37eec43846be90d558201bd6bb27ee4"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ab37eec43846be90d558201bd6bb27ee4">cutlass::TileIteratorBase::ImmediateOffsetStrides</a></div><div class="ttdeci">Traits::ImmediateOffsetStrides ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:176</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a7b4293bf8291b0383dee695a60f2e0fd"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a7b4293bf8291b0383dee695a60f2e0fd">cutlass::TileIteratorBase::Params::inc_d</a></div><div class="ttdeci">long long inc_d</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:223</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ae8cb43a98cd2fa28f6457afbda8ec58a"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ae8cb43a98cd2fa28f6457afbda8ec58a">cutlass::TileLoadIterator::ThreadOffset</a></div><div class="ttdeci">Base::ThreadOffset ThreadOffset</div><div class="ttdoc">ThreadOffset functor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:452</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_ad90642d96a3b5354813fbf4d9b04b83f"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#ad90642d96a3b5354813fbf4d9b04b83f">cutlass::TileStoreIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize()</div><div class="ttdoc">Initializes params to default values. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1006</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a4604b230174b11bc7ddf5f3e9a922139"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a4604b230174b11bc7ddf5f3e9a922139">cutlass::TileLoadIterator::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:464</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a6d8f1e07f286ed8d5761e2a878b807d3"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a6d8f1e07f286ed8d5761e2a878b807d3">cutlass::TileIteratorBase::Params::inc_advance</a></div><div class="ttdeci">long long inc_advance</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:227</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_af6c297bb43573a13f6b721cc8ff730ca"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#af6c297bb43573a13f6b721cc8ff730ca">cutlass::TileStoreIterator::SharedStorage</a></div><div class="ttdeci">Base::Storage SharedStorage</div><div class="ttdoc">Storage object which may be stored to. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:913</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a993e1e7d8cc461a9cfa009b61b42621f"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a993e1e7d8cc461a9cfa009b61b42621f">cutlass::TileStoreIterator::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">Source or destination memory space. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:871</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_acb6bc889b93d25c9e483a0b7297d7c89"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#acb6bc889b93d25c9e483a0b7297d7c89">cutlass::TileStoreIterator::initialize_predicates</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Initializes a predicate vector using a RegularTilePredicateFunctor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1030</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_abcb7af7b35e605dfda5ce6a37a02f975"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#abcb7af7b35e605dfda5ce6a37a02f975">cutlass::TileStoreIterator::inc_d</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_d()</div><div class="ttdoc">Increment in the D dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1090</div></div>
+<div class="ttc" id="structcutlass_1_1TileTraits_html_a671ef48f4141a9de30b6ec6fb0be1feb"><div class="ttname"><a href="structcutlass_1_1TileTraits.html#a671ef48f4141a9de30b6ec6fb0be1feb">cutlass::TileTraits::ThreadOffset</a></div><div class="ttdeci">ThreadOffset_ ThreadOffset</div><div class="ttdoc">Functor that returns the logical coordinate of each entity&amp;#39;s initial offset in the tile...</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:99</div></div>
+<div class="ttc" id="structcutlass_1_1PredicateVector_1_1TrivialIterator_html"><div class="ttname"><a href="structcutlass_1_1PredicateVector_1_1TrivialIterator.html">cutlass::PredicateVector::TrivialIterator</a></div><div class="ttdoc">Iterator that always returns true. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:309</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_ac030ea4568fa2cb6d6661df75062cd1a"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac030ea4568fa2cb6d6661df75062cd1a">cutlass::TileIteratorBase::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(Coord&lt; 4 &gt; const &amp;stride)</div><div class="ttdoc">Constructs params with a stride vector. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:256</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_a9e50043acd3b851cce169310a04c6827"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9e50043acd3b851cce169310a04c6827">cutlass::TileStoreIterator::Params::pointer</a></div><div class="ttdeci">Scalar * pointer</div><div class="ttdoc">Pointer to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:927</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_aa131e0ef02ce37038c1a17bea7088ef6"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#aa131e0ef02ce37038c1a17bea7088ef6">cutlass::TileStoreIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(Scalar *ptr, long long stride_d, Index stride_h, Index stride_w)</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:949</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a82ceeea55603dbb0c6e5bf9c22ac692e"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a82ceeea55603dbb0c6e5bf9c22ac692e">cutlass::TileStoreIterator::FragmentShape</a></div><div class="ttdeci">Base::FragmentShape FragmentShape</div><div class="ttdoc">Fragment type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:895</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03c"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:39</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a05065dadf7b8a20284c566c82cda8000"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a05065dadf7b8a20284c566c82cda8000">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::PredicateVector</a></div><div class="ttdeci">PredicateVector&lt; ShapeCount&lt; Iterations &gt;::kCount &gt; PredicateVector</div><div class="ttdoc">Default predicate mask type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:206</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a31a021d6c099e8027fa9bcb5fdc21c11"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a31a021d6c099e8027fa9bcb5fdc21c11">cutlass::TileLoadIterator::stride_advance</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Index stride_advance(void)</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:725</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aa5386367e805cdaf47a5e7564bedc2fb"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aa5386367e805cdaf47a5e7564bedc2fb">cutlass::TileStoreIterator::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:901</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_acd3c170dd70bee777cb9e9dc662c5eac"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#acd3c170dd70bee777cb9e9dc662c5eac">cutlass::TileStoreIterator::TensorRef</a></div><div class="ttdeci">TensorRef&lt; Scalar, 4 &gt; TensorRef</div><div class="ttdoc">Tensor reference for the store iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:922</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a6a5d065939282fa1b9454b28a1e73948"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a6a5d065939282fa1b9454b28a1e73948">cutlass::TileLoadIterator::Traits</a></div><div class="ttdeci">Base::Traits Traits</div><div class="ttdoc">concept TileTraits </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:419</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a146adfb1951efd70995b05a7a31fd548"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a146adfb1951efd70995b05a7a31fd548">cutlass::TileLoadIterator&lt; TileTraits_, TileTraits_::Scalar, TileTraits_::MultiplicandTraits::kKstrided ? IteratorAdvance::kH :IteratorAdvance::kW, MemorySpace::kGlobal, Index_ &gt;::TensorRef</a></div><div class="ttdeci">TensorRef&lt; Scalar const, 4 &gt; TensorRef</div><div class="ttdoc">Tensor reference for the load iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:488</div></div>
+<div class="ttc" id="structcutlass_1_1Store_html"><div class="ttname"><a href="structcutlass_1_1Store.html">cutlass::Store</a></div><div class="ttdef"><b>Definition:</b> load_store.h:178</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a8c42ab8699c3fd74dc7b59d559364b9a"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a8c42ab8699c3fd74dc7b59d559364b9a">cutlass::TileStoreIterator::load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load(Fragment &amp;fragment) const</div><div class="ttdoc">Loads a fragment without advancing the iterator.. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1248</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aa566cf603a5c19c59946a41b04642e49"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aa566cf603a5c19c59946a41b04642e49">cutlass::TileLoadIterator::initialize_predicates</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)</div><div class="ttdoc">Initializes a predicate vector using an arbitrary predicate functor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:625</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a1f7c4143443d2bee4a69d1b380576f08"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a1f7c4143443d2bee4a69d1b380576f08">cutlass::TileStoreIterator::store_element</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store_element(AccessType const &amp;value, int d, int h, int w, int c)</div><div class="ttdoc">Stores a single fragment element into memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1127</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a064aaca9cc27e34bdae9684447a3f5be"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a064aaca9cc27e34bdae9684447a3f5be">cutlass::TileIteratorBase::FragmentShape</a></div><div class="ttdeci">FragmentIterator::FragmentShape FragmentShape</div><div class="ttdoc">The shape of the fragment. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:203</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a39acc5c35c8db019a3aeef79e8005b7f"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a39acc5c35c8db019a3aeef79e8005b7f">cutlass::TileLoadIterator::Pointer</a></div><div class="ttdeci">Scalar const  * Pointer</div><div class="ttdoc">The pointer type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:485</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_acc8c86a3629a3ca105269fc3a47f2a4f"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#acc8c86a3629a3ca105269fc3a47f2a4f">cutlass::TileIteratorBase::kAdvance</a></div><div class="ttdeci">static IteratorAdvance::Kind const kAdvance</div><div class="ttdoc">Specifies dimension in which post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:155</div></div>
+<div class="ttc" id="cutlass_8h_html_a4b1c9f25ab6eaa25e1f2258dd63e6ce4"><div class="ttname"><a href="cutlass_8h.html#a4b1c9f25ab6eaa25e1f2258dd63e6ce4">CUTLASS_PRAGMA_UNROLL</a></div><div class="ttdeci">#define CUTLASS_PRAGMA_UNROLL</div><div class="ttdef"><b>Definition:</b> cutlass.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a4f029a268387bd63112d9074c185c623"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a4f029a268387bd63112d9074c185c623">cutlass::TileIteratorBase::Params::stride_h</a></div><div class="ttdeci">Index stride_h</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:220</div></div>
 <div class="ttc" id="predicate__vector_8h_html"><div class="ttname"><a href="predicate__vector_8h.html">predicate_vector.h</a></div><div class="ttdoc">Defines container classes and iterators for managing a statically sized vector of boolean predicates...</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ab457bd7953af9ef418510f55f52d1f39"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ab457bd7953af9ef418510f55f52d1f39">cutlass::TileLoadIterator::SharedStorage</a></div><div class="ttdeci">Base::Storage SharedStorage</div><div class="ttdoc">Storage object that may be loaded from. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:376</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator::Params</a></div><div class="ttdoc">Parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:700</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_af92ba20db048a9ec96976a1673f0f7c2"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#af92ba20db048a9ec96976a1673f0f7c2">cutlass::TileStoreIterator::initialize_predicates</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Initializes a predicate vector. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:759</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:302</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a7c6182031d9aa41d0e4a64516723e20a"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a7c6182031d9aa41d0e4a64516723e20a">cutlass::TileLoadIterator::Traits</a></div><div class="ttdeci">Base::Traits Traits</div><div class="ttdoc">concept TileTraits </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:322</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a78b6c0d6a1a96dd55a34bc302ecb07d7"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a78b6c0d6a1a96dd55a34bc302ecb07d7">cutlass::TileIteratorBase::initialize_predicates</a></div><div class="ttdeci">static CUTLASS_DEVICE void initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Initializes a predicate vector. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:247</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a5484b46ac2646edb7a185b51137f70c0"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a5484b46ac2646edb7a185b51137f70c0">cutlass::TileStoreIterator::BaseParams</a></div><div class="ttdeci">Base::Params BaseParams</div><div class="ttdoc">IteratorBase parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:697</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a2edd89863b8035137ccd8dd3ad7be464"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a2edd89863b8035137ccd8dd3ad7be464">cutlass::TileLoadIterator::FragmentElement</a></div><div class="ttdeci">Base::FragmentElement FragmentElement</div><div class="ttdoc">Fragment element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:328</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a954ef18acc12d8256a7d4e37683f8c2c"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a954ef18acc12d8256a7d4e37683f8c2c">cutlass::TileIteratorBase::Tile</a></div><div class="ttdeci">Traits::Tile Tile</div><div class="ttdoc">Tile shape. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:128</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a379a52ed1128fc9f93cad35d3e3233e5"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a379a52ed1128fc9f93cad35d3e3233e5">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::FragmentIterator</a></div><div class="ttdeci">FragmentIterator&lt; Fragment, Iterations, AccessType &gt; FragmentIterator</div><div class="ttdoc">The fragment iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:156</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_ae435b72b15eca46eb871446d92bd316e"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#ae435b72b15eca46eb871446d92bd316e">cutlass::TileStoreIterator::stage</a></div><div class="ttdeci">int stage</div><div class="ttdoc">The stage. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:751</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_ad2631ffcc963638aa5b016c66a2e2c55"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad2631ffcc963638aa5b016c66a2e2c55">cutlass::TileIteratorBase::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</div><div class="ttdoc">Initializes params. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:183</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a0e79ed59263ebc3478c43f2f9a50cb5a"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a0e79ed59263ebc3478c43f2f9a50cb5a">cutlass::TileStoreIterator::AccessType</a></div><div class="ttdeci">Base::AccessType AccessType</div><div class="ttdoc">Memory access type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:679</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a2b13136a970fae187fcb377c9be28fac"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a2b13136a970fae187fcb377c9be28fac">cutlass::TileStoreIterator::FragmentElement</a></div><div class="ttdeci">Base::FragmentElement FragmentElement</div><div class="ttdoc">Fragment element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:646</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">cutlass::MemorySpace::kGeneric</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aeb3faf5e8f976f5a4d158ceb41a1cc64"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aeb3faf5e8f976f5a4d158ceb41a1cc64">cutlass::TileLoadIterator::inc_stage</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_stage()</div><div class="ttdoc">Increment the stage. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:517</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorFragment_html_ae7b6a9ac856eca8b8e437305fa716a80"><div class="ttname"><a href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80">cutlass::IteratorFragment::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:67</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a64ae02b44f275ef2f016949aec769328"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a64ae02b44f275ef2f016949aec769328">cutlass::TileLoadIterator::PredicateVector</a></div><div class="ttdeci">Base::PredicateVector PredicateVector</div><div class="ttdoc">Default predicate mask type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:373</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_aa3922946bb0da0c0040dec44aa389ec1"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#aa3922946bb0da0c0040dec44aa389ec1">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar const *ptr, Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</div><div class="ttdoc">Initializes params. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:409</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_ac1cfe92f1543ba445fa10f1859a0db98"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#ac1cfe92f1543ba445fa10f1859a0db98">cutlass::TileStoreIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar *ptr, Index _stride_d, Index _stride_h, Index _stride_w, Index _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</div><div class="ttdoc">Initializes params. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:721</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ac7cca14d54bf3f0749db1ffaea7c9ae7"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ac7cca14d54bf3f0749db1ffaea7c9ae7">cutlass::TileIteratorBase::FragmentElement</a></div><div class="ttdeci">FragmentElement_ FragmentElement</div><div class="ttdoc">Fragment element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:110</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a5ac2280dfcac08cec17b8c0db1c4593e"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a5ac2280dfcac08cec17b8c0db1c4593e">cutlass::TileStoreIterator::Index</a></div><div class="ttdeci">Base::Index Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:658</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_a6bbadae6b13aef8f31a77cacd88b068b"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#a6bbadae6b13aef8f31a77cacd88b068b">cutlass::TileStoreIterator::Params::pointer</a></div><div class="ttdeci">Scalar * pointer</div><div class="ttdoc">Pointer to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:702</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a1187258cd4068a627e73bee0302f1fc2"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1187258cd4068a627e73bee0302f1fc2">cutlass::TileIteratorBase::Params::inc_advance</a></div><div class="ttdeci">Index inc_advance</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:179</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorFragment_html_ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419"><div class="ttname"><a href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">cutlass::IteratorFragment::kWmmaMatrix</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:67</div></div>
-<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a63ff1767c4923b0a2b6b64487306ed76"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">cutlass::FragmentIterator::FragmentShape</a></div><div class="ttdeci">ShapeMul&lt; Iterations, Shape&lt; 1, 1, 1, kElementsPerAccess &gt; &gt;::Shape FragmentShape</div><div class="ttdoc">The shape of the the fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:185</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a313984457c78eea66c980f6813047b9c"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a313984457c78eea66c980f6813047b9c">cutlass::TileIteratorBase::Params::stride_w</a></div><div class="ttdeci">Index stride_w</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:173</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a81c9c0b17bf5f214230ecf10e0690a4e"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a81c9c0b17bf5f214230ecf10e0690a4e">cutlass::TileLoadIterator::TileLoadIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileLoadIterator()</div><div class="ttdoc">Default constructor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:464</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html">cutlass::TileStoreIterator::Params</a></div><div class="ttdoc">Parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:925</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_af405f6c5f0bd8f04487d8a7f41dc1826"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">cutlass::TileIteratorBase::kFragmentElementType</a></div><div class="ttdeci">static FragmentElementType::Kind const kFragmentElementType</div><div class="ttdoc">Specifies iterator storage fragment type (Scalar or WmmaMatrix) </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:158</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_aac9e5b7890a53d46e5d49912b254ded7"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#aac9e5b7890a53d46e5d49912b254ded7">cutlass::TileIteratorBase::Traits</a></div><div class="ttdeci">Traits_ Traits</div><div class="ttdoc">concept TileTraits </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:146</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a64e0c9fb1f7d8fcc77bf0a915445ee6d"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a64e0c9fb1f7d8fcc77bf0a915445ee6d">cutlass::TileStoreIterator::params</a></div><div class="ttdeci">Params params</div><div class="ttdoc">Parameters structure. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1014</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_adfcd8a2e63bd0c515ef03760cc1c4283"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#adfcd8a2e63bd0c515ef03760cc1c4283">cutlass::TileStoreIterator::FragmentConstIterator</a></div><div class="ttdeci">Base::FragmentConstIterator FragmentConstIterator</div><div class="ttdoc">Fragment const iterator definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:907</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html">cutlass::TileLoadIterator</a></div><div class="ttdoc">An iterator implementing Tile Load Iterator Concept for loading a tile from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:399</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a5dd2a31d41d9098e928c559af12cbe66"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a5dd2a31d41d9098e928c559af12cbe66">cutlass::TileStoreIterator::BaseParams</a></div><div class="ttdeci">Base::Params BaseParams</div><div class="ttdoc">IteratorBase parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:916</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a64ce59c5deb58e208529761a44c7661d"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a64ce59c5deb58e208529761a44c7661d">cutlass::TileLoadIterator::inc_stage</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_stage()</div><div class="ttdoc">Increment the stage. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:699</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a1776bf51e1e23cde6c58529be58aafb9"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a1776bf51e1e23cde6c58529be58aafb9">cutlass::TileIteratorBase::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize()</div><div class="ttdoc">Gotta have this. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:321</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentElementType_html_a62883b0695dc3a7ff82916ff9d75df0b"><div class="ttname"><a href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0b">cutlass::FragmentElementType::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1RegularTilePredicateFunctor_html_a0e0b728d3685097a9280fbca6a47a2af"><div class="ttname"><a href="structcutlass_1_1RegularTilePredicateFunctor.html#a0e0b728d3685097a9280fbca6a47a2af">cutlass::RegularTilePredicateFunctor::RegularTilePredicateFunctor</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE RegularTilePredicateFunctor(Coord&lt; 3 &gt; _bounds)</div><div class="ttdoc">Constructs a predicate functor given the bounds of a tensor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:120</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_add962655973d5b8eff5673c04e053e4e"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#add962655973d5b8eff5673c04e053e4e">cutlass::TileLoadIterator::TileLoadIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileLoadIterator()</div><div class="ttdoc">Default constructor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:640</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca21a44c0b78017acea0d1ffe223e5ca38">cutlass::MemorySpace::kGeneric</a></div><div class="ttdef"><b>Definition:</b> load_store.h:40</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a9aebb9153659320f1391671c215c519e"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a9aebb9153659320f1391671c215c519e">cutlass::TileLoadIterator::BaseParams</a></div><div class="ttdeci">Base::Params BaseParams</div><div class="ttdoc">IteratorBase parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:479</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a5561e676148200c2fc85a603847cc596"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a5561e676148200c2fc85a603847cc596">cutlass::TileLoadIterator::params</a></div><div class="ttdeci">Params params</div><div class="ttdoc">Parameters structure. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:592</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a5eb6375410d4440c0f73a25c06d282b5"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a5eb6375410d4440c0f73a25c06d282b5">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::FragmentConstIterator</a></div><div class="ttdeci">FragmentConstIterator&lt; Fragment, Iterations, AccessType &gt; FragmentConstIterator</div><div class="ttdoc">The fragment const iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:201</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a8869188d1c3b867fe6389aadf04837bf"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8869188d1c3b867fe6389aadf04837bf">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar const *ptr)</div><div class="ttdoc">Initialize params to access storage object. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:552</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a723041057b1e8212e075959a22c0c120"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a723041057b1e8212e075959a22c0c120">cutlass::TileLoadIterator::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileLoadIterator &amp; operator+=(Coord&lt; 3 &gt; const &amp;offset)</div><div class="ttdoc">Adds a vector offset to the iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:713</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a6f74b87df129693ee6ac9a6fcc0c8910"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a6f74b87df129693ee6ac9a6fcc0c8910">cutlass::TileLoadIterator::load_element</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_element(AccessType &amp;value, int d, int h, int w, int c) const</div><div class="ttdoc">Loads a single fragment element from memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:686</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a10431ed94c0dd66a8c1d01ba7c8b5aa2"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a10431ed94c0dd66a8c1d01ba7c8b5aa2">cutlass::TileStoreIterator::AccessType</a></div><div class="ttdeci">Base::AccessType AccessType</div><div class="ttdoc">Memory access type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:898</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a1f3601c595f12e7083919ece9b1ec84ea33514d9f9f71acb901aa1d9860fa8126">cutlass::TileLoadIterator::kRequiresLoadFence</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:482</div></div>
+<div class="ttc" id="structcutlass_1_1DumpType_html"><div class="ttname"><a href="structcutlass_1_1DumpType.html">cutlass::DumpType</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:134</div></div>
+<div class="ttc" id="structcutlass_1_1TileTraits_html_a46b9e04bb8d33fcf8fc116cc48a555fc"><div class="ttname"><a href="structcutlass_1_1TileTraits.html#a46b9e04bb8d33fcf8fc116cc48a555fc">cutlass::TileTraits::Iterations</a></div><div class="ttdeci">Iterations_ Iterations</div><div class="ttdoc">Number of accesses performed. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:86</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentIterator_html_a63ff1767c4923b0a2b6b64487306ed76"><div class="ttname"><a href="structcutlass_1_1FragmentIterator.html#a63ff1767c4923b0a2b6b64487306ed76">cutlass::FragmentIterator::FragmentShape</a></div><div class="ttdeci">ShapeMul&lt; Iterations, Shape&lt; 1, 1, 1, kElementsPerAccess &gt; &gt;::Shape FragmentShape</div><div class="ttdoc">The shape of the the fragment. </div><div class="ttdef"><b>Definition:</b> fragment.h:183</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aa856180123f8d50a00222542fa6345cf"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aa856180123f8d50a00222542fa6345cf">cutlass::TileLoadIterator::load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load(Fragment &amp;fragment, PredicateIterator pred_it) const</div><div class="ttdoc">Loads a fragment without advancing the iterator.. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:771</div></div>
+<div class="ttc" id="structcutlass_1_1TileTraits_html_a0a494c2eacb51b65487f8405908a0214"><div class="ttname"><a href="structcutlass_1_1TileTraits.html#a0a494c2eacb51b65487f8405908a0214">cutlass::TileTraits::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">Access size. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:105</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a2e682380b5ea9ea05ee8ffd68a1205f0"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a2e682380b5ea9ea05ee8ffd68a1205f0">cutlass::TileIteratorBase::Storage</a></div><div class="ttdeci">Fragment&lt; Scalar, ShapeCount&lt; Tile &gt;::kCount, kFragmentSize &gt; Storage</div><div class="ttdoc">The storage. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:194</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a18248da35dc9a0ae2411121bee323085"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a18248da35dc9a0ae2411121bee323085">cutlass::TileStoreIterator::Skew</a></div><div class="ttdeci">Base::Skew Skew</div><div class="ttdoc">Skew quantity. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:880</div></div>
+<div class="ttc" id="structcutlass_1_1TileTraits_html_ad6d99ccf2fcd2bd47e45d068f4d99c82"><div class="ttname"><a href="structcutlass_1_1TileTraits.html#ad6d99ccf2fcd2bd47e45d068f4d99c82">cutlass::TileTraits::Delta</a></div><div class="ttdeci">Delta_ Delta</div><div class="ttdoc">Number of steps between accesses along each dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:83</div></div>
 <div class="ttc" id="load__store_8h_html"><div class="ttname"><a href="load__store_8h.html">load_store.h</a></div><div class="ttdoc">Defines abstractions for efficiently loading and storing vectors to memory. </div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a6608f7027994aaebdefd004fe94153d9"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a6608f7027994aaebdefd004fe94153d9">cutlass::TileLoadIterator::Params::pointer</a></div><div class="ttdeci">Scalar const  * pointer</div><div class="ttdoc">Pointer to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:390</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a037ccd942359e6bc8640a240b13cd330"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a037ccd942359e6bc8640a240b13cd330">cutlass::TileStoreIterator::TileStoreIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileStoreIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Constructs a tile store iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:780</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aafbb7a2137a07f0e07a12838b66bd511"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aafbb7a2137a07f0e07a12838b66bd511">cutlass::TileLoadIterator::Scalar</a></div><div class="ttdeci">Base::Scalar Scalar</div><div class="ttdoc">Scalar element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:422</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a46a2cbf407d3f43a7441323d150d96f1"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a46a2cbf407d3f43a7441323d150d96f1">cutlass::TileLoadIterator::FragmentShape</a></div><div class="ttdeci">Base::FragmentShape FragmentShape</div><div class="ttdoc">Fragment type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:455</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a9fb3af1ab0eeb5b17b42bb990edf0e4f"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a9fb3af1ab0eeb5b17b42bb990edf0e4f">cutlass::TileStoreIterator::kFragmentElementType</a></div><div class="ttdeci">static FragmentElementType::Kind const kFragmentElementType</div><div class="ttdoc">Specifies type of iterator fragment storage (Salar or WmmaMatrix) </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:868</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a2b58a21331cf3255f5d3938a39babf20"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a2b58a21331cf3255f5d3938a39babf20">cutlass::TileStoreIterator::TileStoreIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileStoreIterator(Params const &amp;, Scalar *ptr, ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Constructs a tile store iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1079</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a3ecd73de1202f7e4a0db86d9fe9de38d"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a3ecd73de1202f7e4a0db86d9fe9de38d">cutlass::TileStoreIterator::inc_advance</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_advance()</div><div class="ttdoc">Increment in the next dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1099</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a350f5beea87d811f43c55519bc0b9035"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a350f5beea87d811f43c55519bc0b9035">cutlass::TileStoreIterator::thread_offset</a></div><div class="ttdeci">Coord&lt; 4 &gt; thread_offset</div><div class="ttdoc">Offset of an individual lane from the start of the tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:748</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a352ed0773b37f03bf68e4b6cf9899474"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a352ed0773b37f03bf68e4b6cf9899474">cutlass::TileIteratorBase::Iterations</a></div><div class="ttdeci">Traits::Iterations Iterations</div><div class="ttdoc">Iterations. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:137</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_aef07ba456ea016092d7d2446751b76a3"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#aef07ba456ea016092d7d2446751b76a3">cutlass::TileIteratorBase::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars accessed per load/store. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:143</div></div>
-<div class="ttc" id="structcutlass_1_1TileTraits_html_ab831be0adb255eece4f2e12fd9713831"><div class="ttname"><a href="structcutlass_1_1TileTraits.html#ab831be0adb255eece4f2e12fd9713831">cutlass::TileTraits::Tile</a></div><div class="ttdeci">Tile_ Tile</div><div class="ttdoc">Shape of the tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:79</div></div>
-<div class="ttc" id="structcutlass_1_1TileTraits_html_af88f5cea9f452d83004ea0fa0f9d56eb"><div class="ttname"><a href="structcutlass_1_1TileTraits.html#af88f5cea9f452d83004ea0fa0f9d56eb">cutlass::TileTraits::Delta</a></div><div class="ttdeci">Delta_ Delta</div><div class="ttdoc">Number of steps between accesses along each dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:82</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a3ba93370bd4b2ede4bd4eb97ac0881be"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a3ba93370bd4b2ede4bd4eb97ac0881be">cutlass::TileIteratorBase::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Index _stride_d, Index _stride_h, Index _stride_w)</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:203</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_ad67234ec264354a22032bb2519575dc1"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ad67234ec264354a22032bb2519575dc1">cutlass::TileIteratorBase::Params::stride_d</a></div><div class="ttdeci">Index stride_d</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:171</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a91e13a7aad4b0acac002b6dd125abc37"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a91e13a7aad4b0acac002b6dd125abc37">cutlass::TileLoadIterator::inc_advance</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_advance()</div><div class="ttdoc">Increment in the next dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:514</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html"><div class="ttname"><a href="unioncutlass_1_1Vector.html">cutlass::Vector</a></div><div class="ttdef"><b>Definition:</b> vector.h:61</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ac2a7f94723259f0d3c7b8a6d5b8778bf"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ac2a7f94723259f0d3c7b8a6d5b8778bf">cutlass::TileLoadIterator::Delta</a></div><div class="ttdeci">Base::Delta Delta</div><div class="ttdoc">Delta. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:349</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a8a87c8ef986e110a01a9226012594a61"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a8a87c8ef986e110a01a9226012594a61">cutlass::TileStoreIterator::Tile</a></div><div class="ttdeci">Base::Tile Tile</div><div class="ttdoc">Tile shape. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:664</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_ae1cb260e7b05034ec9b7fa61c92bbc80"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#ae1cb260e7b05034ec9b7fa61c92bbc80">cutlass::TileStoreIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(Scalar *ptr)</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:939</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aa563bb10f8e58d97e81959556923e210"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aa563bb10f8e58d97e81959556923e210">cutlass::TileStoreIterator::TileStoreIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileStoreIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Constructs a tile store iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1066</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a15227102466522445261b6ea65c89c06"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a15227102466522445261b6ea65c89c06">cutlass::TileIteratorBase::Params::inc_h</a></div><div class="ttdeci">Index inc_h</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:224</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_acc0341b88143aac4ffd9bc1dcfaafa71"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#acc0341b88143aac4ffd9bc1dcfaafa71">cutlass::TileIteratorBase::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params()</div><div class="ttdoc">Constructs params. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:235</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html"><div class="ttname"><a href="unioncutlass_1_1Vector.html">cutlass::Vector</a></div><div class="ttdef"><b>Definition:</b> vector.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a24fa369165de783a72311d8ec3115c48"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a24fa369165de783a72311d8ec3115c48">cutlass::TileStoreIterator::Base</a></div><div class="ttdeci">TileIteratorBase&lt; Traits_, Scalar_, Advance_, MemorySpace, Index_, FragmentElement_, FragmentElementType_, Skew_ &gt; Base</div><div class="ttdoc">Base class. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:853</div></div>
+<div class="ttc" id="structcutlass_1_1Load_html"><div class="ttname"><a href="structcutlass_1_1Load.html">cutlass::Load</a></div><div class="ttdef"><b>Definition:</b> load_store.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a5016bd7b24938026a2879ec0054eb3b6"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a5016bd7b24938026a2879ec0054eb3b6">cutlass::TileStoreIterator::Traits</a></div><div class="ttdeci">Base::Traits Traits</div><div class="ttdoc">concept TileTraits </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:856</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a7c27a7b0d8593b002eca186c15fdc869"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a7c27a7b0d8593b002eca186c15fdc869">cutlass::TileLoadIterator::FragmentShape</a></div><div class="ttdeci">Base::FragmentShape FragmentShape</div><div class="ttdoc">Fragment type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:358</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html">cutlass::IteratorAdvance</a></div><div class="ttdoc">Specifies dimension in which post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:61</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_adaebec9eacf767f63f048033de73ea5b"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#adaebec9eacf767f63f048033de73ea5b">cutlass::TileStoreIterator::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">Source or destination memory space. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:655</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a49cf3ee608debebf451cdd8c2125d073"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a49cf3ee608debebf451cdd8c2125d073">cutlass::TileLoadIterator::inc_w</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_w()</div><div class="ttdoc">Increment in the W dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:511</div></div>
-<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord</a></div><div class="ttdoc">Statically-sized array specifying Coords within a tensor. </div><div class="ttdef"><b>Definition:</b> coord.h:48</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a561ceb1093b28b8dce67df0129b7b8b8"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a561ceb1093b28b8dce67df0129b7b8b8">cutlass::TileIteratorBase::ImmediateOffsetStrides</a></div><div class="ttdeci">Traits::ImmediateOffsetStrides ImmediateOffsetStrides</div><div class="ttdoc">The strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:134</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aaf72c4897641080b1d84c0bbd8d813cc"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aaf72c4897641080b1d84c0bbd8d813cc">cutlass::TileLoadIterator::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:364</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a552a67fb03c28e985d143f6193f88308"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a552a67fb03c28e985d143f6193f88308">cutlass::TileStoreIterator::Iterations</a></div><div class="ttdeci">Base::Iterations Iterations</div><div class="ttdoc">Iterations. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:670</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a88a90437f11d029ef109ebb4f828f282"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a88a90437f11d029ef109ebb4f828f282">cutlass::TileLoadIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(Scalar const *ptr)</div><div class="ttdoc">Initialize params to access storage object. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:505</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a235647baff946e483dd61a2069aa01d2"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a235647baff946e483dd61a2069aa01d2">cutlass::TileIteratorBase::Params::stride_d</a></div><div class="ttdeci">long long stride_d</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:219</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_ace8a65d90db264a0ee93a810be38918f"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#ace8a65d90db264a0ee93a810be38918f">cutlass::TileStoreIterator::FragmentIterator</a></div><div class="ttdeci">Base::FragmentIterator FragmentIterator</div><div class="ttdoc">Fragment iterator definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:904</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html">cutlass::IteratorAdvance</a></div><div class="ttdoc">Specifies dimension in which post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:64</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a2de32338814d0554b05ca985dbb7e192"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a2de32338814d0554b05ca985dbb7e192">cutlass::TileLoadIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(TensorRef const &amp;ref)</div><div class="ttdoc">Constructs with a CompactTensorRef&lt;&gt; </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:509</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a78380e92553010656516400d51e14c7e"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a78380e92553010656516400d51e14c7e">cutlass::TileLoadIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(Scalar const *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</div><div class="ttdoc">Initialize params to access storage object. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:515</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ab8bfa9914c4ba49a583d1cfaa8a62d56"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">cutlass::TileIteratorBase::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">Source or destination memory space. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:161</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a9f4501c6e8ba0f4511919c1b63c14e69"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a9f4501c6e8ba0f4511919c1b63c14e69">cutlass::TileStoreIterator::TileStoreIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileStoreIterator()</div><div class="ttdoc">Default constructor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1062</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1FragmentElementType_html_a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b"><div class="ttname"><a href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0babb4fa5d034035e4c751287dd9e366f3b">cutlass::FragmentElementType::kScalar</a></div><div class="ttdef"><b>Definition:</b> load_store.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_ac22d9229f3f8993d52b808dced173803"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#ac22d9229f3f8993d52b808dced173803">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(TensorRef const &amp;ref)</div><div class="ttdoc">Initializes params to access a raw pointer. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:537</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_ac3273690cdd0a1c2e61d29b289daf5b5"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#ac3273690cdd0a1c2e61d29b289daf5b5">cutlass::TileStoreIterator::Scalar</a></div><div class="ttdeci">Base::Scalar Scalar</div><div class="ttdoc">Scalar element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:859</div></div>
 <div class="ttc" id="vector_8h_html"><div class="ttname"><a href="vector_8h.html">vector.h</a></div><div class="ttdoc">Defines a 1D vector of elements held in the registers of each thread. </div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a></div><div class="ttdoc">Iterator for accessing a stripmined tile in memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:102</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a38c8ec1e9d0117172981b4c7dd4bf3be"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a38c8ec1e9d0117172981b4c7dd4bf3be">cutlass::TileIteratorBase::kIteratorFragment</a></div><div class="ttdeci">static IteratorFragment::Kind const kIteratorFragment</div><div class="ttdoc">Specifies iterator storage fragment type (Scalar or WmmaMatrix) </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:116</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a1c433ba0eea5e6a46f36101d8de98ed0"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a1c433ba0eea5e6a46f36101d8de98ed0">cutlass::TileStoreIterator::Delta</a></div><div class="ttdeci">Base::Delta Delta</div><div class="ttdoc">Delta. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:667</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5">cutlass::IteratorAdvance::kD</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a5ebab59862d5f50ad980871515d999b0"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a5ebab59862d5f50ad980871515d999b0">cutlass::TileStoreIterator::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar * data() const</div><div class="ttdoc">Returns the current pointer. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:804</div></div>
-<div class="ttc" id="structcutlass_1_1TileTraits_html_af9c0fc178dac7f9dac8d254da34e04dd"><div class="ttname"><a href="structcutlass_1_1TileTraits.html#af9c0fc178dac7f9dac8d254da34e04dd">cutlass::TileTraits::ThreadOffset</a></div><div class="ttdeci">ThreadOffset_ ThreadOffset</div><div class="ttdoc">Functor that returns the logical coordinate of each entity&amp;#39;s initial offset in the tile...</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:88</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_abb3dde23971ad35a477b75ee99381b53"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#abb3dde23971ad35a477b75ee99381b53">cutlass::TileIteratorBase::AccessType</a></div><div class="ttdeci">Vectorize&lt; FragmentElement, kAccessSize &gt;::Type AccessType</div><div class="ttdoc">The elements loaded/store by one instruction. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:146</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a0a93f37fd366a48c4ed6cc39aa850eb5"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a0a93f37fd366a48c4ed6cc39aa850eb5">cutlass::TileLoadIterator::inc_d</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_d()</div><div class="ttdoc">Increment in the D dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:505</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a3793f5d5846862f22f1de736e36ae7c1"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a3793f5d5846862f22f1de736e36ae7c1">cutlass::TileStoreIterator::inc_h</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_h()</div><div class="ttdoc">Increment in the H dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:810</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a60258b7c1a1708f97e28f8f6c292bfe4"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a60258b7c1a1708f97e28f8f6c292bfe4">cutlass::TileStoreIterator::store</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store(Fragment &amp;fragment) const</div><div class="ttdoc">Stores a fragment without advancing the iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:876</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a228a95cf2c9c6089287984fcbf5cface"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a228a95cf2c9c6089287984fcbf5cface">cutlass::TileLoadIterator::inc_h</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_h()</div><div class="ttdoc">Increment in the H dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:508</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator::Params</a></div><div class="ttdoc">Parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:388</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ac21bd78b31c99c826f0eddb5aa033bf1"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ac21bd78b31c99c826f0eddb5aa033bf1">cutlass::TileLoadIterator::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">Source or destination memory space. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:337</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a6a6f51f459f98c0cddeacf476660cd27"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a6a6f51f459f98c0cddeacf476660cd27">cutlass::TileStoreIterator::ThreadOffset</a></div><div class="ttdeci">Base::ThreadOffset ThreadOffset</div><div class="ttdoc">ThreadOffset functor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:673</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a871c9b82109eab432c5a1d465643bf97"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a871c9b82109eab432c5a1d465643bf97">cutlass::TileIteratorBase::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">Source or destination memory space. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:119</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a0843b2d82422e7178f324a8d3be9d705"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a0843b2d82422e7178f324a8d3be9d705">cutlass::TileStoreIterator::FragmentIterator</a></div><div class="ttdeci">Base::FragmentIterator FragmentIterator</div><div class="ttdoc">Fragment iterator definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:685</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a9c4b332857f419e6f789a93404dc2140"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a9c4b332857f419e6f789a93404dc2140">cutlass::TileLoadIterator::load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load(Fragment &amp;fragment, PredicateIterator pred_it) const</div><div class="ttdoc">Loads a fragment without advancing the iterator.. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:568</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a4f89c5182659de94605300e15c3651b2"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a4f89c5182659de94605300e15c3651b2">cutlass::TileStoreIterator::TileStoreIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileStoreIterator(Params const &amp;, SharedStorage &amp;shared_storage, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Constructs a tile store iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:793</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a8291a51bf96f86bc77d0e3453345dbd5"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a8291a51bf96f86bc77d0e3453345dbd5">cutlass::TileLoadIterator::initialize_predicates</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Initializes a predicate vector. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:447</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a0d7b595d7959cc1680fc07c2e02e1c8e"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a0d7b595d7959cc1680fc07c2e02e1c8e">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::Fragment</a></div><div class="ttdeci">Fragment&lt; FragmentElement, ShapeCount&lt; Iterations &gt;::kCount *kAccessSize &gt; Fragment</div><div class="ttdoc">The fragment. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:154</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a1058cdec33393db9c16b28c21d8957db"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a1058cdec33393db9c16b28c21d8957db">cutlass::TileLoadIterator::load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load(Fragment &amp;fragment) const</div><div class="ttdoc">Loads a fragment without advancing the iterator.. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:575</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">cutlass::IteratorAdvance::kW</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ac1a64e974dcd69c3a86a31db6cbff421"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ac1a64e974dcd69c3a86a31db6cbff421">cutlass::TileIteratorBase::kAdvance</a></div><div class="ttdeci">static IteratorAdvance::Kind const kAdvance</div><div class="ttdoc">Specifies dimension in which post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:113</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_ac6e81450a2d78555a6c2415dcc42b178"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ac6e81450a2d78555a6c2415dcc42b178">cutlass::TileIteratorBase::Params::inc_w</a></div><div class="ttdeci">Index inc_w</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:177</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a7726cdd4fe056c59bb04adb9e5504457"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a7726cdd4fe056c59bb04adb9e5504457">cutlass::TileLoadIterator::thread_offset</a></div><div class="ttdeci">Coord&lt; 4 &gt; thread_offset</div><div class="ttdoc">Offset of an individual lane from the start of the tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:436</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a9bc6c04f4a3adeb5a29743fa43425088"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a9bc6c04f4a3adeb5a29743fa43425088">cutlass::TileIteratorBase::Delta</a></div><div class="ttdeci">Traits::Delta Delta</div><div class="ttdoc">Distance along each dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:131</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aa3fd9859de68d76e07ebee06c6ccee92"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aa3fd9859de68d76e07ebee06c6ccee92">cutlass::TileLoadIterator::stage</a></div><div class="ttdeci">int stage</div><div class="ttdoc">Stage argument enables wrapping after some number of tiles have been loaded. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:439</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a48de0db7ee2ee9699b946a9d5a0364c7"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a48de0db7ee2ee9699b946a9d5a0364c7">cutlass::TileStoreIterator::FragmentConstIterator</a></div><div class="ttdeci">Base::FragmentConstIterator FragmentConstIterator</div><div class="ttdoc">Fragment const iterator definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:688</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aac4d49854d63f632627b6974f9b59dbb"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aac4d49854d63f632627b6974f9b59dbb">cutlass::TileStoreIterator::TileStoreIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileStoreIterator()</div><div class="ttdoc">Default constructor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:776</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a5aa507eaeb63951f8e69fb223ec41809"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a5aa507eaeb63951f8e69fb223ec41809">cutlass::TileStoreIterator::PredicateVector</a></div><div class="ttdeci">Base::PredicateVector PredicateVector</div><div class="ttdoc">Default predicate mask type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:691</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a5a179e148ccd770e1703f288624fa9b8"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a5a179e148ccd770e1703f288624fa9b8">cutlass::TileLoadIterator::Pointer</a></div><div class="ttdeci">Scalar const  * Pointer</div><div class="ttdoc">The pointer type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:385</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a></div><div class="ttdoc">Iterator for accessing a stripmined tile in memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:144</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a8c9856709d3392d8b70dce9a13fa529a"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a8c9856709d3392d8b70dce9a13fa529a">cutlass::TileLoadIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)</div><div class="ttdoc">Initialize params to access storage object. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:530</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a388d464c35cc1bcd509d22937f38dcf6"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a388d464c35cc1bcd509d22937f38dcf6">cutlass::TileLoadIterator::Params::pointer</a></div><div class="ttdeci">Scalar const  * pointer</div><div class="ttdoc">Pointer to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:493</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_adbb7fdb5710295cdfb86e090a8c40f44"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#adbb7fdb5710295cdfb86e090a8c40f44">cutlass::TileStoreIterator::store_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store_post_increment(Fragment const &amp;fragment, PredicateIterator pred_it)</div><div class="ttdoc">Stores a fragment and advances to the next tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1141</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa56ecb02f4ed3bd7ae4a9c971805ee8c5">cutlass::IteratorAdvance::kD</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aea9fbc738003a7424cfa9b0527d4a352"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aea9fbc738003a7424cfa9b0527d4a352">cutlass::TileLoadIterator::kAdvance</a></div><div class="ttdeci">static IteratorAdvance::Kind const kAdvance</div><div class="ttdoc">Specifies in which dimension post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:428</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a7f2fe3fa2eb764bf664817097d22fe45"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">cutlass::TileIteratorBase::FragmentElement</a></div><div class="ttdeci">FragmentElement_ FragmentElement</div><div class="ttdoc">Fragment element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:152</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aa27a456bf12d0e44adc89a1c2ca7bc3b"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aa27a456bf12d0e44adc89a1c2ca7bc3b">cutlass::TileStoreIterator::store</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store(Fragment const &amp;fragment) const</div><div class="ttdoc">Stores a fragment without advancing the iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1184</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a00a33d258b9d60c8f9d4bfc48e2c6825"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a00a33d258b9d60c8f9d4bfc48e2c6825">cutlass::TileStoreIterator::thread_offset</a></div><div class="ttdeci">Coord&lt; 4 &gt; thread_offset</div><div class="ttdoc">Offset of an individual lane from the start of the tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1017</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a8628ea7116f736b59c644fc0d85d395f"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a8628ea7116f736b59c644fc0d85d395f">cutlass::TileStoreIterator::Iterations</a></div><div class="ttdeci">Base::Iterations Iterations</div><div class="ttdoc">Iterations. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:889</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a39cecf8198d1286f497930cce632c671"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a39cecf8198d1286f497930cce632c671">cutlass::TileStoreIterator::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars accessed per load/store. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:874</div></div>
+<div class="ttc" id="structcutlass_1_1RegularTilePredicateFunctor_html"><div class="ttname"><a href="structcutlass_1_1RegularTilePredicateFunctor.html">cutlass::RegularTilePredicateFunctor</a></div><div class="ttdoc">Functor computing a predicate given the logical position of an access. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:112</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a7fcf13023c85cf1e1150d867bd1559d4"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a7fcf13023c85cf1e1150d867bd1559d4">cutlass::TileIteratorBase::Tile</a></div><div class="ttdeci">Traits::Tile Tile</div><div class="ttdoc">Tile shape. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:170</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aa6977ded39ead005b3435f13f0e51116"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aa6977ded39ead005b3435f13f0e51116">cutlass::TileStoreIterator::add_pointer_offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void add_pointer_offset(Index offset)</div><div class="ttdoc">Adds a raw offset to the pointer. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1124</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a8a4edd46b8cad3eeafc2a3dc3a344499"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">cutlass::TileIteratorBase::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars accessed per load/store. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:185</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html">cutlass::TileLoadIterator::Params</a></div><div class="ttdoc">Parameters. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:491</div></div>
+<div class="ttc" id="structcutlass_1_1ComputeOffsetFromStrides_html_aa28231590bfa0ced0f317e6a4d52dc1e"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">cutlass::ComputeOffsetFromStrides::get</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE int get(int d, int h, int w, int c)</div><div class="ttdef"><b>Definition:</b> shape.h:199</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ad71f865c61f02eba981c056ef71653f5"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ad71f865c61f02eba981c056ef71653f5">cutlass::TileLoadIterator::PredicateVector</a></div><div class="ttdeci">Base::PredicateVector PredicateVector</div><div class="ttdoc">Default predicate mask type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:473</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_ad33c46a584deb1c7968e08e349382af3"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#ad33c46a584deb1c7968e08e349382af3">cutlass::TileStoreIterator::load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load(Fragment &amp;fragment, int d)</div><div class="ttdoc">Loads a fragment without advancing the iterator.. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1255</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ae8f2c93ec43646be70d4b9f32d034125"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ae8f2c93ec43646be70d4b9f32d034125">cutlass::TileLoadIterator::AccessType</a></div><div class="ttdeci">Base::AccessType AccessType</div><div class="ttdoc">Memory access type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:458</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aeb6cc0e2990c06c83b789b579a03b15f"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aeb6cc0e2990c06c83b789b579a03b15f">cutlass::TileLoadIterator::Skew</a></div><div class="ttdeci">Base::Skew Skew</div><div class="ttdoc">Skew quantity. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:440</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_afdb38f790d9c7cf1ac238643103b45ce"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#afdb38f790d9c7cf1ac238643103b45ce">cutlass::TileStoreIterator::Delta</a></div><div class="ttdeci">Base::Delta Delta</div><div class="ttdoc">Delta. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:886</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_1_1Params_html_a9a40662ff01a14e0616ce1a0fbb70662"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator_1_1Params.html#a9a40662ff01a14e0616ce1a0fbb70662">cutlass::TileLoadIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar const *ptr, long long stride_d, Index stride_h, Index stride_w)</div><div class="ttdoc">Initializes params to access a raw pointer. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:560</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aaec63ca7faf0cf4f54cac31c7d6e0d3d"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aaec63ca7faf0cf4f54cac31c7d6e0d3d">cutlass::TileStoreIterator::inc_h</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_h()</div><div class="ttdoc">Increment in the H dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1093</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a0218adf569557b17d8e36a3d97fb185e"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a0218adf569557b17d8e36a3d97fb185e">cutlass::TileStoreIterator::store</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store(Fragment const &amp;fragment, PredicateIterator pred_it) const</div><div class="ttdoc">Stores a fragment without advancing the iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1177</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_af4f964364fc54a2b9a431fa529f6c44c"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#af4f964364fc54a2b9a431fa529f6c44c">cutlass::TileLoadIterator::inc_w</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_w()</div><div class="ttdoc">Increment in the W dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:680</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a83dadcea858a5e426dcea54400138480"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a83dadcea858a5e426dcea54400138480">cutlass::TileLoadIterator::load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load(Fragment &amp;fragment) const</div><div class="ttdoc">Loads a fragment without advancing the iterator.. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:778</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a076357a165302f01f449fd91f9ed402a"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a076357a165302f01f449fd91f9ed402a">cutlass::TileStoreIterator::ThreadOffset</a></div><div class="ttdeci">Base::ThreadOffset ThreadOffset</div><div class="ttdoc">ThreadOffset functor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:892</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaa567e61af8a3401d302f3a3ab26418df0">cutlass::IteratorAdvance::kW</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a2af872794b35a631f9c1a97df0c6d177"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a2af872794b35a631f9c1a97df0c6d177">cutlass::TileLoadIterator::kFragmentElementType</a></div><div class="ttdeci">static FragmentElementType::Kind const kFragmentElementType</div><div class="ttdoc">Specifies type of iterator fragment storage (Salar or WmmaMatrix) </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:431</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a1b94be88a160b21347c0eb58ed8e1b51"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a1b94be88a160b21347c0eb58ed8e1b51">cutlass::TileLoadIterator::inc_h</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_h()</div><div class="ttdoc">Increment in the H dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:677</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_aa58daf082cf97108e2e2ad0b1fd89208"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#aa58daf082cf97108e2e2ad0b1fd89208">cutlass::TileIteratorBase::initialize_predicates</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it, PredicateFunctor const &amp;predicate_func, Coord&lt; 3 &gt; const &amp;offset)</div><div class="ttdoc">Initializes a predicate vector. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:342</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_affac5a91f0659bb6739db25d20822c34"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#affac5a91f0659bb6739db25d20822c34">cutlass::TileIteratorBase::Scalar</a></div><div class="ttdeci">Scalar_ Scalar</div><div class="ttdoc">Scalar element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:149</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a7808588ce0b12017379dcbe1ba9c511f"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a7808588ce0b12017379dcbe1ba9c511f">cutlass::TileLoadIterator::thread_offset</a></div><div class="ttdeci">Coord&lt; 4 &gt; thread_offset</div><div class="ttdoc">Offset of an individual lane from the start of the tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:595</div></div>
+<div class="ttc" id="structcutlass_1_1RegularTilePredicateFunctor_html_ac2f49374e6f0a27ad2daffcb1f74708a"><div class="ttname"><a href="structcutlass_1_1RegularTilePredicateFunctor.html#ac2f49374e6f0a27ad2daffcb1f74708a">cutlass::RegularTilePredicateFunctor::bounds</a></div><div class="ttdeci">Coord&lt; 3 &gt; bounds</div><div class="ttdoc">Dimensions of the bounding volume. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:116</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a9aaac43bc2258e06824c354a068e7815"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a9aaac43bc2258e06824c354a068e7815">cutlass::TileIteratorBase::Delta</a></div><div class="ttdeci">Traits::Delta Delta</div><div class="ttdoc">Distance along each dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:173</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_aefe67241dde93bb032c5b4d82bc3f761"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#aefe67241dde93bb032c5b4d82bc3f761">cutlass::TileIteratorBase::kFragmentSize</a></div><div class="ttdeci">static int const kFragmentSize</div><div class="ttdoc">The size of storage needed per fragment. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:191</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a35ab2595b09912d31a60c2a4e5847c88"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a35ab2595b09912d31a60c2a4e5847c88">cutlass::TileStoreIterator::store_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store_post_increment(Fragment const &amp;fragment)</div><div class="ttdoc">Stores a fragment and advances to the next tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1170</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_a79304c022d2466c97cd671a98128815a"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#a79304c022d2466c97cd671a98128815a">cutlass::TileStoreIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params()</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:935</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_a0d36c05a4a757db5ebfe5f180b174b8c"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#a0d36c05a4a757db5ebfe5f180b174b8c">cutlass::TileStoreIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar *ptr)</div><div class="ttdoc">Initialize params to access storage object. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:975</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a96e55c1ce2475115e6e834f3996c9ee8"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a96e55c1ce2475115e6e834f3996c9ee8">cutlass::TileStoreIterator::FragmentElement</a></div><div class="ttdeci">Base::FragmentElement FragmentElement</div><div class="ttdoc">Fragment element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:862</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aa3ce9690a0e8c6457e570607474af7a6"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aa3ce9690a0e8c6457e570607474af7a6">cutlass::TileStoreIterator::load</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load(Fragment &amp;fragment, PredicateIterator pred_it) const</div><div class="ttdoc">Loads a fragment without advancing the iterator.. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1241</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_afae37ebc78884290300f38fce7c021b1"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#afae37ebc78884290300f38fce7c021b1">cutlass::TileStoreIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(TensorRef const &amp;ref)</div><div class="ttdoc">Constructs with a CompactTensorRef&lt;&gt; </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:943</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aeb92092230ae933ff6cc4a36960d0674"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aeb92092230ae933ff6cc4a36960d0674">cutlass::TileLoadIterator::inc_d</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_d()</div><div class="ttdoc">Increment in the D dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:674</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a5c8a4318ffd400363d9c7572c07ff32a"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a5c8a4318ffd400363d9c7572c07ff32a">cutlass::TileLoadIterator::load_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_post_increment(Fragment &amp;fragment)</div><div class="ttdoc">Loads a fragment and advances the iterator to the next tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:764</div></div>
 <div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase::Params</a></div><div class="ttdoc">Parameters to the iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:170</div></div>
-<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aaa83f05e0cb3204053c3ee1da036cd36"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aaa83f05e0cb3204053c3ee1da036cd36">cutlass::TileLoadIterator::Index</a></div><div class="ttdeci">Base::Index Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:340</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a187e0852ec4862f6d3cb6249bedc3bb3"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a187e0852ec4862f6d3cb6249bedc3bb3">cutlass::TileStoreIterator::inc_stage</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_stage()</div><div class="ttdoc">Increment the stage. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:819</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a57aa2c36eb6ad9d2500c1f5396b3a526"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a57aa2c36eb6ad9d2500c1f5396b3a526">cutlass::TileStoreIterator::store_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)</div><div class="ttdoc">Stores a fragment and advances to the next tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:835</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aa573a47a9ffc3e07239a09e2bc470cf1"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aa573a47a9ffc3e07239a09e2bc470cf1">cutlass::TileStoreIterator::inc_w</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_w()</div><div class="ttdoc">Increment in the W dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:813</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a7ab46a9210b421d32af4d1394892cfd5"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a7ab46a9210b421d32af4d1394892cfd5">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::PredicateVector</a></div><div class="ttdeci">PredicateVector&lt; ShapeCount&lt; Iterations &gt;::kCount &gt; PredicateVector</div><div class="ttdoc">Default predicate mask type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:163</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorFragment_html_ae7b6a9ac856eca8b8e437305fa716a80aeca44a186befa21ccae44eb4dc7b6954"><div class="ttname"><a href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80aeca44a186befa21ccae44eb4dc7b6954">cutlass::IteratorFragment::kScalar</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:67</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a17163e93d7d3616b4950925f72bb4c16"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a17163e93d7d3616b4950925f72bb4c16">cutlass::TileIteratorBase::Scalar</a></div><div class="ttdeci">Scalar_ Scalar</div><div class="ttdoc">Scalar element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:107</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorFragment_html"><div class="ttname"><a href="structcutlass_1_1IteratorFragment.html">cutlass::IteratorFragment</a></div><div class="ttdoc">Specifies whether iterator storage fragment consists of Scalar values or WMMA matrix. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:66</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_af95fa1b5102176a0fa9b17713fd48150"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#af95fa1b5102176a0fa9b17713fd48150">cutlass::TileIteratorBase::Params::inc_d</a></div><div class="ttdeci">Index inc_d</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:175</div></div>
-<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:620</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ae7add0ee02bbec2c130ebaf608ab0696"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ae7add0ee02bbec2c130ebaf608ab0696">cutlass::TileIteratorBase::Traits</a></div><div class="ttdeci">Traits_ Traits</div><div class="ttdoc">concept TileTraits </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:104</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html">cutlass::TileIteratorBase::Params</a></div><div class="ttdoc">Parameters to the iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:213</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a57b284e6cbff892d45e5cfeb0ae1e3ed"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a57b284e6cbff892d45e5cfeb0ae1e3ed">cutlass::TileStoreIterator::operator+=</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileStoreIterator &amp; operator+=(Coord&lt; 3 &gt; const &amp;offset)</div><div class="ttdoc">Adds a vector offset to the iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1116</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_ad61206a742c8c5ab5bcd64b76ece9f74"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#ad61206a742c8c5ab5bcd64b76ece9f74">cutlass::TileStoreIterator::inc_stage</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_stage()</div><div class="ttdoc">Increment the stage. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1102</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ad9c77ca0521d18a90dd3542a3941f016"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ad9c77ca0521d18a90dd3542a3941f016">cutlass::TileLoadIterator::FragmentIterator</a></div><div class="ttdeci">Base::FragmentIterator FragmentIterator</div><div class="ttdoc">Fragment iterator definition. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:467</div></div>
+<div class="ttc" id="structcutlass_1_1RegularTilePredicateFunctor_html_a084c0a2732827a74f7a30873c5883827"><div class="ttname"><a href="structcutlass_1_1RegularTilePredicateFunctor.html#a084c0a2732827a74f7a30873c5883827">cutlass::RegularTilePredicateFunctor::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator()(Coord&lt; 3 &gt; iteration, Coord&lt; 3 &gt; offset) const</div><div class="ttdoc">Computes the predicate given the logical position of an access. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:124</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_a9cf4cd4ecb0a81cf3c03a70c7bfc4e09"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#a9cf4cd4ecb0a81cf3c03a70c7bfc4e09">cutlass::TileStoreIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(Scalar *ptr, long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, Index _inc_advance)</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:955</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_aaa5d98b72576478ba04e4ad554faa827"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#aaa5d98b72576478ba04e4ad554faa827">cutlass::TileLoadIterator::Index</a></div><div class="ttdeci">Base::Index Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:437</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_aa676184bbd4c2e3f6c09dbc548e6c4e1"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#aa676184bbd4c2e3f6c09dbc548e6c4e1">cutlass::TileStoreIterator::inc_w</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void inc_w()</div><div class="ttdoc">Increment in the W dimension. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1096</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a44200854ad5b35c1863f73c435b8750b"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a44200854ad5b35c1863f73c435b8750b">cutlass::TileStoreIterator::kAdvance</a></div><div class="ttdeci">static IteratorAdvance::Kind const kAdvance</div><div class="ttdoc">Specifies in which dimension post-increment accesses advance. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:865</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_a23c9e9d1d2bed7e5d8579df9cc42dda3"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#a23c9e9d1d2bed7e5d8579df9cc42dda3">cutlass::TileStoreIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Scalar *ptr, long long stride_d, Index stride_h, Index stride_w)</div><div class="ttdoc">Initializes params to access a raw pointer. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:982</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ad8e730768c1805d98e23886a492389d3"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ad8e730768c1805d98e23886a492389d3">cutlass::TileLoadIterator::stage</a></div><div class="ttdeci">int stage</div><div class="ttdoc">Stage argument enables wrapping after some number of tiles have been loaded. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:598</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_a44870d45442ec45c8eaba46ab47a3ad9"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#a44870d45442ec45c8eaba46ab47a3ad9">cutlass::TileIteratorBase::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(long long _stride_d, Index _stride_h, Index _stride_w)</div><div class="ttdoc">Initializes the parameters object from a vector of strides. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:289</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_a1636f4e15ca7f9f56bfccb93a2826c30"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#a1636f4e15ca7f9f56bfccb93a2826c30">cutlass::TileLoadIterator::TileLoadIterator</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE TileLoadIterator(Params const &amp;, Scalar const *ptr, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0), ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Constructs a tile load iterator. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:659</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_1_1Params_html_aca14058b112b7d5105658457341726cb"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator_1_1Params.html#aca14058b112b7d5105658457341726cb">cutlass::TileStoreIterator::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(SharedStorage &amp;storage)</div><div class="ttdoc">Initialize params to access storage object. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:968</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_af0be1271cfe6d6c03a9a76ff992d8a5c"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#af0be1271cfe6d6c03a9a76ff992d8a5c">cutlass::TileIteratorBase::Params::inc_w</a></div><div class="ttdeci">Index inc_w</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:225</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a890a7239a89679662aeaea797ba32d32"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a890a7239a89679662aeaea797ba32d32">cutlass::TileStoreIterator::initialize_predicates</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)</div><div class="ttdoc">Initializes a predicate vector using an arbitrary predicate functor. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1047</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html">cutlass::TileStoreIterator</a></div><div class="ttdoc">An iterator implementing Tile Store Iterator Concept for storing a tile to memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:836</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_ab04617136a3bf909ef27eb97ea5ef81c"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#ab04617136a3bf909ef27eb97ea5ef81c">cutlass::TileIteratorBase::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(long long _stride_d, Index _stride_h, Index _stride_w, long long _inc_d, Index _inc_h, Index _inc_w, long long _inc_advance)</div><div class="ttdoc">Constructs params. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:239</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadIterator_html_ad65b7a0a5b4f42c590642ef7b269f232"><div class="ttname"><a href="structcutlass_1_1TileLoadIterator.html#ad65b7a0a5b4f42c590642ef7b269f232">cutlass::TileLoadIterator::add_pointer_offset</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void add_pointer_offset(Index offset)</div><div class="ttdoc">Adds a raw offset to the pointer. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:723</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_1_1Params_html_af7e7a71a9fa41cc3f6d0e5963963339d"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase_1_1Params.html#af7e7a71a9fa41cc3f6d0e5963963339d">cutlass::TileIteratorBase::Params::stride_w</a></div><div class="ttdeci">Index stride_w</div><div class="ttdef"><b>Definition:</b> tile_iterator.h:221</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreIterator_html_a57c56e2fe02fc5c771283e35d59b9214"><div class="ttname"><a href="structcutlass_1_1TileStoreIterator.html#a57c56e2fe02fc5c771283e35d59b9214">cutlass::TileStoreIterator::load_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)</div><div class="ttdoc">Loads a fragment and advances the iterator to the next tile. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:1205</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/tile__stream_8h.html b/docs/tile__stream_8h.html
new file mode 100644
index 0000000000..2c856793a0
--- /dev/null
+++ b/docs/tile__stream_8h.html
@@ -0,0 +1,130 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: tile_stream.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">tile_stream.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Implements the tile stream concept, composing an iterator with a transformation. Offers split-phase semantics, separating the initiation of an asynchronous memory operation with a fence forcing it to complete.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="convert_8h_source.html">cutlass/convert.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&quot;</code><br />
+</div>
+<p><a href="tile__stream_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Generic stream for loading and transforming fragments.  <a href="structcutlass_1_1TileLoadStream.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::PredicateVector</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Empty predicate vector struct.  <a href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileLoadStream_1_1Params.html">cutlass::TileLoadStream&lt; Iterator_, Transformer_ &gt;::Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters object used to construct generic load stream.  <a href="structcutlass_1_1TileLoadStream_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Generic stream for transforming and storing fragments.  <a href="structcutlass_1_1TileStoreStream.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::PredicateVector</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Empty predicate vector struct.  <a href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1TileStoreStream_1_1Params.html">cutlass::TileStoreStream&lt; Iterator_, Transformer_ &gt;::Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Parameters used to construct the stream.  <a href="structcutlass_1_1TileStoreStream_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Generic stream for loading and transforming fragments.  <a href="structcutlass_1_1PredicatedTileLoadStream.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream&lt; Iterator_, PredicateFunctor_, Transformer_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Generic stream for transforming and storing fragments.  <a href="structcutlass_1_1PredicatedTileStoreStream.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/tile__stream_8h_source.html b/docs/tile__stream_8h_source.html
new file mode 100644
index 0000000000..21804ab784
--- /dev/null
+++ b/docs/tile__stream_8h_source.html
@@ -0,0 +1,162 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: tile_stream.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">tile_stream.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="tile__stream_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="comment">// clang-format off</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_, <span class="keyword">typename</span> Transformer_ = Copy&lt;<span class="keyword">typename</span> Iterator_::Fragment&gt; &gt;</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html">   45</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a> {</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">   51</a></span>&#160;  <span class="keyword">typedef</span> Iterator_ <a class="code" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">Iterator</a>;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">   54</a></span>&#160;  <span class="keyword">typedef</span> Transformer_ <a class="code" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">Transformer</a>;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">   57</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Iterator::Fragment <a class="code" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a>;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">   60</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Transformer::OutputFragment <a class="code" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a>;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">   63</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Iterator::TensorRef <a class="code" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">TensorRef</a>;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html">   66</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html">PredicateVector</a> {};</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">   69</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Iterator::Index <a class="code" href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">Index</a>;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream_1_1Params.html">   72</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a> {</div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream_1_1Params.html#a0430f377595718291f84ef62eb6f4e57">   74</a></span>&#160;    <span class="keyword">typename</span> Iterator::Params <a class="code" href="structcutlass_1_1TileLoadStream_1_1Params.html#a0430f377595718291f84ef62eb6f4e57">iterator</a>;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;    <span class="comment">// Methods</span></div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00082"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream_1_1Params.html#a90772ac34f8c49f049eb62fada0a2165">   82</a></span>&#160;    <a class="code" href="structcutlass_1_1TileLoadStream_1_1Params.html#a90772ac34f8c49f049eb62fada0a2165">Params</a>() {}</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream_1_1Params.html#a50f136516b139f011939015c8c417ddd">   86</a></span>&#160;    <a class="code" href="structcutlass_1_1TileLoadStream_1_1Params.html#a50f136516b139f011939015c8c417ddd">Params</a>(<span class="keyword">typename</span> Iterator::Params <span class="keyword">const</span> &amp;_iterator) : <a class="code" href="structcutlass_1_1TileLoadStream_1_1Params.html#a0430f377595718291f84ef62eb6f4e57">iterator</a>(_iterator) {}</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;  };</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">   94</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">Iterator</a> <a class="code" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">iterator</a>;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">   97</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a> <a class="code" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">fetched_fragment</a>;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">  100</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">Transformer</a> <a class="code" href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">transformer</a>;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">  103</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a> <a class="code" href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">transformed_fragment</a>;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3">  111</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3">TileLoadStream</a>(<a class="code" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;_params, <a class="code" href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">TensorRef</a> <span class="keyword">const</span> &amp;_ref)</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;      : <a class="code" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">iterator</a>(_params.<a class="code" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">iterator</a>, _ref) {}</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7">  116</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7">TileLoadStream</a>(<a class="code" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;_params,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;threadblock_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0)</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  ): <a class="code" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">iterator</a>(_params.<a class="code" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">iterator</a>, threadblock_offset) { }</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23">  122</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23">copy</a>() { <a class="code" href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">iterator</a>.load_post_increment(<a class="code" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">fetched_fragment</a>); }</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627">  126</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627">commit</a>() { <a class="code" href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">transformer</a>.transform(<a class="code" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">fetched_fragment</a>, <a class="code" href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">transformed_fragment</a>); }</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00130"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093">  130</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Fragment</a> &amp;<a class="code" href="structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093">intermediate_fragment</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">fetched_fragment</a>; }</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00134"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be">  134</a></span>&#160;  <a class="code" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">TransformedFragment</a> &amp;<a class="code" href="structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be">fragment</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">transformed_fragment</a>; }</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;};</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_, <span class="keyword">typename</span> Transformer_ = Copy&lt;<span class="keyword">typename</span> Iterator_::Fragment&gt; &gt;</div><div class="line"><a name="l00141"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html">  141</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a> {</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">  147</a></span>&#160;  <span class="keyword">typedef</span> Iterator_ <a class="code" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">Iterator</a>;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00150"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">  150</a></span>&#160;  <span class="keyword">typedef</span> Transformer_ <a class="code" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">Transformer</a>;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00153"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">  153</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Transformer::InputFragment <a class="code" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a>;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00156"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">  156</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Transformer::OutputFragment <a class="code" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a>;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">  159</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Iterator::TensorRef <a class="code" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">TensorRef</a>;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html">  162</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html">PredicateVector</a> {};</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;</div><div class="line"><a name="l00165"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">  165</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Iterator::Index <a class="code" href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">Index</a>;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;</div><div class="line"><a name="l00168"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream_1_1Params.html">  168</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a> {</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream_1_1Params.html#acd106661221997d7c5943daac8eb5088">  170</a></span>&#160;    <span class="keyword">typename</span> Iterator::Params <a class="code" href="structcutlass_1_1TileStoreStream_1_1Params.html#acd106661221997d7c5943daac8eb5088">iterator</a>;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;    <span class="comment">// Methods</span></div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <span class="comment">//</span></div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00178"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream_1_1Params.html#adfa2399bf13cdff16b7bfe1cb0dd2bd9">  178</a></span>&#160;    <a class="code" href="structcutlass_1_1TileStoreStream_1_1Params.html#adfa2399bf13cdff16b7bfe1cb0dd2bd9">Params</a>() {}</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00182"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream_1_1Params.html#acc400568f7694f818b5afbb109bd2e63">  182</a></span>&#160;    <a class="code" href="structcutlass_1_1TileStoreStream_1_1Params.html#acc400568f7694f818b5afbb109bd2e63">Params</a>(<span class="keyword">typename</span> Iterator::Params <span class="keyword">const</span> &amp;_iterator) : <a class="code" href="structcutlass_1_1TileStoreStream_1_1Params.html#acd106661221997d7c5943daac8eb5088">iterator</a>(_iterator) {}</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;  };</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">  190</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">Iterator</a> <a class="code" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">iterator</a>;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">  193</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">Transformer</a> <a class="code" href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">transformer</a>;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">  196</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> <a class="code" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">source_fragment</a>;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">  199</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a> <a class="code" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">transformed_fragment</a>;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00207"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b">  207</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b">TileStoreStream</a>(<a class="code" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;_params, <a class="code" href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">TensorRef</a> <span class="keyword">const</span> &amp;_ref)</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;      : <a class="code" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">iterator</a>(_params.<a class="code" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">iterator</a>, _ref) {}</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00212"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#a08e7e7bf74e1e0d670dd6a4e65d14084">  212</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreStream.html#a08e7e7bf74e1e0d670dd6a4e65d14084">TileStoreStream</a>(<a class="code" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;_params,</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;                  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;threadblock_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0)</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;  ): <a class="code" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">iterator</a>(_params.<a class="code" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">iterator</a>, threadblock_offset) { }</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009">  218</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009">copy</a>() {</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">transformer</a>.transform(<a class="code" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">source_fragment</a>, <a class="code" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">transformed_fragment</a>);</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">iterator</a>.store_post_increment(<a class="code" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">transformed_fragment</a>);</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;  }</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00226"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#aa0f3c75e59054d6229de159474c9c978">  226</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreStream.html#aa0f3c75e59054d6229de159474c9c978">copy</a>(<a class="code" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> <span class="keyword">const</span> &amp;frag) {</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">source_fragment</a> = frag;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;    <a class="code" href="structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009">copy</a>();</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;  }</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00233"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579">  233</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579">commit</a>() {}</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5">  237</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> &amp;<a class="code" href="structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5">fragment</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">source_fragment</a>; }</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00241"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71">  241</a></span>&#160;  <a class="code" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">TransformedFragment</a> &amp;<a class="code" href="structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71">intermediate_fragment</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">transformed_fragment</a>; }</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;};</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_,</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;          <span class="keyword">typename</span> PredicateFunctor_ =</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;              RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;,</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;          <span class="keyword">typename</span> Transformer_ = Copy&lt;typename Iterator_::Fragment&gt; &gt;</div><div class="line"><a name="l00251"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html">  251</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html">PredicatedTileLoadStream</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileLoadStream.html">TileLoadStream</a>&lt;Iterator_, Transformer_&gt; {</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;</div><div class="line"><a name="l00256"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html#ac7f57248d3e10c9309f042e5d41440c1">  256</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileLoadStream.html">TileLoadStream&lt;Iterator_, Transformer_&gt;</a> <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#ac7f57248d3e10c9309f042e5d41440c1">Base</a>;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div><div class="line"><a name="l00259"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html#a1f2314aa062360b249b7c57c39af5430">  259</a></span>&#160;  <span class="keyword">typedef</span> Iterator_ <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#a1f2314aa062360b249b7c57c39af5430">Iterator</a>;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;</div><div class="line"><a name="l00262"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5">  262</a></span>&#160;  <span class="keyword">typedef</span> PredicateFunctor_ <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5">PredicateFunctor</a>;</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;</div><div class="line"><a name="l00265"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html#a9f79fd30231825b38694bf7c1d12ec2a">  265</a></span>&#160;  <span class="keyword">typedef</span> Transformer_ <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#a9f79fd30231825b38694bf7c1d12ec2a">Transformer</a>;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;</div><div class="line"><a name="l00268"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html#a7f802c4c733375d0a63f91c58196e6a0">  268</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">Base::Fragment</a> <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#a7f802c4c733375d0a63f91c58196e6a0">Fragment</a>;</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;</div><div class="line"><a name="l00271"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html#adeb35451885c1c4fb930ae8c914ceb20">  271</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">Base::TransformedFragment</a> <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#adeb35451885c1c4fb930ae8c914ceb20">TransformedFragment</a>;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;</div><div class="line"><a name="l00274"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6">  274</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileLoadStream_1_1Params.html">Base::Params</a> <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6">Params</a>;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;</div><div class="line"><a name="l00281"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f">  281</a></span>&#160;  <span class="keyword">typename</span> Iterator::PredicateVector <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f">predicates</a>;</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00289"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html#a672a8883d16eff4ecc90dc79162084d3">  289</a></span>&#160;  <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#a672a8883d16eff4ecc90dc79162084d3">PredicatedTileLoadStream</a>(<a class="code" href="structcutlass_1_1TileLoadStream_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;_params,</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;                          <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;bounds,</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;                          <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;threadblock_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;      : <a class="code" href="structcutlass_1_1TileLoadStream.html">Base</a>(_params, threadblock_offset) {</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;    this-&gt;iterator.initialize_predicates(</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;        <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f">predicates</a>.begin(), <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5">PredicateFunctor</a>(bounds), threadblock_offset);</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;  }</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00299"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileLoadStream.html#a60a03c95452fe627477933d60815f7cb">  299</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#a60a03c95452fe627477933d60815f7cb">copy</a>() { this-&gt;iterator.load_post_increment(this-&gt;fetched_fragment, <a class="code" href="structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f">predicates</a>.begin()); }</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;};</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Iterator_,</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;          <span class="keyword">typename</span> PredicateFunctor_ =</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;              RegularTilePredicateFunctor&lt;typename Iterator_::Traits::Delta&gt;,</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;          <span class="keyword">typename</span> Transformer_ = Copy&lt;typename Iterator_::Fragment&gt; &gt;</div><div class="line"><a name="l00309"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html">  309</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html">PredicatedTileStoreStream</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileStoreStream.html">TileStoreStream</a>&lt;Iterator_, Transformer_&gt; {</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;  <span class="comment">// Type definitions</span></div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;</div><div class="line"><a name="l00314"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#afc320f4d29f05102e9de0064ca31e49b">  314</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileStoreStream.html">TileStoreStream&lt;Iterator_, Transformer_&gt;</a> <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#afc320f4d29f05102e9de0064ca31e49b">Base</a>;</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;</div><div class="line"><a name="l00317"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#a0ba9097d54f3ba7b7dab12012631fa76">  317</a></span>&#160;  <span class="keyword">typedef</span> Iterator_ <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#a0ba9097d54f3ba7b7dab12012631fa76">Iterator</a>;</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;</div><div class="line"><a name="l00320"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f">  320</a></span>&#160;  <span class="keyword">typedef</span> PredicateFunctor_ <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f">PredicateFunctor</a>;</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;</div><div class="line"><a name="l00323"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#a0f91f328ed2b6bd65ef4eeafe18f9afd">  323</a></span>&#160;  <span class="keyword">typedef</span> Transformer_ <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#a0f91f328ed2b6bd65ef4eeafe18f9afd">Transformer</a>;</div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;</div><div class="line"><a name="l00326"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#a6c9737f5b09e7eb1aa7daabb00ae2e69">  326</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Base::Fragment</a> <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#a6c9737f5b09e7eb1aa7daabb00ae2e69">Fragment</a>;</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;</div><div class="line"><a name="l00329"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#af349831b19bb91d414a83c67d14f6927">  329</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">Base::TransformedFragment</a> <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#af349831b19bb91d414a83c67d14f6927">TransformedFragment</a>;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;</div><div class="line"><a name="l00332"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba">  332</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileStoreStream_1_1Params.html">Base::Params</a> <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba">Params</a>;</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;</div><div class="line"><a name="l00339"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe">  339</a></span>&#160;  <span class="keyword">typename</span> Iterator::PredicateVector <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe">predicates</a>;</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00347"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#ac4aafc6bcc6cf3bff5b31b9cd60fd667">  347</a></span>&#160;  <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#ac4aafc6bcc6cf3bff5b31b9cd60fd667">PredicatedTileStoreStream</a>(<a class="code" href="structcutlass_1_1TileStoreStream_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;_params,</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;                           <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;bounds,</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;                           <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;threadblock_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;      : <a class="code" href="structcutlass_1_1TileStoreStream.html">Base</a>(_params, threadblock_offset) {</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;    this-&gt;iterator.initialize_predicates(</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;        <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe">predicates</a>.begin(), <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f">PredicateFunctor</a>(bounds), threadblock_offset);</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;  }</div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00357"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#ae84437a66097189406c2090d88a79350">  357</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#ae84437a66097189406c2090d88a79350">copy</a>() {</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;    this-&gt;transformer.transform(this-&gt;source_fragment, this-&gt;transformed_fragment);</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;    this-&gt;iterator.store_post_increment(this-&gt;transformed_fragment, <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe">predicates</a>.begin());</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;  }</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00364"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#a1d33da4593ae68e6301df54b310a70a0">  364</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#a1d33da4593ae68e6301df54b310a70a0">copy</a>(<a class="code" href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">Fragment</a> <span class="keyword">const</span> &amp;frag) {</div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;    this-&gt;source_fragment = frag;</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;    <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#ae84437a66097189406c2090d88a79350">copy</a>();</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;  }</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00371"></a><span class="lineno"><a class="line" href="structcutlass_1_1PredicatedTileStoreStream.html#a165a0d486f53fb2315d4e555c9f59891">  371</a></span>&#160;  <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1PredicatedTileStoreStream.html#a165a0d486f53fb2315d4e555c9f59891">commit</a>() {}</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;};</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;} <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;<span class="comment">// clang-format on</span></div><div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_af349831b19bb91d414a83c67d14f6927"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#af349831b19bb91d414a83c67d14f6927">cutlass::PredicatedTileStoreStream::TransformedFragment</a></div><div class="ttdeci">Base::TransformedFragment TransformedFragment</div><div class="ttdoc">Output fragment from transformer. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:329</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_a5b7161b2b97100c13c2c5009edd2a6be"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#a5b7161b2b97100c13c2c5009edd2a6be">cutlass::TileLoadStream::fragment</a></div><div class="ttdeci">CUTLASS_DEVICE TransformedFragment &amp; fragment()</div><div class="ttdoc">Accesses the loaded, transformed fragment. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:134</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_a1d33da4593ae68e6301df54b310a70a0"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#a1d33da4593ae68e6301df54b310a70a0">cutlass::PredicatedTileStoreStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy(Fragment const &amp;frag)</div><div class="ttdoc">Stores the fragment and increments the iterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:364</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_ad6ff1786f85d64053ece0ac8ae9a92b5"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#ad6ff1786f85d64053ece0ac8ae9a92b5">cutlass::TileStoreStream::fragment</a></div><div class="ttdeci">CUTLASS_DEVICE Fragment &amp; fragment()</div><div class="ttdoc">Accesses the transformed fragment. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:237</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_aed4e6a6f1bc125ea40ae04fb120d6a23"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#aed4e6a6f1bc125ea40ae04fb120d6a23">cutlass::TileLoadStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy()</div><div class="ttdoc">Loads a tile and increments the iterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:122</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_ae84437a66097189406c2090d88a79350"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#ae84437a66097189406c2090d88a79350">cutlass::PredicatedTileStoreStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy()</div><div class="ttdoc">Stores the fragment and increments the iterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:357</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_aea4357a67b8abef10f91a45e64840878"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#aea4357a67b8abef10f91a45e64840878">cutlass::TileStoreStream::Fragment</a></div><div class="ttdeci">Transformer::InputFragment Fragment</div><div class="ttdoc">Source fragment. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:153</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html_a8f8c7c54dba8a0c8cd0799b89130564f"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html#a8f8c7c54dba8a0c8cd0799b89130564f">cutlass::PredicatedTileLoadStream::predicates</a></div><div class="ttdeci">Iterator::PredicateVector predicates</div><div class="ttdoc">Predicates. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:281</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_aa0f3c75e59054d6229de159474c9c978"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#aa0f3c75e59054d6229de159474c9c978">cutlass::TileStoreStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy(Fragment const &amp;frag)</div><div class="ttdoc">Stores a fragment and increments the iterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:226</div></div>
+<div class="ttc" id="tile__iterator_8h_html"><div class="ttname"><a href="tile__iterator_8h.html">tile_iterator.h</a></div><div class="ttdoc">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently. </div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_a0ba9097d54f3ba7b7dab12012631fa76"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#a0ba9097d54f3ba7b7dab12012631fa76">cutlass::PredicatedTileStoreStream::Iterator</a></div><div class="ttdeci">Iterator_ Iterator</div><div class="ttdoc">TileLoadIterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:317</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_a2255d760e812cfe8e31f114cdb5793fe"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#a2255d760e812cfe8e31f114cdb5793fe">cutlass::TileStoreStream::TensorRef</a></div><div class="ttdeci">Iterator::TensorRef TensorRef</div><div class="ttdoc">Tensor reference expected by the underlying iterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_a21234ea1d4e0ff5cd599c763035b967b"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#a21234ea1d4e0ff5cd599c763035b967b">cutlass::TileLoadStream::Iterator</a></div><div class="ttdeci">Iterator_ Iterator</div><div class="ttdoc">TileLoadIterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:51</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html">cutlass::TileStoreStream</a></div><div class="ttdoc">Generic stream for transforming and storing fragments. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:141</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html_aedafb6329f8c484071e04ffd8949edc5"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html#aedafb6329f8c484071e04ffd8949edc5">cutlass::PredicatedTileLoadStream::PredicateFunctor</a></div><div class="ttdeci">PredicateFunctor_ PredicateFunctor</div><div class="ttdoc">Predicate functor. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:262</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html">cutlass::PredicatedTileLoadStream</a></div><div class="ttdoc">Generic stream for loading and transforming fragments. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:251</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html_adeb35451885c1c4fb930ae8c914ceb20"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html#adeb35451885c1c4fb930ae8c914ceb20">cutlass::PredicatedTileLoadStream::TransformedFragment</a></div><div class="ttdeci">Base::TransformedFragment TransformedFragment</div><div class="ttdoc">Output fragment from transformer. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:271</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_a6c9737f5b09e7eb1aa7daabb00ae2e69"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#a6c9737f5b09e7eb1aa7daabb00ae2e69">cutlass::PredicatedTileStoreStream::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment fetched from source memory. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:326</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_1_1PredicateVector_html"><div class="ttname"><a href="structcutlass_1_1TileStoreStream_1_1PredicateVector.html">cutlass::TileStoreStream::PredicateVector</a></div><div class="ttdoc">Empty predicate vector struct. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:162</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_ad0c7a51f1b98111ce332ed906601a4ba"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#ad0c7a51f1b98111ce332ed906601a4ba">cutlass::PredicatedTileStoreStream::Params</a></div><div class="ttdeci">Base::Params Params</div><div class="ttdoc">Parameters object used to construct generic load stream. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:332</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileStoreStream_1_1Params.html">cutlass::TileStoreStream::Params</a></div><div class="ttdoc">Parameters used to construct the stream. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:168</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html_a60a03c95452fe627477933d60815f7cb"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html#a60a03c95452fe627477933d60815f7cb">cutlass::PredicatedTileLoadStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy()</div><div class="ttdoc">Loads a tile and increments the iterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:299</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_ac61d45d91faf9d060509cf1e5c34fe01"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#ac61d45d91faf9d060509cf1e5c34fe01">cutlass::TileLoadStream::transformed_fragment</a></div><div class="ttdeci">TransformedFragment transformed_fragment</div><div class="ttdoc">Transformed fragment from transformer. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:103</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_ac004fc2e078591ced5d4e5521dfd8627"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#ac004fc2e078591ced5d4e5521dfd8627">cutlass::TileLoadStream::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit()</div><div class="ttdoc">Commits the fetched fragment and applies a transformation. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:126</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_a0f91f328ed2b6bd65ef4eeafe18f9afd"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#a0f91f328ed2b6bd65ef4eeafe18f9afd">cutlass::PredicatedTileStoreStream::Transformer</a></div><div class="ttdeci">Transformer_ Transformer</div><div class="ttdoc">Transformer. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:323</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_ab6d8716c166d071615f4e78d9ac6efb8"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#ab6d8716c166d071615f4e78d9ac6efb8">cutlass::TileLoadStream::iterator</a></div><div class="ttdeci">Iterator iterator</div><div class="ttdoc">Iterator to load tiles. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_1_1Params_html_acc400568f7694f818b5afbb109bd2e63"><div class="ttname"><a href="structcutlass_1_1TileStoreStream_1_1Params.html#acc400568f7694f818b5afbb109bd2e63">cutlass::TileStoreStream::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(typename Iterator::Params const &amp;_iterator)</div><div class="ttdoc">Constructor with iterator params. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:182</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_af2727fc0ddeffd1cdaef751140aa6093"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#af2727fc0ddeffd1cdaef751140aa6093">cutlass::TileLoadStream::intermediate_fragment</a></div><div class="ttdeci">CUTLASS_DEVICE Fragment &amp; intermediate_fragment()</div><div class="ttdoc">Accesses the loaded, transformed fragment. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:130</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html_a9f79fd30231825b38694bf7c1d12ec2a"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html#a9f79fd30231825b38694bf7c1d12ec2a">cutlass::PredicatedTileLoadStream::Transformer</a></div><div class="ttdeci">Transformer_ Transformer</div><div class="ttdoc">Transformer. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:265</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html_a3af1a02201f53d4d09adc483fdcc23a6"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html#a3af1a02201f53d4d09adc483fdcc23a6">cutlass::PredicatedTileLoadStream::Params</a></div><div class="ttdeci">Base::Params Params</div><div class="ttdoc">Parameters object used to construct generic load stream. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:274</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_aa8c192da812ec83329350e5838838f5e"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#aa8c192da812ec83329350e5838838f5e">cutlass::TileStoreStream::Transformer</a></div><div class="ttdeci">Transformer_ Transformer</div><div class="ttdoc">Transformer. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:150</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_a90ca6bbd882e39b5624ee0cd17e0d652"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#a90ca6bbd882e39b5624ee0cd17e0d652">cutlass::TileLoadStream::Index</a></div><div class="ttdeci">Iterator::Index Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_1_1Params_html_acd106661221997d7c5943daac8eb5088"><div class="ttname"><a href="structcutlass_1_1TileStoreStream_1_1Params.html#acd106661221997d7c5943daac8eb5088">cutlass::TileStoreStream::Params::iterator</a></div><div class="ttdeci">Iterator::Params iterator</div><div class="ttdoc">Parameters to the iterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:170</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_a2ecdfa152dcf7b3acaf8767f3e69cfbe"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#a2ecdfa152dcf7b3acaf8767f3e69cfbe">cutlass::PredicatedTileStoreStream::predicates</a></div><div class="ttdeci">Iterator::PredicateVector predicates</div><div class="ttdoc">Predicates. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:339</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_a54399d7a42c1330ef0e756949483c552"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#a54399d7a42c1330ef0e756949483c552">cutlass::TileLoadStream::transformer</a></div><div class="ttdeci">Transformer transformer</div><div class="ttdoc">Transformation applied to fragments. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:100</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_ac4aafc6bcc6cf3bff5b31b9cd60fd667"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#ac4aafc6bcc6cf3bff5b31b9cd60fd667">cutlass::PredicatedTileStoreStream::PredicatedTileStoreStream</a></div><div class="ttdeci">CUTLASS_DEVICE PredicatedTileStoreStream(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:347</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_a89b0f92764b5492a8d1de2c1ada60869"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#a89b0f92764b5492a8d1de2c1ada60869">cutlass::TileLoadStream::fetched_fragment</a></div><div class="ttdeci">Fragment fetched_fragment</div><div class="ttdoc">Fragment loaded via iterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:97</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_ad531770d336b2541c303c19148ef5cd7"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#ad531770d336b2541c303c19148ef5cd7">cutlass::TileLoadStream::Transformer</a></div><div class="ttdeci">Transformer_ Transformer</div><div class="ttdoc">Transformer. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:54</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_af85b3acfc29e41ee605df64b09698a8b"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#af85b3acfc29e41ee605df64b09698a8b">cutlass::TileStoreStream::TileStoreStream</a></div><div class="ttdeci">CUTLASS_DEVICE TileStoreStream(Params const &amp;_params, TensorRef const &amp;_ref)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:207</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_1_1Params_html_a90772ac34f8c49f049eb62fada0a2165"><div class="ttname"><a href="structcutlass_1_1TileLoadStream_1_1Params.html#a90772ac34f8c49f049eb62fada0a2165">cutlass::TileLoadStream::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params()</div><div class="ttdoc">Default constructor. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:82</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_a08e7e7bf74e1e0d670dd6a4e65d14084"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#a08e7e7bf74e1e0d670dd6a4e65d14084">cutlass::TileStoreStream::TileStoreStream</a></div><div class="ttdeci">CUTLASS_DEVICE TileStoreStream(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:212</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_a40a9b1a87cda0f3eb6f4b3e73a4fade3"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#a40a9b1a87cda0f3eb6f4b3e73a4fade3">cutlass::TileLoadStream::TileLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE TileLoadStream(Params const &amp;_params, TensorRef const &amp;_ref)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:111</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_a8c9256c5cdd1fd129dbcc6536375aca7"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#a8c9256c5cdd1fd129dbcc6536375aca7">cutlass::TileLoadStream::TensorRef</a></div><div class="ttdeci">Iterator::TensorRef TensorRef</div><div class="ttdoc">Tensor reference expected by the stream. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:63</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_1_1Params_html_adfa2399bf13cdff16b7bfe1cb0dd2bd9"><div class="ttname"><a href="structcutlass_1_1TileStoreStream_1_1Params.html#adfa2399bf13cdff16b7bfe1cb0dd2bd9">cutlass::TileStoreStream::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params()</div><div class="ttdoc">Default constructor. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:178</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_a61d57147150bffda0c1662d6131a3934"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#a61d57147150bffda0c1662d6131a3934">cutlass::TileStoreStream::transformer</a></div><div class="ttdeci">Transformer transformer</div><div class="ttdoc">Transformation applied to inputs. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:193</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_a94cde8bcdcedc934cc14de19e43375d1"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#a94cde8bcdcedc934cc14de19e43375d1">cutlass::TileLoadStream::TransformedFragment</a></div><div class="ttdeci">Transformer::OutputFragment TransformedFragment</div><div class="ttdoc">Output fragment from transformer. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html_a672a8883d16eff4ecc90dc79162084d3"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html#a672a8883d16eff4ecc90dc79162084d3">cutlass::PredicatedTileLoadStream::PredicatedTileLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE PredicatedTileLoadStream(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:289</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_aa6d4c263e057678b9f1b8ba6a9feb59f"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#aa6d4c263e057678b9f1b8ba6a9feb59f">cutlass::PredicatedTileStoreStream::PredicateFunctor</a></div><div class="ttdeci">PredicateFunctor_ PredicateFunctor</div><div class="ttdoc">Predicate functor. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:320</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html">cutlass::TileLoadStream</a></div><div class="ttdoc">Generic stream for loading and transforming fragments. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:45</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_1_1PredicateVector_html"><div class="ttname"><a href="structcutlass_1_1TileLoadStream_1_1PredicateVector.html">cutlass::TileLoadStream::PredicateVector</a></div><div class="ttdoc">Empty predicate vector struct. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:66</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_ab5176fc539364fdf63647dc33020f579"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#ab5176fc539364fdf63647dc33020f579">cutlass::TileStoreStream::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit()</div><div class="ttdoc">Commits the store operation. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:233</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_aea86cbd64781caabeee293cfa2070e81"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#aea86cbd64781caabeee293cfa2070e81">cutlass::TileLoadStream::Fragment</a></div><div class="ttdeci">Iterator::Fragment Fragment</div><div class="ttdoc">Fragment fetched from source memory. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:57</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1TileLoadStream_1_1Params.html">cutlass::TileLoadStream::Params</a></div><div class="ttdoc">Parameters object used to construct generic load stream. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:72</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_aa0e894a30d3a979ac56e5134360a08f4"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#aa0e894a30d3a979ac56e5134360a08f4">cutlass::TileStoreStream::Index</a></div><div class="ttdeci">Iterator::Index Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:165</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html_a7f802c4c733375d0a63f91c58196e6a0"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html#a7f802c4c733375d0a63f91c58196e6a0">cutlass::PredicatedTileLoadStream::Fragment</a></div><div class="ttdeci">Base::Fragment Fragment</div><div class="ttdoc">Fragment fetched from source memory. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:268</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_1_1Params_html_a50f136516b139f011939015c8c417ddd"><div class="ttname"><a href="structcutlass_1_1TileLoadStream_1_1Params.html#a50f136516b139f011939015c8c417ddd">cutlass::TileLoadStream::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(typename Iterator::Params const &amp;_iterator)</div><div class="ttdoc">Constructor with iterator params. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:86</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_ae14c71f6bb331030429d346f0140c993"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#ae14c71f6bb331030429d346f0140c993">cutlass::TileStoreStream::TransformedFragment</a></div><div class="ttdeci">Transformer::OutputFragment TransformedFragment</div><div class="ttdoc">Transformed fragment, compatible with Iterator::Fragment. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:156</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_a0880c28b3ec82d38571ed332451c8d6a"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#a0880c28b3ec82d38571ed332451c8d6a">cutlass::TileStoreStream::source_fragment</a></div><div class="ttdeci">Fragment source_fragment</div><div class="ttdoc">Source fragment. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:196</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_aff77aed0f1b1583b01a427fc935c5d71"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#aff77aed0f1b1583b01a427fc935c5d71">cutlass::TileStoreStream::intermediate_fragment</a></div><div class="ttdeci">CUTLASS_DEVICE TransformedFragment &amp; intermediate_fragment()</div><div class="ttdoc">Accesses the fragment after trasnforming. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:241</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_afc320f4d29f05102e9de0064ca31e49b"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#afc320f4d29f05102e9de0064ca31e49b">cutlass::PredicatedTileStoreStream::Base</a></div><div class="ttdeci">TileStoreStream&lt; Iterator_, Transformer_ &gt; Base</div><div class="ttdef"><b>Definition:</b> tile_stream.h:314</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_html_a6b8b65772d95c30d29e7833348d06ba7"><div class="ttname"><a href="structcutlass_1_1TileLoadStream.html#a6b8b65772d95c30d29e7833348d06ba7">cutlass::TileLoadStream::TileLoadStream</a></div><div class="ttdeci">CUTLASS_DEVICE TileLoadStream(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:116</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_a35009c9a697f20fd5a7ee634de4d6c97"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#a35009c9a697f20fd5a7ee634de4d6c97">cutlass::TileStoreStream::Iterator</a></div><div class="ttdeci">Iterator_ Iterator</div><div class="ttdoc">TileLoadIterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:147</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html_a165a0d486f53fb2315d4e555c9f59891"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html#a165a0d486f53fb2315d4e555c9f59891">cutlass::PredicatedTileStoreStream::commit</a></div><div class="ttdeci">CUTLASS_DEVICE void commit()</div><div class="ttdoc">Commits the store operation. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:371</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileStoreStream_html"><div class="ttname"><a href="structcutlass_1_1PredicatedTileStoreStream.html">cutlass::PredicatedTileStoreStream</a></div><div class="ttdoc">Generic stream for transforming and storing fragments. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:309</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_aeb5be2edcc35c7876abe5234663f9c48"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#aeb5be2edcc35c7876abe5234663f9c48">cutlass::TileStoreStream::transformed_fragment</a></div><div class="ttdeci">TransformedFragment transformed_fragment</div><div class="ttdoc">Transformed fragment from transformer. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:199</div></div>
+<div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html_a1f2314aa062360b249b7c57c39af5430"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html#a1f2314aa062360b249b7c57c39af5430">cutlass::PredicatedTileLoadStream::Iterator</a></div><div class="ttdeci">Iterator_ Iterator</div><div class="ttdoc">TileLoadIterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:259</div></div>
+<div class="ttc" id="structcutlass_1_1PredicatedTileLoadStream_html_ac7f57248d3e10c9309f042e5d41440c1"><div class="ttname"><a href="structcutlass_1_1PredicatedTileLoadStream.html#ac7f57248d3e10c9309f042e5d41440c1">cutlass::PredicatedTileLoadStream::Base</a></div><div class="ttdeci">TileLoadStream&lt; Iterator_, Transformer_ &gt; Base</div><div class="ttdef"><b>Definition:</b> tile_stream.h:256</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_a50b6b5bd08fd83baa36c3dc4461ca009"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#a50b6b5bd08fd83baa36c3dc4461ca009">cutlass::TileStoreStream::copy</a></div><div class="ttdeci">CUTLASS_DEVICE void copy()</div><div class="ttdoc">Stores a fragment and increments the iterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:218</div></div>
+<div class="ttc" id="structcutlass_1_1TileLoadStream_1_1Params_html_a0430f377595718291f84ef62eb6f4e57"><div class="ttname"><a href="structcutlass_1_1TileLoadStream_1_1Params.html#a0430f377595718291f84ef62eb6f4e57">cutlass::TileLoadStream::Params::iterator</a></div><div class="ttdeci">Iterator::Params iterator</div><div class="ttdoc">Parameters to the iterator. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:74</div></div>
+<div class="ttc" id="structcutlass_1_1TileStoreStream_html_a601a296ec830e9b98aca9d5cf4b4010c"><div class="ttname"><a href="structcutlass_1_1TileStoreStream.html#a601a296ec830e9b98aca9d5cf4b4010c">cutlass::TileStoreStream::iterator</a></div><div class="ttdeci">Iterator iterator</div><div class="ttdoc">Iterator to store tiles. </div><div class="ttdef"><b>Definition:</b> tile_stream.h:190</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/tile__traits__standard_8h.html b/docs/tile__traits__standard_8h.html
index d45ace8cad..504747e114 100644
--- a/docs/tile__traits__standard_8h.html
+++ b/docs/tile__traits__standard_8h.html
@@ -82,7 +82,7 @@
 
 <p>Defines tile traits for several tile partitioning arrangements of threads expected to achieve efficient streaming performance.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="tile__iterator_8h_source.html">cutlass/tile_iterator.h</a>&quot;</code><br />
 </div>
 <p><a href="tile__traits__standard_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -113,7 +113,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/tile__traits__standard_8h_source.html b/docs/tile__traits__standard_8h_source.html
index ed4a1efa90..533df7f3c6 100644
--- a/docs/tile__traits__standard_8h_source.html
+++ b/docs/tile__traits__standard_8h_source.html
@@ -76,7 +76,7 @@
 <div class="title">tile_traits_standard.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="tile__traits__standard_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> ThreadShape&gt;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="structcutlass_1_1TiledThreadOffset.html">   39</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TiledThreadOffset.html">TiledThreadOffset</a> {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1TiledThreadOffset.html#a7290b6ca9ef0bede634f69bd05450fa2">   42</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1TiledThreadOffset.html#a7290b6ca9ef0bede634f69bd05450fa2">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> thread_offset;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keywordtype">int</span> index = threadIdx.x;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    thread_offset[3] = (index % ThreadShape::kC);</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;    index = (index / ThreadShape::kC);</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;    thread_offset[2] = (index % ThreadShape::kW);</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    index = (index / ThreadShape::kW);</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    thread_offset[1] = (index % ThreadShape::kH);</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    index = (index / ThreadShape::kH);</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    thread_offset[0] = index;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    <span class="keywordflow">return</span> thread_offset;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  }</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;};</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> Threads&gt;</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html">   67</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html">TileTraitsStrideMajor</a> {</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac">   69</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac">Tile</a>;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">   72</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">kThreads</a> = Threads;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;  <span class="comment">// Static assertions</span></div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Tile&gt;::kDhw</a> % <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">kThreads</a>),</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#a03567f41ce616ebb4cdb309c85820599">   76</a></span>&#160;                <span class="stringliteral">&quot;Tiling undefined if elements not divisible by threads.&quot;</span>);</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Tile::kW &lt;= <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">kThreads</a>,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;                <span class="stringliteral">&quot;This specialization assumes there are more threads than the contiguous dimension &quot;</span></div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;                <span class="stringliteral">&quot;of the tile.&quot;</span>);</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">kThreads</a> / Tile::kW, Tile::kW, 1&gt; <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a03567f41ce616ebb4cdb309c85820599">ThreadShape</a>;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5">   86</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ThreadShape::kH, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5">Delta</a>;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2">   89</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, Tile::kH / <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">ThreadShape::kH</a>, 1, 1&gt; <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2">Iterations</a>;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c">   92</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TiledThreadOffset.html">TiledThreadOffset&lt;ThreadShape&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c">ThreadOffset</a>;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;};</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> Threads&gt;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html">  100</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html">TileTraitsContiguousMajor</a> {</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#a1607d53544302c12278793bc9b283763">  102</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a1607d53544302c12278793bc9b283763">Tile</a>;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">  105</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">kThreads</a> = Threads;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <span class="comment">// Static assertions</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Tile::kW &gt;= <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">kThreads</a>,</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;                <span class="stringliteral">&quot;This specialization assumes there are more threads than the contiguous dimension &quot;</span></div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#a33116b67e580292d4e354ca17ecd4167">  110</a></span>&#160;                <span class="stringliteral">&quot;of the tile.&quot;</span>);</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Tile&gt;::kDhw</a> % <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">kThreads</a>),</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                <span class="stringliteral">&quot;Tiling undefined if elements not divisible by threads.&quot;</span>);</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(Tile::kW % <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">kThreads</a>),</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;                <span class="stringliteral">&quot;The contiguous size of the tile must be divisible by the number of threads.&quot;</span>);</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, kThreads&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a33116b67e580292d4e354ca17ecd4167">ThreadShape</a>;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#ab1a4945bf562debeee1af813288e5896">  122</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, kThreads&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#ab1a4945bf562debeee1af813288e5896">Delta</a>;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#a425a20b642ae8736c12626b2de9b8b82">  125</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, Tile::kH, Tile::kW / <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">kThreads</a>&gt; <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a425a20b642ae8736c12626b2de9b8b82">Iterations</a>;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#a823ba83e9ca680da0af7d63be772a351">  128</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TiledThreadOffset.html">TiledThreadOffset&lt;ThreadShape&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a823ba83e9ca680da0af7d63be772a351">ThreadOffset</a>;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;};</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> Threads&gt;</div><div class="line"><a name="l00135"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html">  135</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraitsWarpRake.html">TileTraitsWarpRake</a> {</div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#adcd658d9daf286368a9d51c8c1647f89">  137</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#adcd658d9daf286368a9d51c8c1647f89">Tile</a>;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642">  140</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642">kThreads</a> = Threads;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">  143</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a> = 32;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">  146</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">kWarpCount</a> = <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642">kThreads</a> / <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a>;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;  <span class="comment">// Static assertions</span></div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Tile&gt;::kDhw</a> % <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642">kThreads</a>),</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;                <span class="stringliteral">&quot;Tiling undefined if elements not divisible by threads.&quot;</span>);</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(<a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642">kThreads</a> % <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a>), <span class="stringliteral">&quot;Number of threads must be divisible by the warp size.&quot;</span>);</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(Tile::kW % <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a>), <span class="stringliteral">&quot;Contiguous dimension must be divisible by the warp size&quot;</span>);</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#a8b1d3fe590f426ce11d597bb98c51bd4">  157</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a8b1d3fe590f426ce11d597bb98c51bd4">kWarpsStrided</a> = <a class="code" href="platform_8h.html#a39e234a3e3b0018b58df720bcb143420">__NV_STD_MIN</a>(<a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">kWarpCount</a>, Tile::kH);</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce">  160</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce">kWarpsContiguous</a> = <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">kWarpCount</a> / <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a8b1d3fe590f426ce11d597bb98c51bd4">kWarpsStrided</a>;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#ad6619e0b5d876fafd51c78e39f2c029e">  163</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, kWarpsStrided, kWarpsContiguous * kWarpSize&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad6619e0b5d876fafd51c78e39f2c029e">ThreadShape</a>;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#a3ce218b223c5716af40c316899324bbe">  166</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, kWarpsStrided, kWarpSize&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a3ce218b223c5716af40c316899324bbe">Delta</a>;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323">  169</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, Tile::kH / <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Delta::kH</a>, Tile::kW / <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadShape::kW</a>&gt; <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323">Iterations</a>;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html">  172</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00175"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html#a0e4edffb19218ccbf77995f6d20df000">  175</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html#a0e4edffb19218ccbf77995f6d20df000">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;      <span class="keywordtype">int</span> tid = threadIdx.x;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <span class="keywordtype">int</span> warp = (tid / <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a>);</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      <span class="keywordtype">int</span> lane = (tid % <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a>);</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;      <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kWarpSpanContiguous = <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a> * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Iterations::kW</a>;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;      <span class="keywordtype">int</span> warp_w = (warp % <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce">kWarpsContiguous</a>);</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      <span class="keywordtype">int</span> warp_h = (warp / <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce">kWarpsContiguous</a>);</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, warp_h, lane + kWarpSpanContiguous * warp_w, 0);</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;    }</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  };</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;};</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> Threads&gt;</div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html">  194</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraitsStandard.html">TileTraitsStandard</a> {</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b">  196</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b">Tile</a>;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">  199</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">kThreads</a> = Threads;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">  202</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a> = 32;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;</div><div class="line"><a name="l00205"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25">  205</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25">kWarpCount</a> = <a class="code" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">kThreads</a> / <a class="code" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a>;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;  <span class="comment">// Static assertions</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Tile&gt;::kDhw</a> % <a class="code" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">kThreads</a>),</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;                <span class="stringliteral">&quot;Tiling undefined if elements not divisible by threads.&quot;</span>);</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1conditional.html">platform::conditional</a> &lt;</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;      Tile::kW&lt;<a class="code" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a>,</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;               <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html">TileTraitsStrideMajor&lt;Tile, Threads&gt;</a>,</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;               <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1conditional.html">platform::conditional</a>&lt;!(Tile::kW % <a class="code" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a>),</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;                                              <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html">TileTraitsWarpRake&lt;Tile, Threads&gt;</a>,</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;                                              <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html">TileTraitsContiguousMajor&lt;Tile, Threads&gt;</a> &gt;::type&gt;::</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;          type Traits;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Delta Delta;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;  <span class="keyword">typedef</span> Delta ImmediateOffsetStrides;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Iterations Iterations;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ThreadOffset ThreadOffset;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;};</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1TileTraitsWarpRake_html_a410e44aa83f2179152a48f7aceb05323"><div class="ttname"><a href="structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323">cutlass::TileTraitsWarpRake::Iterations</a></div><div class="ttdeci">Shape&lt; 1, Tile::kH/Delta::kH, Tile::kW/ThreadShape::kW &gt; Iterations</div><div class="ttdoc">Number of iterations. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:169</div></div>
+<a href="tile__traits__standard_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> ThreadShape&gt;</div><div class="line"><a name="l00039"></a><span class="lineno"><a class="line" href="structcutlass_1_1TiledThreadOffset.html">   39</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TiledThreadOffset.html">TiledThreadOffset</a> {</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1TiledThreadOffset.html#a7290b6ca9ef0bede634f69bd05450fa2">   42</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1TiledThreadOffset.html#a7290b6ca9ef0bede634f69bd05450fa2">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> thread_offset;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;    <span class="keywordtype">int</span> index = threadIdx.x;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;    thread_offset[3] = (index % ThreadShape::kC);</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;    index = (index / ThreadShape::kC);</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;    thread_offset[2] = (index % ThreadShape::kW);</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    index = (index / ThreadShape::kW);</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    thread_offset[1] = (index % ThreadShape::kH);</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;    index = (index / ThreadShape::kH);</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;    thread_offset[0] = index;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    <span class="keywordflow">return</span> thread_offset;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  }</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;};</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> Threads&gt;</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html">   67</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html">TileTraitsStrideMajor</a> {</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac">   69</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac">Tile</a>;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">   72</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">kThreads</a> = Threads;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;  <span class="comment">// Static assertions</span></div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Tile&gt;::kDhw</a> % <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">kThreads</a>),</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#a03567f41ce616ebb4cdb309c85820599">   76</a></span>&#160;                <span class="stringliteral">&quot;Tiling undefined if elements not divisible by threads.&quot;</span>);</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Tile::kW &lt;= <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">kThreads</a>,</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;                <span class="stringliteral">&quot;This specialization assumes there are more threads than the contiguous dimension &quot;</span></div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;                <span class="stringliteral">&quot;of the tile.&quot;</span>);</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">kThreads</a> / Tile::kW, Tile::kW, 1&gt; <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a03567f41ce616ebb4cdb309c85820599">ThreadShape</a>;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5">   86</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, ThreadShape::kH, 1, 1&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5">Delta</a>;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2">   89</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, Tile::kH / <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">ThreadShape::kH</a>, 1, 1&gt; <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2">Iterations</a>;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c">   92</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TiledThreadOffset.html">TiledThreadOffset&lt;ThreadShape&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c">ThreadOffset</a>;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;};</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> Threads&gt;</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html">  100</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html">TileTraitsContiguousMajor</a> {</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#a1607d53544302c12278793bc9b283763">  102</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a1607d53544302c12278793bc9b283763">Tile</a>;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">  105</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">kThreads</a> = Threads;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <span class="comment">// Static assertions</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(Tile::kW &gt;= <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">kThreads</a>,</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;                <span class="stringliteral">&quot;This specialization assumes there are more threads than the contiguous dimension &quot;</span></div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#a33116b67e580292d4e354ca17ecd4167">  110</a></span>&#160;                <span class="stringliteral">&quot;of the tile.&quot;</span>);</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Tile&gt;::kDhw</a> % <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">kThreads</a>),</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                <span class="stringliteral">&quot;Tiling undefined if elements not divisible by threads.&quot;</span>);</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(Tile::kW % <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">kThreads</a>),</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;                <span class="stringliteral">&quot;The contiguous size of the tile must be divisible by the number of threads.&quot;</span>);</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, kThreads&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a33116b67e580292d4e354ca17ecd4167">ThreadShape</a>;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#ab1a4945bf562debeee1af813288e5896">  122</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, 1, kThreads&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#ab1a4945bf562debeee1af813288e5896">Delta</a>;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#a425a20b642ae8736c12626b2de9b8b82">  125</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, Tile::kH, Tile::kW / <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">kThreads</a>&gt; <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a425a20b642ae8736c12626b2de9b8b82">Iterations</a>;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsContiguousMajor.html#a823ba83e9ca680da0af7d63be772a351">  128</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TiledThreadOffset.html">TiledThreadOffset&lt;ThreadShape&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html#a823ba83e9ca680da0af7d63be772a351">ThreadOffset</a>;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;};</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> Threads&gt;</div><div class="line"><a name="l00135"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html">  135</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraitsWarpRake.html">TileTraitsWarpRake</a> {</div><div class="line"><a name="l00137"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#adcd658d9daf286368a9d51c8c1647f89">  137</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#adcd658d9daf286368a9d51c8c1647f89">Tile</a>;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642">  140</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642">kThreads</a> = Threads;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">  143</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a> = 32;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">  146</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">kWarpCount</a> = <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642">kThreads</a> / <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a>;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;  <span class="comment">// Static assertions</span></div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Tile&gt;::kDhw</a> % <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642">kThreads</a>),</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;                <span class="stringliteral">&quot;Tiling undefined if elements not divisible by threads.&quot;</span>);</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(<a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a11d943e15e397cbc5233b09071dff642">kThreads</a> % <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a>), <span class="stringliteral">&quot;Number of threads must be divisible by the warp size.&quot;</span>);</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(Tile::kW % <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a>), <span class="stringliteral">&quot;Contiguous dimension must be divisible by the warp size&quot;</span>);</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#a8b1d3fe590f426ce11d597bb98c51bd4">  157</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a8b1d3fe590f426ce11d597bb98c51bd4">kWarpsStrided</a> = <a class="code" href="platform_8h.html#a39e234a3e3b0018b58df720bcb143420">__NV_STD_MIN</a>(<a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">kWarpCount</a>, Tile::kH);</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce">  160</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce">kWarpsContiguous</a> = <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">kWarpCount</a> / <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a8b1d3fe590f426ce11d597bb98c51bd4">kWarpsStrided</a>;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#ad6619e0b5d876fafd51c78e39f2c029e">  163</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, kWarpsStrided, kWarpsContiguous * kWarpSize&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad6619e0b5d876fafd51c78e39f2c029e">ThreadShape</a>;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#a3ce218b223c5716af40c316899324bbe">  166</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;1, kWarpsStrided, kWarpSize&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a3ce218b223c5716af40c316899324bbe">Delta</a>;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323">  169</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape</a>&lt;1, Tile::kH / <a class="code" href="structcutlass_1_1Shape.html#a3a20d9062bba613c160bb2cd14f80a5e">Delta::kH</a>, Tile::kW / <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">ThreadShape::kW</a>&gt; <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323">Iterations</a>;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html">  172</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00175"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html#a0e4edffb19218ccbf77995f6d20df000">  175</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html#a0e4edffb19218ccbf77995f6d20df000">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;      <span class="keywordtype">int</span> tid = threadIdx.x;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <span class="keywordtype">int</span> warp = (tid / <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a>);</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      <span class="keywordtype">int</span> lane = (tid % <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a>);</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;      <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kWarpSpanContiguous = <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">kWarpSize</a> * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Iterations::kW</a>;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;      <span class="keywordtype">int</span> warp_w = (warp % <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce">kWarpsContiguous</a>);</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      <span class="keywordtype">int</span> warp_h = (warp / <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html#aede0832e95df911b1e6e3f1cc9e593ce">kWarpsContiguous</a>);</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, warp_h, lane + kWarpSpanContiguous * warp_w, 0);</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;    }</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  };</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;};</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Tile_, <span class="keywordtype">int</span> Threads&gt;</div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html">  194</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1TileTraitsStandard.html">TileTraitsStandard</a> {</div><div class="line"><a name="l00196"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b">  196</a></span>&#160;  <span class="keyword">typedef</span> Tile_ <a class="code" href="structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b">Tile</a>;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">  199</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">kThreads</a> = Threads;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">  202</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a> = 32;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;</div><div class="line"><a name="l00205"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25">  205</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25">kWarpCount</a> = <a class="code" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">kThreads</a> / <a class="code" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a>;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;</div><div class="line"><a name="l00208"></a><span class="lineno"><a class="line" href="structcutlass_1_1TileTraitsStandard.html#a5e04777205c7a292602880c59d6b43c8">  208</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1TileTraitsStandard.html#a5e04777205c7a292602880c59d6b43c8">kAccessSize</a> = 1;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;  <span class="comment">// Static assertions</span></div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(!(<a class="code" href="structcutlass_1_1ShapeCount.html">ShapeCount&lt;Tile&gt;::kDhw</a> % <a class="code" href="structcutlass_1_1TileTraitsStandard.html#a9cbcbe09aa6e9465b63dd22d59435af1">kThreads</a>),</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;                <span class="stringliteral">&quot;Tiling undefined if elements not divisible by threads.&quot;</span>);</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1conditional.html">platform::conditional</a> &lt;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;      Tile::kW&lt;<a class="code" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a>,</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;               <a class="code" href="structcutlass_1_1TileTraitsStrideMajor.html">TileTraitsStrideMajor&lt;Tile, Threads&gt;</a>,</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;               <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1platform_1_1conditional.html">platform::conditional</a>&lt;!(Tile::kW % <a class="code" href="structcutlass_1_1TileTraitsStandard.html#ae9f40eb177c440f01adcc2fe9ca7ec10">kWarpSize</a>),</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;                                              <a class="code" href="structcutlass_1_1TileTraitsWarpRake.html">TileTraitsWarpRake&lt;Tile, Threads&gt;</a>,</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;                                              <a class="code" href="structcutlass_1_1TileTraitsContiguousMajor.html">TileTraitsContiguousMajor&lt;Tile, Threads&gt;</a> &gt;::type&gt;::</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;          type Traits;</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Delta Delta;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, 0, 0&gt;</a> ImmediateOffsetStrides;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::Iterations Iterations;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> Traits::ThreadOffset ThreadOffset;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;};</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1TileTraitsWarpRake_html_a410e44aa83f2179152a48f7aceb05323"><div class="ttname"><a href="structcutlass_1_1TileTraitsWarpRake.html#a410e44aa83f2179152a48f7aceb05323">cutlass::TileTraitsWarpRake::Iterations</a></div><div class="ttdeci">Shape&lt; 1, Tile::kH/Delta::kH, Tile::kW/ThreadShape::kW &gt; Iterations</div><div class="ttdoc">Number of iterations. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:169</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsStrideMajor_html_a03a32694da75bb95422c6b550e3324e2"><div class="ttname"><a href="structcutlass_1_1TileTraitsStrideMajor.html#a03a32694da75bb95422c6b550e3324e2">cutlass::TileTraitsStrideMajor::Iterations</a></div><div class="ttdeci">Shape&lt; 1, Tile::kH/ThreadShape::kH, 1, 1 &gt; Iterations</div><div class="ttdoc">Number of iterations. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:89</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsStandard_html_a1e8f90991e179d13971b84494c989d25"><div class="ttname"><a href="structcutlass_1_1TileTraitsStandard.html#a1e8f90991e179d13971b84494c989d25">cutlass::TileTraitsStandard::kWarpCount</a></div><div class="ttdeci">static int const kWarpCount</div><div class="ttdoc">Number of participating warps. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:205</div></div>
@@ -84,7 +84,7 @@
 <div class="ttc" id="tile__iterator_8h_html"><div class="ttname"><a href="tile__iterator_8h.html">tile_iterator.h</a></div><div class="ttdoc">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently. </div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsWarpRake_html_a8b1d3fe590f426ce11d597bb98c51bd4"><div class="ttname"><a href="structcutlass_1_1TileTraitsWarpRake.html#a8b1d3fe590f426ce11d597bb98c51bd4">cutlass::TileTraitsWarpRake::kWarpsStrided</a></div><div class="ttdeci">static int const kWarpsStrided</div><div class="ttdoc">Warps strip-mined across strided dimension. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:157</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsContiguousMajor_html_a53d10552356855bf7379632e72bbe0c9"><div class="ttname"><a href="structcutlass_1_1TileTraitsContiguousMajor.html#a53d10552356855bf7379632e72bbe0c9">cutlass::TileTraitsContiguousMajor::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">Number of participating threads. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:105</div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1TileTraitsWarpRake_1_1ThreadOffset.html">cutlass::TileTraitsWarpRake::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:172</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsStrideMajor_html_a2b6ad449269a178018f02b8cc64ddb85"><div class="ttname"><a href="structcutlass_1_1TileTraitsStrideMajor.html#a2b6ad449269a178018f02b8cc64ddb85">cutlass::TileTraitsStrideMajor::kThreads</a></div><div class="ttdeci">static int const kThreads</div><div class="ttdoc">Number of participating threads. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:72</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsStandard_html"><div class="ttname"><a href="structcutlass_1_1TileTraitsStandard.html">cutlass::TileTraitsStandard</a></div><div class="ttdoc">Chooses &amp;#39;best&amp;#39; shape to enable warp raking along contiguous dimension if possible. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:194</div></div>
@@ -99,15 +99,16 @@
 <div class="ttc" id="structcutlass_1_1TileTraitsStrideMajor_html_a47404b4527b101e286347714aea687d5"><div class="ttname"><a href="structcutlass_1_1TileTraitsStrideMajor.html#a47404b4527b101e286347714aea687d5">cutlass::TileTraitsStrideMajor::Delta</a></div><div class="ttdeci">Shape&lt; 1, ThreadShape::kH, 1, 1 &gt; Delta</div><div class="ttdoc">Delta along each dimension. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:86</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsStrideMajor_html_a03567f41ce616ebb4cdb309c85820599"><div class="ttname"><a href="structcutlass_1_1TileTraitsStrideMajor.html#a03567f41ce616ebb4cdb309c85820599">cutlass::TileTraitsStrideMajor::ThreadShape</a></div><div class="ttdeci">Shape&lt; 1, kThreads/Tile::kW, Tile::kW, 1 &gt; ThreadShape</div><div class="ttdoc">Shape of threads. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:76</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsWarpRake_html_ad25fb7c1b5dc8c5828a69e5a468f490b"><div class="ttname"><a href="structcutlass_1_1TileTraitsWarpRake.html#ad25fb7c1b5dc8c5828a69e5a468f490b">cutlass::TileTraitsWarpRake::kWarpSize</a></div><div class="ttdeci">static int const kWarpSize</div><div class="ttdoc">Hard-coded warp size. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:143</div></div>
-<div class="ttc" id="platform_8h_html_a39e234a3e3b0018b58df720bcb143420"><div class="ttname"><a href="platform_8h.html#a39e234a3e3b0018b58df720bcb143420">__NV_STD_MIN</a></div><div class="ttdeci">#define __NV_STD_MIN(a, b)</div><div class="ttdoc">Select minimum(a, b) </div><div class="ttdef"><b>Definition:</b> platform.h:160</div></div>
+<div class="ttc" id="platform_8h_html_a39e234a3e3b0018b58df720bcb143420"><div class="ttname"><a href="platform_8h.html#a39e234a3e3b0018b58df720bcb143420">__NV_STD_MIN</a></div><div class="ttdeci">#define __NV_STD_MIN(a, b)</div><div class="ttdoc">Select minimum(a, b) </div><div class="ttdef"><b>Definition:</b> platform.h:168</div></div>
+<div class="ttc" id="structcutlass_1_1TileTraitsStandard_html_a5e04777205c7a292602880c59d6b43c8"><div class="ttname"><a href="structcutlass_1_1TileTraitsStandard.html#a5e04777205c7a292602880c59d6b43c8">cutlass::TileTraitsStandard::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">By default, do not do scalar loads. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:208</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsStandard_html_aee3fee526bc4d4820c03665a2f5f166b"><div class="ttname"><a href="structcutlass_1_1TileTraitsStandard.html#aee3fee526bc4d4820c03665a2f5f166b">cutlass::TileTraitsStandard::Tile</a></div><div class="ttdeci">Tile_ Tile</div><div class="ttdoc">Shape of tile. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:196</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsStrideMajor_html_afbb78ece048b868475d4a6802e6894ac"><div class="ttname"><a href="structcutlass_1_1TileTraitsStrideMajor.html#afbb78ece048b868475d4a6802e6894ac">cutlass::TileTraitsStrideMajor::Tile</a></div><div class="ttdeci">Tile_ Tile</div><div class="ttdoc">Shape of tile. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:69</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsWarpRake_html_a7a03abe44862077351b0a0a2818d214d"><div class="ttname"><a href="structcutlass_1_1TileTraitsWarpRake.html#a7a03abe44862077351b0a0a2818d214d">cutlass::TileTraitsWarpRake::kWarpCount</a></div><div class="ttdeci">static int const kWarpCount</div><div class="ttdoc">Number of participating warps. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:146</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsWarpRake_html_ad6619e0b5d876fafd51c78e39f2c029e"><div class="ttname"><a href="structcutlass_1_1TileTraitsWarpRake.html#ad6619e0b5d876fafd51c78e39f2c029e">cutlass::TileTraitsWarpRake::ThreadShape</a></div><div class="ttdeci">Shape&lt; 1, kWarpsStrided, kWarpsContiguous *kWarpSize &gt; ThreadShape</div><div class="ttdoc">Arrangement of threads. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:163</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsStrideMajor_html"><div class="ttname"><a href="structcutlass_1_1TileTraitsStrideMajor.html">cutlass::TileTraitsStrideMajor</a></div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:67</div></div>
-<div class="ttc" id="structcutlass_1_1platform_1_1conditional_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1conditional.html">cutlass::platform::conditional</a></div><div class="ttdoc">std::conditional (true specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:343</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
+<div class="ttc" id="structcutlass_1_1platform_1_1conditional_html"><div class="ttname"><a href="structcutlass_1_1platform_1_1conditional.html">cutlass::platform::conditional</a></div><div class="ttdoc">std::conditional (true specialization) </div><div class="ttdef"><b>Definition:</b> platform.h:351</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
 <div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4 &gt;</a></div></div>
 <div class="ttc" id="structcutlass_1_1TileTraitsStrideMajor_html_ae8d14a3c6871072febfd75ed08aba32c"><div class="ttname"><a href="structcutlass_1_1TileTraitsStrideMajor.html#ae8d14a3c6871072febfd75ed08aba32c">cutlass::TileTraitsStrideMajor::ThreadOffset</a></div><div class="ttdeci">TiledThreadOffset&lt; ThreadShape &gt; ThreadOffset</div><div class="ttdoc">Computes the initial offset. </div><div class="ttdef"><b>Definition:</b> tile_traits_standard.h:92</div></div>
@@ -124,7 +125,7 @@
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/unioncutlass_1_1Vector-members.html b/docs/unioncutlass_1_1Vector-members.html
index f581f8db55..90db4f3789 100644
--- a/docs/unioncutlass_1_1Vector-members.html
+++ b/docs/unioncutlass_1_1Vector-members.html
@@ -82,15 +82,15 @@
   <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c">aligned_</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html#a250860c921c94a6077344f9e11bf5b02">operator[]</a>(uint32_t i) const</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html#a44cc27bf8a7b789b4ae8538155a50156">operator[]</a>(uint32_t i)</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html#a69be4f85c1dac371fa6f1c6747724adc">operator[]</a>(uint32_t i) const</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html#abf531676caf85cde1c8df435c1ebe8bb">operator[]</a>(uint32_t i)</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> typedef</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/unioncutlass_1_1Vector.html b/docs/unioncutlass_1_1Vector.html
index f8e027716b..a2c01e63e6 100644
--- a/docs/unioncutlass_1_1Vector.html
+++ b/docs/unioncutlass_1_1Vector.html
@@ -103,12 +103,12 @@
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:a250860c921c94a6077344f9e11bf5b02"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector.html#a250860c921c94a6077344f9e11bf5b02">operator[]</a> (uint32_t i) const</td></tr>
-<tr class="memdesc:a250860c921c94a6077344f9e11bf5b02"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#a250860c921c94a6077344f9e11bf5b02">More...</a><br /></td></tr>
-<tr class="separator:a250860c921c94a6077344f9e11bf5b02"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a44cc27bf8a7b789b4ae8538155a50156"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector.html#a44cc27bf8a7b789b4ae8538155a50156">operator[]</a> (uint32_t i)</td></tr>
-<tr class="memdesc:a44cc27bf8a7b789b4ae8538155a50156"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#a44cc27bf8a7b789b4ae8538155a50156">More...</a><br /></td></tr>
-<tr class="separator:a44cc27bf8a7b789b4ae8538155a50156"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a69be4f85c1dac371fa6f1c6747724adc"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector.html#a69be4f85c1dac371fa6f1c6747724adc">operator[]</a> (uint32_t i) const</td></tr>
+<tr class="memdesc:a69be4f85c1dac371fa6f1c6747724adc"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#a69be4f85c1dac371fa6f1c6747724adc">More...</a><br /></td></tr>
+<tr class="separator:a69be4f85c1dac371fa6f1c6747724adc"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:abf531676caf85cde1c8df435c1ebe8bb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector.html#abf531676caf85cde1c8df435c1ebe8bb">operator[]</a> (uint32_t i)</td></tr>
+<tr class="memdesc:abf531676caf85cde1c8df435c1ebe8bb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#abf531676caf85cde1c8df435c1ebe8bb">More...</a><br /></td></tr>
+<tr class="separator:abf531676caf85cde1c8df435c1ebe8bb"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
@@ -195,8 +195,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8e5093e47766af74bc0a429e
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="a250860c921c94a6077344f9e11bf5b02"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a250860c921c94a6077344f9e11bf5b02">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+<a id="a69be4f85c1dac371fa6f1c6747724adc"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a69be4f85c1dac371fa6f1c6747724adc">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -207,7 +207,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a250860c921c94a6077344f9e
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> const&amp; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; Scalar_, kLanes_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> const&amp; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; Scalar_, kLanes_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">uint32_t&#160;</td>
           <td class="paramname"><em>i</em></td><td>)</td>
@@ -223,8 +223,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a250860c921c94a6077344f9e
 
 </div>
 </div>
-<a id="a44cc27bf8a7b789b4ae8538155a50156"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a44cc27bf8a7b789b4ae8538155a50156">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+<a id="abf531676caf85cde1c8df435c1ebe8bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#abf531676caf85cde1c8df435c1ebe8bb">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -235,7 +235,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a44cc27bf8a7b789b4ae85381
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a>&amp; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; Scalar_, kLanes_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a>&amp; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; Scalar_, kLanes_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">uint32_t&#160;</td>
           <td class="paramname"><em>i</em></td><td>)</td>
@@ -306,7 +306,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a091080b4e9db9e89734f44ce
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4-members.html b/docs/unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4-members.html
new file mode 100644
index 0000000000..1202a8752a
--- /dev/null
+++ b/docs/unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4-members.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">Vector&lt; bin1_t, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Vector&lt; bin1_t, kLanes_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1df3324868465331db13bd7775b55e87">aligned_</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a4020f25408022dbf20c26ed4fa8c7dffa14befaa9d739f1b754bc372f717b105b">kLanes</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#ad75d72ca210d77ae82b8aa4bed04fed0ab98f21cd2645378ad0a840727b7edaff">kVectorSize</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a8eda6e6181a5333ca8350977374708cb">operator[]</a>(uint32_t i) const</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#af27a36f604513f05aebe0624a9c539ab">registers</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a05914a7339b9d399ac7d8cf7ef617c31">Scalar</a> typedef</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1310cf2e92e260cf55cfda1cb2cb7280">Vector</a>()</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a50ae62579267952a648d4b6a6be3c663">Vector</a>(uint32_t value)</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html b/docs/unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html
new file mode 100644
index 0000000000..cc50ffcaf8
--- /dev/null
+++ b/docs/unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html
@@ -0,0 +1,329 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Vector&lt; bin1_t, kLanes_ &gt; Union Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">Vector&lt; bin1_t, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Vector&lt; bin1_t, kLanes_ &gt; Union Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 1-bit binary datatype.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="vector_8h_source.html">vector.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a4020f25408022dbf20c26ed4fa8c7dff"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a4020f25408022dbf20c26ed4fa8c7dffa14befaa9d739f1b754bc372f717b105b">kLanes</a> = kLanes_
+ }</td></tr>
+<tr class="memdesc:a4020f25408022dbf20c26ed4fa8c7dff"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of elements in the vector.  <a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a4020f25408022dbf20c26ed4fa8c7dff">More...</a><br /></td></tr>
+<tr class="separator:a4020f25408022dbf20c26ed4fa8c7dff"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad75d72ca210d77ae82b8aa4bed04fed0"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#ad75d72ca210d77ae82b8aa4bed04fed0ab98f21cd2645378ad0a840727b7edaff">kVectorSize</a> = kLanes / 8
+ }</td></tr>
+<tr class="memdesc:ad75d72ca210d77ae82b8aa4bed04fed0"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of the vector.  <a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#ad75d72ca210d77ae82b8aa4bed04fed0">More...</a><br /></td></tr>
+<tr class="separator:ad75d72ca210d77ae82b8aa4bed04fed0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aaebc331402dce98e1f55adff5a4f7dfb"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"></td></tr>
+<tr class="memdesc:aaebc331402dce98e1f55adff5a4f7dfb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of registers needed to store the vector.  <a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#aaebc331402dce98e1f55adff5a4f7dfb">More...</a><br /></td></tr>
+<tr class="separator:aaebc331402dce98e1f55adff5a4f7dfb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a05914a7339b9d399ac7d8cf7ef617c31"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a05914a7339b9d399ac7d8cf7ef617c31">Scalar</a></td></tr>
+<tr class="memdesc:a05914a7339b9d399ac7d8cf7ef617c31"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar type.  <a href="#a05914a7339b9d399ac7d8cf7ef617c31">More...</a><br /></td></tr>
+<tr class="separator:a05914a7339b9d399ac7d8cf7ef617c31"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a1310cf2e92e260cf55cfda1cb2cb7280"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1310cf2e92e260cf55cfda1cb2cb7280">Vector</a> ()</td></tr>
+<tr class="memdesc:a1310cf2e92e260cf55cfda1cb2cb7280"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default Constructor.  <a href="#a1310cf2e92e260cf55cfda1cb2cb7280">More...</a><br /></td></tr>
+<tr class="separator:a1310cf2e92e260cf55cfda1cb2cb7280"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a50ae62579267952a648d4b6a6be3c663"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a50ae62579267952a648d4b6a6be3c663">Vector</a> (uint32_t value)</td></tr>
+<tr class="memdesc:a50ae62579267952a648d4b6a6be3c663"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor to convert from uint32_t type.  <a href="#a50ae62579267952a648d4b6a6be3c663">More...</a><br /></td></tr>
+<tr class="separator:a50ae62579267952a648d4b6a6be3c663"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a8eda6e6181a5333ca8350977374708cb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a8eda6e6181a5333ca8350977374708cb">operator[]</a> (uint32_t i) const</td></tr>
+<tr class="memdesc:a8eda6e6181a5333ca8350977374708cb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#a8eda6e6181a5333ca8350977374708cb">More...</a><br /></td></tr>
+<tr class="separator:a8eda6e6181a5333ca8350977374708cb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a1df3324868465331db13bd7775b55e87"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt; <a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#ad75d72ca210d77ae82b8aa4bed04fed0ab98f21cd2645378ad0a840727b7edaff">kVectorSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1df3324868465331db13bd7775b55e87">aligned_</a></td></tr>
+<tr class="memdesc:a1df3324868465331db13bd7775b55e87"><td class="mdescLeft">&#160;</td><td class="mdescRight">The aligned storage to make sure we have good alignment.  <a href="#a1df3324868465331db13bd7775b55e87">More...</a><br /></td></tr>
+<tr class="separator:a1df3324868465331db13bd7775b55e87"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af27a36f604513f05aebe0624a9c539ab"><td class="memItemLeft" align="right" valign="top">uint32_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#af27a36f604513f05aebe0624a9c539ab">registers</a> [kRegisters]</td></tr>
+<tr class="memdesc:af27a36f604513f05aebe0624a9c539ab"><td class="mdescLeft">&#160;</td><td class="mdescRight">The data in registers.  <a href="#af27a36f604513f05aebe0624a9c539ab">More...</a><br /></td></tr>
+<tr class="separator:af27a36f604513f05aebe0624a9c539ab"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a05914a7339b9d399ac7d8cf7ef617c31"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a05914a7339b9d399ac7d8cf7ef617c31">&#9670;&nbsp;</a></span>Scalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a> <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, kLanes_ &gt;::<a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a05914a7339b9d399ac7d8cf7ef617c31">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Enumeration Documentation</h2>
+<a id="a4020f25408022dbf20c26ed4fa8c7dff"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4020f25408022dbf20c26ed4fa8c7dff">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a4020f25408022dbf20c26ed4fa8c7dffa14befaa9d739f1b754bc372f717b105b"></a>kLanes&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="ad75d72ca210d77ae82b8aa4bed04fed0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad75d72ca210d77ae82b8aa4bed04fed0">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="ad75d72ca210d77ae82b8aa4bed04fed0ab98f21cd2645378ad0a840727b7edaff"></a>kVectorSize&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="aaebc331402dce98e1f55adff5a4f7dfb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#aaebc331402dce98e1f55adff5a4f7dfb">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a1310cf2e92e260cf55cfda1cb2cb7280"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1310cf2e92e260cf55cfda1cb2cb7280">&#9670;&nbsp;</a></span>Vector() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, kLanes_ &gt;::<a class="el" href="unioncutlass_1_1Vector.html">Vector</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a50ae62579267952a648d4b6a6be3c663"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a50ae62579267952a648d4b6a6be3c663">&#9670;&nbsp;</a></span>Vector() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, kLanes_ &gt;::<a class="el" href="unioncutlass_1_1Vector.html">Vector</a> </td>
+          <td>(</td>
+          <td class="paramtype">uint32_t&#160;</td>
+          <td class="paramname"><em>value</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a8eda6e6181a5333ca8350977374708cb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a8eda6e6181a5333ca8350977374708cb">&#9670;&nbsp;</a></span>operator[]()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> bool <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, kLanes_ &gt;::operator[] </td>
+          <td>(</td>
+          <td class="paramtype">uint32_t&#160;</td>
+          <td class="paramname"><em>i</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a1df3324868465331db13bd7775b55e87"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1df3324868465331db13bd7775b55e87">&#9670;&nbsp;</a></span>aligned_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;<a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#ad75d72ca210d77ae82b8aa4bed04fed0ab98f21cd2645378ad0a840727b7edaff">kVectorSize</a>&gt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, kLanes_ &gt;::aligned_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="af27a36f604513f05aebe0624a9c539ab"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af27a36f604513f05aebe0624a9c539ab">&#9670;&nbsp;</a></span>registers</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">uint32_t <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1bin1__t.html">bin1_t</a>, kLanes_ &gt;::registers[kRegisters]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this union was generated from the following file:<ul>
+<li><a class="el" href="vector_8h_source.html">vector.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/unioncutlass_1_1Vector_3_01half_00_011_01_4-members.html b/docs/unioncutlass_1_1Vector_3_01half_00_011_01_4-members.html
new file mode 100644
index 0000000000..c2aa807727
--- /dev/null
+++ b/docs/unioncutlass_1_1Vector_3_01half_00_011_01_4-members.html
@@ -0,0 +1,97 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">Vector&lt; half, 1 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Vector&lt; half, 1 &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">cutlass::Vector&lt; half, 1 &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#acc698443a38fd0ad63f931bdf172ad99">aligned_</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">cutlass::Vector&lt; half, 1 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a27410a8095bb82f682612954df4d6182a3a12b2fbef9007373a03125ec3c1c393">kLanes</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">cutlass::Vector&lt; half, 1 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a0c3d44e7c726aabf23d57094475fcc22aa12662bfb46ed10de12f168219ce0a8d">kVectorSize</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">cutlass::Vector&lt; half, 1 &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a12fa9366dd57fadb2d3f624ab7836dc8">operator[]</a>(uint32_t i) const</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">cutlass::Vector&lt; half, 1 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a1e6568c0f3f958db739074ab6978ff10">operator[]</a>(uint32_t i)</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">cutlass::Vector&lt; half, 1 &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a> typedef</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">cutlass::Vector&lt; half, 1 &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a81709dacea12d6bd3bb328a3f0a519b0">scalars</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">cutlass::Vector&lt; half, 1 &gt;</a></td><td class="entry"></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/unioncutlass_1_1Vector_3_01half_00_011_01_4.html b/docs/unioncutlass_1_1Vector_3_01half_00_011_01_4.html
new file mode 100644
index 0000000000..8f498f8cbc
--- /dev/null
+++ b/docs/unioncutlass_1_1Vector_3_01half_00_011_01_4.html
@@ -0,0 +1,279 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Vector&lt; half, 1 &gt; Union Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">Vector&lt; half, 1 &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="unioncutlass_1_1Vector_3_01half_00_011_01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Vector&lt; half, 1 &gt; Union Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><code>#include &lt;<a class="el" href="vector_8h_source.html">vector.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a27410a8095bb82f682612954df4d6182"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a27410a8095bb82f682612954df4d6182a3a12b2fbef9007373a03125ec3c1c393">kLanes</a> = 1
+ }</td></tr>
+<tr class="memdesc:a27410a8095bb82f682612954df4d6182"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of elements in the vector.  <a href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a27410a8095bb82f682612954df4d6182">More...</a><br /></td></tr>
+<tr class="separator:a27410a8095bb82f682612954df4d6182"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a0c3d44e7c726aabf23d57094475fcc22"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a0c3d44e7c726aabf23d57094475fcc22aa12662bfb46ed10de12f168219ce0a8d">kVectorSize</a> = kLanes * (int)sizeof(Scalar)
+ }</td></tr>
+<tr class="memdesc:a0c3d44e7c726aabf23d57094475fcc22"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of the vector.  <a href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a0c3d44e7c726aabf23d57094475fcc22">More...</a><br /></td></tr>
+<tr class="separator:a0c3d44e7c726aabf23d57094475fcc22"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1034f48698dcdaa2e37cbf96268f24aa"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"></td></tr>
+<tr class="memdesc:a1034f48698dcdaa2e37cbf96268f24aa"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of registers needed to store the vector.  <a href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a1034f48698dcdaa2e37cbf96268f24aa">More...</a><br /></td></tr>
+<tr class="separator:a1034f48698dcdaa2e37cbf96268f24aa"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a394b6e6ea7b97e076ae6445eb75d47ac"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a></td></tr>
+<tr class="memdesc:a394b6e6ea7b97e076ae6445eb75d47ac"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar type.  <a href="#a394b6e6ea7b97e076ae6445eb75d47ac">More...</a><br /></td></tr>
+<tr class="separator:a394b6e6ea7b97e076ae6445eb75d47ac"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a12fa9366dd57fadb2d3f624ab7836dc8"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a12fa9366dd57fadb2d3f624ab7836dc8">operator[]</a> (uint32_t i) const</td></tr>
+<tr class="memdesc:a12fa9366dd57fadb2d3f624ab7836dc8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#a12fa9366dd57fadb2d3f624ab7836dc8">More...</a><br /></td></tr>
+<tr class="separator:a12fa9366dd57fadb2d3f624ab7836dc8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a1e6568c0f3f958db739074ab6978ff10"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a1e6568c0f3f958db739074ab6978ff10">operator[]</a> (uint32_t i)</td></tr>
+<tr class="memdesc:a1e6568c0f3f958db739074ab6978ff10"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#a1e6568c0f3f958db739074ab6978ff10">More...</a><br /></td></tr>
+<tr class="separator:a1e6568c0f3f958db739074ab6978ff10"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:acc698443a38fd0ad63f931bdf172ad99"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt; <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a0c3d44e7c726aabf23d57094475fcc22aa12662bfb46ed10de12f168219ce0a8d">kVectorSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#acc698443a38fd0ad63f931bdf172ad99">aligned_</a></td></tr>
+<tr class="memdesc:acc698443a38fd0ad63f931bdf172ad99"><td class="mdescLeft">&#160;</td><td class="mdescRight">The aligned storage to make sure we have good alignment.  <a href="#acc698443a38fd0ad63f931bdf172ad99">More...</a><br /></td></tr>
+<tr class="separator:acc698443a38fd0ad63f931bdf172ad99"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a81709dacea12d6bd3bb328a3f0a519b0"><td class="memItemLeft" align="right" valign="top">uint16_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a81709dacea12d6bd3bb328a3f0a519b0">scalars</a> [<a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a27410a8095bb82f682612954df4d6182a3a12b2fbef9007373a03125ec3c1c393">kLanes</a>]</td></tr>
+<tr class="memdesc:a81709dacea12d6bd3bb328a3f0a519b0"><td class="mdescLeft">&#160;</td><td class="mdescRight">The associated array of scalars.  <a href="#a81709dacea12d6bd3bb328a3f0a519b0">More...</a><br /></td></tr>
+<tr class="separator:a81709dacea12d6bd3bb328a3f0a519b0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a394b6e6ea7b97e076ae6445eb75d47ac"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a394b6e6ea7b97e076ae6445eb75d47ac">&#9670;&nbsp;</a></span>Scalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef half <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, 1 &gt;::<a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Enumeration Documentation</h2>
+<a id="a27410a8095bb82f682612954df4d6182"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a27410a8095bb82f682612954df4d6182">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a27410a8095bb82f682612954df4d6182a3a12b2fbef9007373a03125ec3c1c393"></a>kLanes&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="a0c3d44e7c726aabf23d57094475fcc22"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a0c3d44e7c726aabf23d57094475fcc22">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a0c3d44e7c726aabf23d57094475fcc22aa12662bfb46ed10de12f168219ce0a8d"></a>kVectorSize&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="a1034f48698dcdaa2e37cbf96268f24aa"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1034f48698dcdaa2e37cbf96268f24aa">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a12fa9366dd57fadb2d3f624ab7836dc8"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a12fa9366dd57fadb2d3f624ab7836dc8">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a> const&amp; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, 1 &gt;::operator[] </td>
+          <td>(</td>
+          <td class="paramtype">uint32_t&#160;</td>
+          <td class="paramname"><em>i</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a1e6568c0f3f958db739074ab6978ff10"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a1e6568c0f3f958db739074ab6978ff10">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a>&amp; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, 1 &gt;::operator[] </td>
+          <td>(</td>
+          <td class="paramtype">uint32_t&#160;</td>
+          <td class="paramname"><em>i</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="acc698443a38fd0ad63f931bdf172ad99"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acc698443a38fd0ad63f931bdf172ad99">&#9670;&nbsp;</a></span>aligned_</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;<a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a0c3d44e7c726aabf23d57094475fcc22aa12662bfb46ed10de12f168219ce0a8d">kVectorSize</a>&gt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, 1 &gt;::aligned_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a81709dacea12d6bd3bb328a3f0a519b0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a81709dacea12d6bd3bb328a3f0a519b0">&#9670;&nbsp;</a></span>scalars</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">uint16_t <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, 1 &gt;::scalars[<a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a27410a8095bb82f682612954df4d6182a3a12b2fbef9007373a03125ec3c1c393">kLanes</a>]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this union was generated from the following file:<ul>
+<li><a class="el" href="vector_8h_source.html">vector.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4-members.html b/docs/unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4-members.html
index 26516dab60..1b747c044a 100644
--- a/docs/unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4-members.html
+++ b/docs/unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4-members.html
@@ -80,17 +80,17 @@
 <p>This is the complete list of members for <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a>, including all inherited members.</p>
 <table class="directory">
   <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">aligned_</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#aa70d2fd36f00b63d321c1f7b6d6c3024ad242b575673ca1bf9cf311e58a966392">kLanes</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#adc4140a7e40be1e4f81c78a657c7ba73abfbb3cf98db2f8af7150efb91cac4e79">kVectorSize</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab0516cef8949f5998b5251cc6b6db683">operator[]</a>(uint32_t i) const</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
-  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a8ade80e040264fbd669d3f15c249884e">operator[]</a>(uint32_t i)</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#acfa6821aefbd38a1b7c44e5d83eda05fad242b575673ca1bf9cf311e58a966392">kLanes</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a42288bc8b85cd3f40aafbe7549a5285babfbb3cf98db2f8af7150efb91cac4e79">kVectorSize</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ad50b5d4acbd7ead82c128091c9db9113">operator[]</a>(uint32_t i) const</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a3891ce1c321a3e57e938c8864de9baf0">operator[]</a>(uint32_t i)</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
   <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#abd116dc7a5b82ac9b1481fb1d2bfc93f">registers</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"></td></tr>
   <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> typedef</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"></td></tr>
   <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3">scalars</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html b/docs/unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html
index 80d3d9ee93..1a00e20150 100644
--- a/docs/unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html
+++ b/docs/unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html
@@ -86,36 +86,36 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
 Public Types</h2></td></tr>
-<tr class="memitem:aa70d2fd36f00b63d321c1f7b6d6c3024"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#aa70d2fd36f00b63d321c1f7b6d6c3024ad242b575673ca1bf9cf311e58a966392">kLanes</a> = kLanes_
+<tr class="memitem:acfa6821aefbd38a1b7c44e5d83eda05f"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#acfa6821aefbd38a1b7c44e5d83eda05fad242b575673ca1bf9cf311e58a966392">kLanes</a> = kLanes_
  }</td></tr>
-<tr class="memdesc:aa70d2fd36f00b63d321c1f7b6d6c3024"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of elements in the vector.  <a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#aa70d2fd36f00b63d321c1f7b6d6c3024">More...</a><br /></td></tr>
-<tr class="separator:aa70d2fd36f00b63d321c1f7b6d6c3024"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:adc4140a7e40be1e4f81c78a657c7ba73"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#adc4140a7e40be1e4f81c78a657c7ba73abfbb3cf98db2f8af7150efb91cac4e79">kVectorSize</a> = kLanes * (int)sizeof(Scalar)
+<tr class="memdesc:acfa6821aefbd38a1b7c44e5d83eda05f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of elements in the vector.  <a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#acfa6821aefbd38a1b7c44e5d83eda05f">More...</a><br /></td></tr>
+<tr class="separator:acfa6821aefbd38a1b7c44e5d83eda05f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a42288bc8b85cd3f40aafbe7549a5285b"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a42288bc8b85cd3f40aafbe7549a5285babfbb3cf98db2f8af7150efb91cac4e79">kVectorSize</a> = kLanes * (int)sizeof(Scalar)
  }</td></tr>
-<tr class="memdesc:adc4140a7e40be1e4f81c78a657c7ba73"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of the vector.  <a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#adc4140a7e40be1e4f81c78a657c7ba73">More...</a><br /></td></tr>
-<tr class="separator:adc4140a7e40be1e4f81c78a657c7ba73"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a85510d5e04542dbb9d03f70a1d324d35"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"></td></tr>
-<tr class="memdesc:a85510d5e04542dbb9d03f70a1d324d35"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of registers needed to store the vector.  <a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a85510d5e04542dbb9d03f70a1d324d35">More...</a><br /></td></tr>
-<tr class="separator:a85510d5e04542dbb9d03f70a1d324d35"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memdesc:a42288bc8b85cd3f40aafbe7549a5285b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of the vector.  <a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a42288bc8b85cd3f40aafbe7549a5285b">More...</a><br /></td></tr>
+<tr class="separator:a42288bc8b85cd3f40aafbe7549a5285b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a6c0c130195a6b5926d9acb4fb2e27201"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"></td></tr>
+<tr class="memdesc:a6c0c130195a6b5926d9acb4fb2e27201"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of registers needed to store the vector.  <a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a6c0c130195a6b5926d9acb4fb2e27201">More...</a><br /></td></tr>
+<tr class="separator:a6c0c130195a6b5926d9acb4fb2e27201"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:a03199df1287d263f7267239c014f1d9b"><td class="memItemLeft" align="right" valign="top">typedef half&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a></td></tr>
 <tr class="memdesc:a03199df1287d263f7267239c014f1d9b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar type.  <a href="#a03199df1287d263f7267239c014f1d9b">More...</a><br /></td></tr>
 <tr class="separator:a03199df1287d263f7267239c014f1d9b"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
 Public Member Functions</h2></td></tr>
-<tr class="memitem:ab0516cef8949f5998b5251cc6b6db683"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab0516cef8949f5998b5251cc6b6db683">operator[]</a> (uint32_t i) const</td></tr>
-<tr class="memdesc:ab0516cef8949f5998b5251cc6b6db683"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#ab0516cef8949f5998b5251cc6b6db683">More...</a><br /></td></tr>
-<tr class="separator:ab0516cef8949f5998b5251cc6b6db683"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:a8ade80e040264fbd669d3f15c249884e"><td class="memItemLeft" align="right" valign="top">CUTLASS_DEVICE <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a8ade80e040264fbd669d3f15c249884e">operator[]</a> (uint32_t i)</td></tr>
-<tr class="memdesc:a8ade80e040264fbd669d3f15c249884e"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#a8ade80e040264fbd669d3f15c249884e">More...</a><br /></td></tr>
-<tr class="separator:a8ade80e040264fbd669d3f15c249884e"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ad50b5d4acbd7ead82c128091c9db9113"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> const  &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ad50b5d4acbd7ead82c128091c9db9113">operator[]</a> (uint32_t i) const</td></tr>
+<tr class="memdesc:ad50b5d4acbd7ead82c128091c9db9113"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#ad50b5d4acbd7ead82c128091c9db9113">More...</a><br /></td></tr>
+<tr class="separator:ad50b5d4acbd7ead82c128091c9db9113"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a3891ce1c321a3e57e938c8864de9baf0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> &amp;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a3891ce1c321a3e57e938c8864de9baf0">operator[]</a> (uint32_t i)</td></tr>
+<tr class="memdesc:a3891ce1c321a3e57e938c8864de9baf0"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#a3891ce1c321a3e57e938c8864de9baf0">More...</a><br /></td></tr>
+<tr class="separator:a3891ce1c321a3e57e938c8864de9baf0"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table><table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:a9e41dbe541a7dddf1e461e0390fe8896"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt; <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#adc4140a7e40be1e4f81c78a657c7ba73abfbb3cf98db2f8af7150efb91cac4e79">kVectorSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">aligned_</a></td></tr>
+<tr class="memitem:a9e41dbe541a7dddf1e461e0390fe8896"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt; <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a42288bc8b85cd3f40aafbe7549a5285babfbb3cf98db2f8af7150efb91cac4e79">kVectorSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">aligned_</a></td></tr>
 <tr class="memdesc:a9e41dbe541a7dddf1e461e0390fe8896"><td class="mdescLeft">&#160;</td><td class="mdescRight">The aligned storage to make sure we have good alignment.  <a href="#a9e41dbe541a7dddf1e461e0390fe8896">More...</a><br /></td></tr>
 <tr class="separator:a9e41dbe541a7dddf1e461e0390fe8896"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:ab4a119a4813f80aa10c25e32f8b115f3"><td class="memItemLeft" align="right" valign="top">uint16_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3">scalars</a> [<a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#aa70d2fd36f00b63d321c1f7b6d6c3024ad242b575673ca1bf9cf311e58a966392">kLanes</a>]</td></tr>
+<tr class="memitem:ab4a119a4813f80aa10c25e32f8b115f3"><td class="memItemLeft" align="right" valign="top">uint16_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3">scalars</a> [<a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#acfa6821aefbd38a1b7c44e5d83eda05fad242b575673ca1bf9cf311e58a966392">kLanes</a>]</td></tr>
 <tr class="memdesc:ab4a119a4813f80aa10c25e32f8b115f3"><td class="mdescLeft">&#160;</td><td class="mdescRight">The associated array of scalars.  <a href="#ab4a119a4813f80aa10c25e32f8b115f3">More...</a><br /></td></tr>
 <tr class="separator:ab4a119a4813f80aa10c25e32f8b115f3"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:abd116dc7a5b82ac9b1481fb1d2bfc93f"><td class="memItemLeft" align="right" valign="top">uint32_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#abd116dc7a5b82ac9b1481fb1d2bfc93f">registers</a> [kRegisters]</td></tr>
@@ -140,8 +140,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a03199df1287d263f7267239c
 </div>
 </div>
 <h2 class="groupheader">Member Enumeration Documentation</h2>
-<a id="aa70d2fd36f00b63d321c1f7b6d6c3024"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aa70d2fd36f00b63d321c1f7b6d6c3024">&#9670;&nbsp;</a></span>anonymous enum</h2>
+<a id="acfa6821aefbd38a1b7c44e5d83eda05f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#acfa6821aefbd38a1b7c44e5d83eda05f">&#9670;&nbsp;</a></span>anonymous enum</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -154,13 +154,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa70d2fd36f00b63d321c1f7b
       </table>
 </div><div class="memdoc">
 <table class="fieldtable">
-<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="aa70d2fd36f00b63d321c1f7b6d6c3024ad242b575673ca1bf9cf311e58a966392"></a>kLanes&#160;</td><td class="fielddoc"></td></tr>
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="acfa6821aefbd38a1b7c44e5d83eda05fad242b575673ca1bf9cf311e58a966392"></a>kLanes&#160;</td><td class="fielddoc"></td></tr>
 </table>
 
 </div>
 </div>
-<a id="adc4140a7e40be1e4f81c78a657c7ba73"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#adc4140a7e40be1e4f81c78a657c7ba73">&#9670;&nbsp;</a></span>anonymous enum</h2>
+<a id="a42288bc8b85cd3f40aafbe7549a5285b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a42288bc8b85cd3f40aafbe7549a5285b">&#9670;&nbsp;</a></span>anonymous enum</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -173,13 +173,13 @@ <h2 class="memtitle"><span class="permalink"><a href="#adc4140a7e40be1e4f81c78a6
       </table>
 </div><div class="memdoc">
 <table class="fieldtable">
-<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="adc4140a7e40be1e4f81c78a657c7ba73abfbb3cf98db2f8af7150efb91cac4e79"></a>kVectorSize&#160;</td><td class="fielddoc"></td></tr>
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a42288bc8b85cd3f40aafbe7549a5285babfbb3cf98db2f8af7150efb91cac4e79"></a>kVectorSize&#160;</td><td class="fielddoc"></td></tr>
 </table>
 
 </div>
 </div>
-<a id="a85510d5e04542dbb9d03f70a1d324d35"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a85510d5e04542dbb9d03f70a1d324d35">&#9670;&nbsp;</a></span>anonymous enum</h2>
+<a id="a6c0c130195a6b5926d9acb4fb2e27201"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a6c0c130195a6b5926d9acb4fb2e27201">&#9670;&nbsp;</a></span>anonymous enum</h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -195,8 +195,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#a85510d5e04542dbb9d03f70a
 </div>
 </div>
 <h2 class="groupheader">Member Function Documentation</h2>
-<a id="ab0516cef8949f5998b5251cc6b6db683"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#ab0516cef8949f5998b5251cc6b6db683">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
+<a id="ad50b5d4acbd7ead82c128091c9db9113"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad50b5d4acbd7ead82c128091c9db9113">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[1/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -207,7 +207,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab0516cef8949f5998b5251cc
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> const&amp; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, kLanes_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> const&amp; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, kLanes_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">uint32_t&#160;</td>
           <td class="paramname"><em>i</em></td><td>)</td>
@@ -223,8 +223,8 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab0516cef8949f5998b5251cc
 
 </div>
 </div>
-<a id="a8ade80e040264fbd669d3f15c249884e"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a8ade80e040264fbd669d3f15c249884e">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
+<a id="a3891ce1c321a3e57e938c8864de9baf0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a3891ce1c321a3e57e938c8864de9baf0">&#9670;&nbsp;</a></span>operator[]() <span class="overload">[2/2]</span></h2>
 
 <div class="memitem">
 <div class="memproto">
@@ -235,7 +235,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a8ade80e040264fbd669d3f15
   <td class="mlabels-left">
       <table class="memname">
         <tr>
-          <td class="memname">CUTLASS_DEVICE <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a>&amp; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, kLanes_ &gt;::operator[] </td>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a>&amp; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, kLanes_ &gt;::operator[] </td>
           <td>(</td>
           <td class="paramtype">uint32_t&#160;</td>
           <td class="paramname"><em>i</em></td><td>)</td>
@@ -261,7 +261,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a9e41dbe541a7dddf1e461e03
 template&lt;int kLanes_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;<a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#adc4140a7e40be1e4f81c78a657c7ba73abfbb3cf98db2f8af7150efb91cac4e79">kVectorSize</a>&gt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, kLanes_ &gt;::aligned_</td>
+          <td class="memname"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;<a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a42288bc8b85cd3f40aafbe7549a5285babfbb3cf98db2f8af7150efb91cac4e79">kVectorSize</a>&gt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, kLanes_ &gt;::aligned_</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -293,7 +293,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab4a119a4813f80aa10c25e32
 template&lt;int kLanes_&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">uint16_t <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, kLanes_ &gt;::scalars[<a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#aa70d2fd36f00b63d321c1f7b6d6c3024ad242b575673ca1bf9cf311e58a966392">kLanes</a>]</td>
+          <td class="memname">uint16_t <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; half, kLanes_ &gt;::scalars[<a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#acfa6821aefbd38a1b7c44e5d83eda05fad242b575673ca1bf9cf311e58a966392">kLanes</a>]</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -306,7 +306,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#ab4a119a4813f80aa10c25e32
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4-members.html b/docs/unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4-members.html
new file mode 100644
index 0000000000..dbe0abbbb3
--- /dev/null
+++ b/docs/unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4-members.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">Vector&lt; int4_t, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Vector&lt; int4_t, kLanes_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ad6784e347f068ad20af52379286337c0">aligned_</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a322ddd3ec1f47b76e21c24d3a3c44c5badeba151dbcb3c15e581bad7d767a93fa">kLanes</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a01e23040ab8cea016e3709f55c2089fdaf9fe4d6ac4ee913780e3361dde6c80d6">kVectorSize</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a2d5ec0b76daa136dae0b4aec1edf9e0b">operator[]</a>(uint32_t i) const</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ace5e03860b434b2d2a4590bd2bc8c147">registers</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af60049062cedca55d8cb4a3cae82641f">Scalar</a> typedef</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af166f710ebbfdff8a62453eee454c1d5">Vector</a>()</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a5feb070268f85bd73c3095eaf2d0e2bb">Vector</a>(uint32_t value)</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html b/docs/unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html
new file mode 100644
index 0000000000..885b32b8e6
--- /dev/null
+++ b/docs/unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html
@@ -0,0 +1,329 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Vector&lt; int4_t, kLanes_ &gt; Union Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">Vector&lt; int4_t, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Vector&lt; int4_t, kLanes_ &gt; Union Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 4-bit signed integer datatype.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="vector_8h_source.html">vector.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a322ddd3ec1f47b76e21c24d3a3c44c5b"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a322ddd3ec1f47b76e21c24d3a3c44c5badeba151dbcb3c15e581bad7d767a93fa">kLanes</a> = kLanes_
+ }</td></tr>
+<tr class="memdesc:a322ddd3ec1f47b76e21c24d3a3c44c5b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of elements in the vector.  <a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a322ddd3ec1f47b76e21c24d3a3c44c5b">More...</a><br /></td></tr>
+<tr class="separator:a322ddd3ec1f47b76e21c24d3a3c44c5b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a01e23040ab8cea016e3709f55c2089fd"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a01e23040ab8cea016e3709f55c2089fdaf9fe4d6ac4ee913780e3361dde6c80d6">kVectorSize</a> = kLanes / 2
+ }</td></tr>
+<tr class="memdesc:a01e23040ab8cea016e3709f55c2089fd"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of the vector.  <a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a01e23040ab8cea016e3709f55c2089fd">More...</a><br /></td></tr>
+<tr class="separator:a01e23040ab8cea016e3709f55c2089fd"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2173fdc9aaaea1cd7297b487d2e7c504"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"></td></tr>
+<tr class="memdesc:a2173fdc9aaaea1cd7297b487d2e7c504"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of registers needed to store the vector.  <a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a2173fdc9aaaea1cd7297b487d2e7c504">More...</a><br /></td></tr>
+<tr class="separator:a2173fdc9aaaea1cd7297b487d2e7c504"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:af60049062cedca55d8cb4a3cae82641f"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af60049062cedca55d8cb4a3cae82641f">Scalar</a></td></tr>
+<tr class="memdesc:af60049062cedca55d8cb4a3cae82641f"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar type.  <a href="#af60049062cedca55d8cb4a3cae82641f">More...</a><br /></td></tr>
+<tr class="separator:af60049062cedca55d8cb4a3cae82641f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:af166f710ebbfdff8a62453eee454c1d5"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af166f710ebbfdff8a62453eee454c1d5">Vector</a> ()</td></tr>
+<tr class="memdesc:af166f710ebbfdff8a62453eee454c1d5"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default Constructor.  <a href="#af166f710ebbfdff8a62453eee454c1d5">More...</a><br /></td></tr>
+<tr class="separator:af166f710ebbfdff8a62453eee454c1d5"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a5feb070268f85bd73c3095eaf2d0e2bb"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a5feb070268f85bd73c3095eaf2d0e2bb">Vector</a> (uint32_t value)</td></tr>
+<tr class="memdesc:a5feb070268f85bd73c3095eaf2d0e2bb"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor to convert from uint32_t type.  <a href="#a5feb070268f85bd73c3095eaf2d0e2bb">More...</a><br /></td></tr>
+<tr class="separator:a5feb070268f85bd73c3095eaf2d0e2bb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a2d5ec0b76daa136dae0b4aec1edf9e0b"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a2d5ec0b76daa136dae0b4aec1edf9e0b">operator[]</a> (uint32_t i) const</td></tr>
+<tr class="memdesc:a2d5ec0b76daa136dae0b4aec1edf9e0b"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#a2d5ec0b76daa136dae0b4aec1edf9e0b">More...</a><br /></td></tr>
+<tr class="separator:a2d5ec0b76daa136dae0b4aec1edf9e0b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:ad6784e347f068ad20af52379286337c0"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt; <a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a01e23040ab8cea016e3709f55c2089fdaf9fe4d6ac4ee913780e3361dde6c80d6">kVectorSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ad6784e347f068ad20af52379286337c0">aligned_</a></td></tr>
+<tr class="memdesc:ad6784e347f068ad20af52379286337c0"><td class="mdescLeft">&#160;</td><td class="mdescRight">The aligned storage to make sure we have good alignment.  <a href="#ad6784e347f068ad20af52379286337c0">More...</a><br /></td></tr>
+<tr class="separator:ad6784e347f068ad20af52379286337c0"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ace5e03860b434b2d2a4590bd2bc8c147"><td class="memItemLeft" align="right" valign="top">uint32_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ace5e03860b434b2d2a4590bd2bc8c147">registers</a> [kRegisters]</td></tr>
+<tr class="memdesc:ace5e03860b434b2d2a4590bd2bc8c147"><td class="mdescLeft">&#160;</td><td class="mdescRight">The data in registers.  <a href="#ace5e03860b434b2d2a4590bd2bc8c147">More...</a><br /></td></tr>
+<tr class="separator:ace5e03860b434b2d2a4590bd2bc8c147"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="af60049062cedca55d8cb4a3cae82641f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af60049062cedca55d8cb4a3cae82641f">&#9670;&nbsp;</a></span>Scalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a> <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, kLanes_ &gt;::<a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af60049062cedca55d8cb4a3cae82641f">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Enumeration Documentation</h2>
+<a id="a322ddd3ec1f47b76e21c24d3a3c44c5b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a322ddd3ec1f47b76e21c24d3a3c44c5b">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a322ddd3ec1f47b76e21c24d3a3c44c5badeba151dbcb3c15e581bad7d767a93fa"></a>kLanes&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="a01e23040ab8cea016e3709f55c2089fd"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a01e23040ab8cea016e3709f55c2089fd">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a01e23040ab8cea016e3709f55c2089fdaf9fe4d6ac4ee913780e3361dde6c80d6"></a>kVectorSize&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="a2173fdc9aaaea1cd7297b487d2e7c504"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2173fdc9aaaea1cd7297b487d2e7c504">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="af166f710ebbfdff8a62453eee454c1d5"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#af166f710ebbfdff8a62453eee454c1d5">&#9670;&nbsp;</a></span>Vector() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, kLanes_ &gt;::<a class="el" href="unioncutlass_1_1Vector.html">Vector</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a5feb070268f85bd73c3095eaf2d0e2bb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a5feb070268f85bd73c3095eaf2d0e2bb">&#9670;&nbsp;</a></span>Vector() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, kLanes_ &gt;::<a class="el" href="unioncutlass_1_1Vector.html">Vector</a> </td>
+          <td>(</td>
+          <td class="paramtype">uint32_t&#160;</td>
+          <td class="paramname"><em>value</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="a2d5ec0b76daa136dae0b4aec1edf9e0b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a2d5ec0b76daa136dae0b4aec1edf9e0b">&#9670;&nbsp;</a></span>operator[]()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, kLanes_ &gt;::operator[] </td>
+          <td>(</td>
+          <td class="paramtype">uint32_t&#160;</td>
+          <td class="paramname"><em>i</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="ad6784e347f068ad20af52379286337c0"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ad6784e347f068ad20af52379286337c0">&#9670;&nbsp;</a></span>aligned_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;<a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a01e23040ab8cea016e3709f55c2089fdaf9fe4d6ac4ee913780e3361dde6c80d6">kVectorSize</a>&gt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, kLanes_ &gt;::aligned_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="ace5e03860b434b2d2a4590bd2bc8c147"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ace5e03860b434b2d2a4590bd2bc8c147">&#9670;&nbsp;</a></span>registers</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">uint32_t <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1int4__t.html">int4_t</a>, kLanes_ &gt;::registers[kRegisters]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this union was generated from the following file:<ul>
+<li><a class="el" href="vector_8h_source.html">vector.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4-members.html b/docs/unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4-members.html
new file mode 100644
index 0000000000..49fc036f08
--- /dev/null
+++ b/docs/unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4-members.html
@@ -0,0 +1,98 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: Member List</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">Vector&lt; uint4_t, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">cutlass::Vector&lt; uint4_t, kLanes_ &gt; Member List</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>This is the complete list of members for <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a>, including all inherited members.</p>
+<table class="directory">
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a4eab187b6f7650bd88ccd421c8330d3c">aligned_</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a9aacb7538f1b83762d68c768629c98eba17b71e816051646b567cf47334649a9b">kLanes</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a722f7852892c56613ea5027610523d8bab0655ce225f020ac27580efa249f6acb">kVectorSize</a> enum value</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#ae2215fe7c2c223175b4172d73a6c7a82">operator[]</a>(uint32_t i) const</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a15d5103e46d53e030100dedaecb0220a">registers</a></td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a602530542f526bd151f8a32deda015a1">Scalar</a> typedef</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a48e193a0b636934ea553c6e60ffef563">Vector</a>()</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a023d6ae1bf06d678f8cb5652eca1bf79">Vector</a>(uint32_t value)</td><td class="entry"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a></td><td class="entry"><span class="mlabel">inline</span></td></tr>
+</table></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html b/docs/unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html
new file mode 100644
index 0000000000..a07e876eaa
--- /dev/null
+++ b/docs/unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html
@@ -0,0 +1,329 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: cutlass::Vector&lt; uint4_t, kLanes_ &gt; Union Template Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="namespacecutlass.html">cutlass</a></li><li class="navelem"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">Vector&lt; uint4_t, kLanes_ &gt;</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#pub-types">Public Types</a> &#124;
+<a href="#pub-methods">Public Member Functions</a> &#124;
+<a href="#pub-attribs">Public Attributes</a> &#124;
+<a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4-members.html">List of all members</a>  </div>
+  <div class="headertitle">
+<div class="title">cutlass::Vector&lt; uint4_t, kLanes_ &gt; Union Template Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 4-bit unsigned integer datatype.  
+</p>
+
+<p><code>#include &lt;<a class="el" href="vector_8h_source.html">vector.h</a>&gt;</code></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-types"></a>
+Public Types</h2></td></tr>
+<tr class="memitem:a9aacb7538f1b83762d68c768629c98eb"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a9aacb7538f1b83762d68c768629c98eba17b71e816051646b567cf47334649a9b">kLanes</a> = kLanes_
+ }</td></tr>
+<tr class="memdesc:a9aacb7538f1b83762d68c768629c98eb"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of elements in the vector.  <a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a9aacb7538f1b83762d68c768629c98eb">More...</a><br /></td></tr>
+<tr class="separator:a9aacb7538f1b83762d68c768629c98eb"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a722f7852892c56613ea5027610523d8b"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom">{ <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a722f7852892c56613ea5027610523d8bab0655ce225f020ac27580efa249f6acb">kVectorSize</a> = kLanes / 2
+ }</td></tr>
+<tr class="memdesc:a722f7852892c56613ea5027610523d8b"><td class="mdescLeft">&#160;</td><td class="mdescRight">The size of the vector.  <a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a722f7852892c56613ea5027610523d8b">More...</a><br /></td></tr>
+<tr class="separator:a722f7852892c56613ea5027610523d8b"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a9bc93f275de86e94935e5e0fd31b9328"><td class="memItemLeft" align="right" valign="top">enum &#160;</td><td class="memItemRight" valign="bottom"></td></tr>
+<tr class="memdesc:a9bc93f275de86e94935e5e0fd31b9328"><td class="mdescLeft">&#160;</td><td class="mdescRight">The number of registers needed to store the vector.  <a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a9bc93f275de86e94935e5e0fd31b9328">More...</a><br /></td></tr>
+<tr class="separator:a9bc93f275de86e94935e5e0fd31b9328"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a602530542f526bd151f8a32deda015a1"><td class="memItemLeft" align="right" valign="top">typedef <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a602530542f526bd151f8a32deda015a1">Scalar</a></td></tr>
+<tr class="memdesc:a602530542f526bd151f8a32deda015a1"><td class="mdescLeft">&#160;</td><td class="mdescRight">The scalar type.  <a href="#a602530542f526bd151f8a32deda015a1">More...</a><br /></td></tr>
+<tr class="separator:a602530542f526bd151f8a32deda015a1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-methods"></a>
+Public Member Functions</h2></td></tr>
+<tr class="memitem:a48e193a0b636934ea553c6e60ffef563"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a48e193a0b636934ea553c6e60ffef563">Vector</a> ()</td></tr>
+<tr class="memdesc:a48e193a0b636934ea553c6e60ffef563"><td class="mdescLeft">&#160;</td><td class="mdescRight">Default Constructor.  <a href="#a48e193a0b636934ea553c6e60ffef563">More...</a><br /></td></tr>
+<tr class="separator:a48e193a0b636934ea553c6e60ffef563"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a023d6ae1bf06d678f8cb5652eca1bf79"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a023d6ae1bf06d678f8cb5652eca1bf79">Vector</a> (uint32_t value)</td></tr>
+<tr class="memdesc:a023d6ae1bf06d678f8cb5652eca1bf79"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructor to convert from uint32_t type.  <a href="#a023d6ae1bf06d678f8cb5652eca1bf79">More...</a><br /></td></tr>
+<tr class="separator:a023d6ae1bf06d678f8cb5652eca1bf79"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae2215fe7c2c223175b4172d73a6c7a82"><td class="memItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#ae2215fe7c2c223175b4172d73a6c7a82">operator[]</a> (uint32_t i) const</td></tr>
+<tr class="memdesc:ae2215fe7c2c223175b4172d73a6c7a82"><td class="mdescLeft">&#160;</td><td class="mdescRight">Accessor to the ith lane.  <a href="#ae2215fe7c2c223175b4172d73a6c7a82">More...</a><br /></td></tr>
+<tr class="separator:ae2215fe7c2c223175b4172d73a6c7a82"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
+Public Attributes</h2></td></tr>
+<tr class="memitem:a4eab187b6f7650bd88ccd421c8330d3c"><td class="memItemLeft" align="right" valign="top"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt; <a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a722f7852892c56613ea5027610523d8bab0655ce225f020ac27580efa249f6acb">kVectorSize</a> &gt;&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a4eab187b6f7650bd88ccd421c8330d3c">aligned_</a></td></tr>
+<tr class="memdesc:a4eab187b6f7650bd88ccd421c8330d3c"><td class="mdescLeft">&#160;</td><td class="mdescRight">The aligned storage to make sure we have good alignment.  <a href="#a4eab187b6f7650bd88ccd421c8330d3c">More...</a><br /></td></tr>
+<tr class="separator:a4eab187b6f7650bd88ccd421c8330d3c"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a15d5103e46d53e030100dedaecb0220a"><td class="memItemLeft" align="right" valign="top">uint32_t&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a15d5103e46d53e030100dedaecb0220a">registers</a> [kRegisters]</td></tr>
+<tr class="memdesc:a15d5103e46d53e030100dedaecb0220a"><td class="mdescLeft">&#160;</td><td class="mdescRight">The data in registers.  <a href="#a15d5103e46d53e030100dedaecb0220a">More...</a><br /></td></tr>
+<tr class="separator:a15d5103e46d53e030100dedaecb0220a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+<h2 class="groupheader">Member Typedef Documentation</h2>
+<a id="a602530542f526bd151f8a32deda015a1"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a602530542f526bd151f8a32deda015a1">&#9670;&nbsp;</a></span>Scalar</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">typedef <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a> <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, kLanes_ &gt;::<a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a602530542f526bd151f8a32deda015a1">Scalar</a></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Enumeration Documentation</h2>
+<a id="a9aacb7538f1b83762d68c768629c98eb"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9aacb7538f1b83762d68c768629c98eb">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a9aacb7538f1b83762d68c768629c98eba17b71e816051646b567cf47334649a9b"></a>kLanes&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="a722f7852892c56613ea5027610523d8b"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a722f7852892c56613ea5027610523d8b">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+<table class="fieldtable">
+<tr><th colspan="2">Enumerator</th></tr><tr><td class="fieldname"><a id="a722f7852892c56613ea5027610523d8bab0655ce225f020ac27580efa249f6acb"></a>kVectorSize&#160;</td><td class="fielddoc"></td></tr>
+</table>
+
+</div>
+</div>
+<a id="a9bc93f275de86e94935e5e0fd31b9328"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a9bc93f275de86e94935e5e0fd31b9328">&#9670;&nbsp;</a></span>anonymous enum</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">anonymous enum</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Constructor &amp; Destructor Documentation</h2>
+<a id="a48e193a0b636934ea553c6e60ffef563"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a48e193a0b636934ea553c6e60ffef563">&#9670;&nbsp;</a></span>Vector() <span class="overload">[1/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, kLanes_ &gt;::<a class="el" href="unioncutlass_1_1Vector.html">Vector</a> </td>
+          <td>(</td>
+          <td class="paramname"></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a023d6ae1bf06d678f8cb5652eca1bf79"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a023d6ae1bf06d678f8cb5652eca1bf79">&#9670;&nbsp;</a></span>Vector() <span class="overload">[2/2]</span></h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, kLanes_ &gt;::<a class="el" href="unioncutlass_1_1Vector.html">Vector</a> </td>
+          <td>(</td>
+          <td class="paramtype">uint32_t&#160;</td>
+          <td class="paramname"><em>value</em></td><td>)</td>
+          <td></td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Function Documentation</h2>
+<a id="ae2215fe7c2c223175b4172d73a6c7a82"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae2215fe7c2c223175b4172d73a6c7a82">&#9670;&nbsp;</a></span>operator[]()</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+<table class="mlabels">
+  <tr>
+  <td class="mlabels-left">
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> int <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, kLanes_ &gt;::operator[] </td>
+          <td>(</td>
+          <td class="paramtype">uint32_t&#160;</td>
+          <td class="paramname"><em>i</em></td><td>)</td>
+          <td> const</td>
+        </tr>
+      </table>
+  </td>
+  <td class="mlabels-right">
+<span class="mlabels"><span class="mlabel">inline</span></span>  </td>
+  </tr>
+</table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<h2 class="groupheader">Member Data Documentation</h2>
+<a id="a4eab187b6f7650bd88ccd421c8330d3c"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a4eab187b6f7650bd88ccd421c8330d3c">&#9670;&nbsp;</a></span>aligned_</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname"><a class="el" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;<a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a722f7852892c56613ea5027610523d8bab0655ce225f020ac27580efa249f6acb">kVectorSize</a>&gt; <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, kLanes_ &gt;::aligned_</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<a id="a15d5103e46d53e030100dedaecb0220a"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a15d5103e46d53e030100dedaecb0220a">&#9670;&nbsp;</a></span>registers</h2>
+
+<div class="memitem">
+<div class="memproto">
+<div class="memtemplate">
+template&lt;int kLanes_&gt; </div>
+      <table class="memname">
+        <tr>
+          <td class="memname">uint32_t <a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector</a>&lt; <a class="el" href="structcutlass_1_1uint4__t.html">uint4_t</a>, kLanes_ &gt;::registers[kRegisters]</td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+</div>
+</div>
+<hr/>The documentation for this union was generated from the following file:<ul>
+<li><a class="el" href="vector_8h_source.html">vector.h</a></li>
+</ul>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage-members.html b/docs/unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage-members.html
index 5b998e32ae..4f3ed8e97b 100644
--- a/docs/unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage-members.html
+++ b/docs/unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage-members.html
@@ -73,18 +73,18 @@
 </div><!-- top -->
 <div class="header">
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage Member List</div>  </div>
+<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage Member List</div>  </div>
 </div><!--header-->
 <div class="contents">
 
-<p>This is the complete list of members for <a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a>, including all inherited members.</p>
+<p>This is the complete list of members for <a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a>, including all inherited members.</p>
 <table class="directory">
-  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#aea5ed35a44624684ffa9ada9d09a8893">load</a></td><td class="entry"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a></td><td class="entry"></td></tr>
-  <tr><td class="entry"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a1f31090613c4e6f0895f598880d6c4e5">store</a></td><td class="entry"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a></td><td class="entry"></td></tr>
+  <tr class="even"><td class="entry"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#ae7bc498e4976814111114091de4e43af">load</a></td><td class="entry"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a></td><td class="entry"></td></tr>
+  <tr><td class="entry"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a673ddeb91e89c9a39c0a4dbaaa97dd8f">store</a></td><td class="entry"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage</a></td><td class="entry"></td></tr>
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html b/docs/unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html
index 1a79c8cfc6..cc24a5d21b 100644
--- a/docs/unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html
+++ b/docs/unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html
@@ -5,7 +5,7 @@
 <meta http-equiv="X-UA-Compatible" content="IE=9"/>
 <meta name="generator" content="Doxygen 1.8.14"/>
 <meta name="viewport" content="width=device-width, initial-scale=1"/>
-<title>Cutlass: cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage Union Reference</title>
+<title>Cutlass: cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage Union Reference</title>
 <link href="tabs.css" rel="stylesheet" type="text/css"/>
 <script type="text/javascript" src="jquery.js"></script>
 <script type="text/javascript" src="dynsections.js"></script>
@@ -76,7 +76,7 @@
 <a href="#pub-attribs">Public Attributes</a> &#124;
 <a href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage-members.html">List of all members</a>  </div>
   <div class="headertitle">
-<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage Union Reference</div>  </div>
+<div class="title">cutlass::gemm::GemmEpilogueTraits&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage Union Reference</div>  </div>
 </div><!--header-->
 <div class="contents">
 
@@ -87,38 +87,38 @@
 <table class="memberdecls">
 <tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="pub-attribs"></a>
 Public Attributes</h2></td></tr>
-<tr class="memitem:a1f31090613c4e6f0895f598880d6c4e5"><td class="memItemLeft" align="right" valign="top">SharedStoreIteratorD::SharedStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a1f31090613c4e6f0895f598880d6c4e5">store</a></td></tr>
-<tr class="separator:a1f31090613c4e6f0895f598880d6c4e5"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:aea5ed35a44624684ffa9ada9d09a8893"><td class="memItemLeft" align="right" valign="top">SharedLoadIteratorD::SharedStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#aea5ed35a44624684ffa9ada9d09a8893">load</a></td></tr>
-<tr class="separator:aea5ed35a44624684ffa9ada9d09a8893"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a673ddeb91e89c9a39c0a4dbaaa97dd8f"><td class="memItemLeft" align="right" valign="top">SharedStoreIteratorD::SharedStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#a673ddeb91e89c9a39c0a4dbaaa97dd8f">store</a></td></tr>
+<tr class="separator:a673ddeb91e89c9a39c0a4dbaaa97dd8f"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:ae7bc498e4976814111114091de4e43af"><td class="memItemLeft" align="right" valign="top">SharedLoadStreamD::SharedStorage&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1gemm_1_1GemmEpilogueTraits_1_1StreamSharedStorage.html#ae7bc498e4976814111114091de4e43af">load</a></td></tr>
+<tr class="separator:ae7bc498e4976814111114091de4e43af"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <h2 class="groupheader">Member Data Documentation</h2>
-<a id="aea5ed35a44624684ffa9ada9d09a8893"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#aea5ed35a44624684ffa9ada9d09a8893">&#9670;&nbsp;</a></span>load</h2>
+<a id="ae7bc498e4976814111114091de4e43af"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#ae7bc498e4976814111114091de4e43af">&#9670;&nbsp;</a></span>load</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">SharedLoadIteratorD::SharedStorage <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage::load</td>
+          <td class="memname">SharedLoadStreamD::SharedStorage <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage::load</td>
         </tr>
       </table>
 </div><div class="memdoc">
 
 </div>
 </div>
-<a id="a1f31090613c4e6f0895f598880d6c4e5"></a>
-<h2 class="memtitle"><span class="permalink"><a href="#a1f31090613c4e6f0895f598880d6c4e5">&#9670;&nbsp;</a></span>store</h2>
+<a id="a673ddeb91e89c9a39c0a4dbaaa97dd8f"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#a673ddeb91e89c9a39c0a4dbaaa97dd8f">&#9670;&nbsp;</a></span>store</h2>
 
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadIteratorD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
+template&lt;typename OutputTile_, typename Accumulators_, typename GlobalLoadIteratorC_, typename GlobalTransformerC_, typename GlobalTransformerD_, typename GlobalStoreIteratorD_, typename SharedStoreIteratorD_, typename SharedStoreTransformerD_, typename SharedLoadStreamD_, typename Iterations_, typename Delta_, typename Functor_, typename Index_ = int&gt; </div>
       <table class="memname">
         <tr>
-          <td class="memname">SharedStoreIteratorD::SharedStorage <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadIteratorD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage::store</td>
+          <td class="memname">SharedStoreIteratorD::SharedStorage <a class="el" href="structcutlass_1_1gemm_1_1GemmEpilogueTraits.html">cutlass::gemm::GemmEpilogueTraits</a>&lt; OutputTile_, Accumulators_, GlobalLoadIteratorC_, GlobalTransformerC_, GlobalTransformerD_, GlobalStoreIteratorD_, SharedStoreIteratorD_, SharedStoreTransformerD_, SharedLoadStreamD_, Iterations_, Delta_, Functor_, Index_ &gt;::StreamSharedStorage::store</td>
         </tr>
       </table>
 </div><div class="memdoc">
@@ -131,7 +131,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#a1f31090613c4e6f0895f5988
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:13 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:51 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage-members.html b/docs/unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage-members.html
index be28d80e5f..d27143d36e 100644
--- a/docs/unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage-members.html
+++ b/docs/unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage-members.html
@@ -84,7 +84,7 @@
 </table></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html b/docs/unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html
index c182796bbb..f9671017c8 100644
--- a/docs/unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html
+++ b/docs/unioncutlass_1_1gemm_1_1GemmTraits_1_1SharedStorage.html
@@ -99,7 +99,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#afdca9ac1d28e17efaa394f58
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname">Epilogue::SharedStorage <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage::epilogue</td>
@@ -115,7 +115,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa5dd7edc3cffa785eb1e5b62
 <div class="memitem">
 <div class="memproto">
 <div class="memtemplate">
-template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Scalar&gt;&gt; </div>
+template&lt;typename GemmConfig_, typename GlobalLoadStreamA_, typename GlobalLoadStreamB_, typename SharedLoadStreamA_, typename SharedLoadStreamB_, typename Epilogue_, typename BlockSwizzle_ = IdentityBlockSwizzle, typename Index_ = int, typename ClearAccumulators_ = ClearAccumulators&lt;typename GemmConfig_::Accumulators::Element&gt;&gt; </div>
       <table class="memname">
         <tr>
           <td class="memname"><a class="el" href="structcutlass_1_1gemm_1_1GemmTraits_1_1MainLoopSharedStorage.html">MainLoopSharedStorage</a> <a class="el" href="structcutlass_1_1gemm_1_1GemmTraits.html">cutlass::gemm::GemmTraits</a>&lt; GemmConfig_, GlobalLoadStreamA_, GlobalLoadStreamB_, SharedLoadStreamA_, SharedLoadStreamB_, Epilogue_, BlockSwizzle_, Index_, ClearAccumulators_ &gt;::SharedStorage::main_loop</td>
@@ -131,7 +131,7 @@ <h2 class="memtitle"><span class="permalink"><a href="#aa5dd7edc3cffa785eb1e5b62
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:14 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:52 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/vector_8h.html b/docs/vector_8h.html
index a3e0c090d8..66943201b5 100644
--- a/docs/vector_8h.html
+++ b/docs/vector_8h.html
@@ -84,7 +84,8 @@
 <p>Defines a 1D vector of elements held in the registers of each thread.  
 <a href="#details">More...</a></p>
 <div class="textblock"><code>#include &lt;cuda_fp16.h&gt;</code><br />
-<code>#include &lt;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&gt;</code><br />
+<code>#include &quot;<a class="el" href="numeric__types_8h_source.html">cutlass/util/numeric_types.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="platform_8h_source.html">cutlass/util/platform.h</a>&quot;</code><br />
 </div>
 <p><a href="vector_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -94,11 +95,26 @@
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector.html">cutlass::Vector&lt; Scalar_, kLanes_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">cutlass::Vector&lt; half, 1 &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">cutlass::Vector&lt; half, kLanes_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">cutlass::Vector&lt; bin1_t, kLanes_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 1-bit binary datatype.  <a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; int4_t, kLanes_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 4-bit signed integer datatype.  <a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">union &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">cutlass::Vector&lt; uint4_t, kLanes_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="unioncutlass_1_1Vector.html">Vector</a> definition for 4-bit unsigned integer datatype.  <a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize.html">cutlass::Vectorize&lt; Element_, kLanes_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html">cutlass::Vectorize&lt; Element_, 1 &gt;</a></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html">cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html">cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html">cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;</a></td></tr>
 <tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
 <tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1Extent.html">cutlass::Extent&lt; T &gt;</a></td></tr>
 <tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Returns the extent of a scalar or vector.  <a href="structcutlass_1_1Extent.html#details">More...</a><br /></td></tr>
@@ -147,17 +163,17 @@
 <tr class="memitem:aa80a7cb3febd19b96f2ecbcb610b1b9e"><td class="memTemplParams" colspan="2">template&lt;&gt; </td></tr>
 <tr class="memitem:aa80a7cb3febd19b96f2ecbcb610b1b9e"><td class="memTemplItemLeft" align="right" valign="top">struct&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#aa80a7cb3febd19b96f2ecbcb610b1b9e">cutlass::__align__</a> (64) AlignedStruct&lt; 64 &gt;</td></tr>
 <tr class="separator:aa80a7cb3febd19b96f2ecbcb610b1b9e"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:acdb62db582cf90cfd437fc56f4ca7bbf"><td class="memTemplParams" colspan="2">template&lt;typename Scalar_ &gt; </td></tr>
-<tr class="memitem:acdb62db582cf90cfd437fc56f4ca7bbf"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#acdb62db582cf90cfd437fc56f4ca7bbf">cutlass::make_zero</a> (Scalar_ &amp;x)</td></tr>
-<tr class="separator:acdb62db582cf90cfd437fc56f4ca7bbf"><td class="memSeparator" colspan="2">&#160;</td></tr>
-<tr class="memitem:abc5c00b4986db5a114e774cee9999717"><td class="memTemplParams" colspan="2">template&lt;typename Scalar_ , int kLanes_&gt; </td></tr>
-<tr class="memitem:abc5c00b4986db5a114e774cee9999717"><td class="memTemplItemLeft" align="right" valign="top">CUTLASS_DEVICE void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#abc5c00b4986db5a114e774cee9999717">cutlass::make_zero</a> (Vector&lt; Scalar_, kLanes_ &gt; &amp;vec)</td></tr>
-<tr class="separator:abc5c00b4986db5a114e774cee9999717"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:aa03883e612d292e1b53eedd46e08ccd1"><td class="memTemplParams" colspan="2">template&lt;typename Scalar_ &gt; </td></tr>
+<tr class="memitem:aa03883e612d292e1b53eedd46e08ccd1"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#aa03883e612d292e1b53eedd46e08ccd1">cutlass::make_zero</a> (Scalar_ &amp;x)</td></tr>
+<tr class="separator:aa03883e612d292e1b53eedd46e08ccd1"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:a55b5b15eadf125d5ddddee1ea22191ee"><td class="memTemplParams" colspan="2">template&lt;typename Scalar_ , int kLanes_&gt; </td></tr>
+<tr class="memitem:a55b5b15eadf125d5ddddee1ea22191ee"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> void&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a55b5b15eadf125d5ddddee1ea22191ee">cutlass::make_zero</a> (Vector&lt; Scalar_, kLanes_ &gt; &amp;vec)</td></tr>
+<tr class="separator:a55b5b15eadf125d5ddddee1ea22191ee"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/vector_8h_source.html b/docs/vector_8h_source.html
index 735823858e..ebd7873e65 100644
--- a/docs/vector_8h_source.html
+++ b/docs/vector_8h_source.html
@@ -76,43 +76,69 @@
 <div class="title">vector.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="vector_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;cuda_fp16.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">size_t</span> kAlignment_&gt;</div><div class="line"><a name="l00041"></a><span class="lineno"><a class="line" href="structcutlass_1_1AlignedStruct.html">   41</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a> {};</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00044"></a><span class="lineno"><a class="line" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">   44</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(1) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;1&gt;{};</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a602227fad962270da185209ecc6012f2">   46</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(2) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;2&gt;{};</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a266d7d2ae6e79537e46ee37b4fdface7">   48</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(4) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;4&gt;{};</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a1101e01215ddb0e5a7b120a4541a3c4e">   50</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(8) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;8&gt;{};</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00052"></a><span class="lineno"><a class="line" href="namespacecutlass.html#aa4071cf5103f352a5100d9b4bba895e2">   52</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(16) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;16&gt;{};</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="namespacecutlass.html#ada65694bdd4b70d4c9d769a536275a47">   54</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(32) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;32&gt;{};</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="namespacecutlass.html#aa80a7cb3febd19b96f2ecbcb610b1b9e">   56</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(64) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;64&gt;{};</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html">   61</a></span>&#160;<span class="keyword">union </span><a class="code" href="unioncutlass_1_1Vector.html">Vector</a> {</div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">   63</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a>;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">   66</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> = kLanes_ };</div><div class="line"><a name="l00068"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">   68</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> = <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> * (int)<span class="keyword">sizeof</span>(<a class="code" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a>) };</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <span class="keyword">enum</span> { kRegisters = <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt; 4 ? 1 : <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> / 4 };</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;  <span class="comment">// Make sure that the vector type makes sense.</span></div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c">   73</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt;= 16, <span class="stringliteral">&quot;Vector type is too large&quot;</span>);</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct&lt;kVectorSize&gt;</a> <a class="code" href="unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c">aligned_</a>;</div><div class="line"><a name="l00078"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">   78</a></span>&#160;  <a class="code" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> <a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a>];</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">   80</a></span>&#160;  uint32_t <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[kRegisters];</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00083"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a250860c921c94a6077344f9e11bf5b02">   83</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> <span class="keyword">const</span>&amp; <a class="code" href="unioncutlass_1_1Vector.html#a250860c921c94a6077344f9e11bf5b02">operator[]</a>(uint32_t i)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[i]; }</div><div class="line"><a name="l00085"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a44cc27bf8a7b789b4ae8538155a50156">   85</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a>&amp; <a class="code" href="unioncutlass_1_1Vector.html#a44cc27bf8a7b789b4ae8538155a50156">operator[]</a>(uint32_t i) { <span class="keywordflow">return</span> <a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[i]; }</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;};</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)</span></div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">   93</a></span>&#160;<span class="keyword">union </span><a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;half, kLanes_&gt; {</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">   95</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a>;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#aa70d2fd36f00b63d321c1f7b6d6c3024ad242b575673ca1bf9cf311e58a966392">   98</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> = kLanes_ };</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#adc4140a7e40be1e4f81c78a657c7ba73abfbb3cf98db2f8af7150efb91cac4e79">  100</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> = <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> * (int)<span class="keyword">sizeof</span>(<a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a>) };</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  <span class="keyword">enum</span> { kRegisters = <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt; 4 ? 1 : <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> / 4 };</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  <span class="comment">// Make sure that the vector type makes sense.</span></div><div class="line"><a name="l00105"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">  105</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt;= <span class="keywordtype">size_t</span>(16), <span class="stringliteral">&quot;Vector type is too large&quot;</span>);</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct&lt;kVectorSize&gt;</a> <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">aligned_</a>;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3">  110</a></span>&#160;  uint16_t <a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a>];</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#abd116dc7a5b82ac9b1481fb1d2bfc93f">  112</a></span>&#160;  uint32_t <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[kRegisters];</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab0516cef8949f5998b5251cc6b6db683">  115</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> <span class="keyword">const</span>&amp; <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab0516cef8949f5998b5251cc6b6db683">operator[]</a>(uint32_t i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[i]);</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;  }</div><div class="line"><a name="l00119"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a8ade80e040264fbd669d3f15c249884e">  119</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a>&amp; <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a8ade80e040264fbd669d3f15c249884e">operator[]</a>(uint32_t i) { <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a>&amp;<span class="keyword">&gt;</span>(<a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[i]); }</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;};</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_&gt;</div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="namespacecutlass.html#acdb62db582cf90cfd437fc56f4ca7bbf">  127</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#acdb62db582cf90cfd437fc56f4ca7bbf">make_zero</a>(Scalar_&amp; x) {</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  x = Scalar_(0);</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;}</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Element_, <span class="keywordtype">int</span> kLanes_ = 1&gt;</div><div class="line"><a name="l00134"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize.html">  134</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Vectorize.html">Vectorize</a> {</div><div class="line"><a name="l00135"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">  135</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="unioncutlass_1_1Vector.html">Vector&lt;Element_, kLanes_&gt;</a> <a class="code" href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">Type</a>;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;};</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Element_&gt;</div><div class="line"><a name="l00141"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html">  141</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;Element_, 1&gt; {</div><div class="line"><a name="l00142"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html#a79f147933e3f520145aee94ae18da3c5">  142</a></span>&#160;  <span class="keyword">typedef</span> Element_ <a class="code" href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html#a79f147933e3f520145aee94ae18da3c5">Type</a>;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;};</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00148"></a><span class="lineno"><a class="line" href="namespacecutlass.html#abc5c00b4986db5a114e774cee9999717">  148</a></span>&#160;CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#acdb62db582cf90cfd437fc56f4ca7bbf">make_zero</a>(<a class="code" href="unioncutlass_1_1Vector.html">Vector&lt;Scalar_, kLanes_&gt;</a>&amp; vec) {</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Vector&lt;Scalar_, kLanes_&gt;::kRegisters; ++i) {</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;    vec.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[i] = 0;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  }</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;}</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;<span class="comment">// cutlass::Extent similar to std::extent but applicable to CUTLASS types</span></div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00161"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent.html">  161</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Extent.html">Extent</a> {</div><div class="line"><a name="l00162"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">  162</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">size_t</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">kValue</a> = 1;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;};</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> Lanes&gt;</div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html">  167</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Extent.html">Extent</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;T, Lanes&gt; &gt; {</div><div class="line"><a name="l00168"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a10f7184a9a50de0268efa45dab5dc304">  168</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">size_t</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">kValue</a> = Lanes;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;};</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> Lanes&gt;</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html">  173</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Extent.html">Extent</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;T, Lanes&gt; const&gt; {</div><div class="line"><a name="l00174"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a87917a6dfbb1662416c4ea4831669aaf">  174</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">size_t</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">kValue</a> = Lanes;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;};</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00181"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits.html">  181</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1VectorTraits.html">VectorTraits</a> {</div><div class="line"><a name="l00183"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599">  183</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599">Scalar</a>;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;</div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">  186</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">kLanes</a> = 1;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;</div><div class="line"><a name="l00189"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">  189</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">IsVector</a> = <span class="keyword">false</span>;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">  192</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">Vector&lt;T, 1&gt;</a> <a class="code" href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">Vector</a>;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;};</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> Lanes&gt;</div><div class="line"><a name="l00197"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html">  197</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1VectorTraits.html">VectorTraits</a>&lt;<a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">Vector</a>&lt;T, Lanes&gt; &gt; {</div><div class="line"><a name="l00199"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc">  199</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc">Scalar</a>;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aca745b59c6c21292f119943e5a480f39">  202</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">kLanes</a> = Lanes;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;</div><div class="line"><a name="l00205"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aead181209c756f25ab5870682670bb99">  205</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">IsVector</a> = <span class="keyword">true</span>;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;</div><div class="line"><a name="l00208"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">  208</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">Vector&lt;T, Lanes&gt;</a> <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">Vector</a>;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;};</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> Lanes&gt;</div><div class="line"><a name="l00213"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html">  213</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1VectorTraits.html">VectorTraits</a>&lt;<a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">Vector</a>&lt;T, Lanes&gt; const&gt; {</div><div class="line"><a name="l00215"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e">  215</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e">Scalar</a>;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;</div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a43ac200035052a2c352c8c4b84aac73c">  218</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">kLanes</a> = Lanes;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a893488718d8437970c1b4ed4f4056620">  221</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">IsVector</a> = <span class="keyword">true</span>;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;</div><div class="line"><a name="l00224"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">  224</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">Vector&lt;T, Lanes&gt;</a> <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">Vector</a>;</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;};</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1Vectorize_3_01Element___00_011_01_4_html_a79f147933e3f520145aee94ae18da3c5"><div class="ttname"><a href="structcutlass_1_1Vectorize_3_01Element___00_011_01_4.html#a79f147933e3f520145aee94ae18da3c5">cutlass::Vectorize&lt; Element_, 1 &gt;::Type</a></div><div class="ttdeci">Element_ Type</div><div class="ttdef"><b>Definition:</b> vector.h:142</div></div>
+<a href="vector_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;cuda_fp16.h&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="numeric__types_8h.html">cutlass/util/numeric_types.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="platform_8h.html">cutlass/util/platform.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">size_t</span> kAlignment_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="structcutlass_1_1AlignedStruct.html">   42</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a> {};</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">   45</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(1) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;1&gt;{};</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00047"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a602227fad962270da185209ecc6012f2">   47</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(2) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;2&gt;{};</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00049"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a266d7d2ae6e79537e46ee37b4fdface7">   49</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(4) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;4&gt;{};</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a1101e01215ddb0e5a7b120a4541a3c4e">   51</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(8) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;8&gt;{};</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="namespacecutlass.html#aa4071cf5103f352a5100d9b4bba895e2">   53</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(16) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;16&gt;{};</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00055"></a><span class="lineno"><a class="line" href="namespacecutlass.html#ada65694bdd4b70d4c9d769a536275a47">   55</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(32) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;32&gt;{};</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="namespacecutlass.html#aa80a7cb3febd19b96f2ecbcb610b1b9e">   57</a></span>&#160;<span class="keyword">struct </span><a class="code" href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">__align__</a>(64) <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct</a>&lt;64&gt;{};</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00062"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html">   62</a></span>&#160;<span class="keyword">union </span><a class="code" href="unioncutlass_1_1Vector.html">Vector</a> {</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">   64</a></span>&#160;  <span class="keyword">typedef</span> Scalar_ <a class="code" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a>;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">   67</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> = kLanes_ };</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">   69</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> = <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> * (int)<span class="keyword">sizeof</span>(<a class="code" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a>) };</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="keyword">enum</span> { kRegisters = <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt; 4 ? 1 : <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> / 4 };</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  <span class="comment">// Make sure that the vector type makes sense.</span></div><div class="line"><a name="l00074"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c">   74</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt;= 16, <span class="stringliteral">&quot;Vector type is too large&quot;</span>);</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct&lt;kVectorSize&gt;</a> <a class="code" href="unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c">aligned_</a>;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">   79</a></span>&#160;  <a class="code" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> <a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a>];</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">   81</a></span>&#160;  uint32_t <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[kRegisters];</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#a69be4f85c1dac371fa6f1c6747724adc">   84</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a> <span class="keyword">const</span>&amp; <a class="code" href="unioncutlass_1_1Vector.html#a69be4f85c1dac371fa6f1c6747724adc">operator[]</a>(uint32_t i)<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[i]; }</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector.html#abf531676caf85cde1c8df435c1ebe8bb">   86</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">Scalar</a>&amp; <a class="code" href="unioncutlass_1_1Vector.html#abf531676caf85cde1c8df435c1ebe8bb">operator[]</a>(uint32_t i) { <span class="keywordflow">return</span> <a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[i]; }</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;};</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html">   92</a></span>&#160;<span class="keyword">union </span><a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;half, 1&gt; {</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">   94</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a>;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a27410a8095bb82f682612954df4d6182a3a12b2fbef9007373a03125ec3c1c393">   97</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> = 1 };</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a0c3d44e7c726aabf23d57094475fcc22aa12662bfb46ed10de12f168219ce0a8d">   99</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> = <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> * (int)<span class="keyword">sizeof</span>(<a class="code" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a>) };</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  <span class="keyword">enum</span> { kRegisters = <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt; 4 ? 1 : <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> / 4 };</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;  <span class="comment">// Make sure that the vector type makes sense.</span></div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#acc698443a38fd0ad63f931bdf172ad99">  104</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt;= 16, <span class="stringliteral">&quot;Vector type is too large&quot;</span>);</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct&lt;kVectorSize&gt;</a> <a class="code" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#acc698443a38fd0ad63f931bdf172ad99">aligned_</a>;</div><div class="line"><a name="l00109"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a81709dacea12d6bd3bb328a3f0a519b0">  109</a></span>&#160;  uint16_t <a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a>];</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a12fa9366dd57fadb2d3f624ab7836dc8">  112</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a> <span class="keyword">const</span>&amp; <a class="code" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a12fa9366dd57fadb2d3f624ab7836dc8">operator[]</a>(uint32_t i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[i]);</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  }</div><div class="line"><a name="l00116"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a1e6568c0f3f958db739074ab6978ff10">  116</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a>&amp; <a class="code" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a1e6568c0f3f958db739074ab6978ff10">operator[]</a>(uint32_t i) {</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;      <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">Scalar</a>&amp;<span class="keyword">&gt;</span>(<a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[i]);</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  }</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;};</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;<span class="preprocessor">#if !defined(__CUDACC_RTC__) || defined(CUTLASS_NVRTC_HAS_FP16)</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html">  124</a></span>&#160;<span class="keyword">union </span><a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;half, kLanes_&gt; {</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">  126</a></span>&#160;  <span class="keyword">typedef</span> half <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a>;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00129"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#acfa6821aefbd38a1b7c44e5d83eda05fad242b575673ca1bf9cf311e58a966392">  129</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> = kLanes_ };</div><div class="line"><a name="l00131"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a42288bc8b85cd3f40aafbe7549a5285babfbb3cf98db2f8af7150efb91cac4e79">  131</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> = <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> * (int)<span class="keyword">sizeof</span>(<a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a>) };</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  <span class="keyword">enum</span> { kRegisters = <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt; 4 ? 1 : <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> / 4 };</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <span class="comment">// Make sure that the vector type makes sense.</span></div><div class="line"><a name="l00136"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">  136</a></span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>(<a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt;= <span class="keywordtype">size_t</span>(16), <span class="stringliteral">&quot;Vector type is too large&quot;</span>);</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;  <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct&lt;kVectorSize&gt;</a> <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">aligned_</a>;</div><div class="line"><a name="l00141"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab4a119a4813f80aa10c25e32f8b115f3">  141</a></span>&#160;  uint16_t <a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a>];</div><div class="line"><a name="l00143"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#abd116dc7a5b82ac9b1481fb1d2bfc93f">  143</a></span>&#160;  uint32_t <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[kRegisters];</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ad50b5d4acbd7ead82c128091c9db9113">  146</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> <span class="keyword">const</span>&amp; <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ad50b5d4acbd7ead82c128091c9db9113">operator[]</a>(uint32_t i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;    <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a> const&amp;<span class="keyword">&gt;</span>(<a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[i]);</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;  }</div><div class="line"><a name="l00150"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a3891ce1c321a3e57e938c8864de9baf0">  150</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a>&amp; <a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a3891ce1c321a3e57e938c8864de9baf0">operator[]</a>(uint32_t i) {</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;      <span class="keywordflow">return</span> <span class="keyword">reinterpret_cast&lt;</span><a class="code" href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">Scalar</a>&amp;<span class="keyword">&gt;</span>(<a class="code" href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">scalars</a>[i]);</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  }</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;};</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00161"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html">  161</a></span>&#160;<span class="keyword">union </span><a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="code" href="structcutlass_1_1bin1__t.html">bin1_t</a>, kLanes_&gt; {</div><div class="line"><a name="l00163"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a05914a7339b9d399ac7d8cf7ef617c31">  163</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1bin1__t.html">bin1_t</a> <a class="code" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a05914a7339b9d399ac7d8cf7ef617c31">Scalar</a>;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a4020f25408022dbf20c26ed4fa8c7dffa14befaa9d739f1b754bc372f717b105b">  166</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> = kLanes_ };</div><div class="line"><a name="l00168"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#ad75d72ca210d77ae82b8aa4bed04fed0ab98f21cd2645378ad0a840727b7edaff">  168</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> = <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> / 8 };</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;  <span class="keyword">enum</span> { kRegisters = <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt; 4 ? 1 : <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> / 4 };</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> &gt;= 8) &amp;&amp; !(<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> % 8),</div><div class="line"><a name="l00173"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1df3324868465331db13bd7775b55e87">  173</a></span>&#160;                <span class="stringliteral">&quot;May only construct vectors of bin1_t that are multiples of 8 bits.&quot;</span>);</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;  <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct&lt;kVectorSize&gt;</a> <a class="code" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1df3324868465331db13bd7775b55e87">aligned_</a>;</div><div class="line"><a name="l00178"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#af27a36f604513f05aebe0624a9c539ab">  178</a></span>&#160;  uint32_t <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[kRegisters];</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00182"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1310cf2e92e260cf55cfda1cb2cb7280">  182</a></span>&#160;  <a class="code" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1310cf2e92e260cf55cfda1cb2cb7280">Vector</a>() {}</div><div class="line"><a name="l00184"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a50ae62579267952a648d4b6a6be3c663">  184</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a50ae62579267952a648d4b6a6be3c663">Vector</a>(uint32_t value) { <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0] = value; }</div><div class="line"><a name="l00186"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a8eda6e6181a5333ca8350977374708cb">  186</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">bool</span> <a class="code" href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a8eda6e6181a5333ca8350977374708cb">operator[]</a>(uint32_t i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;    <span class="keywordflow">return</span> ( (<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[i / 32] &amp; (1 &lt;&lt; (i % 32))) != 0 );</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;  }</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;};</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00195"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html">  195</a></span>&#160;<span class="keyword">union </span><a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="code" href="structcutlass_1_1int4__t.html">int4_t</a>, kLanes_&gt; {</div><div class="line"><a name="l00197"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af60049062cedca55d8cb4a3cae82641f">  197</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1int4__t.html">int4_t</a> <a class="code" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af60049062cedca55d8cb4a3cae82641f">Scalar</a>;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00200"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a322ddd3ec1f47b76e21c24d3a3c44c5badeba151dbcb3c15e581bad7d767a93fa">  200</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> = kLanes_ };</div><div class="line"><a name="l00202"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a01e23040ab8cea016e3709f55c2089fdaf9fe4d6ac4ee913780e3361dde6c80d6">  202</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> = <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> / 2 };</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;  <span class="keyword">enum</span> { kRegisters = <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt; 4 ? 1 : <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> / 4 };</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> &gt;= 2) &amp;&amp; !(<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> % 2),</div><div class="line"><a name="l00207"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ad6784e347f068ad20af52379286337c0">  207</a></span>&#160;   <span class="stringliteral">&quot;May only construct vectors of int4_t that are multiples of 8 bits.&quot;</span>);</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;  <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct&lt;kVectorSize&gt;</a> <a class="code" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ad6784e347f068ad20af52379286337c0">aligned_</a>;</div><div class="line"><a name="l00212"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ace5e03860b434b2d2a4590bd2bc8c147">  212</a></span>&#160;  uint32_t <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[kRegisters];</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00216"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af166f710ebbfdff8a62453eee454c1d5">  216</a></span>&#160;  <a class="code" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af166f710ebbfdff8a62453eee454c1d5">Vector</a>() {}</div><div class="line"><a name="l00218"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a5feb070268f85bd73c3095eaf2d0e2bb">  218</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a5feb070268f85bd73c3095eaf2d0e2bb">Vector</a>(uint32_t value) { <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0] = value; }</div><div class="line"><a name="l00220"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a2d5ec0b76daa136dae0b4aec1edf9e0b">  220</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a2d5ec0b76daa136dae0b4aec1edf9e0b">operator[]</a>(uint32_t i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;    <span class="keywordflow">return</span> (<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[i / 8] &gt;&gt; (i % 8 * 4) &amp; 0x0f)</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;              - 16 * (<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[i / 8] &gt;&gt; (i % 8 * 4 + 3) &amp; 0x01);</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;  }</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;};</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00230"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html">  230</a></span>&#160;<span class="keyword">union </span><a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="code" href="structcutlass_1_1uint4__t.html">uint4_t</a>, kLanes_&gt; {</div><div class="line"><a name="l00232"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a602530542f526bd151f8a32deda015a1">  232</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1uint4__t.html">uint4_t</a> <a class="code" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a602530542f526bd151f8a32deda015a1">Scalar</a>;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;</div><div class="line"><a name="l00235"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a9aacb7538f1b83762d68c768629c98eba17b71e816051646b567cf47334649a9b">  235</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> = kLanes_ };</div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a722f7852892c56613ea5027610523d8bab0655ce225f020ac27580efa249f6acb">  237</a></span>&#160;  <span class="keyword">enum</span> { <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> = <a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> / 2 };</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;  <span class="keyword">enum</span> { kRegisters = <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> &lt; 4 ? 1 : <a class="code" href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">kVectorSize</a> / 4 };</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;  <a class="code" href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a>((<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> &gt;= 2) &amp;&amp; !(<a class="code" href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">kLanes</a> % 2),</div><div class="line"><a name="l00242"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a4eab187b6f7650bd88ccd421c8330d3c">  242</a></span>&#160;    <span class="stringliteral">&quot;May only construct vectors of uint4_t that are multiples of 8 bits.&quot;</span>);</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;  <a class="code" href="structcutlass_1_1AlignedStruct.html">AlignedStruct&lt;kVectorSize&gt;</a> <a class="code" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a4eab187b6f7650bd88ccd421c8330d3c">aligned_</a>;</div><div class="line"><a name="l00247"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a15d5103e46d53e030100dedaecb0220a">  247</a></span>&#160;  uint32_t <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[kRegisters];</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00251"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a48e193a0b636934ea553c6e60ffef563">  251</a></span>&#160;  <a class="code" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a48e193a0b636934ea553c6e60ffef563">Vector</a>() {}</div><div class="line"><a name="l00253"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a023d6ae1bf06d678f8cb5652eca1bf79">  253</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <a class="code" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a023d6ae1bf06d678f8cb5652eca1bf79">Vector</a>(uint32_t value) { <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[0] = value; }</div><div class="line"><a name="l00255"></a><span class="lineno"><a class="line" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#ae2215fe7c2c223175b4172d73a6c7a82">  255</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#ae2215fe7c2c223175b4172d73a6c7a82">operator[]</a>(uint32_t i)<span class="keyword"> const </span>{</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[i / 8] &gt;&gt; (i % 8 * 4) &amp; 0x0f;</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;  }</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;};</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_&gt;</div><div class="line"><a name="l00263"></a><span class="lineno"><a class="line" href="namespacecutlass.html#aa03883e612d292e1b53eedd46e08ccd1">  263</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#aa03883e612d292e1b53eedd46e08ccd1">make_zero</a>(Scalar_&amp; x) {</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;  x = Scalar_(0);</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;}</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Element_, <span class="keywordtype">int</span> kLanes_ = 1&gt;</div><div class="line"><a name="l00270"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize.html">  270</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Vectorize.html">Vectorize</a> {</div><div class="line"><a name="l00271"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">  271</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="unioncutlass_1_1Vector.html">Vector&lt;Element_, kLanes_&gt;</a> <a class="code" href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">Type</a>;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;};</div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00277"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html">  277</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="code" href="structcutlass_1_1bin1__t.html">bin1_t</a>, 32&gt;, kLanes_&gt; {</div><div class="line"><a name="l00278"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html#a5c32d50c6c97d7489034efb7188c8186">  278</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="unioncutlass_1_1Vector.html">Vector&lt;bin1_t, kLanes_ * 32&gt;</a> <a class="code" href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html#a5c32d50c6c97d7489034efb7188c8186">Type</a>;</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;};</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00284"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html">  284</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="code" href="structcutlass_1_1int4__t.html">int4_t</a>, 8&gt;, kLanes_&gt; {</div><div class="line"><a name="l00285"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html#a40dac8fb50ddccb5c1e2a98200ac3a06">  285</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="unioncutlass_1_1Vector.html">Vector&lt;int4_t, kLanes_ * 8&gt;</a> <a class="code" href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html#a40dac8fb50ddccb5c1e2a98200ac3a06">Type</a>;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;};</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;</div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;<span class="keyword">template</span> &lt;<span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00291"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html">  291</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Vectorize.html">Vectorize</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;<a class="code" href="structcutlass_1_1uint4__t.html">uint4_t</a>, 8&gt;, kLanes_&gt; {</div><div class="line"><a name="l00292"></a><span class="lineno"><a class="line" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html#a9db5873c0d4df1452129022a280247ca">  292</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="unioncutlass_1_1Vector.html">Vector&lt;uint4_t, kLanes_ * 8&gt;</a> <a class="code" href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html#a9db5873c0d4df1452129022a280247ca">Type</a>;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;};</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keywordtype">int</span> kLanes_&gt;</div><div class="line"><a name="l00298"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a55b5b15eadf125d5ddddee1ea22191ee">  298</a></span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="namespacecutlass.html#aa03883e612d292e1b53eedd46e08ccd1">make_zero</a>(<a class="code" href="unioncutlass_1_1Vector.html">Vector&lt;Scalar_, kLanes_&gt;</a>&amp; vec) {</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;  <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Vector&lt;Scalar_, kLanes_&gt;::kRegisters; ++i) {</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;    vec.<a class="code" href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">registers</a>[i] = 0;</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;  }</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;}</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;<span class="comment">// cutlass::Extent similar to std::extent but applicable to CUTLASS types</span></div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;<span class="comment">//</span></div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00311"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent.html">  311</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Extent.html">Extent</a> {</div><div class="line"><a name="l00312"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">  312</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">size_t</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">kValue</a> = 1;</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;};</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> Lanes&gt;</div><div class="line"><a name="l00317"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html">  317</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Extent.html">Extent</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;T, Lanes&gt; &gt; {</div><div class="line"><a name="l00318"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a10f7184a9a50de0268efa45dab5dc304">  318</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">size_t</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">kValue</a> = Lanes;</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;};</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> Lanes&gt;</div><div class="line"><a name="l00323"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html">  323</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1Extent.html">Extent</a>&lt;<a class="code" href="unioncutlass_1_1Vector.html">Vector</a>&lt;T, Lanes&gt; const&gt; {</div><div class="line"><a name="l00324"></a><span class="lineno"><a class="line" href="structcutlass_1_1Extent_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a87917a6dfbb1662416c4ea4831669aaf">  324</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">size_t</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">kValue</a> = Lanes;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;};</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T&gt;</div><div class="line"><a name="l00331"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits.html">  331</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1VectorTraits.html">VectorTraits</a> {</div><div class="line"><a name="l00333"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599">  333</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599">Scalar</a>;</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;</div><div class="line"><a name="l00336"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">  336</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">kLanes</a> = 1;</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;</div><div class="line"><a name="l00339"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">  339</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">IsVector</a> = <span class="keyword">false</span>;</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;</div><div class="line"><a name="l00342"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">  342</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">Vector&lt;T, 1&gt;</a> <a class="code" href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">Vector</a>;</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;};</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> Lanes&gt;</div><div class="line"><a name="l00347"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html">  347</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1VectorTraits.html">VectorTraits</a>&lt;<a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">Vector</a>&lt;T, Lanes&gt; &gt; {</div><div class="line"><a name="l00349"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc">  349</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc">Scalar</a>;</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;</div><div class="line"><a name="l00352"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aca745b59c6c21292f119943e5a480f39">  352</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">kLanes</a> = Lanes;</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;</div><div class="line"><a name="l00355"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aead181209c756f25ab5870682670bb99">  355</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">IsVector</a> = <span class="keyword">true</span>;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;</div><div class="line"><a name="l00358"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">  358</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">Vector&lt;T, Lanes&gt;</a> <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">Vector</a>;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;};</div><div class="line"><a name="l00360"></a><span class="lineno">  360</span>&#160;</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> T, <span class="keywordtype">int</span> Lanes&gt;</div><div class="line"><a name="l00363"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html">  363</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1VectorTraits.html">VectorTraits</a>&lt;<a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">Vector</a>&lt;T, Lanes&gt; const&gt; {</div><div class="line"><a name="l00365"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e">  365</a></span>&#160;  <span class="keyword">typedef</span> T <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e">Scalar</a>;</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;</div><div class="line"><a name="l00368"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a43ac200035052a2c352c8c4b84aac73c">  368</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">kLanes</a> = Lanes;</div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;</div><div class="line"><a name="l00371"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a893488718d8437970c1b4ed4f4056620">  371</a></span>&#160;  <span class="keyword">static</span> <span class="keywordtype">bool</span> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">IsVector</a> = <span class="keyword">true</span>;</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;</div><div class="line"><a name="l00374"></a><span class="lineno"><a class="line" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">  374</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">Vector&lt;T, Lanes&gt;</a> <a class="code" href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">Vector</a>;</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;};</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;</div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4_html_a5c32d50c6c97d7489034efb7188c8186"><div class="ttname"><a href="structcutlass_1_1Vectorize_3_01Vector_3_01bin1__t_00_0132_01_4_00_01kLanes___01_4.html#a5c32d50c6c97d7489034efb7188c8186">cutlass::Vectorize&lt; Vector&lt; bin1_t, 32 &gt;, kLanes_ &gt;::Type</a></div><div class="ttdeci">Vector&lt; bin1_t, kLanes_ *32 &gt; Type</div><div class="ttdef"><b>Definition:</b> vector.h:278</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html_a69be4f85c1dac371fa6f1c6747724adc"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a69be4f85c1dac371fa6f1c6747724adc">cutlass::Vector::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar const  &amp; operator[](uint32_t i) const</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:84</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1Vectorize_html"><div class="ttname"><a href="structcutlass_1_1Vectorize.html">cutlass::Vectorize</a></div><div class="ttdef"><b>Definition:</b> vector.h:134</div></div>
-<div class="ttc" id="namespacecutlass_html_acdb62db582cf90cfd437fc56f4ca7bbf"><div class="ttname"><a href="namespacecutlass.html#acdb62db582cf90cfd437fc56f4ca7bbf">cutlass::make_zero</a></div><div class="ttdeci">CUTLASS_DEVICE void make_zero(Scalar_ &amp;x)</div><div class="ttdef"><b>Definition:</b> vector.h:127</div></div>
-<div class="ttc" id="structcutlass_1_1AlignedStruct_html"><div class="ttname"><a href="structcutlass_1_1AlignedStruct.html">cutlass::AlignedStruct</a></div><div class="ttdef"><b>Definition:</b> vector.h:41</div></div>
-<div class="ttc" id="structcutlass_1_1VectorTraits_html_ab3b49d7fb52050c13e50e3c75bf72599"><div class="ttname"><a href="structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599">cutlass::VectorTraits::Scalar</a></div><div class="ttdeci">T Scalar</div><div class="ttdoc">Scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:183</div></div>
-<div class="ttc" id="namespacecutlass_html_ae6ee3d9361526f859d737d9c68c13706"><div class="ttname"><a href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">cutlass::__align__</a></div><div class="ttdeci">struct __align__(1) AlignedStruct&lt; 1 &gt;</div><div class="ttdef"><b>Definition:</b> vector.h:44</div></div>
+<div class="ttc" id="namespacecutlass_html_aa03883e612d292e1b53eedd46e08ccd1"><div class="ttname"><a href="namespacecutlass.html#aa03883e612d292e1b53eedd46e08ccd1">cutlass::make_zero</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void make_zero(Scalar_ &amp;x)</div><div class="ttdef"><b>Definition:</b> vector.h:263</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4_html_a5feb070268f85bd73c3095eaf2d0e2bb"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a5feb070268f85bd73c3095eaf2d0e2bb">cutlass::Vector&lt; int4_t, kLanes_ &gt;::Vector</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Vector(uint32_t value)</div><div class="ttdoc">Constructor to convert from uint32_t type. </div><div class="ttdef"><b>Definition:</b> vector.h:218</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_011_01_4_html_a394b6e6ea7b97e076ae6445eb75d47ac"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a394b6e6ea7b97e076ae6445eb75d47ac">cutlass::Vector&lt; half, 1 &gt;::Scalar</a></div><div class="ttdeci">half Scalar</div><div class="ttdoc">The scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1Vectorize_html"><div class="ttname"><a href="structcutlass_1_1Vectorize.html">cutlass::Vectorize</a></div><div class="ttdef"><b>Definition:</b> vector.h:270</div></div>
+<div class="ttc" id="structcutlass_1_1bin1__t_html"><div class="ttname"><a href="structcutlass_1_1bin1__t.html">cutlass::bin1_t</a></div><div class="ttdef"><b>Definition:</b> numeric_types.h:39</div></div>
+<div class="ttc" id="structcutlass_1_1AlignedStruct_html"><div class="ttname"><a href="structcutlass_1_1AlignedStruct.html">cutlass::AlignedStruct</a></div><div class="ttdef"><b>Definition:</b> vector.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1VectorTraits_html_ab3b49d7fb52050c13e50e3c75bf72599"><div class="ttname"><a href="structcutlass_1_1VectorTraits.html#ab3b49d7fb52050c13e50e3c75bf72599">cutlass::VectorTraits::Scalar</a></div><div class="ttdeci">T Scalar</div><div class="ttdoc">Scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:333</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4_html_a2d5ec0b76daa136dae0b4aec1edf9e0b"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#a2d5ec0b76daa136dae0b4aec1edf9e0b">cutlass::Vector&lt; int4_t, kLanes_ &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int operator[](uint32_t i) const</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:220</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_011_01_4_html_a12fa9366dd57fadb2d3f624ab7836dc8"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a12fa9366dd57fadb2d3f624ab7836dc8">cutlass::Vector&lt; half, 1 &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar const  &amp; operator[](uint32_t i) const</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:112</div></div>
+<div class="ttc" id="namespacecutlass_html_ae6ee3d9361526f859d737d9c68c13706"><div class="ttname"><a href="namespacecutlass.html#ae6ee3d9361526f859d737d9c68c13706">cutlass::__align__</a></div><div class="ttdeci">struct __align__(1) AlignedStruct&lt; 1 &gt;</div><div class="ttdef"><b>Definition:</b> vector.h:45</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html_abf531676caf85cde1c8df435c1ebe8bb"><div class="ttname"><a href="unioncutlass_1_1Vector.html#abf531676caf85cde1c8df435c1ebe8bb">cutlass::Vector::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar &amp; operator[](uint32_t i)</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:86</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4_html_a023d6ae1bf06d678f8cb5652eca1bf79"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a023d6ae1bf06d678f8cb5652eca1bf79">cutlass::Vector&lt; uint4_t, kLanes_ &gt;::Vector</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Vector(uint32_t value)</div><div class="ttdoc">Constructor to convert from uint32_t type. </div><div class="ttdef"><b>Definition:</b> vector.h:253</div></div>
 <div class="ttc" id="platform_8h_html"><div class="ttname"><a href="platform_8h.html">platform.h</a></div><div class="ttdoc">C++ features that may be otherwise unimplemented for CUDA device functions. </div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html_a56875d7cbf921261e68e1f63212db5bd"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">cutlass::Vector::Scalar</a></div><div class="ttdeci">Scalar_ Scalar</div><div class="ttdoc">The scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:63</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html_a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">cutlass::Vector::kLanes</a></div><div class="ttdef"><b>Definition:</b> vector.h:66</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4_html_a03199df1287d263f7267239c014f1d9b"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">cutlass::Vector&lt; half, kLanes_ &gt;::Scalar</a></div><div class="ttdeci">half Scalar</div><div class="ttdoc">The scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:95</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html_a29dab07949206cc1609543ffcefd1e5a"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">cutlass::Vector::registers</a></div><div class="ttdeci">uint32_t registers[kRegisters]</div><div class="ttdoc">The data in registers. </div><div class="ttdef"><b>Definition:</b> vector.h:80</div></div>
-<div class="ttc" id="structcutlass_1_1VectorTraits_html_a4ac6196c07e0d3ba8a03cd72a05026a2"><div class="ttname"><a href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">cutlass::VectorTraits::Vector</a></div><div class="ttdeci">Vector&lt; T, 1 &gt; Vector</div><div class="ttdoc">Type that is always a vector. </div><div class="ttdef"><b>Definition:</b> vector.h:192</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4_html_a8ade80e040264fbd669d3f15c249884e"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a8ade80e040264fbd669d3f15c249884e">cutlass::Vector&lt; half, kLanes_ &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_DEVICE Scalar &amp; operator[](uint32_t i)</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:119</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html_a44cc27bf8a7b789b4ae8538155a50156"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a44cc27bf8a7b789b4ae8538155a50156">cutlass::Vector::operator[]</a></div><div class="ttdeci">CUTLASS_DEVICE Scalar &amp; operator[](uint32_t i)</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:85</div></div>
-<div class="ttc" id="structcutlass_1_1VectorTraits_html"><div class="ttname"><a href="structcutlass_1_1VectorTraits.html">cutlass::VectorTraits</a></div><div class="ttdoc">Traits describing properties of vectors and scalar-as-vectors. </div><div class="ttdef"><b>Definition:</b> vector.h:181</div></div>
-<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:145</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html"><div class="ttname"><a href="unioncutlass_1_1Vector.html">cutlass::Vector</a></div><div class="ttdef"><b>Definition:</b> vector.h:61</div></div>
-<div class="ttc" id="structcutlass_1_1VectorTraits_html_abf96ea5dfd3212d388cb91e48cc0e6a2"><div class="ttname"><a href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">cutlass::VectorTraits::IsVector</a></div><div class="ttdeci">static bool const IsVector</div><div class="ttdoc">True if the type is actually a cutlass::Vector, otherwise false. </div><div class="ttdef"><b>Definition:</b> vector.h:189</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html_a091080b4e9db9e89734f44ceb985d78f"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">cutlass::Vector::scalars</a></div><div class="ttdeci">Scalar scalars[kLanes]</div><div class="ttdoc">The associated array of scalars. </div><div class="ttdef"><b>Definition:</b> vector.h:78</div></div>
-<div class="ttc" id="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4_html_aff21f15596731eacf8c587811bb4ccdb"><div class="ttname"><a href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Vector</a></div><div class="ttdeci">Vector&lt; T, Lanes &gt; Vector</div><div class="ttdoc">Type that is always a Vector. </div><div class="ttdef"><b>Definition:</b> vector.h:224</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html_abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e"><div class="ttname"><a href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">cutlass::Vector::kVectorSize</a></div><div class="ttdef"><b>Definition:</b> vector.h:68</div></div>
-<div class="ttc" id="structcutlass_1_1VectorTraits_html_a052e1e5963a9e04482b16cb881d1eaf8"><div class="ttname"><a href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">cutlass::VectorTraits::kLanes</a></div><div class="ttdeci">static int const kLanes</div><div class="ttdoc">Number of lanes of vector. </div><div class="ttdef"><b>Definition:</b> vector.h:186</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4_html_ab0516cef8949f5998b5251cc6b6db683"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ab0516cef8949f5998b5251cc6b6db683">cutlass::Vector&lt; half, kLanes_ &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_DEVICE Scalar const  &amp; operator[](uint32_t i) const</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:115</div></div>
-<div class="ttc" id="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4_html_a6e99dde8432b13472971dc41573a574e"><div class="ttname"><a href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Scalar</a></div><div class="ttdeci">T Scalar</div><div class="ttdoc">Scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:215</div></div>
-<div class="ttc" id="structcutlass_1_1Vectorize_html_a070ec95f4297d769ee53a4d8a650c05e"><div class="ttname"><a href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">cutlass::Vectorize::Type</a></div><div class="ttdeci">Vector&lt; Element_, kLanes_ &gt; Type</div><div class="ttdef"><b>Definition:</b> vector.h:135</div></div>
-<div class="ttc" id="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4_html_aaf35570b10829356762dcec925a5b4bc"><div class="ttname"><a href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Scalar</a></div><div class="ttdeci">T Scalar</div><div class="ttdoc">Scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:199</div></div>
-<div class="ttc" id="structcutlass_1_1Extent_html_a2cb62986b9a7c168bf79b083f33c4bad"><div class="ttname"><a href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">cutlass::Extent::kValue</a></div><div class="ttdeci">static size_t const kValue</div><div class="ttdef"><b>Definition:</b> vector.h:162</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html_a9e9352594fcd022526d5b69b6c25c99c"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c">cutlass::Vector::aligned_</a></div><div class="ttdeci">AlignedStruct&lt; kVectorSize &gt; aligned_</div><div class="ttdoc">The aligned storage to make sure we have good alignment. </div><div class="ttdef"><b>Definition:</b> vector.h:73</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4_html_a9e41dbe541a7dddf1e461e0390fe8896"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">cutlass::Vector&lt; half, kLanes_ &gt;::aligned_</a></div><div class="ttdeci">AlignedStruct&lt; kVectorSize &gt; aligned_</div><div class="ttdoc">The aligned storage to make sure we have good alignment. </div><div class="ttdef"><b>Definition:</b> vector.h:105</div></div>
-<div class="ttc" id="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4_html_a12b9084c48d2d829730f907485dfb5e5"><div class="ttname"><a href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Vector</a></div><div class="ttdeci">Vector&lt; T, Lanes &gt; Vector</div><div class="ttdoc">Type that is always a Vector. </div><div class="ttdef"><b>Definition:</b> vector.h:208</div></div>
-<div class="ttc" id="unioncutlass_1_1Vector_html_a250860c921c94a6077344f9e11bf5b02"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a250860c921c94a6077344f9e11bf5b02">cutlass::Vector::operator[]</a></div><div class="ttdeci">CUTLASS_DEVICE Scalar const  &amp; operator[](uint32_t i) const</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:83</div></div>
-<div class="ttc" id="structcutlass_1_1Extent_html"><div class="ttname"><a href="structcutlass_1_1Extent.html">cutlass::Extent</a></div><div class="ttdoc">Returns the extent of a scalar or vector. </div><div class="ttdef"><b>Definition:</b> vector.h:161</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4_html_a4eab187b6f7650bd88ccd421c8330d3c"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a4eab187b6f7650bd88ccd421c8330d3c">cutlass::Vector&lt; uint4_t, kLanes_ &gt;::aligned_</a></div><div class="ttdeci">AlignedStruct&lt; kVectorSize &gt; aligned_</div><div class="ttdoc">The aligned storage to make sure we have good alignment. </div><div class="ttdef"><b>Definition:</b> vector.h:242</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html_a56875d7cbf921261e68e1f63212db5bd"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a56875d7cbf921261e68e1f63212db5bd">cutlass::Vector::Scalar</a></div><div class="ttdeci">Scalar_ Scalar</div><div class="ttdoc">The scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:64</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html_a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a824f9ab976c8e7f035236af03e5ae839a605c5e987bc7b08d743f29a6524abb27">cutlass::Vector::kLanes</a></div><div class="ttdef"><b>Definition:</b> vector.h:67</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_011_01_4_html_a1e6568c0f3f958db739074ab6978ff10"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#a1e6568c0f3f958db739074ab6978ff10">cutlass::Vector&lt; half, 1 &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar &amp; operator[](uint32_t i)</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:116</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4_html_a03199df1287d263f7267239c014f1d9b"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a03199df1287d263f7267239c014f1d9b">cutlass::Vector&lt; half, kLanes_ &gt;::Scalar</a></div><div class="ttdeci">half Scalar</div><div class="ttdoc">The scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:126</div></div>
+<div class="ttc" id="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4_html_a40dac8fb50ddccb5c1e2a98200ac3a06"><div class="ttname"><a href="structcutlass_1_1Vectorize_3_01Vector_3_01int4__t_00_018_01_4_00_01kLanes___01_4.html#a40dac8fb50ddccb5c1e2a98200ac3a06">cutlass::Vectorize&lt; Vector&lt; int4_t, 8 &gt;, kLanes_ &gt;::Type</a></div><div class="ttdeci">Vector&lt; int4_t, kLanes_ *8 &gt; Type</div><div class="ttdef"><b>Definition:</b> vector.h:285</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html_a29dab07949206cc1609543ffcefd1e5a"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a29dab07949206cc1609543ffcefd1e5a">cutlass::Vector::registers</a></div><div class="ttdeci">uint32_t registers[kRegisters]</div><div class="ttdoc">The data in registers. </div><div class="ttdef"><b>Definition:</b> vector.h:81</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4_html_a8eda6e6181a5333ca8350977374708cb"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a8eda6e6181a5333ca8350977374708cb">cutlass::Vector&lt; bin1_t, kLanes_ &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool operator[](uint32_t i) const</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:186</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4_html_a602530542f526bd151f8a32deda015a1"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a602530542f526bd151f8a32deda015a1">cutlass::Vector&lt; uint4_t, kLanes_ &gt;::Scalar</a></div><div class="ttdeci">uint4_t Scalar</div><div class="ttdoc">The scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:232</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_011_01_4_html_acc698443a38fd0ad63f931bdf172ad99"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_011_01_4.html#acc698443a38fd0ad63f931bdf172ad99">cutlass::Vector&lt; half, 1 &gt;::aligned_</a></div><div class="ttdeci">AlignedStruct&lt; kVectorSize &gt; aligned_</div><div class="ttdoc">The aligned storage to make sure we have good alignment. </div><div class="ttdef"><b>Definition:</b> vector.h:104</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4_html_a05914a7339b9d399ac7d8cf7ef617c31"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a05914a7339b9d399ac7d8cf7ef617c31">cutlass::Vector&lt; bin1_t, kLanes_ &gt;::Scalar</a></div><div class="ttdeci">bin1_t Scalar</div><div class="ttdoc">The scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:163</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4_html_af166f710ebbfdff8a62453eee454c1d5"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af166f710ebbfdff8a62453eee454c1d5">cutlass::Vector&lt; int4_t, kLanes_ &gt;::Vector</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Vector()</div><div class="ttdoc">Default Constructor. </div><div class="ttdef"><b>Definition:</b> vector.h:216</div></div>
+<div class="ttc" id="structcutlass_1_1VectorTraits_html_a4ac6196c07e0d3ba8a03cd72a05026a2"><div class="ttname"><a href="structcutlass_1_1VectorTraits.html#a4ac6196c07e0d3ba8a03cd72a05026a2">cutlass::VectorTraits::Vector</a></div><div class="ttdeci">Vector&lt; T, 1 &gt; Vector</div><div class="ttdoc">Type that is always a vector. </div><div class="ttdef"><b>Definition:</b> vector.h:342</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4_html_a50ae62579267952a648d4b6a6be3c663"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a50ae62579267952a648d4b6a6be3c663">cutlass::Vector&lt; bin1_t, kLanes_ &gt;::Vector</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Vector(uint32_t value)</div><div class="ttdoc">Constructor to convert from uint32_t type. </div><div class="ttdef"><b>Definition:</b> vector.h:184</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4_html_a3891ce1c321a3e57e938c8864de9baf0"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a3891ce1c321a3e57e938c8864de9baf0">cutlass::Vector&lt; half, kLanes_ &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar &amp; operator[](uint32_t i)</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:150</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="numeric__types_8h_html"><div class="ttname"><a href="numeric__types_8h.html">numeric_types.h</a></div></div>
+<div class="ttc" id="structcutlass_1_1VectorTraits_html"><div class="ttname"><a href="structcutlass_1_1VectorTraits.html">cutlass::VectorTraits</a></div><div class="ttdoc">Traits describing properties of vectors and scalar-as-vectors. </div><div class="ttdef"><b>Definition:</b> vector.h:331</div></div>
+<div class="ttc" id="platform_8h_html_adde4c9ea91b753491851361a4198c009"><div class="ttname"><a href="platform_8h.html#adde4c9ea91b753491851361a4198c009">static_assert</a></div><div class="ttdeci">#define static_assert(__e, __m)</div><div class="ttdef"><b>Definition:</b> platform.h:153</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html"><div class="ttname"><a href="unioncutlass_1_1Vector.html">cutlass::Vector</a></div><div class="ttdef"><b>Definition:</b> vector.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1VectorTraits_html_abf96ea5dfd3212d388cb91e48cc0e6a2"><div class="ttname"><a href="structcutlass_1_1VectorTraits.html#abf96ea5dfd3212d388cb91e48cc0e6a2">cutlass::VectorTraits::IsVector</a></div><div class="ttdeci">static bool const IsVector</div><div class="ttdoc">True if the type is actually a cutlass::Vector, otherwise false. </div><div class="ttdef"><b>Definition:</b> vector.h:339</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html_a091080b4e9db9e89734f44ceb985d78f"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a091080b4e9db9e89734f44ceb985d78f">cutlass::Vector::scalars</a></div><div class="ttdeci">Scalar scalars[kLanes]</div><div class="ttdoc">The associated array of scalars. </div><div class="ttdef"><b>Definition:</b> vector.h:79</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4_html_a1310cf2e92e260cf55cfda1cb2cb7280"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1310cf2e92e260cf55cfda1cb2cb7280">cutlass::Vector&lt; bin1_t, kLanes_ &gt;::Vector</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Vector()</div><div class="ttdoc">Default Constructor. </div><div class="ttdef"><b>Definition:</b> vector.h:182</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4_html_ae2215fe7c2c223175b4172d73a6c7a82"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#ae2215fe7c2c223175b4172d73a6c7a82">cutlass::Vector&lt; uint4_t, kLanes_ &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int operator[](uint32_t i) const</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:255</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4_html_ad6784e347f068ad20af52379286337c0"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#ad6784e347f068ad20af52379286337c0">cutlass::Vector&lt; int4_t, kLanes_ &gt;::aligned_</a></div><div class="ttdeci">AlignedStruct&lt; kVectorSize &gt; aligned_</div><div class="ttdoc">The aligned storage to make sure we have good alignment. </div><div class="ttdef"><b>Definition:</b> vector.h:207</div></div>
+<div class="ttc" id="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4_html_aff21f15596731eacf8c587811bb4ccdb"><div class="ttname"><a href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#aff21f15596731eacf8c587811bb4ccdb">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Vector</a></div><div class="ttdeci">Vector&lt; T, Lanes &gt; Vector</div><div class="ttdoc">Type that is always a Vector. </div><div class="ttdef"><b>Definition:</b> vector.h:374</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html_abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e"><div class="ttname"><a href="unioncutlass_1_1Vector.html#abf0c16b6f9cb8439835ebdb271d58763afaf4b62c6bcafbf961c5570364a0316e">cutlass::Vector::kVectorSize</a></div><div class="ttdef"><b>Definition:</b> vector.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1VectorTraits_html_a052e1e5963a9e04482b16cb881d1eaf8"><div class="ttname"><a href="structcutlass_1_1VectorTraits.html#a052e1e5963a9e04482b16cb881d1eaf8">cutlass::VectorTraits::kLanes</a></div><div class="ttdeci">static int const kLanes</div><div class="ttdoc">Number of lanes of vector. </div><div class="ttdef"><b>Definition:</b> vector.h:336</div></div>
+<div class="ttc" id="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4_html_a6e99dde8432b13472971dc41573a574e"><div class="ttname"><a href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01const_01_4.html#a6e99dde8432b13472971dc41573a574e">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; const &gt;::Scalar</a></div><div class="ttdeci">T Scalar</div><div class="ttdoc">Scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:365</div></div>
+<div class="ttc" id="structcutlass_1_1Vectorize_html_a070ec95f4297d769ee53a4d8a650c05e"><div class="ttname"><a href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">cutlass::Vectorize::Type</a></div><div class="ttdeci">Vector&lt; Element_, kLanes_ &gt; Type</div><div class="ttdef"><b>Definition:</b> vector.h:271</div></div>
+<div class="ttc" id="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4_html_aaf35570b10829356762dcec925a5b4bc"><div class="ttname"><a href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#aaf35570b10829356762dcec925a5b4bc">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Scalar</a></div><div class="ttdeci">T Scalar</div><div class="ttdoc">Scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:349</div></div>
+<div class="ttc" id="structcutlass_1_1uint4__t_html"><div class="ttname"><a href="structcutlass_1_1uint4__t.html">cutlass::uint4_t</a></div><div class="ttdef"><b>Definition:</b> numeric_types.h:43</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4_html_af60049062cedca55d8cb4a3cae82641f"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01int4__t_00_01kLanes___01_4.html#af60049062cedca55d8cb4a3cae82641f">cutlass::Vector&lt; int4_t, kLanes_ &gt;::Scalar</a></div><div class="ttdeci">int4_t Scalar</div><div class="ttdoc">The scalar type. </div><div class="ttdef"><b>Definition:</b> vector.h:197</div></div>
+<div class="ttc" id="structcutlass_1_1Extent_html_a2cb62986b9a7c168bf79b083f33c4bad"><div class="ttname"><a href="structcutlass_1_1Extent.html#a2cb62986b9a7c168bf79b083f33c4bad">cutlass::Extent::kValue</a></div><div class="ttdeci">static size_t const kValue</div><div class="ttdef"><b>Definition:</b> vector.h:312</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html_a9e9352594fcd022526d5b69b6c25c99c"><div class="ttname"><a href="unioncutlass_1_1Vector.html#a9e9352594fcd022526d5b69b6c25c99c">cutlass::Vector::aligned_</a></div><div class="ttdeci">AlignedStruct&lt; kVectorSize &gt; aligned_</div><div class="ttdoc">The aligned storage to make sure we have good alignment. </div><div class="ttdef"><b>Definition:</b> vector.h:74</div></div>
+<div class="ttc" id="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4_html_a9db5873c0d4df1452129022a280247ca"><div class="ttname"><a href="structcutlass_1_1Vectorize_3_01Vector_3_01uint4__t_00_018_01_4_00_01kLanes___01_4.html#a9db5873c0d4df1452129022a280247ca">cutlass::Vectorize&lt; Vector&lt; uint4_t, 8 &gt;, kLanes_ &gt;::Type</a></div><div class="ttdeci">Vector&lt; uint4_t, kLanes_ *8 &gt; Type</div><div class="ttdef"><b>Definition:</b> vector.h:292</div></div>
+<div class="ttc" id="structcutlass_1_1int4__t_html"><div class="ttname"><a href="structcutlass_1_1int4__t.html">cutlass::int4_t</a></div><div class="ttdef"><b>Definition:</b> numeric_types.h:41</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4_html_ad50b5d4acbd7ead82c128091c9db9113"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#ad50b5d4acbd7ead82c128091c9db9113">cutlass::Vector&lt; half, kLanes_ &gt;::operator[]</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Scalar const  &amp; operator[](uint32_t i) const</div><div class="ttdoc">Accessor to the ith lane. </div><div class="ttdef"><b>Definition:</b> vector.h:146</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4_html_a9e41dbe541a7dddf1e461e0390fe8896"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01half_00_01kLanes___01_4.html#a9e41dbe541a7dddf1e461e0390fe8896">cutlass::Vector&lt; half, kLanes_ &gt;::aligned_</a></div><div class="ttdeci">AlignedStruct&lt; kVectorSize &gt; aligned_</div><div class="ttdoc">The aligned storage to make sure we have good alignment. </div><div class="ttdef"><b>Definition:</b> vector.h:136</div></div>
+<div class="ttc" id="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4_html_a12b9084c48d2d829730f907485dfb5e5"><div class="ttname"><a href="structcutlass_1_1VectorTraits_3_01Vector_3_01T_00_01Lanes_01_4_01_4.html#a12b9084c48d2d829730f907485dfb5e5">cutlass::VectorTraits&lt; Vector&lt; T, Lanes &gt; &gt;::Vector</a></div><div class="ttdeci">Vector&lt; T, Lanes &gt; Vector</div><div class="ttdoc">Type that is always a Vector. </div><div class="ttdef"><b>Definition:</b> vector.h:358</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4_html_a48e193a0b636934ea553c6e60ffef563"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01uint4__t_00_01kLanes___01_4.html#a48e193a0b636934ea553c6e60ffef563">cutlass::Vector&lt; uint4_t, kLanes_ &gt;::Vector</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Vector()</div><div class="ttdoc">Default Constructor. </div><div class="ttdef"><b>Definition:</b> vector.h:251</div></div>
+<div class="ttc" id="structcutlass_1_1Extent_html"><div class="ttname"><a href="structcutlass_1_1Extent.html">cutlass::Extent</a></div><div class="ttdoc">Returns the extent of a scalar or vector. </div><div class="ttdef"><b>Definition:</b> vector.h:311</div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4_html_a1df3324868465331db13bd7775b55e87"><div class="ttname"><a href="unioncutlass_1_1Vector_3_01bin1__t_00_01kLanes___01_4.html#a1df3324868465331db13bd7775b55e87">cutlass::Vector&lt; bin1_t, kLanes_ &gt;::aligned_</a></div><div class="ttdeci">AlignedStruct&lt; kVectorSize &gt; aligned_</div><div class="ttdoc">The aligned storage to make sure we have good alignment. </div><div class="ttdef"><b>Definition:</b> vector.h:173</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__gemm__epilogue__traits_8h.html b/docs/wmma__gemm__epilogue__traits_8h.html
index 31a795945f..04fa7bf4bd 100644
--- a/docs/wmma__gemm__epilogue__traits_8h.html
+++ b/docs/wmma__gemm__epilogue__traits_8h.html
@@ -79,13 +79,13 @@
 
 <p>Defines structural properties of WMMA GEMM's epilogue phase.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="wmma__matrix_8h_source.html">cutlass/wmma_matrix.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="wmma__matrix_8h_source.html">cutlass/wmma_matrix.h</a>&quot;</code><br />
 </div>
 <p><a href="wmma__gemm__epilogue__traits_8h_source.html">Go to the source code of this file.</a></p>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__gemm__epilogue__traits_8h_source.html b/docs/wmma__gemm__epilogue__traits_8h_source.html
index 92d9abc1ee..967f4d13b1 100644
--- a/docs/wmma__gemm__epilogue__traits_8h_source.html
+++ b/docs/wmma__gemm__epilogue__traits_8h_source.html
@@ -76,19 +76,19 @@
 <div class="title">wmma_gemm_epilogue_traits.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="wmma__gemm__epilogue__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="wmma__matrix_8h.html">cutlass/wmma_matrix.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_WMMA_API</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__stream_8h.html">cutlass/gemm/gemm_global_stream.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__shared__stream_8h.html">cutlass/gemm/gemm_shared_stream.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="linear__scaling_8h.html">cutlass/gemm/linear_scaling.h</a>&gt;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="wmma__gemm__global__tile_8h.html">cutlass/gemm/wmma_gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="wmma__gemm__shared__tile_8h.html">cutlass/gemm/wmma_gemm_shared_tile.h</a>&gt;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&gt;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&gt;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> EpilogueFunctor_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">struct </span>WmmaGemmEpilogueTraitsHelper {</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> EpilogueFunctor_::Scalar Scalar;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::OutputTile OutputTile;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kWmmasPerH =</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;      GemmConfig_::AccumulatorsPerWarp::kH / GemmConfig_::InstructionShape::kH;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, 1, kWmmasPerH&gt; Iterations;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  <span class="comment">// The iteration strides in the H/W dimension.</span></div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="keyword">typedef</span> Shape&lt;0, 0, 0&gt; Delta;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="keyword">typedef</span> EpilogueFunctor_ Functor;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedStoreTileDTraits&lt;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;      <span class="comment">// The output layout.</span></div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;      <span class="keyword">typename</span> Functor::Scalar,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;                     Scalar,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;  <span class="keyword">typedef</span> TileStoreIterator&lt;SharedStoreTileTraits,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;                            <span class="keyword">typename</span> SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;                            Index_,</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;                            WmmaMatrix,</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">IteratorFragment::kWmmaMatrix</a>&gt;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;      SharedStoreIteratorD;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  <span class="keyword">typedef</span> Copy&lt;typename SharedStoreIteratorD::Fragment&gt; SharedStoreTransformerD;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileDTraits&lt;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;      <span class="keyword">typename</span> Functor::Scalar,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;      <span class="comment">// The tile size.</span></div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;      <span class="keyword">typename</span> SharedStoreIteratorD::Tile,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;      <span class="comment">// The number of threads.</span></div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;      GemmConfig_::kScalarsPerLdsD&gt;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;  <span class="keyword">typedef</span> TileLoadIterator&lt;SharedLoadTileTraits,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;                           <span class="keyword">typename</span> SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;      SharedLoadIteratorD;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  <span class="keyword">typedef</span> WmmaGemmGlobalIteratorCdTraits&lt;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;      <span class="keyword">typename</span> GemmConfig_::ScalarC <span class="keyword">const</span>,</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;      <span class="comment">// The tile has size (N / Iterations)xM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;      Shape&lt;1,</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;            GemmConfig_::OutputTile::kH / <a class="code" href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">ShapeCount&lt;Iterations&gt;::kCount</a>,</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;            GemmConfig_::OutputTile::kW&gt;,</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;      Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;      GemmConfig_::kScalarsPerLdgC&gt;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;      GlobalLoadTileTraits;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  <span class="keyword">typedef</span> WmmaGemmGlobalIteratorCd&lt;GlobalLoadTileTraits, Index_&gt; GlobalLoadIteratorC;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  <span class="keyword">typedef</span> Copy&lt;typename GlobalLoadIteratorC::Fragment&gt; GlobalTransformerC;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  <span class="keyword">typedef</span> WmmaGemmGlobalIteratorCdTraits&lt;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;      <span class="keyword">typename</span> GemmConfig_::ScalarD,</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <span class="comment">// The tile has size (N / Iterations)xM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      Shape&lt;1,</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;            GemmConfig_::OutputTile::kH / <a class="code" href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">ShapeCount&lt;Iterations&gt;::kCount</a>,</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;            GemmConfig_::OutputTile::kW&gt;,</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;      Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      GemmConfig_::kScalarsPerStgD&gt;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;      GlobalStoreTileTraits;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  <span class="keyword">typedef</span> WmmaGemmGlobalIteratorCd&lt;GlobalStoreTileTraits, Index_&gt; GlobalStoreIteratorD;</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  <span class="keyword">typedef</span> Copy&lt;typename GlobalStoreIteratorD::Fragment&gt; GlobalTransformerD;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;};</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;<span class="preprocessor">#endif  // defined CUTLASS_USE_WMMA_API</span></div><div class="ttc" id="wmma__matrix_8h_html"><div class="ttname"><a href="wmma__matrix_8h.html">wmma_matrix.h</a></div><div class="ttdoc">Abstractions for loading and storing matrices using the CUDA WMMA API. </div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
+<a href="wmma__gemm__epilogue__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="wmma__matrix_8h.html">cutlass/wmma_matrix.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_WMMA_API</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__stream_8h.html">cutlass/gemm/gemm_global_stream.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__stream_8h.html">cutlass/gemm/gemm_shared_stream.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="linear__scaling_8h.html">cutlass/gemm/linear_scaling.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="wmma__gemm__global__tile_8h.html">cutlass/gemm/wmma_gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="wmma__gemm__shared__tile_8h.html">cutlass/gemm/wmma_gemm_shared_tile.h</a>&quot;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tile__iterator_8h.html">cutlass/tile_iterator.h</a>&quot;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> EpilogueFunctor_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">struct </span>WmmaGemmEpilogueTraitsHelper {</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> EpilogueFunctor_::Scalar Scalar;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::OutputTile OutputTile;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kWmmasPerH =</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;      GemmConfig_::AccumulatorsPerWarp::kH / GemmConfig_::InstructionShape::kH;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, 1, kWmmasPerH&gt; Iterations;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  <span class="comment">// The iteration strides in the H/W dimension.</span></div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="keyword">typedef</span> Shape&lt;0, 0, 0&gt; Delta;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="keyword">typedef</span> EpilogueFunctor_ Functor;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedStoreTileDTraits&lt;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;      <span class="comment">// The output layout.</span></div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;      <span class="keyword">typename</span> Functor::Scalar,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;      <span class="keyword">typename</span> GemmConfig_::OutputTile,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;                     Scalar,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;  <span class="keyword">typedef</span> TileStoreIterator&lt;SharedStoreTileTraits,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;                            <span class="keyword">typename</span> SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;                            Index_,</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;                            WmmaMatrix,</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;                            <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>&gt;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;      SharedStoreIteratorD;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;  <span class="keyword">typedef</span> Copy&lt;typename SharedStoreIteratorD::Fragment&gt; SharedStoreTransformerD;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileDTraits&lt;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;      <span class="keyword">typename</span> Functor::Scalar,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;      <span class="comment">// The tile size.</span></div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;      <span class="keyword">typename</span> SharedStoreIteratorD::Tile,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;      <span class="comment">// The number of threads.</span></div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      <span class="comment">// The number of scalars per LDS.</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;      GemmConfig_::kScalarsPerLdsD&gt;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;  <span class="keyword">typedef</span> TileLoadIterator&lt;SharedLoadTileTraits,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;                           <span class="keyword">typename</span> SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;      SharedLoadIteratorD;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  <span class="keyword">typedef</span> SharedLoadStream&lt;SharedLoadIteratorD&gt; SharedLoadStreamD;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  <span class="keyword">typedef</span> WmmaGemmGlobalIteratorCdTraits&lt;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;      <span class="keyword">typename</span> GemmConfig_::ScalarC <span class="keyword">const</span>,</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;      <span class="comment">// The tile has size (N / Iterations)xM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;      Shape&lt;1,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;            GemmConfig_::OutputTile::kH / <a class="code" href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">ShapeCount&lt;Iterations&gt;::kCount</a>,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;            GemmConfig_::OutputTile::kW&gt;,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;      Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      GemmConfig_::kScalarsPerLdgC&gt;</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;      GlobalLoadTileTraits;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <span class="keyword">typedef</span> WmmaGemmGlobalIteratorCd&lt;GlobalLoadTileTraits, Index_&gt; GlobalLoadIteratorC;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  <span class="keyword">typedef</span> Copy&lt;typename GlobalLoadIteratorC::Fragment&gt; GlobalTransformerC;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  <span class="keyword">typedef</span> WmmaGemmGlobalIteratorCdTraits&lt;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      <span class="comment">// The pointer is float.</span></div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;      <span class="keyword">typename</span> GemmConfig_::ScalarD,</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;      <span class="comment">// The tile has size (N / Iterations)xM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;      Shape&lt;1,</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;            GemmConfig_::OutputTile::kH / <a class="code" href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">ShapeCount&lt;Iterations&gt;::kCount</a>,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;            GemmConfig_::OutputTile::kW&gt;,</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;      Shape&lt;1, ShapeCount&lt;typename GemmConfig_::Warps&gt;::kCount, GemmConfig_::kWarpSize&gt;,</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;      GemmConfig_::kScalarsPerStgD&gt;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;      GlobalStoreTileTraits;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;  <span class="keyword">typedef</span> WmmaGemmGlobalIteratorCd&lt;GlobalStoreTileTraits, Index_&gt; GlobalStoreIteratorD;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;  <span class="keyword">typedef</span> Copy&lt;typename GlobalStoreIteratorD::Fragment&gt; GlobalTransformerD;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;};</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;<span class="preprocessor">#endif  // defined CUTLASS_USE_WMMA_API</span></div><div class="ttc" id="wmma__matrix_8h_html"><div class="ttname"><a href="wmma__matrix_8h.html">wmma_matrix.h</a></div><div class="ttdoc">Abstractions for loading and storing matrices using the CUDA WMMA API. </div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="tile__iterator_8h_html"><div class="ttname"><a href="tile__iterator_8h.html">tile_iterator.h</a></div><div class="ttdoc">Defines the Tile Traits concept and iterators for loading and storing to tiles efficiently. </div></div>
 <div class="ttc" id="linear__scaling_8h_html"><div class="ttname"><a href="linear__scaling_8h.html">linear_scaling.h</a></div><div class="ttdoc">Implements the BLAS linear scaling function alpha*AB + beta*C. </div></div>
 <div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentElementType_html_a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd"><div class="ttname"><a href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">cutlass::FragmentElementType::kWmmaMatrix</a></div><div class="ttdef"><b>Definition:</b> load_store.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
-<div class="ttc" id="structcutlass_1_1IteratorFragment_html_ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419"><div class="ttname"><a href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">cutlass::IteratorFragment::kWmmaMatrix</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:67</div></div>
 <div class="ttc" id="wmma__gemm__global__tile_8h_html"><div class="ttname"><a href="wmma__gemm__global__tile_8h.html">wmma_gemm_global_tile.h</a></div><div class="ttdoc">Defines tile iterator traits for loading thread block-level tile from global memory. </div></div>
 <div class="ttc" id="structcutlass_1_1ShapeCount_html_a8d25b48b3294b5563f89c62a6e6d00e5"><div class="ttname"><a href="structcutlass_1_1ShapeCount.html#a8d25b48b3294b5563f89c62a6e6d00e5">cutlass::ShapeCount::kCount</a></div><div class="ttdeci">static int const kCount</div><div class="ttdoc">The number of elements in the 4D space. </div><div class="ttdef"><b>Definition:</b> shape.h:91</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
 <div class="ttc" id="gemm__global__stream_8h_html"><div class="ttname"><a href="gemm__global__stream_8h.html">gemm_global_stream.h</a></div><div class="ttdoc">Implements efficient loading of the thread block-level tile from global memory and storing to shared ...</div></div>
 <div class="ttc" id="gemm__shared__stream_8h_html"><div class="ttname"><a href="gemm__shared__stream_8h.html">gemm_shared_stream.h</a></div><div class="ttdoc">Defines abstractions for managing loading and storing fragments to shared memory in the efficient GEM...</div></div>
 <div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
@@ -96,7 +96,7 @@
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__gemm__global__tile_8h.html b/docs/wmma__gemm__global__tile_8h.html
index 6c8b116f05..4017be066b 100644
--- a/docs/wmma__gemm__global__tile_8h.html
+++ b/docs/wmma__gemm__global__tile_8h.html
@@ -82,7 +82,7 @@
 
 <p>Defines tile iterator traits for loading thread block-level tile from global memory.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="gemm__global__tile_8h_source.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</code><br />
 </div>
 <p><a href="wmma__gemm__global__tile_8h_source.html">Go to the source code of this file.</a></p>
 <table class="memberdecls">
@@ -109,7 +109,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__gemm__global__tile_8h_source.html b/docs/wmma__gemm__global__tile_8h_source.html
index 4e58863d4a..93259adfd1 100644
--- a/docs/wmma__gemm__global__tile_8h_source.html
+++ b/docs/wmma__gemm__global__tile_8h_source.html
@@ -76,65 +76,71 @@
 <div class="title">wmma_gemm_global_tile.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="wmma__gemm__global__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html">WmmaGemmGlobalIteratorCdTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;GemmOperand::kC,</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;                                                                    MatrixLayout::kColumnMajor,</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;                                                                    Scalar_,</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;                                                                    Tile_,</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;                                                                    Threads_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;                                                                    kAccessSize_&gt; {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;                               <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;                               Scalar_,</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;                               Tile_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;                               Threads_,</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;                               kAccessSize_&gt;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86">   51</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86">Base</a>;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002">   54</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Base::Delta::kW, Base::Delta::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002">Delta</a>;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html">   57</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68">   59</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;      <span class="keywordtype">int</span> thread_offset_h = threadIdx.x / Base::Threads::kW;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;      <span class="keywordtype">int</span> thread_offset_w = threadIdx.x % Base::Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Base::ThreadsDelta::kW</a>;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, thread_offset_h, thread_offset_w, 0);</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    }</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  };</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;};</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> TileTraits_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">   71</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">WmmaGemmGlobalIteratorCd</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;TileTraits_,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                                                          typename TileTraits_::Scalar,</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;                                                          IteratorAdvance::kH,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;                                                          MemorySpace::kGlobal,</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;                                                          Index_&gt; {</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">   77</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">WmmaGemmGlobalIteratorCd&lt;TileTraits_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">This_</a>;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">   79</a></span>&#160;  <span class="keyword">typedef</span> TileTraits_ <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">Traits</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html">TileIteratorBase</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">Traits</a>,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;                           <span class="keyword">typename</span> TileTraits_::Scalar,</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">MemorySpace::kGlobal</a>,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;                           Index_&gt;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a48a8eda430139e6a131654a54bbf0f3b">   86</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a48a8eda430139e6a131654a54bbf0f3b">Base</a>;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd">   88</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Base::Delta::kW, Base::Delta::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba">   90</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba">kLayout</a> = TileTraits_::kLayout;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">   93</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">Scalar</a>;</div><div class="line"><a name="l00095"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">   95</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Pointer <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a>;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">   97</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Threads <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">Threads</a>;</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">   99</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>;</div><div class="line"><a name="l00101"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">  101</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::ThreadOffset <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a>;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">  104</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">Params</a> {</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">  106</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a>;</div><div class="line"><a name="l00108"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007">  108</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007">stride_h</a>;</div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2">  110</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2">inc_h</a>, <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a857db0c999250248b104f17f13fe9bd8">inc_advance</a>;</div><div class="line"><a name="l00112"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">  112</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">predicate_offset</a>;</div><div class="line"><a name="l00114"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6">  114</a></span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6">predicate_inc_h</a>, <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa0367d016549cce6bd896bae364fc248">predicate_inc_advance</a>;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#ad6b65c5f3ed7cd9e7ffeb684cbf30d04">  117</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#ad6b65c5f3ed7cd9e7ffeb684cbf30d04">initialize</a>(</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;        <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a>, <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> ld, <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> n, <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> epilogue_stride_w, <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a> epilogue_delta_w) {</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;      this-&gt;pointer = <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a>;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;      <span class="comment">// Setup the base stride. One &quot;group of threads&quot; per column.</span></div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007">stride_h</a> = ld;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;      <span class="comment">// Each thread output 1 column per iteration. .</span></div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2">inc_h</a> = ld * TileTraits_::Threads::kH;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a857db0c999250248b104f17f13fe9bd8">inc_advance</a> = <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2">inc_h</a> + epilogue_stride_w;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">predicate_offset</a> = n;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6">predicate_inc_h</a> = TileTraits_::Threads::kH;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa0367d016549cce6bd896bae364fc248">predicate_inc_advance</a> = <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6">predicate_inc_h</a> + epilogue_delta_w;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      <span class="comment">// It worked.</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;    }</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;  };</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">  136</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">Params</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066">  138</a></span>&#160;  <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066">thread_offset</a>;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00141"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a505f124fa3f47c6d57b7275e81be6dd3">  141</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a505f124fa3f47c6d57b7275e81be6dd3">WmmaGemmGlobalIteratorCd</a>() {}</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">  144</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">WmmaGemmGlobalIteratorCd</a>(<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>,</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;                                          <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; bounds,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;                                          <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; block,</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;                                          <span class="keywordtype">int</span> <span class="keyword">const</span> pointer_offset = 0,</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;                                          <span class="keywordtype">int</span> <span class="keyword">const</span> pred_offset = 0,</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;                                          <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a>())</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;      : <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>(<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>) {</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066">thread_offset</a> = thread_offset_func();</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;    <span class="comment">// Each warp works on a different column of the tile.</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> h = <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066">thread_offset</a>[1] + block[1];</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;    <span class="comment">// Each lane writes a different element.</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> w = <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066">thread_offset</a>[2] + block[2];</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;    <span class="comment">// Setup the pointer.</span></div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;    this-&gt;params.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a> += ((h * <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007">stride_h</a> + w) + pointer_offset);</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    <span class="comment">// Prepare the vector of predicates.</span></div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Base::Iterations::kW; ++i) {</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">set</a>(i, w + i * Base::Delta::kW &lt; bounds[2]);</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;    }</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    this-&gt;params.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">predicate_offset</a> -= (h + pred_offset);</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;  }</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;</div><div class="line"><a name="l00168"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a44287250bf5631a490b514859fd101d1">  168</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a44287250bf5631a490b514859fd101d1">inc_c</a>() {}</div><div class="line"><a name="l00170"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aec2d692967d9be5d42673dfde21f5427">  170</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aec2d692967d9be5d42673dfde21f5427">inc_w</a>() {}</div><div class="line"><a name="l00172"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa9a733f35e9be67663c9c8f80b0034d4">  172</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa9a733f35e9be67663c9c8f80b0034d4">inc_h</a>() {</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2">inc_h</a>;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">predicate_offset</a> -= <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6">predicate_inc_h</a>;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;  }</div><div class="line"><a name="l00177"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab1ebbe54e4315ac07daf260a88f41d04">  177</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab1ebbe54e4315ac07daf260a88f41d04">inc_d</a>() {}</div><div class="line"><a name="l00179"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a174ae7d8aa0664eaf1d6f63c5606baa0">  179</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a174ae7d8aa0664eaf1d6f63c5606baa0">inc_advance</a>() {</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a> += <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a857db0c999250248b104f17f13fe9bd8">inc_advance</a>;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">predicate_offset</a> -= <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa0367d016549cce6bd896bae364fc248">predicate_inc_advance</a>;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;  }</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;</div><div class="line"><a name="l00185"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a468f8f503777e4a2b0089ee2bd6c471a">  185</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">bool</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a468f8f503777e4a2b0089ee2bd6c471a">valid</a>(<span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;    <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa">predicates</a>.<a class="code" href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">at</a>(w) &amp;&amp; <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">predicate_offset</a> &gt; 0;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  }</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00191"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afe77778a126449e210c0bd6ec2dc6709">  191</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afe77778a126449e210c0bd6ec2dc6709">data</a>() { <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a>; }</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00194"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a90e9886534ecbbce69f57b4030d0903f">  194</a></span>&#160;  <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a90e9886534ecbbce69f57b4030d0903f">data</a>()<span class="keyword"> const </span>{ <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">params</a>.<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">pointer</a>; }</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;</div><div class="line"><a name="l00197"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa">  197</a></span>&#160;  <a class="code" href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector&lt;Base::Iterations::kW&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa">predicates</a>;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;};</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_aeb866237318ac7983e554a08395c5125"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">cutlass::gemm::WmmaGemmGlobalIteratorCd::Threads</a></div><div class="ttdeci">TileTraits_::Threads Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:97</div></div>
+<a href="wmma__gemm__global__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">int</span> kAccessSize_&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html">WmmaGemmGlobalIteratorCdTraits</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;GemmOperand::kC,</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;                                                                    MatrixLayout::kColumnMajor,</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;                                                                    Scalar_,</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;                                                                    Tile_,</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;                                                                    Threads_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;                                                                    kAccessSize_&gt; {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">GemmGlobalTileTraits</a>&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;                               <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;                               Scalar_,</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;                               Tile_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;                               Threads_,</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;                               kAccessSize_&gt;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86">   51</a></span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86">Base</a>;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002">   54</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Base::Delta::kW, Base::Delta::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002">Delta</a>;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html">   57</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html">ThreadOffset</a> {</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00059"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68">   59</a></span>&#160;    <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68">operator()</a>()<span class="keyword"> const </span>{</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;      <span class="keywordtype">int</span> thread_offset_h = threadIdx.x / Base::Threads::kW;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;      <span class="keywordtype">int</span> thread_offset_w = threadIdx.x % Base::Threads::kW * <a class="code" href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">Base::ThreadsDelta::kW</a>;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, thread_offset_h, thread_offset_w, 0);</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;    }</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  };</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;};</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> TileTraits_, <span class="keyword">typename</span> Index_ = <span class="keywordtype">int</span>&gt;</div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">   71</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">WmmaGemmGlobalIteratorCd</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd</a>&lt;TileTraits_, Index_&gt; {</div><div class="line"><a name="l00073"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">   73</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">WmmaGemmGlobalIteratorCd&lt;TileTraits_, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">This_</a>;</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">   75</a></span>&#160;  <span class="keyword">typedef</span> TileTraits_ <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">Traits</a>;</div><div class="line"><a name="l00077"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aea87c73ae2d4e027014ebd4d8141c89e">   77</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">GemmGlobalIteratorCd&lt;Traits, Index_&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aea87c73ae2d4e027014ebd4d8141c89e">Base</a>;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd">   79</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1Shape.html">Shape&lt;0, 0, Base::Delta::kW, Base::Delta::kC&gt;</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd">ImmediateOffsetStrides</a>;</div><div class="line"><a name="l00081"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba">   81</a></span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba">kLayout</a> = TileTraits_::kLayout;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">   84</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Scalar <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">Scalar</a>;</div><div class="line"><a name="l00086"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">   86</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Pointer <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">Pointer</a>;</div><div class="line"><a name="l00088"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">   88</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::Threads <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">Threads</a>;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">   90</a></span>&#160;  <span class="keyword">typedef</span> Index_ <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">Index</a>;</div><div class="line"><a name="l00092"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">   92</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> TileTraits_::ThreadOffset <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a>;</div><div class="line"><a name="l00094"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afd2bed46f4cf04aaf331fb2ecae953f8">   94</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">Base::Params</a> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afd2bed46f4cf04aaf331fb2ecae953f8">BaseParams</a>;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">   97</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">Params</a> : <span class="keyword">public</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">BaseParams</a> {</div><div class="line"><a name="l00099"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a98867f4fc4daf790e309f8365e71cc8f">   99</a></span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">int</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a98867f4fc4daf790e309f8365e71cc8f">initialize</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">Pointer</a> <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>,</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;                                       <span class="keywordtype">long</span> <span class="keywordtype">long</span> batch_stride,</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> ldm,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> n,</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_stride_w,</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;                                       <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">Index</a> epilogue_delta_w) {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">BaseParams::pointer</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">pointer</a>;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;      <span class="comment">// Stride between GEMMs</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">BaseParams::stride_d</a> = batch_stride;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;      <span class="comment">// Setup the base stride. One &quot;group of threads&quot; per column.</span></div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">BaseParams::stride_h</a> = ldm;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;      <span class="comment">// Each thread output 1 column per iteration. .</span></div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">BaseParams::inc_h</a> = ldm * TileTraits_::Threads::kH;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">BaseParams::inc_advance</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">BaseParams::inc_h</a> + epilogue_stride_w;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">BaseParams::predicate_offset</a> = n;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">BaseParams::predicate_inc_h</a> = TileTraits_::Threads::kH;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;      <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">BaseParams::predicate_inc_advance</a> = <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">BaseParams::predicate_inc_h</a> + epilogue_delta_w;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;      <span class="keywordflow">return</span> 0;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;    }</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  };</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;</div><div class="line"><a name="l00124"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">  124</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">WmmaGemmGlobalIteratorCd</a>(<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">Params</a> <span class="keyword">const</span>&amp; <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>,</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;                                          <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; bounds,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;                                          <span class="keyword">const</span> <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a>&amp; block,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;                                          <span class="keywordtype">int</span> <span class="keyword">const</span> pointer_offset = 0,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                                          <span class="keywordtype">int</span> <span class="keyword">const</span> pred_offset = 0,</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;                                          <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">ThreadOffset</a> thread_offset_func = <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">ThreadOffset</a>())</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      : <a class="code" href="structcutlass_1_1TileIteratorBase.html">Base</a>(<a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">params</a>, bounds, block, pointer_offset, pred_offset, thread_offset_func) {}</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;</div><div class="line"><a name="l00134"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a109209936a9453e8f1f3f5eecfd6afca">  134</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a109209936a9453e8f1f3f5eecfd6afca">load_element</a>(</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Base::AccessType</a>&amp; value, <span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c)<span class="keyword"> const </span>{</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">Base::load_element</a>(value, d, h, w, c);</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  }</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a051eb2a8637601cf9c1f52999117151b">  140</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a051eb2a8637601cf9c1f52999117151b">store_element</a>(</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      <span class="keyword">typename</span> <a class="code" href="unioncutlass_1_1Vector.html">Base::AccessType</a> <span class="keyword">const</span>&amp; value, <span class="keywordtype">int</span> d, <span class="keywordtype">int</span> h, <span class="keywordtype">int</span> w, <span class="keywordtype">int</span> c) {</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;    <span class="keywordtype">int</span> <span class="keyword">const</span> offset =</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;        <a class="code" href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">ComputeOffsetFromStrides&lt;typename Base::ImmediateOffsetStrides&gt;::get</a>(d, h, w, 0);</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;    <a class="code" href="structcutlass_1_1Store.html">Store</a>&lt;<a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">Scalar</a>,</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">Base::kAccessSize</a>,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">Base::kMemorySpace</a>,</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;          <a class="code" href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">Base::kFragmentElementType</a>,</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;          <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">Base::FragmentElement</a>,</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;          Base::Tile::kW&gt;::store(value, <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">Base::params</a>.pointer, offset);</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;  }</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00154"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae2febd768cbbfb8aab3c2cb669c0505d">  154</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae2febd768cbbfb8aab3c2cb669c0505d">load_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&amp; fragment) {</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">Base::load_post_increment</a>(fragment);</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;  }</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a018d5be34cdbb263d7f133197b2921ca">  159</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a018d5be34cdbb263d7f133197b2921ca">store_post_increment</a>(<a class="code" href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">Fragment</a>&amp; fragment) {</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    <a class="code" href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a">Base::store_post_increment</a>(fragment);</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  }</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;};</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_aeb866237318ac7983e554a08395c5125"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aeb866237318ac7983e554a08395c5125">cutlass::gemm::WmmaGemmGlobalIteratorCd::Threads</a></div><div class="ttdeci">TileTraits_::Threads Threads</div><div class="ttdoc">The threads. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a8c2618ac16362a8362dcddeed71c41d4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a8c2618ac16362a8362dcddeed71c41d4">cutlass::gemm::GemmGlobalIteratorCd::Params::inc_advance</a></div><div class="ttdeci">Index inc_advance</div><div class="ttdoc">The strides to increment the pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:434</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="gemm__global__tile_8h_html"><div class="ttname"><a href="gemm__global__tile_8h.html">gemm_global_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing to global memory. </div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a56847e834b31b88544093c3df54d299f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a56847e834b31b88544093c3df54d299f">cutlass::gemm::GemmGlobalIteratorCd::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:421</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html_a98867f4fc4daf790e309f8365e71cc8f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a98867f4fc4daf790e309f8365e71cc8f">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Pointer pointer, long long batch_stride, Index ldm, Index n, Index epilogue_stride_w, Index epilogue_delta_w)</div><div class="ttdoc">Setup the params. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:99</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalTileTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalTileTraits.html">cutlass::gemm::GemmGlobalTileTraits</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_ac8eca7087d1f7575b0c6beeb5f907bfd"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#ac8eca7087d1f7575b0c6beeb5f907bfd">cutlass::PredicateVector::at</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE bool at(int idx) const</div><div class="ttdoc">Accesses a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:356</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_ab1ebbe54e4315ac07daf260a88f41d04"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab1ebbe54e4315ac07daf260a88f41d04">cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_d</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_d()</div><div class="ttdoc">Increment the pointer in the D dimension. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:177</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03cac4bd4070cc396d698beb7ca2e3bbff37">cutlass::MemorySpace::kGlobal</a></div><div class="ttdef"><b>Definition:</b> load_store.h:43</div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html_a5cff0436eed0fefa2957ad6d083ed007"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5cff0436eed0fefa2957ad6d083ed007">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::stride_h</a></div><div class="ttdeci">Index stride_h</div><div class="ttdoc">The stride in the H dimension to setup the thread in the block. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:108</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_aec2d692967d9be5d42673dfde21f5427"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aec2d692967d9be5d42673dfde21f5427">cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_w</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_w()</div><div class="ttdoc">Increment the pointer in the W dimension. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:170</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a3f45216454a550a116935aede0bda3de"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">cutlass::gemm::WmmaGemmGlobalIteratorCd::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:99</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_ab9979f3f1f6d31e1466780c5777de25e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">cutlass::gemm::WmmaGemmGlobalIteratorCd::Scalar</a></div><div class="ttdeci">TileTraits_::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:93</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a0ad4218ad2c10641379b236473e79e84"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a0ad4218ad2c10641379b236473e79e84">cutlass::gemm::WmmaGemmGlobalIteratorCd::params</a></div><div class="ttdeci">Params params</div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:136</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html_a5b8177a936ba30a3d68ca238aaf76ff6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a5b8177a936ba30a3d68ca238aaf76ff6">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::predicate_inc_h</a></div><div class="ttdeci">Index predicate_inc_h</div><div class="ttdoc">The strides to increment the predicate offset. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:114</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html_aa42c4e7419308926b925909e6a5c719d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa42c4e7419308926b925909e6a5c719d">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::pointer</a></div><div class="ttdeci">Pointer pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:106</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a90e9886534ecbbce69f57b4030d0903f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a90e9886534ecbbce69f57b4030d0903f">cutlass::gemm::WmmaGemmGlobalIteratorCd::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Pointer const data() const</div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:194</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a174ae7d8aa0664eaf1d6f63c5606baa0"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a174ae7d8aa0664eaf1d6f63c5606baa0">cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_advance</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_advance()</div><div class="ttdoc">Increment the pointer to move to the next iteration. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:179</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:104</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html_a6306f771718c0c05276e103f30f862b2"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a6306f771718c0c05276e103f30f862b2">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::inc_h</a></div><div class="ttdeci">Index inc_h</div><div class="ttdoc">The strides to increment the pointer. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:110</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a48a8eda430139e6a131654a54bbf0f3b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a48a8eda430139e6a131654a54bbf0f3b">cutlass::gemm::WmmaGemmGlobalIteratorCd::Base</a></div><div class="ttdeci">TileIteratorBase&lt; Traits, typename TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:86</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a505f124fa3f47c6d57b7275e81be6dd3"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a505f124fa3f47c6d57b7275e81be6dd3">cutlass::gemm::WmmaGemmGlobalIteratorCd::WmmaGemmGlobalIteratorCd</a></div><div class="ttdeci">CUTLASS_DEVICE WmmaGemmGlobalIteratorCd()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:141</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html_a38f13119cf3111e84914f1bef6f5d985"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a38f13119cf3111e84914f1bef6f5d985">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::predicate_offset</a></div><div class="ttdeci">Index predicate_offset</div><div class="ttdoc">The column offset to compute the predicate for the columns. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:112</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_aea87c73ae2d4e027014ebd4d8141c89e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aea87c73ae2d4e027014ebd4d8141c89e">cutlass::gemm::WmmaGemmGlobalIteratorCd::Base</a></div><div class="ttdeci">GemmGlobalIteratorCd&lt; Traits, Index_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:77</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a109209936a9453e8f1f3f5eecfd6afca"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a109209936a9453e8f1f3f5eecfd6afca">cutlass::gemm::WmmaGemmGlobalIteratorCd::load_element</a></div><div class="ttdeci">CUTLASS_DEVICE void load_element(typename Base::AccessType &amp;value, int d, int h, int w, int c) const</div><div class="ttdoc">Loads a single fragment element from memory. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:134</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a9ffa12dcd7ed1e96845e1cd273d9f219"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a9ffa12dcd7ed1e96845e1cd273d9f219">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::Fragment</a></div><div class="ttdeci">Fragment&lt; FragmentElement, ShapeCount&lt; Iterations &gt;::kCount *kAccessSize &gt; Fragment</div><div class="ttdoc">The fragment. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:196</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_afd2bed46f4cf04aaf331fb2ecae953f8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afd2bed46f4cf04aaf331fb2ecae953f8">cutlass::gemm::WmmaGemmGlobalIteratorCd::BaseParams</a></div><div class="ttdeci">Base::Params BaseParams</div><div class="ttdoc">Base parameters. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:94</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a36afe18f94aacd0746c8946866371d3c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a36afe18f94aacd0746c8946866371d3c">cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_inc_h</a></div><div class="ttdeci">Index predicate_inc_h</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:436</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a3f45216454a550a116935aede0bda3de"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a3f45216454a550a116935aede0bda3de">cutlass::gemm::WmmaGemmGlobalIteratorCd::Index</a></div><div class="ttdeci">Index_ Index</div><div class="ttdoc">The index. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_ab9979f3f1f6d31e1466780c5777de25e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab9979f3f1f6d31e1466780c5777de25e">cutlass::gemm::WmmaGemmGlobalIteratorCd::Scalar</a></div><div class="ttdeci">TileTraits_::Scalar Scalar</div><div class="ttdoc">The scalar. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:84</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a1a587af6edd528a02679c0decc31cdd1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a1a587af6edd528a02679c0decc31cdd1">cutlass::gemm::GemmGlobalIteratorCd::load_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_post_increment(Fragment &amp;fragment)</div><div class="ttdoc">Loads and increments iterator. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:575</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_ae2febd768cbbfb8aab3c2cb669c0505d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae2febd768cbbfb8aab3c2cb669c0505d">cutlass::gemm::WmmaGemmGlobalIteratorCd::load_post_increment</a></div><div class="ttdeci">CUTLASS_DEVICE void load_post_increment(Fragment &amp;fragment)</div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:154</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1Store_html"><div class="ttname"><a href="structcutlass_1_1Store.html">cutlass::Store</a></div><div class="ttdef"><b>Definition:</b> load_store.h:178</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a2b5d2b02d241e89677c41eb658ace129"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a2b5d2b02d241e89677c41eb658ace129">cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_inc_advance</a></div><div class="ttdeci">Index predicate_inc_advance</div><div class="ttdoc">The strides to increment the predicate offset. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:436</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:97</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_af405f6c5f0bd8f04487d8a7f41dc1826"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#af405f6c5f0bd8f04487d8a7f41dc1826">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::kFragmentElementType</a></div><div class="ttdeci">static FragmentElementType::Kind const kFragmentElementType</div><div class="ttdoc">Specifies iterator storage fragment type (Scalar or WmmaMatrix) </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:158</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset_html_ad7537f8b30ee6913cf4afa1d3c054e68"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html#ad7537f8b30ee6913cf4afa1d3c054e68">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::ThreadOffset::operator()</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 4 &gt; operator()() const</div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:59</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html">cutlass::gemm::WmmaGemmGlobalIteratorCd</a></div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:71</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html_aa0367d016549cce6bd896bae364fc248"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#aa0367d016549cce6bd896bae364fc248">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::predicate_inc_advance</a></div><div class="ttdeci">Index predicate_inc_advance</div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:114</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a84a73da2a07210fcfad10853b941c85e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">cutlass::gemm::WmmaGemmGlobalIteratorCd::Pointer</a></div><div class="ttdeci">TileTraits_::Pointer Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:95</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a84a73da2a07210fcfad10853b941c85e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a84a73da2a07210fcfad10853b941c85e">cutlass::gemm::WmmaGemmGlobalIteratorCd::Pointer</a></div><div class="ttdeci">TileTraits_::Pointer Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:86</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_aafa962f7e63da77c9904d438ab94347a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#aafa962f7e63da77c9904d438ab94347a">cutlass::gemm::GemmGlobalIteratorCd::store_post_increment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void store_post_increment(Fragment &amp;fragment)</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:606</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a0c6b03c635e14ad4424a83f8c7f8025e"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a0c6b03c635e14ad4424a83f8c7f8025e">cutlass::gemm::GemmGlobalIteratorCd::Params::stride_h</a></div><div class="ttdeci">Index stride_h</div><div class="ttdoc">The stride in the H dimension to setup the thread in the block. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:432</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6034b7229e4aca05f63c39560f219433"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6034b7229e4aca05f63c39560f219433">cutlass::gemm::GemmGlobalIteratorCd::load_element</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void load_element(typename Base::AccessType &amp;value, int d, int h, int w, int c) const</div><div class="ttdoc">Loads a single fragment element from memory. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:538</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_html_ab55665f7c2f2cb8b8b9b8ac852d48002"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#ab55665f7c2f2cb8b8b9b8ac852d48002">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::Delta</a></div><div class="ttdeci">Shape&lt; 0, 0, Base::Delta::kW, Base::Delta::kC &gt; Delta</div><div class="ttdoc">Override the strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:54</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html">cutlass::PredicateVector&lt; Base::Iterations::kW &gt;</a></div></div>
+<div class="ttc" id="unioncutlass_1_1Vector_html"><div class="ttname"><a href="unioncutlass_1_1Vector.html">cutlass::Vector</a></div><div class="ttdef"><b>Definition:</b> vector.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a6d985f8e93be21e56f72ec1400d73df1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a6d985f8e93be21e56f72ec1400d73df1">cutlass::gemm::GemmGlobalIteratorCd::ThreadOffset</a></div><div class="ttdeci">TileTraits_::ThreadOffset ThreadOffset</div><div class="ttdoc">The thread offset. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:423</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html"><div class="ttname"><a href="structcutlass_1_1Shape.html">cutlass::Shape</a></div><div class="ttdoc">A Shape implementing Layout Concept describing the dimensions of a cube. </div><div class="ttdef"><b>Definition:</b> shape.h:64</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_ab3057dad7a4decb5594c66aa328f8066"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ab3057dad7a4decb5594c66aa328f8066">cutlass::gemm::WmmaGemmGlobalIteratorCd::thread_offset</a></div><div class="ttdeci">Coord&lt; 4 &gt; thread_offset</div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:138</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html_a857db0c999250248b104f17f13fe9bd8"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#a857db0c999250248b104f17f13fe9bd8">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::inc_advance</a></div><div class="ttdeci">Index inc_advance</div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:110</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_ae0f176733ba9dee0cce45435ac5d53ba"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba">cutlass::gemm::WmmaGemmGlobalIteratorCd::kLayout</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayout</div><div class="ttdoc">The layout. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a018d5be34cdbb263d7f133197b2921ca"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a018d5be34cdbb263d7f133197b2921ca">cutlass::gemm::WmmaGemmGlobalIteratorCd::store_post_increment</a></div><div class="ttdeci">CUTLASS_DEVICE void store_post_increment(Fragment &amp;fragment)</div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_aed94505e5a269d5f33499e71284104f5"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#aed94505e5a269d5f33499e71284104f5">cutlass::gemm::GemmGlobalIteratorCd::Params::inc_h</a></div><div class="ttdeci">Index inc_h</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:434</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_ab8bfa9914c4ba49a583d1cfaa8a62d56"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#ab8bfa9914c4ba49a583d1cfaa8a62d56">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::kMemorySpace</a></div><div class="ttdeci">static MemorySpace::Kind const kMemorySpace</div><div class="ttdoc">Source or destination memory space. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:161</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_ae0f176733ba9dee0cce45435ac5d53ba"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#ae0f176733ba9dee0cce45435ac5d53ba">cutlass::gemm::WmmaGemmGlobalIteratorCd::kLayout</a></div><div class="ttdeci">static MatrixLayout::Kind const kLayout</div><div class="ttdoc">The layout. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:81</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_ad764f98e770d4685006e6888214dcd4d"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#ad764f98e770d4685006e6888214dcd4d">cutlass::gemm::GemmGlobalIteratorCd::Params::pointer</a></div><div class="ttdeci">Pointer pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:428</div></div>
 <div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 4 &gt;</a></div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits</a></div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:38</div></div>
-<div class="ttc" id="structcutlass_1_1TileIteratorBase_html"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a></div><div class="ttdoc">Iterator for accessing a stripmined tile in memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:102</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a667cae4a9fa78a6df073f5ee48ef9664"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">cutlass::gemm::WmmaGemmGlobalIteratorCd::ThreadOffset</a></div><div class="ttdeci">TileTraits_::ThreadOffset ThreadOffset</div><div class="ttdoc">The thread offset functor. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:101</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_afe77778a126449e210c0bd6ec2dc6709"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#afe77778a126449e210c0bd6ec2dc6709">cutlass::gemm::WmmaGemmGlobalIteratorCd::data</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Pointer data()</div><div class="ttdoc">Returns the raw pointer. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:191</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html">cutlass::TileIteratorBase</a></div><div class="ttdoc">Iterator for accessing a stripmined tile in memory. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:144</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a667cae4a9fa78a6df073f5ee48ef9664"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a667cae4a9fa78a6df073f5ee48ef9664">cutlass::gemm::WmmaGemmGlobalIteratorCd::ThreadOffset</a></div><div class="ttdeci">TileTraits_::ThreadOffset ThreadOffset</div><div class="ttdoc">The thread offset functor. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:92</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_ac368b1ea1c5ad2209a6ac6bec597600f"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#ac368b1ea1c5ad2209a6ac6bec597600f">cutlass::gemm::GemmGlobalIteratorCd::params</a></div><div class="ttdeci">Params params</div><div class="ttdoc">Parameters. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:469</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html">cutlass::gemm::GemmGlobalIteratorCd</a></div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:396</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a7f2fe3fa2eb764bf664817097d22fe45"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a7f2fe3fa2eb764bf664817097d22fe45">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::FragmentElement</a></div><div class="ttdeci">TileTraits_::Scalar FragmentElement</div><div class="ttdoc">Fragment element. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:152</div></div>
 <div class="ttc" id="structcutlass_1_1Shape_html_a78836a20250ff24c25a6622ad818b421"><div class="ttname"><a href="structcutlass_1_1Shape.html#a78836a20250ff24c25a6622ad818b421">cutlass::Shape::kW</a></div><div class="ttdeci">static int const kW</div><div class="ttdoc">The width of the cube. </div><div class="ttdef"><b>Definition:</b> shape.h:70</div></div>
-<div class="ttc" id="structcutlass_1_1PredicateVector_html_a062fa8a8df725ef08ced2ffcca8336af"><div class="ttname"><a href="structcutlass_1_1PredicateVector.html#a062fa8a8df725ef08ced2ffcca8336af">cutlass::PredicateVector::set</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void set(int idx, bool value=true)</div><div class="ttdoc">Set a bit within the predicate vector. </div><div class="ttdef"><b>Definition:</b> predicate_vector.h:364</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1TileIteratorBase_html_a8a4edd46b8cad3eeafc2a3dc3a344499"><div class="ttname"><a href="structcutlass_1_1TileIteratorBase.html#a8a4edd46b8cad3eeafc2a3dc3a344499">cutlass::TileIteratorBase&lt; TileTraits_, TileTraits_::Scalar, IteratorAdvance::kH, MemorySpace::kGlobal, Index_ &gt;::kAccessSize</a></div><div class="ttdeci">static int const kAccessSize</div><div class="ttdoc">The number of scalars accessed per load/store. </div><div class="ttdef"><b>Definition:</b> tile_iterator.h:185</div></div>
+<div class="ttc" id="structcutlass_1_1ComputeOffsetFromStrides_html_aa28231590bfa0ced0f317e6a4d52dc1e"><div class="ttname"><a href="structcutlass_1_1ComputeOffsetFromStrides.html#aa28231590bfa0ced0f317e6a4d52dc1e">cutlass::ComputeOffsetFromStrides::get</a></div><div class="ttdeci">static CUTLASS_HOST_DEVICE int get(int d, int h, int w, int c)</div><div class="ttdef"><b>Definition:</b> shape.h:199</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_html_a194aa2762885c3d556a84ff410200b86"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits.html#a194aa2762885c3d556a84ff410200b86">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::Base</a></div><div class="ttdeci">GemmGlobalTileTraits&lt; GemmOperand::kC, MatrixLayout::kColumnMajor, Scalar_, Tile_, Threads_, kAccessSize_ &gt; Base</div><div class="ttdoc">The base class. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:51</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_aa5c14e2a799249fe8bba14aa1dbe69dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">cutlass::gemm::WmmaGemmGlobalIteratorCd::WmmaGemmGlobalIteratorCd</a></div><div class="ttdeci">CUTLASS_DEVICE WmmaGemmGlobalIteratorCd(Params const &amp;params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int const pointer_offset=0, int const pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:144</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_aa8b453116c2d96ea2c56e08cb981346c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">cutlass::gemm::WmmaGemmGlobalIteratorCd::This_</a></div><div class="ttdeci">WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:77</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_af3c9d62554b1d311d82ba89e09cdd3fa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af3c9d62554b1d311d82ba89e09cdd3fa">cutlass::gemm::WmmaGemmGlobalIteratorCd::predicates</a></div><div class="ttdeci">cutlass::PredicateVector&lt; Base::Iterations::kW &gt; predicates</div><div class="ttdoc">The predicates for the row. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:197</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_af53d49bad7060b87a2761fe8a82a7ddd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd">cutlass::gemm::WmmaGemmGlobalIteratorCd::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; 0, 0, Base::Delta::kW, Base::Delta::kC &gt; ImmediateOffsetStrides</div><div class="ttdoc">Override the strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:88</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a1a53695ce7f3cb267225d3ab86a0d5aa"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a1a53695ce7f3cb267225d3ab86a0d5aa">cutlass::gemm::GemmGlobalIteratorCd::Params::stride_d</a></div><div class="ttdeci">long long stride_d</div><div class="ttdoc">The stride in the D dimension. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:430</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_aa5c14e2a799249fe8bba14aa1dbe69dc"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa5c14e2a799249fe8bba14aa1dbe69dc">cutlass::gemm::WmmaGemmGlobalIteratorCd::WmmaGemmGlobalIteratorCd</a></div><div class="ttdeci">CUTLASS_DEVICE WmmaGemmGlobalIteratorCd(Params const &amp;params, const Coord&lt; 3 &gt; &amp;bounds, const Coord&lt; 3 &gt; &amp;block, int const pointer_offset=0, int const pred_offset=0, ThreadOffset thread_offset_func=ThreadOffset())</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:124</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_aa8b453116c2d96ea2c56e08cb981346c"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa8b453116c2d96ea2c56e08cb981346c">cutlass::gemm::WmmaGemmGlobalIteratorCd::This_</a></div><div class="ttdeci">WmmaGemmGlobalIteratorCd&lt; TileTraits_, Index_ &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:73</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_html_a3abcfa68ae9904a13195d32d6e6c4bc6"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd.html#a3abcfa68ae9904a13195d32d6e6c4bc6">cutlass::gemm::GemmGlobalIteratorCd::Pointer</a></div><div class="ttdeci">TileTraits_::Pointer Pointer</div><div class="ttdoc">The pointer. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:417</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_af53d49bad7060b87a2761fe8a82a7ddd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af53d49bad7060b87a2761fe8a82a7ddd">cutlass::gemm::WmmaGemmGlobalIteratorCd::ImmediateOffsetStrides</a></div><div class="ttdeci">Shape&lt; 0, 0, Base::Delta::kW, Base::Delta::kC &gt; ImmediateOffsetStrides</div><div class="ttdoc">Override the strides in each dimension between different loads/stores. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:79</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCdTraits_1_1ThreadOffset.html">cutlass::gemm::WmmaGemmGlobalIteratorCdTraits::ThreadOffset</a></div><div class="ttdoc">Computes the thread offset in (H, W) based on thread ID. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:57</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a44287250bf5631a490b514859fd101d1"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a44287250bf5631a490b514859fd101d1">cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_c</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_c()</div><div class="ttdoc">Increment the pointer in the C dimension. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:168</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_aa9a733f35e9be67663c9c8f80b0034d4"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#aa9a733f35e9be67663c9c8f80b0034d4">cutlass::gemm::WmmaGemmGlobalIteratorCd::inc_h</a></div><div class="ttdeci">CUTLASS_DEVICE void inc_h()</div><div class="ttdoc">Increment the pointer in the H dimension. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:172</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_af2b5682b8e6dd13590ec258a44636430"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">cutlass::gemm::WmmaGemmGlobalIteratorCd::Traits</a></div><div class="ttdeci">TileTraits_ Traits</div><div class="ttdoc">The traits. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:79</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a468f8f503777e4a2b0089ee2bd6c471a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a468f8f503777e4a2b0089ee2bd6c471a">cutlass::gemm::WmmaGemmGlobalIteratorCd::valid</a></div><div class="ttdeci">CUTLASS_DEVICE bool valid(int d, int h, int w, int c) const</div><div class="ttdoc">Test the predicate. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:185</div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params_html_ad6b65c5f3ed7cd9e7ffeb684cbf30d04"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_1_1Params.html#ad6b65c5f3ed7cd9e7ffeb684cbf30d04">cutlass::gemm::WmmaGemmGlobalIteratorCd::Params::initialize</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE int initialize(Pointer pointer, Index ld, Index n, Index epilogue_stride_w, Index epilogue_delta_w)</div><div class="ttdoc">Setup the params. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:117</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html">cutlass::gemm::GemmGlobalIteratorCd::Params</a></div><div class="ttdoc">The params. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:426</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_af2b5682b8e6dd13590ec258a44636430"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#af2b5682b8e6dd13590ec258a44636430">cutlass::gemm::WmmaGemmGlobalIteratorCd::Traits</a></div><div class="ttdeci">TileTraits_ Traits</div><div class="ttdoc">The traits. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:75</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params_html_a3e8f6cf08d23318f3e3263b55cf3b84a"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmGlobalIteratorCd_1_1Params.html#a3e8f6cf08d23318f3e3263b55cf3b84a">cutlass::gemm::GemmGlobalIteratorCd::Params::predicate_offset</a></div><div class="ttdeci">Index predicate_offset</div><div class="ttdoc">The column offset to compute the predicate for the columns. </div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:438</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd_html_a051eb2a8637601cf9c1f52999117151b"><div class="ttname"><a href="structcutlass_1_1gemm_1_1WmmaGemmGlobalIteratorCd.html#a051eb2a8637601cf9c1f52999117151b">cutlass::gemm::WmmaGemmGlobalIteratorCd::store_element</a></div><div class="ttdeci">CUTLASS_DEVICE void store_element(typename Base::AccessType const &amp;value, int d, int h, int w, int c)</div><div class="ttdoc">Stores a single fragment element into memory. </div><div class="ttdef"><b>Definition:</b> wmma_gemm_global_tile.h:140</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__gemm__multiply__add_8h.html b/docs/wmma__gemm__multiply__add_8h.html
index b81b0189b2..dad724fe2b 100644
--- a/docs/wmma__gemm__multiply__add_8h.html
+++ b/docs/wmma__gemm__multiply__add_8h.html
@@ -79,13 +79,13 @@
 
 <p>Implements warp-level matrix multiply-accumulate operation using CUDA WMMA API.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="wmma__matrix_8h_source.html">cutlass/wmma_matrix.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="wmma__matrix_8h_source.html">cutlass/wmma_matrix.h</a>&quot;</code><br />
 </div>
 <p><a href="wmma__gemm__multiply__add_8h_source.html">Go to the source code of this file.</a></p>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__gemm__multiply__add_8h_source.html b/docs/wmma__gemm__multiply__add_8h_source.html
index 399aa11fa7..e1964afb85 100644
--- a/docs/wmma__gemm__multiply__add_8h_source.html
+++ b/docs/wmma__gemm__multiply__add_8h_source.html
@@ -76,15 +76,20 @@
 <div class="title">wmma_gemm_multiply_add.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="wmma__gemm__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="wmma__matrix_8h.html">cutlass/wmma_matrix.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_WMMA_API</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;          <span class="keyword">typename</span> ScalarA_,</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;          <span class="keyword">typename</span> ScalarB_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutC_,</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;          <span class="keyword">typename</span> ScalarC_,</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;          <span class="keyword">typename</span> AccumulatorsPerWarp_,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;          <span class="keyword">typename</span> InstructionShape_&gt;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="keyword">struct </span>WmmaGemmMultiplyAdd {</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;  <span class="keyword">typedef</span> InstructionShape_ InstructionShape;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, InstructionShape_::kH, InstructionShape_::kW&gt; ThreadsPerWarp;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keyword">typedef</span> AccumulatorsPerWarp_ AccumulatorsPerWarp;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <span class="keyword">typedef</span> ScalarA_ ScalarA;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <span class="keyword">typedef</span> ScalarB_ ScalarB;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <span class="keyword">typedef</span> ScalarC_ ScalarC;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">ShapeDiv&lt;AccumulatorsPerWarp, InstructionShape&gt;::Shape</a> Iterations;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kA, kLayoutA_, ScalarA, InstructionShape&gt; ElementA;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementA, Iterations::kW&gt; FragmentA;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kB, kLayoutB_, ScalarB, InstructionShape&gt; ElementB;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementB, Iterations::kH&gt; FragmentB;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kC, kLayoutC_, ScalarC, InstructionShape&gt; ElementC;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementC, Iterations::kH * Iterations::kW&gt; Accumulators;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;  CUTLASS_DEVICE WmmaGemmMultiplyAdd() {}</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> multiply_add(FragmentA <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;                                   FragmentB <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;                                   Accumulators <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;                                   Accumulators&amp; d) {</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; Iterations::kH; ++j) {</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Iterations::kW; ++i) {</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;        <span class="comment">// The input elements.</span></div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;        ElementA <span class="keyword">const</span>&amp; elt_a = a[i];</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;        ElementB <span class="keyword">const</span>&amp; elt_b = b[j];</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;        ElementC <span class="keyword">const</span>&amp; elt_c = c[j * Iterations::kW + i];</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;        <span class="comment">// The output element.</span></div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;        ElementC&amp; elt_d = d[j * Iterations::kW + i];</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;        <span class="comment">// The wmma instruction.</span></div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;        nvcuda::wmma::mma_sync(elt_d, elt_a, elt_b, elt_c);</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;      }</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;    }</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;  }</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;};</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;<span class="preprocessor">#endif  // defined CUTLASS_USE_WMMA_API</span></div><div class="ttc" id="wmma__matrix_8h_html"><div class="ttname"><a href="wmma__matrix_8h.html">wmma_matrix.h</a></div><div class="ttdoc">Abstractions for loading and storing matrices using the CUDA WMMA API. </div></div>
+<a href="wmma__gemm__multiply__add_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="wmma__matrix_8h.html">cutlass/wmma_matrix.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_WMMA_API</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;          <span class="keyword">typename</span> ScalarA_,</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;          <span class="keyword">typename</span> ScalarB_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutC_,</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;          <span class="keyword">typename</span> ScalarC_,</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;          <span class="keyword">typename</span> WarpGemmShape_,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;          <span class="keyword">typename</span> InstructionShape_&gt;</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="keyword">struct </span>WmmaGemmMultiplyAdd {</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;  <span class="keyword">typedef</span> InstructionShape_ InstructionShape;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, InstructionShape_::kH, InstructionShape_::kW&gt; ThreadsPerWarp;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keyword">typedef</span> WarpGemmShape_ WarpGemmShape;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <span class="keyword">typedef</span> WarpGemmShape_ AccumulatorsPerWarp;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <span class="keyword">typedef</span> ScalarA_ ScalarA;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <span class="keyword">typedef</span> ScalarB_ ScalarB;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="keyword">typedef</span> ScalarC_ ScalarC;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">ShapeDiv&lt;AccumulatorsPerWarp, InstructionShape&gt;::Shape</a> Iterations;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kA, kLayoutA_, ScalarA, InstructionShape&gt; ElementA;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementA, Iterations::kW&gt; FragmentA;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kB, kLayoutB_, ScalarB, InstructionShape&gt; ElementB;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementB, Iterations::kH&gt; FragmentB;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kC, kLayoutC_, ScalarC, InstructionShape&gt; ElementC;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementC, Iterations::kH * Iterations::kW&gt; Accumulators;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;  CUTLASS_DEVICE WmmaGemmMultiplyAdd() {}</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> multiply_add(FragmentA <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;                                   FragmentB <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;                                   Accumulators <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;                                   Accumulators&amp; d) {</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; Iterations::kH; ++j) {</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Iterations::kW; ++i) {</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;        <span class="comment">// The input elements.</span></div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;        ElementA <span class="keyword">const</span>&amp; elt_a = a[i];</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;        ElementB <span class="keyword">const</span>&amp; elt_b = b[j];</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;        ElementC <span class="keyword">const</span>&amp; elt_c = c[j * Iterations::kW + i];</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;        <span class="comment">// The output element.</span></div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;        ElementC&amp; elt_d = d[j * Iterations::kW + i];</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;        <span class="comment">// The wmma instruction.</span></div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;        nvcuda::wmma::mma_sync(elt_d, elt_a, elt_b, elt_c);</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;      }</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;    }</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  }</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;};</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;<span class="keyword">template</span>&lt;<span class="keyword">typename</span> WarpGemmShape_&gt;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;<span class="keyword">struct </span>WmmaGemmMultiplyAdd &lt;MatrixLayout::kRowMajor,</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;                            Vector&lt;bin1_t, 32&gt;,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;                            <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                            Vector&lt;bin1_t, 32&gt;,</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;                            <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;                            int,</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;                            WarpGemmShape_,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;                            Shape&lt;128, 8, 8&gt; &gt;{</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="keyword">typedef</span> Shape&lt;128, 8, 8&gt; InstructionShape;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, 4, 8&gt; ThreadsPerWarp;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="keyword">typedef</span> WarpGemmShape_ WarpGemmShape;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;  <span class="keyword">typedef</span> WarpGemmShape_ AccumulatorsPerWarp;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <span class="keyword">typedef</span> Vector&lt;bin1_t, 32&gt; ScalarA;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  <span class="keyword">typedef</span> Vector&lt;bin1_t, 32&gt; ScalarB;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">int</span> ScalarC;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">ShapeDiv&lt;AccumulatorsPerWarp, InstructionShape&gt;::Shape</a> Iterations;</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;                     Vector&lt;bin1_t, 32&gt;,</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;                     InstructionShape&gt; ElementA;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementA, Iterations::kW&gt; FragmentA;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;                     Vector&lt;bin1_t, 32&gt;,</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;                     InstructionShape&gt; ElementB;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementB, Iterations::kH&gt; FragmentB;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>,</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;                     int,</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;                     InstructionShape&gt; ElementC;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementC, Iterations::kH * Iterations::kW&gt; Accumulators;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;  CUTLASS_DEVICE WmmaGemmMultiplyAdd() {}</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> multiply_add(FragmentA <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;                                   FragmentB <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;                                   Accumulators <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;                                   Accumulators&amp; d) {</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; Iterations::kH; ++j) {</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Iterations::kW; ++i) {</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;        <span class="comment">// The input elements.</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;        ElementA <span class="keyword">const</span>&amp; elt_a = a[i];</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;        ElementB <span class="keyword">const</span>&amp; elt_b = b[j];</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;        ElementC <span class="keyword">const</span>&amp; elt_c = c[j * Iterations::kW + i];</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;        <span class="comment">// The output element.</span></div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;        ElementC&amp; elt_d = d[j * Iterations::kW + i];</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;        <span class="comment">// The wmma instruction.</span></div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;        nvcuda::wmma::bmma_sync(elt_d,</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;                                elt_a,</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;                                elt_b,</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;                                elt_c,</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;                                nvcuda::wmma::experimental::bmmaBitOpXOR,</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;                                nvcuda::wmma::experimental::bmmaAccumulateOpPOPC);</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;      }</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;    }</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;  }</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;};</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;<span class="keyword">template</span>&lt;<span class="keyword">typename</span> WarpGemmShape_&gt;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;<span class="keyword">struct </span>WmmaGemmMultiplyAdd &lt;MatrixLayout::kRowMajor,</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;                            Vector&lt;int4_t, 8&gt;,</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;                            <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;                            Vector&lt;int4_t, 8&gt;,</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;                            <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;                            int,</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;                            WarpGemmShape_,</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;                            Shape&lt;32, 8, 8&gt; &gt;{</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;  <span class="keyword">typedef</span> Shape&lt;32, 8, 8&gt; InstructionShape;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, 4, 8&gt; ThreadsPerWarp;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <span class="keyword">typedef</span> WarpGemmShape_ WarpGemmShape;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;  <span class="keyword">typedef</span> WarpGemmShape_ AccumulatorsPerWarp;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;  <span class="keyword">typedef</span> Vector&lt;int4_t, 8&gt; ScalarA;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;  <span class="keyword">typedef</span> Vector&lt;int4_t, 8&gt; ScalarB;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">int</span> ScalarC;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">ShapeDiv&lt;AccumulatorsPerWarp, InstructionShape&gt;::Shape</a> Iterations;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;                     Vector&lt;int4_t, 8&gt;,</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;                     InstructionShape&gt; ElementA;</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementA, Iterations::kW&gt; FragmentA;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;                     Vector&lt;int4_t, 8&gt;,</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;                     InstructionShape&gt; ElementB;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementB, Iterations::kH&gt; FragmentB;</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>,</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;                     int,</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;                     InstructionShape&gt; ElementC;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementC, Iterations::kH * Iterations::kW&gt; Accumulators;</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;  CUTLASS_DEVICE WmmaGemmMultiplyAdd() {}</div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> multiply_add(FragmentA <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;                                   FragmentB <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;                                   Accumulators <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;                                   Accumulators&amp; d) {</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; Iterations::kH; ++j) {</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Iterations::kW; ++i) {</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;        <span class="comment">// The input elements.</span></div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;        ElementA <span class="keyword">const</span>&amp; elt_a = a[i];</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;        ElementB <span class="keyword">const</span>&amp; elt_b = b[j];</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;        ElementC <span class="keyword">const</span>&amp; elt_c = c[j * Iterations::kW + i];</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;        <span class="comment">// The output element.</span></div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;        ElementC&amp; elt_d = d[j * Iterations::kW + i];</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;        <span class="comment">// The wmma instruction.</span></div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;        nvcuda::wmma::mma_sync(elt_d, elt_a, elt_b, elt_c);</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;      }</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;    }</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;  }</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;};</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;<span class="keyword">template</span>&lt;<span class="keyword">typename</span> WarpGemmShape_&gt;</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;<span class="keyword">struct </span>WmmaGemmMultiplyAdd &lt;MatrixLayout::kRowMajor,</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;                            Vector&lt;uint4_t, 8&gt;,</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;                            <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;                            Vector&lt;uint4_t, 8&gt;,</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;                            <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;                            int,</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;                            WarpGemmShape_,</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;                            Shape&lt;32, 8, 8&gt; &gt;{</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;  <span class="keyword">typedef</span> Shape&lt;32, 8, 8&gt; InstructionShape;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, 4, 8&gt; ThreadsPerWarp;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;  <span class="keyword">typedef</span> WarpGemmShape_ WarpGemmShape;</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;  <span class="keyword">typedef</span> WarpGemmShape_ AccumulatorsPerWarp;</div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;  <span class="keyword">typedef</span> Vector&lt;uint4_t, 8&gt; ScalarA;</div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;  <span class="keyword">typedef</span> Vector&lt;uint4_t, 8&gt; ScalarB;</div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;  <span class="keyword">typedef</span> <span class="keywordtype">int</span> ScalarC;</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">ShapeDiv&lt;AccumulatorsPerWarp, InstructionShape&gt;::Shape</a> Iterations;</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;                     Vector&lt;uint4_t, 8&gt;,</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;                     InstructionShape&gt; ElementA;</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementA, Iterations::kW&gt; FragmentA;</div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;</div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;                     Vector&lt;uint4_t, 8&gt;,</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;                     InstructionShape&gt; ElementB;</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementB, Iterations::kH&gt; FragmentB;</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>,</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;                     int,</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;                     InstructionShape&gt; ElementC;</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;  <span class="keyword">typedef</span> Fragment&lt;ElementC, Iterations::kH * Iterations::kW&gt; Accumulators;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;  CUTLASS_DEVICE WmmaGemmMultiplyAdd() {}</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> multiply_add(FragmentA <span class="keyword">const</span>&amp; a,</div><div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;                                   FragmentB <span class="keyword">const</span>&amp; b,</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;                                   Accumulators <span class="keyword">const</span>&amp; c,</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;                                   Accumulators&amp; d) {</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;    <span class="keywordflow">for</span> (<span class="keywordtype">int</span> j = 0; j &lt; Iterations::kH; ++j) {</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;      <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; Iterations::kW; ++i) {</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;        <span class="comment">// The input elements.</span></div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;        ElementA <span class="keyword">const</span>&amp; elt_a = a[i];</div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;        ElementB <span class="keyword">const</span>&amp; elt_b = b[j];</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;        ElementC <span class="keyword">const</span>&amp; elt_c = c[j * Iterations::kW + i];</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;        <span class="comment">// The output element.</span></div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;        ElementC&amp; elt_d = d[j * Iterations::kW + i];</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;        <span class="comment">// The wmma instruction.</span></div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;        nvcuda::wmma::mma_sync(elt_d, elt_a, elt_b, elt_c);</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;      }</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;    }</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;  }</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;};</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;<span class="preprocessor">#endif  // defined CUTLASS_USE_WMMA_API</span></div><div class="ttc" id="wmma__matrix_8h_html"><div class="ttname"><a href="wmma__matrix_8h.html">wmma_matrix.h</a></div><div class="ttdoc">Abstractions for loading and storing matrices using the CUDA WMMA API. </div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
 <div class="ttc" id="structcutlass_1_1ShapeDiv_html_a108ded386ef6708afc6fe769a77a234b"><div class="ttname"><a href="structcutlass_1_1ShapeDiv.html#a108ded386ef6708afc6fe769a77a234b">cutlass::ShapeDiv::Shape</a></div><div class="ttdeci">Shape&lt; A_::kD/B_::kD, A_::kH/B_::kH, A_::kW/B_::kW, A_::kC/B_::kC &gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:126</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__gemm__shared__tile_8h.html b/docs/wmma__gemm__shared__tile_8h.html
index e72f3a867a..66535bfc60 100644
--- a/docs/wmma__gemm__shared__tile_8h.html
+++ b/docs/wmma__gemm__shared__tile_8h.html
@@ -79,13 +79,13 @@
 
 <p>Defines iterator traits for efficiently loading and storing fragment to and from shared memory, specialized for WMMA GEMM.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="wmma__matrix_8h_source.html">cutlass/wmma_matrix.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="wmma__matrix_8h_source.html">cutlass/wmma_matrix.h</a>&quot;</code><br />
 </div>
 <p><a href="wmma__gemm__shared__tile_8h_source.html">Go to the source code of this file.</a></p>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__gemm__shared__tile_8h_source.html b/docs/wmma__gemm__shared__tile_8h_source.html
index fe56588250..27d827aa7c 100644
--- a/docs/wmma__gemm__shared__tile_8h_source.html
+++ b/docs/wmma__gemm__shared__tile_8h_source.html
@@ -76,26 +76,26 @@
 <div class="title">wmma_gemm_shared_tile.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="wmma__gemm__shared__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="wmma__matrix_8h.html">cutlass/wmma_matrix.h</a>&gt;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_WMMA_API</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__operand_8h.html">cutlass/gemm/gemm_operand.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span>&gt;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">struct </span>Debug {};</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;          <span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;          <span class="keywordtype">int</span> kWarpStride_,</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;          <span class="keyword">typename</span> Iterations_,</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;          <span class="keyword">typename</span> Delta_,</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;          <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;<span class="keyword">struct </span>WmmaGemmSharedLoadTileATraits {</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> kOperand = <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = kLayout_;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <span class="keyword">typedef</span> Scalar_ Scalar;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;  <span class="keyword">typedef</span> Scalar <span class="keyword">const</span>* Pointer;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kAccessSize = 1;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;  <span class="keyword">typedef</span> Tile_ Tile;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <span class="keyword">typedef</span> Warps_ Warps;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kWarpStride = kWarpStride_;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  <span class="keyword">typedef</span> Iterations_ Iterations;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;  <span class="keyword">typedef</span> Delta_ Delta;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  <span class="keyword">typedef</span> Delta_ ImmediateOffsetStrides;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  <span class="keyword">typedef</span> WmmaShape_ WmmaShape;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> kMemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;  <span class="keyword">struct </span>ThreadOffset {</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;    Coord&lt;4&gt; operator()()<span class="keyword"> const </span>{</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;      <span class="comment">// The warp id.</span></div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset = warp % Warps::kW * kWarpStride;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;    }</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;  };</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;};</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;          <span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;          <span class="keywordtype">int</span> kWarpStride_,</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;          <span class="keyword">typename</span> Iterations_,</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;          <span class="keyword">typename</span> Delta_,</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;          <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;<span class="keyword">struct </span>WmmaGemmSharedLoadTileBTraits {</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> kOperand = <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = kLayout_;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;  <span class="keyword">typedef</span> Scalar_ Scalar;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;  <span class="keyword">typedef</span> Scalar <span class="keyword">const</span>* Pointer;</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kAccessSize = 1;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;  <span class="keyword">typedef</span> Tile_ Tile;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;  <span class="keyword">typedef</span> Warps_ Warps;</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kWarpStride = kWarpStride_;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;  <span class="keyword">typedef</span> Iterations_ Iterations;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="keyword">typedef</span> Delta_ Delta;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;  <span class="keyword">typedef</span> Delta_ ImmediateOffsetStrides;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  <span class="keyword">typedef</span> WmmaShape_ WmmaShape;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> kMemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <span class="keyword">struct </span>ThreadOffset {</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;    Coord&lt;4&gt; operator()()<span class="keyword"> const </span>{</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;      <span class="comment">// The warp id.</span></div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset = warp / Warps::kW * kWarpStride;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    }</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  };</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;};</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;          <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;          <span class="keyword">typename</span> WmmaShape_,</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;          <span class="keywordtype">int</span> kSkew_ = 0&gt;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;<span class="keyword">struct </span>WmmaGemmSharedStoreTileDTraits {</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> kOperand = <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = kLayout_;</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;  <span class="keyword">typedef</span> Scalar_ Scalar;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  <span class="comment">// The access size</span></div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kAccessSize = 1;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  <span class="keyword">typedef</span> Scalar* Pointer;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;  <span class="keyword">typedef</span> Warps_ Warps;</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;  <span class="keyword">typedef</span> WmmaShape_ WmmaShape;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = kSkew_;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> kMemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, Warps_::kH * WmmaShape_::kH, OutputTile_::kW + kSkew_&gt; Tile;</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, 1, OutputTile_::kW / Warps::kW / WmmaShape_::kW&gt; Iterations;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;  <span class="keyword">typedef</span> Shape&lt;0, 0, Warps::kW * WmmaShape_::kW, 0&gt; Delta;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;  <span class="keyword">typedef</span> Shape&lt;0, 0, Warps::kW * WmmaShape_::kW, 0&gt; ImmediateOffsetStrides;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;  <span class="keyword">struct </span>ThreadOffset {</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;    Coord&lt;4&gt; operator()()<span class="keyword"> const </span>{</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      <span class="comment">// The warp id.</span></div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      <span class="comment">// The starting column.</span></div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> h = warp / Warps::kW * WmmaShape::kH;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;      <span class="comment">// The w.</span></div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> w = warp % Warps::kW * WmmaShape::kW;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset = h * Tile::kW + w;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;    }</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;  };</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;};</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">int</span> kScalarsPerLds_&gt;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;<span class="keyword">struct </span>WmmaGemmSharedLoadTileDTraits {</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;  <span class="keyword">typedef</span> Scalar_ Scalar;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;  <span class="keyword">typedef</span> Scalar <span class="keyword">const</span>* Pointer;</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kAccessSize = kScalarsPerLds_;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;Tile_, kScalarsPerLds_&gt;::Tile</a> Tile;</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57">ReshapeThreads&lt;Tile, Threads_&gt;::Threads</a> Threads;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, Tile::kW * Tile::kC, Tile::kC&gt; ThreadsStrides;</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> kMemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;  <span class="keyword">typedef</span> Shape&lt;0, Threads::kH * ShapeCount&lt;Tile&gt;::kWc, Threads::kW * kScalarsPerLds_&gt; Delta;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;  <span class="keyword">typedef</span> Shape&lt;0, Threads::kH * ShapeCount&lt;Tile&gt;::kWc, Threads::kW * kScalarsPerLds_&gt;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      ImmediateOffsetStrides;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, Tile::kH / Threads::kH, Tile::kW / Threads::kW, Tile::kC / kScalarsPerLds_&gt;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;      Iterations;</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;  <span class="keyword">struct </span>ThreadOffset {</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;    Coord&lt;4&gt; operator()()<span class="keyword"> const </span>{</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset = <a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">ComputeThreadOffsetFromStrides&lt;Threads, ThreadsStrides&gt;::get</a>();</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;    }</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;  };</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;};</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;<span class="preprocessor">#endif  // defined CUTLASS_USE_WMMA_API</span></div><div class="ttc" id="structcutlass_1_1ComputeThreadOffsetFromStrides_html_a1744bfe277cbe0c642cce4a48c1dd9ad"><div class="ttname"><a href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">cutlass::ComputeThreadOffsetFromStrides::get</a></div><div class="ttdeci">static CUTLASS_DEVICE int get()</div><div class="ttdef"><b>Definition:</b> shape.h:253</div></div>
+<a href="wmma__gemm__shared__tile_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;</div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="wmma__matrix_8h.html">cutlass/wmma_matrix.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_WMMA_API</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__operand_8h.html">cutlass/gemm/gemm_operand.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="reshape__tile_8h.html">cutlass/reshape_tile.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;          <span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;          <span class="keywordtype">int</span> kWarpStride_,</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;          <span class="keyword">typename</span> Iterations_,</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;          <span class="keyword">typename</span> Delta_,</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;          <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;<span class="keyword">struct </span>WmmaGemmSharedLoadTileATraits {</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> kOperand = <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = kLayout_;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="keyword">typedef</span> Scalar_ Scalar;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;  <span class="keyword">typedef</span> Scalar <span class="keyword">const</span>* Pointer;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kAccessSize = 1;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <span class="keyword">typedef</span> Tile_ Tile;</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;  <span class="keyword">typedef</span> Warps_ Warps;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kWarpStride = kWarpStride_;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  <span class="keyword">typedef</span> Iterations_ Iterations;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <span class="keyword">typedef</span> Delta_ Delta;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;  <span class="keyword">typedef</span> Delta_ ImmediateOffsetStrides;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;  <span class="keyword">typedef</span> WmmaShape_ WmmaShape;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> kMemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;  <span class="keyword">struct </span>ThreadOffset {</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;    Coord&lt;4&gt; operator()()<span class="keyword"> const </span>{</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;      <span class="comment">// The warp id.</span></div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset = warp % Warps::kW * kWarpStride;</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;    }</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;  };</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;};</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;          <span class="keyword">typename</span> Tile_,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;          <span class="keywordtype">int</span> kWarpStride_,</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;          <span class="keyword">typename</span> Iterations_,</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;          <span class="keyword">typename</span> Delta_,</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;          <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="keyword">struct </span>WmmaGemmSharedLoadTileBTraits {</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> kOperand = <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = kLayout_;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  <span class="keyword">typedef</span> Scalar_ Scalar;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;  <span class="keyword">typedef</span> Scalar <span class="keyword">const</span>* Pointer;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kAccessSize = 1;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;  <span class="keyword">typedef</span> Tile_ Tile;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  <span class="keyword">typedef</span> Warps_ Warps;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kWarpStride = kWarpStride_;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  <span class="keyword">typedef</span> Iterations_ Iterations;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  <span class="keyword">typedef</span> Delta_ Delta;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  <span class="keyword">typedef</span> Delta_ ImmediateOffsetStrides;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;  <span class="keyword">typedef</span> WmmaShape_ WmmaShape;</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> kMemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  <span class="keyword">struct </span>ThreadOffset {</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    Coord&lt;4&gt; operator()()<span class="keyword"> const </span>{</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;      <span class="comment">// The warp id.</span></div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset = warp / Warps::kW * kWarpStride;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;    }</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  };</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;};</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;          <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;          <span class="keyword">typename</span> Warps_,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;          <span class="keyword">typename</span> WmmaShape_,</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;          <span class="keywordtype">int</span> kSkew_ = 0&gt;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;<span class="keyword">struct </span>WmmaGemmSharedStoreTileDTraits {</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> <span class="keyword">const</span> kOperand = <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">GemmOperand::kC</a>;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = kLayout_;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;  <span class="keyword">typedef</span> Scalar_ Scalar;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  <span class="comment">// The access size</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kAccessSize = 1;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  <span class="keyword">typedef</span> Scalar* Pointer;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;  <span class="keyword">typedef</span> Warps_ Warps;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;  <span class="keyword">typedef</span> WmmaShape_ WmmaShape;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = kSkew_;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> kMemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, Warps_::kH * WmmaShape_::kH, OutputTile_::kW + kSkew_&gt; Tile;</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, 1, OutputTile_::kW / Warps::kW / WmmaShape_::kW&gt; Iterations;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;  <span class="keyword">typedef</span> Shape&lt;0, 0, Warps::kW * WmmaShape_::kW, 0&gt; Delta;</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;  <span class="keyword">typedef</span> Shape&lt;0, 0, Warps::kW * WmmaShape_::kW, 0&gt; ImmediateOffsetStrides;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;  <span class="keyword">struct </span>ThreadOffset {</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    Coord&lt;4&gt; operator()()<span class="keyword"> const </span>{</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;      <span class="comment">// The warp id.</span></div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> warp = threadIdx.x / kWarpSize;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;      <span class="comment">// The starting column.</span></div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> h = warp / Warps::kW * WmmaShape::kH;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;      <span class="comment">// The w.</span></div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> w = warp % Warps::kW * WmmaShape::kW;</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset = h * Tile::kW + w;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;    }</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;  };</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;};</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> Tile_, <span class="keyword">typename</span> Threads_, <span class="keywordtype">int</span> kScalarsPerLds_&gt;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;<span class="keyword">struct </span>WmmaGemmSharedLoadTileDTraits {</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;  <span class="keyword">typedef</span> Scalar_ Scalar;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;  <span class="keyword">typedef</span> Scalar <span class="keyword">const</span>* Pointer;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kAccessSize = kScalarsPerLds_;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">ReshapeTile&lt;Tile_, kScalarsPerLds_&gt;::Tile</a> Tile;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57">ReshapeThreads&lt;Tile, Threads_&gt;::Threads</a> Threads;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, Tile::kW * Tile::kC, Tile::kC&gt; ThreadsStrides;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">MemorySpace::Kind</a> <span class="keyword">const</span> kMemorySpace = <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>;</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;  <span class="keyword">typedef</span> Shape&lt;0, Threads::kH * ShapeCount&lt;Tile&gt;::kWc, Threads::kW * kScalarsPerLds_&gt; Delta;</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;  <span class="keyword">typedef</span> Shape&lt;0, Threads::kH * ShapeCount&lt;Tile&gt;::kWc, Threads::kW * kScalarsPerLds_&gt;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;      ImmediateOffsetStrides;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;  <span class="keyword">typedef</span> Shape&lt;1, Tile::kH / Threads::kH, Tile::kW / Threads::kW, Tile::kC / kScalarsPerLds_&gt;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      Iterations;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;  <span class="keyword">struct </span>ThreadOffset {</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    Coord&lt;4&gt; operator()()<span class="keyword"> const </span>{</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;      <span class="comment">// The offset.</span></div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;      <span class="keywordtype">int</span> <span class="keyword">const</span> offset = <a class="code" href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">ComputeThreadOffsetFromStrides&lt;Threads, ThreadsStrides&gt;::get</a>();</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      <span class="keywordflow">return</span> <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, offset, 0);</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;    }</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;  };</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;};</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;<span class="preprocessor">#endif  // defined CUTLASS_USE_WMMA_API</span></div><div class="ttc" id="structcutlass_1_1ComputeThreadOffsetFromStrides_html_a1744bfe277cbe0c642cce4a48c1dd9ad"><div class="ttname"><a href="structcutlass_1_1ComputeThreadOffsetFromStrides.html#a1744bfe277cbe0c642cce4a48c1dd9ad">cutlass::ComputeThreadOffsetFromStrides::get</a></div><div class="ttdeci">static CUTLASS_DEVICE int get()</div><div class="ttdef"><b>Definition:</b> shape.h:214</div></div>
 <div class="ttc" id="wmma__matrix_8h_html"><div class="ttname"><a href="wmma__matrix_8h.html">wmma_matrix.h</a></div><div class="ttdoc">Abstractions for loading and storing matrices using the CUDA WMMA API. </div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:241</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03c"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:40</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0ca7598e104da2001a76ec344f1c1b9c6dc">cutlass::GemmOperand::kC</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03c"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03c">cutlass::MemorySpace::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> load_store.h:39</div></div>
 <div class="ttc" id="reshape__tile_8h_html"><div class="ttname"><a href="reshape__tile_8h.html">reshape_tile.h</a></div><div class="ttdoc">Defines a type for restructuring a tile. </div></div>
 <div class="ttc" id="gemm__operand_8h_html"><div class="ttname"><a href="gemm__operand_8h.html">gemm_operand.h</a></div><div class="ttdoc">Defines constant expressions for mapping GEMM problem size and strides onto pitch-linear memory...</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
 <div class="ttc" id="structcutlass_1_1ReshapeTile_html_a8d57fe6422aa920d9815a66e5a85b5f5"><div class="ttname"><a href="structcutlass_1_1ReshapeTile.html#a8d57fe6422aa920d9815a66e5a85b5f5">cutlass::ReshapeTile::Tile</a></div><div class="ttdeci">Tile_ Tile</div><div class="ttdef"><b>Definition:</b> reshape_tile.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="structcutlass_1_1gemm_1_1ReshapeThreads_html_afd3614ff45f0fc77ad4967951cb5ab57"><div class="ttname"><a href="structcutlass_1_1gemm_1_1ReshapeThreads.html#afd3614ff45f0fc77ad4967951cb5ab57">cutlass::gemm::ReshapeThreads::Threads</a></div><div class="ttdeci">Threads_ Threads</div><div class="ttdef"><b>Definition:</b> gemm_global_tile.h:54</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__gemm__traits_8h.html b/docs/wmma__gemm__traits_8h.html
index 37eb3547ba..0c4b098439 100644
--- a/docs/wmma__gemm__traits_8h.html
+++ b/docs/wmma__gemm__traits_8h.html
@@ -79,13 +79,13 @@
 
 <p>Defies structural properties of GEMM targeting WMMA API in CUDA.  
 <a href="#details">More...</a></p>
-<div class="textblock"><code>#include &lt;<a class="el" href="wmma__matrix_8h_source.html">cutlass/wmma_matrix.h</a>&gt;</code><br />
+<div class="textblock"><code>#include &quot;<a class="el" href="wmma__matrix_8h_source.html">cutlass/wmma_matrix.h</a>&quot;</code><br />
 </div>
 <p><a href="wmma__gemm__traits_8h_source.html">Go to the source code of this file.</a></p>
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__gemm__traits_8h_source.html b/docs/wmma__gemm__traits_8h_source.html
index ad4cb28d1d..344fc5a76c 100644
--- a/docs/wmma__gemm__traits_8h_source.html
+++ b/docs/wmma__gemm__traits_8h_source.html
@@ -76,32 +76,32 @@
 <div class="title">wmma_gemm_traits.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="wmma__gemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="wmma__matrix_8h.html">cutlass/wmma_matrix.h</a>&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_WMMA_API</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&gt;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&gt;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&gt;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&gt;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&gt;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&gt;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="wmma__gemm__epilogue__traits_8h.html">cutlass/gemm/wmma_gemm_epilogue_traits.h</a>&gt;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="wmma__gemm__global__tile_8h.html">cutlass/gemm/wmma_gemm_global_tile.h</a>&gt;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="wmma__gemm__multiply__add_8h.html">cutlass/gemm/wmma_gemm_multiply_add.h</a>&gt;</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;    <span class="keyword">typename</span> ScalarC_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <span class="keyword">typename</span> Accumulator_,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerWarp_,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;    <span class="keyword">typename</span> InstructionShape_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_&gt;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;<span class="keyword">struct </span>WmmaGemmConfig : <span class="keyword">public</span> GemmConfig&lt;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;                            half,</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;                            half,</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;                            ScalarC_,</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;                            ScalarC_,</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;                            OutputTile_,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;                            WmmaGemmMultiplyAdd&lt;kLayoutA_,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;                                                half,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;                                                kLayoutB_,</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;                                                half,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;                                                MatrixLayout::kColumnMajor,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;                                                Accumulator_,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;                                                AccumulatorsPerWarp_,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;                                                InstructionShape_&gt;,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;                            kScalarsPerLdgA_,</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;                            kScalarsPerLdgA_,</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;                            8,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;                            kScalarsPerLdgB_,</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;                            kScalarsPerLdgB_,</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;                            8,</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;                            16 / sizeof(ScalarC_),</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;                            16 / sizeof(ScalarC_),</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;                            16 / sizeof(ScalarC_),</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;                            1&gt; {};</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperA {};</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperA&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;    : <span class="keyword">public</span> GemmTileTraitsHelperA&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  <span class="keyword">typedef</span> GemmTileTraitsHelperA&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt; Base;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(<span class="keyword">typename</span> Base::MultiplyAddScalar);</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;                GemmConfig_::OutputTile::kD,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;                GemmConfig_::OutputTile::kW + kSkew&gt;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;      Tile;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;                     <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;      Tile,</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;      <span class="keyword">typename</span> Base::GlobalTileTraits::Threads,</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;      GemmConfig_::kScalarsPerStsA&gt;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kW * GemmConfig_::Warps::kW;</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerIteration = Tile::kW * GemmConfig_::InstructionShape::kD;</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileATraits&lt;</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;      <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;      Tile,</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;      GemmConfig_::InstructionShape::kW,</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kW / kScalarsPerW&gt;,</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;      Shape&lt;kScalarsPerIteration, 0, kScalarsPerW, 0&gt;,</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;};</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperA&lt;MatrixLayout::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarA Scalar;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar;</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;                     MultiplyAddScalar,</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;  <span class="keyword">typedef</span> GemmGlobalTileTraits&lt;</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;      <span class="comment">// That&#39;s A.</span></div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;      Scalar <span class="keyword">const</span>,</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;      Shape&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;      Shape&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;      GemmConfig_::kScalarsPerLdgA&gt;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;      GlobalTileTraits;</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(MultiplyAddScalar);</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;                GemmConfig_::OutputTile::kW,</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;                GemmConfig_::OutputTile::kD + kSkew&gt;</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;      Tile;</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;      Tile,</div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;      <span class="keyword">typename</span> GlobalTileTraits::Threads,</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;      GemmConfig_::kScalarsPerStsA&gt;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kW * GemmConfig_::Warps::kW;</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileATraits&lt;</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;      <span class="comment">// The tile in shared memory.</span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;      Tile,</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;      GemmConfig_::InstructionShape::kW * Tile::kW,</div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kW / kScalarsPerW&gt;,</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;      Shape&lt;GemmConfig_::InstructionShape::kD, 0, kScalarsPerW * Tile::kW&gt;,</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;};</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;</div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;<span class="keyword">template</span> &lt;enum MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperB {};</div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;</div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperB&lt;MatrixLayout::kRowMajor, GemmConfig_&gt;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    : <span class="keyword">public</span> GemmTileTraitsHelperB&lt;MatrixLayout::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;  <span class="keyword">typedef</span> GemmTileTraitsHelperB&lt;MatrixLayout::kRowMajor, GemmConfig_&gt; Base;</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(<span class="keyword">typename</span> Base::MultiplyAddScalar);</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;                GemmConfig_::OutputTile::kD,</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;                GemmConfig_::OutputTile::kH + kSkew&gt;</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;      Tile;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;                     <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;      <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;      Tile,</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;      <span class="keyword">typename</span> Base::GlobalTileTraits::Threads,</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;      GemmConfig_::kScalarsPerStsB&gt;</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kH * GemmConfig_::Warps::kH;</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerIteration = Tile::kW * GemmConfig_::InstructionShape::kD;</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileBTraits&lt;</div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;      <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      Tile,</div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;      GemmConfig_::InstructionShape::kH,</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kH / kScalarsPerW&gt;,</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;      Shape&lt;kScalarsPerIteration, 0, kScalarsPerW, 0&gt;,</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;};</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;</div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperB&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>;</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarB Scalar;</div><div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;                     MultiplyAddScalar,</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;  <span class="keyword">typedef</span> GemmGlobalTileTraits&lt;</div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;      <span class="comment">// That&#39;s B.</span></div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;      Scalar <span class="keyword">const</span>,</div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;      Shape&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;      Shape&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;      GemmConfig_::kScalarsPerLdgB&gt;</div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;      GlobalTileTraits;</div><div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(MultiplyAddScalar);</div><div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;                GemmConfig_::OutputTile::kH,</div><div class="line"><a name="l00357"></a><span class="lineno">  357</span>&#160;                GemmConfig_::OutputTile::kD + kSkew&gt;</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;      Tile;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00362"></a><span class="lineno">  362</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00365"></a><span class="lineno">  365</span>&#160;      Tile,</div><div class="line"><a name="l00366"></a><span class="lineno">  366</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;      <span class="keyword">typename</span> GlobalTileTraits::Threads,</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00369"></a><span class="lineno">  369</span>&#160;      GemmConfig_::kScalarsPerStsB&gt;</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kH * GemmConfig_::Warps::kH;</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileBTraits&lt;</div><div class="line"><a name="l00376"></a><span class="lineno">  376</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;      <span class="comment">// The tile in shared memory.</span></div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;      Tile,</div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;      GemmConfig_::InstructionShape::kH * Tile::kW,</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kH / kScalarsPerW&gt;,</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;      Shape&lt;GemmConfig_::InstructionShape::kD, 0, kScalarsPerW * Tile::kW&gt;,</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;};</div><div class="line"><a name="l00394"></a><span class="lineno">  394</span>&#160;</div><div class="line"><a name="l00396"></a><span class="lineno">  396</span>&#160;</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;    <span class="keyword">typename</span> ScalarC_,</div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;    <span class="keyword">typename</span> Accumulator_,</div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_,</div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerWarp_,</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;    <span class="keyword">typename</span> InstructionShape_,</div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_,</div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_,</div><div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;    <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;<span class="keyword">struct </span>WmmaGemmTraitsHelper {</div><div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;  <span class="keyword">typedef</span> WmmaGemmConfig&lt;kLayoutA_,</div><div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;                         kLayoutB_,</div><div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;                         OutputTile_,</div><div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;                         ScalarC_,</div><div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;                         Accumulator_,</div><div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;                         AccumulatorsPerWarp_,</div><div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;                         InstructionShape_,</div><div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;                         kScalarsPerLdgA_,</div><div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;                         kScalarsPerLdgB_&gt;</div><div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;      GemmConfig;</div><div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;</div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;  <span class="keyword">typedef</span> WmmaGemmTileTraitsHelperA&lt;kLayoutA_, GemmConfig&gt; GemmTileTraitsHelperA;</div><div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;  <span class="keyword">typedef</span> WmmaGemmTileTraitsHelperB&lt;kLayoutB_, GemmConfig&gt; GemmTileTraitsHelperB;</div><div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;</div><div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;  <span class="keyword">typedef</span> GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperA::GlobalTileTraits, Index_&gt;</div><div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;      GlobalLoadIteratorA;</div><div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;  <span class="keyword">typedef</span> Copy&lt;typename GlobalLoadIteratorA::Fragment&gt; GlobalTransformerA;</div><div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;  <span class="keyword">typedef</span> TileStoreIterator&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits,</div><div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;      SharedStoreIteratorA;</div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;  <span class="keyword">typedef</span> GlobalLoadStream&lt;GlobalLoadIteratorA, SharedStoreIteratorA, GlobalTransformerA&gt;</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;      GlobalLoadStreamA;</div><div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;</div><div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;  <span class="keyword">typedef</span> GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperB::GlobalTileTraits, Index_&gt;</div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;      GlobalLoadIteratorB;</div><div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;  <span class="comment">// The default transformer for B.</span></div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;  <span class="keyword">typedef</span> Copy&lt;typename GlobalLoadIteratorB::Fragment&gt; GlobalTransformerB;</div><div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;  <span class="keyword">typedef</span> TileStoreIterator&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits,</div><div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;      SharedStoreIteratorB;</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;  <span class="keyword">typedef</span> GlobalLoadStream&lt;GlobalLoadIteratorB, SharedStoreIteratorB, GlobalTransformerB&gt;</div><div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;      GlobalLoadStreamB;</div><div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;</div><div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;  <span class="keyword">typedef</span> TileLoadIterator&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits,</div><div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>,</div><div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;                           Index_,</div><div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperA::WmmaMatrix,</div><div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">IteratorFragment::kWmmaMatrix</a>&gt;</div><div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;      SharedLoadIteratorA;</div><div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;  <span class="keyword">typedef</span> SharedLoadStream&lt;SharedLoadIteratorA&gt; SharedLoadStreamA;</div><div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;  <span class="keyword">typedef</span> TileLoadIterator&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits,</div><div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>,</div><div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160;                           Index_,</div><div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperB::WmmaMatrix,</div><div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">IteratorFragment::kWmmaMatrix</a>&gt;</div><div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;      SharedLoadIteratorB;</div><div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;  <span class="keyword">typedef</span> SharedLoadStream&lt;SharedLoadIteratorB&gt; SharedLoadStreamB;</div><div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;</div><div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">GemmConfig::MultiplyAdd</a> MultiplyAdd;</div><div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;  <span class="keyword">typedef</span> ClearAccumulators&lt;typename MultiplyAdd::ScalarC&gt; ClearAccumulators;</div><div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;</div><div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;  <span class="keyword">typedef</span> WmmaGemmEpilogueTraitsHelper&lt;GemmConfig, EpilogueFunctor_, Index_&gt; EpilogueTraitsHelper;</div><div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;  <span class="keyword">typedef</span> SimplifiedGemmEpilogueTraits&lt;GemmConfig, EpilogueFunctor_, Index_, EpilogueTraitsHelper&gt;</div><div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;      GemmEpilogueTraits;</div><div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;  <span class="keyword">typedef</span> GemmEpilogue&lt;GemmEpilogueTraits&gt; Epilogue;</div><div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;};</div><div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;</div><div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;</div><div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputTile_, <span class="keyword">typename</span> DefaultShape_ = Shape&lt;64, 32, 64&gt; &gt;</div><div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;<span class="keyword">struct </span>WmmaGemmAccumulatorsPerWarp {</div><div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">ShapeMin&lt;OutputTile_, DefaultShape_&gt;::Shape</a> Shape;</div><div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;};</div><div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160;</div><div class="line"><a name="l00513"></a><span class="lineno">  513</span>&#160;</div><div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;    <span class="keyword">typename</span> OutputTile_ = Shape&lt;64, 128, 128&gt;,</div><div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;    <span class="keyword">typename</span> ScalarC_ = float,</div><div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = LinearScaling&lt;ScalarC_&gt;,</div><div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;    <span class="keyword">typename</span> Accumulator_ = ScalarC_,</div><div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;    <span class="keyword">typename</span> AccumulatorsPerWarp_ = <span class="keyword">typename</span> WmmaGemmAccumulatorsPerWarp&lt;OutputTile_&gt;::Shape,</div><div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;    <span class="keyword">typename</span> InstructionShape_ = Shape&lt;16, 16, 16&gt;,</div><div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 8,</div><div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 8,</div><div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;    <span class="keyword">typename</span> Helper_ = WmmaGemmTraitsHelper&lt;kLayoutA_,</div><div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;                                            kLayoutB_,</div><div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;                                            OutputTile_,</div><div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;                                            ScalarC_,</div><div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;                                            Accumulator_,</div><div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;                                            EpilogueFunctor_,</div><div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;                                            AccumulatorsPerWarp_,</div><div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;                                            InstructionShape_,</div><div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;                                            kScalarsPerLdgA_,</div><div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;                                            kScalarsPerLdgB_,</div><div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;                                            Index_&gt; &gt;</div><div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;<span class="keyword">struct </span>WmmaGemmTraits : <span class="keyword">public</span> GemmTraits&lt;</div><div class="line"><a name="l00550"></a><span class="lineno">  550</span>&#160;                            <span class="comment">// The config.</span></div><div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;                            typename Helper_::GemmConfig,</div><div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160;                            <span class="comment">// The stream to load A from global memory to shared memory.</span></div><div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160;                            typename Helper_::GlobalLoadStreamA,</div><div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;                            <span class="comment">// The stream to load B from global memory to shared memory.</span></div><div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;                            typename Helper_::GlobalLoadStreamB,</div><div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;                            <span class="comment">// The stream to load A from shared memory.</span></div><div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;                            typename Helper_::SharedLoadStreamA,</div><div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;                            <span class="comment">// The stream to load B from shared memory.</span></div><div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160;                            typename Helper_::SharedLoadStreamB,</div><div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160;                            <span class="comment">// The epilogue.</span></div><div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;                            typename Helper_::Epilogue,</div><div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;                            <span class="comment">// The block swizzle to reorganize the grid.</span></div><div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;                            IdentityBlockSwizzle,</div><div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;                            <span class="comment">// The index.</span></div><div class="line"><a name="l00565"></a><span class="lineno">  565</span>&#160;                            Index_,</div><div class="line"><a name="l00566"></a><span class="lineno">  566</span>&#160;                            <span class="comment">// The tool used to clear accumulators.</span></div><div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160;                            typename Helper_::ClearAccumulators&gt; {};</div><div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;</div><div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;</div><div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;</div><div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;<span class="preprocessor">#endif  // defined CUTLASS_USE_WMMA_API</span></div><div class="ttc" id="wmma__matrix_8h_html"><div class="ttname"><a href="wmma__matrix_8h.html">wmma_matrix.h</a></div><div class="ttdoc">Abstractions for loading and storing matrices using the CUDA WMMA API. </div></div>
-<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_a8669096ddbb8c810fb8d2313d62e6ee7"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#a8669096ddbb8c810fb8d2313d62e6ee7">cutlass::gemm::GemmConfig::MultiplyAdd</a></div><div class="ttdeci">MultiplyAdd_ MultiplyAdd</div><div class="ttdoc">The functor to do D = A*B + C. </div><div class="ttdef"><b>Definition:</b> gemm_traits.h:93</div></div>
-<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:42</div></div>
+<a href="wmma__gemm__traits_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="wmma__matrix_8h.html">cutlass/wmma_matrix.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_WMMA_API</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="convert_8h.html">cutlass/convert.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm_8h.html">cutlass/gemm/gemm.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue_8h.html">cutlass/gemm/gemm_epilogue.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__epilogue__traits_8h.html">cutlass/gemm/gemm_epilogue_traits.h</a>&quot;</span></div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__global__tile_8h.html">cutlass/gemm/gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__shared__tile_8h.html">cutlass/gemm/gemm_shared_tile.h</a>&quot;</span></div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="gemm__traits_8h.html">cutlass/gemm/gemm_traits.h</a>&quot;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="wmma__gemm__epilogue__traits_8h.html">cutlass/gemm/wmma_gemm_epilogue_traits.h</a>&quot;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="wmma__gemm__global__tile_8h.html">cutlass/gemm/wmma_gemm_global_tile.h</a>&quot;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="wmma__gemm__multiply__add_8h.html">cutlass/gemm/wmma_gemm_multiply_add.h</a>&quot;</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">namespace </span>gemm {</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;    <span class="keyword">typename</span> ScalarA_,</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <span class="keyword">typename</span> ScalarB_,</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;    <span class="keyword">typename</span> ScalarC_,</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;    <span class="keyword">typename</span> Accumulator_,</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;    <span class="keyword">typename</span> WarpGemmShape_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;    <span class="keyword">typename</span> InstructionShape_,</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_,</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_&gt;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;<span class="keyword">struct </span>WmmaGemmConfig : <span class="keyword">public</span> GemmConfig&lt;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;                            ScalarA_,</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;                            ScalarB_,</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;                            ScalarC_,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;                            ScalarC_,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;                            OutputTile_,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;                            WmmaGemmMultiplyAdd&lt;kLayoutA_,</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;                                                ScalarA_,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;                                                kLayoutB_,</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;                                                ScalarB_,</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;                                                MatrixLayout::kColumnMajor,</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;                                                Accumulator_,</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;                                                WarpGemmShape_,</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;                                                InstructionShape_&gt;,</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;                            kScalarsPerLdgA_,</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;                            kScalarsPerLdgA_,</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;                            8,</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;                            kScalarsPerLdgB_,</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;                            kScalarsPerLdgB_,</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;                            8,</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;                            16 / sizeof(ScalarC_),</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;                            16 / sizeof(Accumulator_),</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;                            16 / sizeof(Accumulator_),</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;                            1,</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;                            false,</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;                            true,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;                            false&gt; {};</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">enum</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;          <span class="keyword">typename</span> GemmConfig_,</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;          <span class="keyword">typename</span> ScalarA_&gt;</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperA {};</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> ScalarA_&gt;</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperA&lt;MatrixLayout::kColumnMajor, GemmConfig_, ScalarA_&gt;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;    : <span class="keyword">public</span> GemmTileTraitsHelperA&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  <span class="keyword">typedef</span> GemmTileTraitsHelperA&lt;MatrixLayout::kColumnMajor, GemmConfig_&gt; Base;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(<span class="keyword">typename</span> Base::MultiplyAddScalar);</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;                GemmConfig_::OutputTile::kD,</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;                GemmConfig_::OutputTile::kW + kSkew&gt;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;      Tile;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;                     <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;      <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;      Tile,</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;      <span class="keyword">typename</span> Base::GlobalTileTraits::Threads,</div><div class="line"><a name="l00157"></a><span class="lineno">  157</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;      GemmConfig_::kScalarsPerStsA&gt;</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kW * GemmConfig_::Warps::kW;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerIteration = Tile::kW * GemmConfig_::InstructionShape::kD;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileATraits&lt;</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;      <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;      Tile,</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;      GemmConfig_::InstructionShape::kW,</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kW / kScalarsPerW&gt;,</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;      Shape&lt;kScalarsPerIteration, 0, kScalarsPerW, 0&gt;,</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;};</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> ScalarA_&gt;</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperA&lt;MatrixLayout::kRowMajor, GemmConfig_, ScalarA_&gt; {</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarA Scalar;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;                     MultiplyAddScalar,</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;  <span class="keyword">typedef</span> GemmGlobalTileTraits&lt;</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;      <span class="comment">// That&#39;s A.</span></div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;      Scalar <span class="keyword">const</span>,</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;      Shape&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;      Shape&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;      GemmConfig_::kScalarsPerLdgA&gt;</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;      GlobalTileTraits;</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(MultiplyAddScalar);</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;                GemmConfig_::OutputTile::kW,</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;                GemmConfig_::OutputTile::kD + kSkew&gt;</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;      Tile;</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;      Tile,</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;      <span class="keyword">typename</span> GlobalTileTraits::Threads,</div><div class="line"><a name="l00237"></a><span class="lineno">  237</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;      GemmConfig_::kScalarsPerStsA&gt;</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kW * GemmConfig_::Warps::kW;</div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileATraits&lt;</div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00246"></a><span class="lineno">  246</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00247"></a><span class="lineno">  247</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;      <span class="comment">// The tile in shared memory.</span></div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;      Tile,</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00253"></a><span class="lineno">  253</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00254"></a><span class="lineno">  254</span>&#160;      GemmConfig_::InstructionShape::kW * Tile::kW,</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00256"></a><span class="lineno">  256</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kW / kScalarsPerW&gt;,</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00258"></a><span class="lineno">  258</span>&#160;      Shape&lt;GemmConfig_::InstructionShape::kD, 0, kScalarsPerW * Tile::kW&gt;,</div><div class="line"><a name="l00259"></a><span class="lineno">  259</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;};</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;</div><div class="line"><a name="l00265"></a><span class="lineno">  265</span>&#160;</div><div class="line"><a name="l00266"></a><span class="lineno">  266</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperA&lt;MatrixLayout::kRowMajor, GemmConfig_, Vector&lt;bin1_t, 32&gt; &gt; {</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00272"></a><span class="lineno">  272</span>&#160;</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarA Scalar;</div><div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar;</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kBitsPerScalar = <span class="keyword">sizeof</span>(Scalar) * 8;</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;                     Vector&lt;bin1_t, 32&gt;,</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;</div><div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;  <span class="keyword">typedef</span> GemmGlobalTileTraits&lt;</div><div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160;      <span class="comment">// That&#39;s A.</span></div><div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;      Scalar <span class="keyword">const</span>,</div><div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;      Shape&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD / kBitsPerScalar&gt;,</div><div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;      Shape&lt;1,</div><div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160;            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kBitsPerScalar),</div><div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;            GemmConfig_::OutputTile::kD / kBitsPerScalar&gt;,</div><div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;      GemmConfig_::kScalarsPerLdgA / kBitsPerScalar&gt;</div><div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;      GlobalTileTraits;</div><div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;</div><div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(MultiplyAddScalar);</div><div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;                GemmConfig_::OutputTile::kW,</div><div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;                GemmConfig_::OutputTile::kD / kBitsPerScalar + kSkew&gt;</div><div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;      Tile;</div><div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;</div><div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;      Tile,</div><div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;      <span class="keyword">typename</span> GlobalTileTraits::Threads,</div><div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;      GemmConfig_::kScalarsPerStsA / kBitsPerScalar&gt;</div><div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;</div><div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kW * GemmConfig_::Warps::kW;</div><div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileATraits&lt;</div><div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;      <span class="comment">// The tile in shared memory.</span></div><div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;      Tile,</div><div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;      GemmConfig_::InstructionShape::kW * Tile::kW,</div><div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kW / kScalarsPerW&gt;,</div><div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;      Shape&lt;GemmConfig_::InstructionShape::kD / kBitsPerScalar, 0, kScalarsPerW * Tile::kW&gt;,</div><div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;};</div><div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160;</div><div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;</div><div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00356"></a><span class="lineno">  356</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperA&lt;MatrixLayout::kRowMajor, GemmConfig_, Vector&lt;uint4_t, 8&gt; &gt; {</div><div class="line"><a name="l00358"></a><span class="lineno">  358</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00359"></a><span class="lineno">  359</span>&#160;</div><div class="line"><a name="l00361"></a><span class="lineno">  361</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarA Scalar;</div><div class="line"><a name="l00363"></a><span class="lineno">  363</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar;</div><div class="line"><a name="l00364"></a><span class="lineno">  364</span>&#160;</div><div class="line"><a name="l00367"></a><span class="lineno">  367</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kInt4PerScalar = <span class="keyword">sizeof</span>(Scalar) * 2;</div><div class="line"><a name="l00368"></a><span class="lineno">  368</span>&#160;</div><div class="line"><a name="l00370"></a><span class="lineno">  370</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00371"></a><span class="lineno">  371</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00372"></a><span class="lineno">  372</span>&#160;                     Vector&lt;uint4_t, 8&gt;,</div><div class="line"><a name="l00373"></a><span class="lineno">  373</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00374"></a><span class="lineno">  374</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00375"></a><span class="lineno">  375</span>&#160;</div><div class="line"><a name="l00377"></a><span class="lineno">  377</span>&#160;  <span class="keyword">typedef</span> GemmGlobalTileTraits&lt;</div><div class="line"><a name="l00378"></a><span class="lineno">  378</span>&#160;      <span class="comment">// That&#39;s A.</span></div><div class="line"><a name="l00379"></a><span class="lineno">  379</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00380"></a><span class="lineno">  380</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00381"></a><span class="lineno">  381</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00382"></a><span class="lineno">  382</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00383"></a><span class="lineno">  383</span>&#160;      Scalar <span class="keyword">const</span>,</div><div class="line"><a name="l00384"></a><span class="lineno">  384</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00385"></a><span class="lineno">  385</span>&#160;      Shape&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD / kInt4PerScalar&gt;,</div><div class="line"><a name="l00386"></a><span class="lineno">  386</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00387"></a><span class="lineno">  387</span>&#160;      Shape&lt;1,</div><div class="line"><a name="l00388"></a><span class="lineno">  388</span>&#160;            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kInt4PerScalar),</div><div class="line"><a name="l00389"></a><span class="lineno">  389</span>&#160;            GemmConfig_::OutputTile::kD / kInt4PerScalar&gt;,</div><div class="line"><a name="l00390"></a><span class="lineno">  390</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00391"></a><span class="lineno">  391</span>&#160;      GemmConfig_::kScalarsPerLdgA / kInt4PerScalar&gt;</div><div class="line"><a name="l00392"></a><span class="lineno">  392</span>&#160;      GlobalTileTraits;</div><div class="line"><a name="l00393"></a><span class="lineno">  393</span>&#160;</div><div class="line"><a name="l00395"></a><span class="lineno">  395</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(MultiplyAddScalar);</div><div class="line"><a name="l00397"></a><span class="lineno">  397</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00398"></a><span class="lineno">  398</span>&#160;                GemmConfig_::OutputTile::kW,</div><div class="line"><a name="l00399"></a><span class="lineno">  399</span>&#160;                GemmConfig_::OutputTile::kD / kInt4PerScalar + kSkew&gt;</div><div class="line"><a name="l00400"></a><span class="lineno">  400</span>&#160;      Tile;</div><div class="line"><a name="l00401"></a><span class="lineno">  401</span>&#160;</div><div class="line"><a name="l00403"></a><span class="lineno">  403</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00404"></a><span class="lineno">  404</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00405"></a><span class="lineno">  405</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00406"></a><span class="lineno">  406</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00407"></a><span class="lineno">  407</span>&#160;      Tile,</div><div class="line"><a name="l00408"></a><span class="lineno">  408</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00409"></a><span class="lineno">  409</span>&#160;      <span class="keyword">typename</span> GlobalTileTraits::Threads,</div><div class="line"><a name="l00410"></a><span class="lineno">  410</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00411"></a><span class="lineno">  411</span>&#160;      GemmConfig_::kScalarsPerStsA / kInt4PerScalar&gt;</div><div class="line"><a name="l00412"></a><span class="lineno">  412</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00413"></a><span class="lineno">  413</span>&#160;</div><div class="line"><a name="l00415"></a><span class="lineno">  415</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kW * GemmConfig_::Warps::kW;</div><div class="line"><a name="l00417"></a><span class="lineno">  417</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileATraits&lt;</div><div class="line"><a name="l00418"></a><span class="lineno">  418</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00419"></a><span class="lineno">  419</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00420"></a><span class="lineno">  420</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00421"></a><span class="lineno">  421</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00422"></a><span class="lineno">  422</span>&#160;      <span class="comment">// The tile in shared memory.</span></div><div class="line"><a name="l00423"></a><span class="lineno">  423</span>&#160;      Tile,</div><div class="line"><a name="l00424"></a><span class="lineno">  424</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00425"></a><span class="lineno">  425</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00426"></a><span class="lineno">  426</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00427"></a><span class="lineno">  427</span>&#160;      GemmConfig_::InstructionShape::kW * Tile::kW,</div><div class="line"><a name="l00428"></a><span class="lineno">  428</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00429"></a><span class="lineno">  429</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kW / kScalarsPerW&gt;,</div><div class="line"><a name="l00430"></a><span class="lineno">  430</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00431"></a><span class="lineno">  431</span>&#160;      Shape&lt;GemmConfig_::InstructionShape::kD / kInt4PerScalar, 0, kScalarsPerW * Tile::kW&gt;,</div><div class="line"><a name="l00432"></a><span class="lineno">  432</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00433"></a><span class="lineno">  433</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00434"></a><span class="lineno">  434</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00435"></a><span class="lineno">  435</span>&#160;};</div><div class="line"><a name="l00436"></a><span class="lineno">  436</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;</div><div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;</div><div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperA&lt;MatrixLayout::kRowMajor, GemmConfig_, Vector&lt;int4_t, 8&gt; &gt; {</div><div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;</div><div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarA Scalar;</div><div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarA MultiplyAddScalar;</div><div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;</div><div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kInt4PerScalar = <span class="keyword">sizeof</span>(Scalar) * 2;</div><div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;</div><div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;                     Vector&lt;int4_t, 8&gt;,</div><div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;</div><div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;  <span class="keyword">typedef</span> GemmGlobalTileTraits&lt;</div><div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;      <span class="comment">// That&#39;s A.</span></div><div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;      Scalar <span class="keyword">const</span>,</div><div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;      Shape&lt;1, GemmConfig_::OutputTile::kW, GemmConfig_::OutputTile::kD / kInt4PerScalar&gt;,</div><div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;      Shape&lt;1,</div><div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kInt4PerScalar),</div><div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;            GemmConfig_::OutputTile::kD / kInt4PerScalar&gt;,</div><div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;      GemmConfig_::kScalarsPerLdgA / kInt4PerScalar&gt;</div><div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;      GlobalTileTraits;</div><div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;</div><div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(MultiplyAddScalar);</div><div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;                GemmConfig_::OutputTile::kW,</div><div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160;                GemmConfig_::OutputTile::kD / kInt4PerScalar + kSkew&gt;</div><div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;      Tile;</div><div class="line"><a name="l00488"></a><span class="lineno">  488</span>&#160;</div><div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;      Tile,</div><div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;      <span class="keyword">typename</span> GlobalTileTraits::Threads,</div><div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160;      GemmConfig_::kScalarsPerStsA / kInt4PerScalar&gt;</div><div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;</div><div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kW * GemmConfig_::Warps::kW;</div><div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileATraits&lt;</div><div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;      <span class="comment">// The tile in shared memory.</span></div><div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;      Tile,</div><div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00513"></a><span class="lineno">  513</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160;      GemmConfig_::InstructionShape::kW * Tile::kW,</div><div class="line"><a name="l00515"></a><span class="lineno">  515</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kW / kScalarsPerW&gt;,</div><div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;      Shape&lt;GemmConfig_::InstructionShape::kD / kInt4PerScalar, 0, kScalarsPerW * Tile::kW&gt;,</div><div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;};</div><div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;</div><div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;</div><div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">enum</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;          <span class="keyword">typename</span> GemmConfig_,</div><div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;          <span class="keyword">typename</span> ScalarB_&gt;</div><div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperB {};</div><div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;</div><div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160;</div><div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> ScalarB_&gt;</div><div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperB&lt;MatrixLayout::kRowMajor, GemmConfig_, ScalarB_&gt;</div><div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;    : <span class="keyword">public</span> GemmTileTraitsHelperB&lt;MatrixLayout::kRowMajor, GemmConfig_&gt; {</div><div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;  <span class="keyword">typedef</span> GemmTileTraitsHelperB&lt;MatrixLayout::kRowMajor, GemmConfig_&gt; Base;</div><div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;</div><div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(<span class="keyword">typename</span> Base::MultiplyAddScalar);</div><div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;                GemmConfig_::OutputTile::kD,</div><div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;                GemmConfig_::OutputTile::kH + kSkew&gt;</div><div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;      Tile;</div><div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;</div><div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00550"></a><span class="lineno">  550</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;                     <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;</div><div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;      <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160;      Tile,</div><div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;      <span class="keyword">typename</span> Base::GlobalTileTraits::Threads,</div><div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;      GemmConfig_::kScalarsPerStsB&gt;</div><div class="line"><a name="l00565"></a><span class="lineno">  565</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00566"></a><span class="lineno">  566</span>&#160;</div><div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kH * GemmConfig_::Warps::kH;</div><div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerIteration = Tile::kW * GemmConfig_::InstructionShape::kD;</div><div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileBTraits&lt;</div><div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>,</div><div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;      <span class="keyword">typename</span> Base::MultiplyAddScalar,</div><div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;      <span class="comment">// The output tile size.</span></div><div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160;      Tile,</div><div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;      GemmConfig_::InstructionShape::kH,</div><div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00584"></a><span class="lineno">  584</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kH / kScalarsPerW&gt;,</div><div class="line"><a name="l00585"></a><span class="lineno">  585</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00586"></a><span class="lineno">  586</span>&#160;      Shape&lt;kScalarsPerIteration, 0, kScalarsPerW, 0&gt;,</div><div class="line"><a name="l00587"></a><span class="lineno">  587</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00589"></a><span class="lineno">  589</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00590"></a><span class="lineno">  590</span>&#160;};</div><div class="line"><a name="l00591"></a><span class="lineno">  591</span>&#160;</div><div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;</div><div class="line"><a name="l00594"></a><span class="lineno">  594</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_, <span class="keyword">typename</span> ScalarB_&gt;</div><div class="line"><a name="l00595"></a><span class="lineno">  595</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperB&lt;MatrixLayout::kColumnMajor, GemmConfig_, ScalarB_&gt; {</div><div class="line"><a name="l00597"></a><span class="lineno">  597</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>;</div><div class="line"><a name="l00598"></a><span class="lineno">  598</span>&#160;</div><div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarB Scalar;</div><div class="line"><a name="l00602"></a><span class="lineno">  602</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar;</div><div class="line"><a name="l00603"></a><span class="lineno">  603</span>&#160;</div><div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00606"></a><span class="lineno">  606</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00607"></a><span class="lineno">  607</span>&#160;                     MultiplyAddScalar,</div><div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00610"></a><span class="lineno">  610</span>&#160;</div><div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;  <span class="keyword">typedef</span> GemmGlobalTileTraits&lt;</div><div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;      <span class="comment">// That&#39;s B.</span></div><div class="line"><a name="l00614"></a><span class="lineno">  614</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00615"></a><span class="lineno">  615</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00618"></a><span class="lineno">  618</span>&#160;      Scalar <span class="keyword">const</span>,</div><div class="line"><a name="l00619"></a><span class="lineno">  619</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00620"></a><span class="lineno">  620</span>&#160;      Shape&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00621"></a><span class="lineno">  621</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160;      Shape&lt;1, GemmConfig_::kThreads / GemmConfig_::OutputTile::kD, GemmConfig_::OutputTile::kD&gt;,</div><div class="line"><a name="l00623"></a><span class="lineno">  623</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;      GemmConfig_::kScalarsPerLdgB&gt;</div><div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160;      GlobalTileTraits;</div><div class="line"><a name="l00626"></a><span class="lineno">  626</span>&#160;</div><div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(MultiplyAddScalar);</div><div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160;                GemmConfig_::OutputTile::kH,</div><div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;                GemmConfig_::OutputTile::kD + kSkew&gt;</div><div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;      Tile;</div><div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;</div><div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00640"></a><span class="lineno">  640</span>&#160;      Tile,</div><div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00642"></a><span class="lineno">  642</span>&#160;      <span class="keyword">typename</span> GlobalTileTraits::Threads,</div><div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160;      GemmConfig_::kScalarsPerStsB&gt;</div><div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;</div><div class="line"><a name="l00648"></a><span class="lineno">  648</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kH * GemmConfig_::Warps::kH;</div><div class="line"><a name="l00650"></a><span class="lineno">  650</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileBTraits&lt;</div><div class="line"><a name="l00651"></a><span class="lineno">  651</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00652"></a><span class="lineno">  652</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00654"></a><span class="lineno">  654</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00655"></a><span class="lineno">  655</span>&#160;      <span class="comment">// The tile in shared memory.</span></div><div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;      Tile,</div><div class="line"><a name="l00657"></a><span class="lineno">  657</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00658"></a><span class="lineno">  658</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00659"></a><span class="lineno">  659</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00660"></a><span class="lineno">  660</span>&#160;      GemmConfig_::InstructionShape::kH * Tile::kW,</div><div class="line"><a name="l00661"></a><span class="lineno">  661</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kH / kScalarsPerW&gt;,</div><div class="line"><a name="l00663"></a><span class="lineno">  663</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00664"></a><span class="lineno">  664</span>&#160;      Shape&lt;GemmConfig_::InstructionShape::kD, 0, kScalarsPerW * Tile::kW&gt;,</div><div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00666"></a><span class="lineno">  666</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00667"></a><span class="lineno">  667</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00668"></a><span class="lineno">  668</span>&#160;};</div><div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;</div><div class="line"><a name="l00671"></a><span class="lineno">  671</span>&#160;</div><div class="line"><a name="l00672"></a><span class="lineno">  672</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00673"></a><span class="lineno">  673</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00675"></a><span class="lineno">  675</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperB&lt;MatrixLayout::kColumnMajor, GemmConfig_, Vector&lt;bin1_t, 32&gt; &gt; {</div><div class="line"><a name="l00677"></a><span class="lineno">  677</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>;</div><div class="line"><a name="l00678"></a><span class="lineno">  678</span>&#160;</div><div class="line"><a name="l00680"></a><span class="lineno">  680</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarB Scalar;</div><div class="line"><a name="l00682"></a><span class="lineno">  682</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar;</div><div class="line"><a name="l00683"></a><span class="lineno">  683</span>&#160;</div><div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kBitsPerScalar = <span class="keyword">sizeof</span>(Scalar) * 8;</div><div class="line"><a name="l00687"></a><span class="lineno">  687</span>&#160;</div><div class="line"><a name="l00689"></a><span class="lineno">  689</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00690"></a><span class="lineno">  690</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00691"></a><span class="lineno">  691</span>&#160;                     Vector&lt;bin1_t, 32&gt;,</div><div class="line"><a name="l00692"></a><span class="lineno">  692</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00693"></a><span class="lineno">  693</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00694"></a><span class="lineno">  694</span>&#160;</div><div class="line"><a name="l00696"></a><span class="lineno">  696</span>&#160;  <span class="keyword">typedef</span> GemmGlobalTileTraits&lt;</div><div class="line"><a name="l00697"></a><span class="lineno">  697</span>&#160;      <span class="comment">// That&#39;s B.</span></div><div class="line"><a name="l00698"></a><span class="lineno">  698</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00699"></a><span class="lineno">  699</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00700"></a><span class="lineno">  700</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00701"></a><span class="lineno">  701</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00702"></a><span class="lineno">  702</span>&#160;      Scalar <span class="keyword">const</span>,</div><div class="line"><a name="l00703"></a><span class="lineno">  703</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00704"></a><span class="lineno">  704</span>&#160;      Shape&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD / kBitsPerScalar&gt;,</div><div class="line"><a name="l00705"></a><span class="lineno">  705</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00706"></a><span class="lineno">  706</span>&#160;      Shape&lt;1,</div><div class="line"><a name="l00707"></a><span class="lineno">  707</span>&#160;            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kBitsPerScalar),</div><div class="line"><a name="l00708"></a><span class="lineno">  708</span>&#160;            GemmConfig_::OutputTile::kD / kBitsPerScalar&gt;,</div><div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00710"></a><span class="lineno">  710</span>&#160;      GemmConfig_::kScalarsPerLdgB / kBitsPerScalar&gt;</div><div class="line"><a name="l00711"></a><span class="lineno">  711</span>&#160;      GlobalTileTraits;</div><div class="line"><a name="l00712"></a><span class="lineno">  712</span>&#160;</div><div class="line"><a name="l00714"></a><span class="lineno">  714</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(MultiplyAddScalar);</div><div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00717"></a><span class="lineno">  717</span>&#160;                GemmConfig_::OutputTile::kH,</div><div class="line"><a name="l00718"></a><span class="lineno">  718</span>&#160;                GemmConfig_::OutputTile::kD / kBitsPerScalar + kSkew&gt;</div><div class="line"><a name="l00719"></a><span class="lineno">  719</span>&#160;      Tile;</div><div class="line"><a name="l00720"></a><span class="lineno">  720</span>&#160;</div><div class="line"><a name="l00722"></a><span class="lineno">  722</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00723"></a><span class="lineno">  723</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00724"></a><span class="lineno">  724</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00725"></a><span class="lineno">  725</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00726"></a><span class="lineno">  726</span>&#160;      Tile,</div><div class="line"><a name="l00727"></a><span class="lineno">  727</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00728"></a><span class="lineno">  728</span>&#160;      <span class="keyword">typename</span> GlobalTileTraits::Threads,</div><div class="line"><a name="l00729"></a><span class="lineno">  729</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00730"></a><span class="lineno">  730</span>&#160;      GemmConfig_::kScalarsPerStsB / kBitsPerScalar&gt;</div><div class="line"><a name="l00731"></a><span class="lineno">  731</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00732"></a><span class="lineno">  732</span>&#160;</div><div class="line"><a name="l00734"></a><span class="lineno">  734</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kH * GemmConfig_::Warps::kH;</div><div class="line"><a name="l00736"></a><span class="lineno">  736</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileBTraits&lt;</div><div class="line"><a name="l00737"></a><span class="lineno">  737</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00738"></a><span class="lineno">  738</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00740"></a><span class="lineno">  740</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160;      <span class="comment">// The tile in shared memory.</span></div><div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;      Tile,</div><div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00744"></a><span class="lineno">  744</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00745"></a><span class="lineno">  745</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;      GemmConfig_::InstructionShape::kH * Tile::kW,</div><div class="line"><a name="l00747"></a><span class="lineno">  747</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00748"></a><span class="lineno">  748</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kH / kScalarsPerW&gt;,</div><div class="line"><a name="l00749"></a><span class="lineno">  749</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00750"></a><span class="lineno">  750</span>&#160;      Shape&lt;GemmConfig_::InstructionShape::kD / kBitsPerScalar, 0, kScalarsPerW * Tile::kW&gt;,</div><div class="line"><a name="l00751"></a><span class="lineno">  751</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00752"></a><span class="lineno">  752</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00753"></a><span class="lineno">  753</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00754"></a><span class="lineno">  754</span>&#160;};</div><div class="line"><a name="l00755"></a><span class="lineno">  755</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00756"></a><span class="lineno">  756</span>&#160;</div><div class="line"><a name="l00758"></a><span class="lineno">  758</span>&#160;</div><div class="line"><a name="l00759"></a><span class="lineno">  759</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00760"></a><span class="lineno">  760</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00762"></a><span class="lineno">  762</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperB&lt;MatrixLayout::kColumnMajor, GemmConfig_, Vector&lt;uint4_t, 8&gt; &gt; {</div><div class="line"><a name="l00764"></a><span class="lineno">  764</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>;</div><div class="line"><a name="l00765"></a><span class="lineno">  765</span>&#160;</div><div class="line"><a name="l00767"></a><span class="lineno">  767</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarB Scalar;</div><div class="line"><a name="l00769"></a><span class="lineno">  769</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar;</div><div class="line"><a name="l00770"></a><span class="lineno">  770</span>&#160;</div><div class="line"><a name="l00773"></a><span class="lineno">  773</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kInt4PerScalar = <span class="keyword">sizeof</span>(Scalar) * 2;</div><div class="line"><a name="l00774"></a><span class="lineno">  774</span>&#160;</div><div class="line"><a name="l00776"></a><span class="lineno">  776</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00777"></a><span class="lineno">  777</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00778"></a><span class="lineno">  778</span>&#160;                     Vector&lt;uint4_t, 8&gt;,</div><div class="line"><a name="l00779"></a><span class="lineno">  779</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00780"></a><span class="lineno">  780</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00781"></a><span class="lineno">  781</span>&#160;</div><div class="line"><a name="l00783"></a><span class="lineno">  783</span>&#160;  <span class="keyword">typedef</span> GemmGlobalTileTraits&lt;</div><div class="line"><a name="l00784"></a><span class="lineno">  784</span>&#160;      <span class="comment">// That&#39;s B.</span></div><div class="line"><a name="l00785"></a><span class="lineno">  785</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00786"></a><span class="lineno">  786</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00787"></a><span class="lineno">  787</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00788"></a><span class="lineno">  788</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00789"></a><span class="lineno">  789</span>&#160;      Scalar <span class="keyword">const</span>,</div><div class="line"><a name="l00790"></a><span class="lineno">  790</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00791"></a><span class="lineno">  791</span>&#160;      Shape&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD / kInt4PerScalar&gt;,</div><div class="line"><a name="l00792"></a><span class="lineno">  792</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00793"></a><span class="lineno">  793</span>&#160;      Shape&lt;1,</div><div class="line"><a name="l00794"></a><span class="lineno">  794</span>&#160;            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kInt4PerScalar),</div><div class="line"><a name="l00795"></a><span class="lineno">  795</span>&#160;            GemmConfig_::OutputTile::kD / kInt4PerScalar&gt;,</div><div class="line"><a name="l00796"></a><span class="lineno">  796</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00797"></a><span class="lineno">  797</span>&#160;      GemmConfig_::kScalarsPerLdgB / kInt4PerScalar&gt;</div><div class="line"><a name="l00798"></a><span class="lineno">  798</span>&#160;      GlobalTileTraits;</div><div class="line"><a name="l00799"></a><span class="lineno">  799</span>&#160;</div><div class="line"><a name="l00801"></a><span class="lineno">  801</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(MultiplyAddScalar);</div><div class="line"><a name="l00803"></a><span class="lineno">  803</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00804"></a><span class="lineno">  804</span>&#160;                GemmConfig_::OutputTile::kH,</div><div class="line"><a name="l00805"></a><span class="lineno">  805</span>&#160;                GemmConfig_::OutputTile::kD / kInt4PerScalar + kSkew&gt;</div><div class="line"><a name="l00806"></a><span class="lineno">  806</span>&#160;      Tile;</div><div class="line"><a name="l00807"></a><span class="lineno">  807</span>&#160;</div><div class="line"><a name="l00809"></a><span class="lineno">  809</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00810"></a><span class="lineno">  810</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00811"></a><span class="lineno">  811</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00812"></a><span class="lineno">  812</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00813"></a><span class="lineno">  813</span>&#160;      Tile,</div><div class="line"><a name="l00814"></a><span class="lineno">  814</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00815"></a><span class="lineno">  815</span>&#160;      <span class="keyword">typename</span> GlobalTileTraits::Threads,</div><div class="line"><a name="l00816"></a><span class="lineno">  816</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00817"></a><span class="lineno">  817</span>&#160;      GemmConfig_::kScalarsPerStsB / kInt4PerScalar&gt;</div><div class="line"><a name="l00818"></a><span class="lineno">  818</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00819"></a><span class="lineno">  819</span>&#160;</div><div class="line"><a name="l00821"></a><span class="lineno">  821</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kH * GemmConfig_::Warps::kH;</div><div class="line"><a name="l00823"></a><span class="lineno">  823</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileBTraits&lt;</div><div class="line"><a name="l00824"></a><span class="lineno">  824</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00825"></a><span class="lineno">  825</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00826"></a><span class="lineno">  826</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00827"></a><span class="lineno">  827</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00828"></a><span class="lineno">  828</span>&#160;      <span class="comment">// The tile in shared memory.</span></div><div class="line"><a name="l00829"></a><span class="lineno">  829</span>&#160;      Tile,</div><div class="line"><a name="l00830"></a><span class="lineno">  830</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00831"></a><span class="lineno">  831</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00832"></a><span class="lineno">  832</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00833"></a><span class="lineno">  833</span>&#160;      GemmConfig_::InstructionShape::kH * Tile::kW,</div><div class="line"><a name="l00834"></a><span class="lineno">  834</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00835"></a><span class="lineno">  835</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kH / kScalarsPerW&gt;,</div><div class="line"><a name="l00836"></a><span class="lineno">  836</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00837"></a><span class="lineno">  837</span>&#160;      Shape&lt;GemmConfig_::InstructionShape::kD / kInt4PerScalar, 0, kScalarsPerW * Tile::kW&gt;,</div><div class="line"><a name="l00838"></a><span class="lineno">  838</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00839"></a><span class="lineno">  839</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00840"></a><span class="lineno">  840</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00841"></a><span class="lineno">  841</span>&#160;};</div><div class="line"><a name="l00842"></a><span class="lineno">  842</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00843"></a><span class="lineno">  843</span>&#160;</div><div class="line"><a name="l00845"></a><span class="lineno">  845</span>&#160;</div><div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> GemmConfig_&gt;</div><div class="line"><a name="l00849"></a><span class="lineno">  849</span>&#160;<span class="keyword">struct </span>WmmaGemmTileTraitsHelperB&lt;MatrixLayout::kColumnMajor, GemmConfig_, Vector&lt;int4_t, 8&gt; &gt; {</div><div class="line"><a name="l00851"></a><span class="lineno">  851</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>;</div><div class="line"><a name="l00852"></a><span class="lineno">  852</span>&#160;</div><div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::ScalarB Scalar;</div><div class="line"><a name="l00856"></a><span class="lineno">  856</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> GemmConfig_::MultiplyAdd::ScalarB MultiplyAddScalar;</div><div class="line"><a name="l00857"></a><span class="lineno">  857</span>&#160;</div><div class="line"><a name="l00860"></a><span class="lineno">  860</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kInt4PerScalar = <span class="keyword">sizeof</span>(Scalar) * 2;</div><div class="line"><a name="l00861"></a><span class="lineno">  861</span>&#160;</div><div class="line"><a name="l00863"></a><span class="lineno">  863</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00864"></a><span class="lineno">  864</span>&#160;                     <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00865"></a><span class="lineno">  865</span>&#160;                     Vector&lt;int4_t, 8&gt;,</div><div class="line"><a name="l00866"></a><span class="lineno">  866</span>&#160;                     <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00867"></a><span class="lineno">  867</span>&#160;      WmmaMatrix;</div><div class="line"><a name="l00868"></a><span class="lineno">  868</span>&#160;</div><div class="line"><a name="l00870"></a><span class="lineno">  870</span>&#160;  <span class="keyword">typedef</span> GemmGlobalTileTraits&lt;</div><div class="line"><a name="l00871"></a><span class="lineno">  871</span>&#160;      <span class="comment">// That&#39;s B.</span></div><div class="line"><a name="l00872"></a><span class="lineno">  872</span>&#160;      <a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l00873"></a><span class="lineno">  873</span>&#160;      <span class="comment">// A is row-major.</span></div><div class="line"><a name="l00874"></a><span class="lineno">  874</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00875"></a><span class="lineno">  875</span>&#160;      <span class="comment">// The pointer is float const.</span></div><div class="line"><a name="l00876"></a><span class="lineno">  876</span>&#160;      Scalar <span class="keyword">const</span>,</div><div class="line"><a name="l00877"></a><span class="lineno">  877</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00878"></a><span class="lineno">  878</span>&#160;      Shape&lt;1, GemmConfig_::OutputTile::kH, GemmConfig_::OutputTile::kD / kInt4PerScalar&gt;,</div><div class="line"><a name="l00879"></a><span class="lineno">  879</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00880"></a><span class="lineno">  880</span>&#160;      Shape&lt;1,</div><div class="line"><a name="l00881"></a><span class="lineno">  881</span>&#160;            GemmConfig_::kThreads / (GemmConfig_::OutputTile::kD / kInt4PerScalar),</div><div class="line"><a name="l00882"></a><span class="lineno">  882</span>&#160;            GemmConfig_::OutputTile::kD / kInt4PerScalar&gt;,</div><div class="line"><a name="l00883"></a><span class="lineno">  883</span>&#160;      <span class="comment">// The number of scalars per LDG (LDG.32 or LDG.128, etc).</span></div><div class="line"><a name="l00884"></a><span class="lineno">  884</span>&#160;      GemmConfig_::kScalarsPerLdgB / kInt4PerScalar&gt;</div><div class="line"><a name="l00885"></a><span class="lineno">  885</span>&#160;      GlobalTileTraits;</div><div class="line"><a name="l00886"></a><span class="lineno">  886</span>&#160;</div><div class="line"><a name="l00888"></a><span class="lineno">  888</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kSkew = 16 / <span class="keyword">sizeof</span>(MultiplyAddScalar);</div><div class="line"><a name="l00890"></a><span class="lineno">  890</span>&#160;  <span class="keyword">typedef</span> Shape&lt;GemmConfig_::kStages,</div><div class="line"><a name="l00891"></a><span class="lineno">  891</span>&#160;                GemmConfig_::OutputTile::kH,</div><div class="line"><a name="l00892"></a><span class="lineno">  892</span>&#160;                GemmConfig_::OutputTile::kD / kInt4PerScalar + kSkew&gt;</div><div class="line"><a name="l00893"></a><span class="lineno">  893</span>&#160;      Tile;</div><div class="line"><a name="l00894"></a><span class="lineno">  894</span>&#160;</div><div class="line"><a name="l00896"></a><span class="lineno">  896</span>&#160;  <span class="keyword">typedef</span> GemmSharedStoreTileAbTraits&lt;</div><div class="line"><a name="l00897"></a><span class="lineno">  897</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00898"></a><span class="lineno">  898</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00899"></a><span class="lineno">  899</span>&#160;      <span class="comment">// The tile has size KxM in GEMM&#39;s terminology.</span></div><div class="line"><a name="l00900"></a><span class="lineno">  900</span>&#160;      Tile,</div><div class="line"><a name="l00901"></a><span class="lineno">  901</span>&#160;      <span class="comment">// The threads are distributed as warps x 32 (the traits may reorganize).</span></div><div class="line"><a name="l00902"></a><span class="lineno">  902</span>&#160;      <span class="keyword">typename</span> GlobalTileTraits::Threads,</div><div class="line"><a name="l00903"></a><span class="lineno">  903</span>&#160;      <span class="comment">// The number of scalars per STS (STS.32 or STS.128, etc).</span></div><div class="line"><a name="l00904"></a><span class="lineno">  904</span>&#160;      GemmConfig_::kScalarsPerStsB / kInt4PerScalar&gt;</div><div class="line"><a name="l00905"></a><span class="lineno">  905</span>&#160;      SharedStoreTileTraits;</div><div class="line"><a name="l00906"></a><span class="lineno">  906</span>&#160;</div><div class="line"><a name="l00908"></a><span class="lineno">  908</span>&#160;  <span class="keyword">static</span> <span class="keywordtype">int</span> <span class="keyword">const</span> kScalarsPerW = GemmConfig_::InstructionShape::kH * GemmConfig_::Warps::kH;</div><div class="line"><a name="l00910"></a><span class="lineno">  910</span>&#160;  <span class="keyword">typedef</span> WmmaGemmSharedLoadTileBTraits&lt;</div><div class="line"><a name="l00911"></a><span class="lineno">  911</span>&#160;      <span class="comment">// The layout of the matrix.</span></div><div class="line"><a name="l00912"></a><span class="lineno">  912</span>&#160;      <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">MatrixLayout::kColumnMajor</a>,</div><div class="line"><a name="l00913"></a><span class="lineno">  913</span>&#160;      <span class="comment">// The pointer.</span></div><div class="line"><a name="l00914"></a><span class="lineno">  914</span>&#160;      MultiplyAddScalar,</div><div class="line"><a name="l00915"></a><span class="lineno">  915</span>&#160;      <span class="comment">// The tile in shared memory.</span></div><div class="line"><a name="l00916"></a><span class="lineno">  916</span>&#160;      Tile,</div><div class="line"><a name="l00917"></a><span class="lineno">  917</span>&#160;      <span class="comment">// The number of warps.</span></div><div class="line"><a name="l00918"></a><span class="lineno">  918</span>&#160;      <span class="keyword">typename</span> GemmConfig_::Warps,</div><div class="line"><a name="l00919"></a><span class="lineno">  919</span>&#160;      <span class="comment">// The strides between warps.</span></div><div class="line"><a name="l00920"></a><span class="lineno">  920</span>&#160;      GemmConfig_::InstructionShape::kH * Tile::kW,</div><div class="line"><a name="l00921"></a><span class="lineno">  921</span>&#160;      <span class="comment">// The number of iterations to load the data.</span></div><div class="line"><a name="l00922"></a><span class="lineno">  922</span>&#160;      Shape&lt;1, 1, GemmConfig_::OutputTile::kH / kScalarsPerW&gt;,</div><div class="line"><a name="l00923"></a><span class="lineno">  923</span>&#160;      <span class="comment">// The stride between iterations.</span></div><div class="line"><a name="l00924"></a><span class="lineno">  924</span>&#160;      Shape&lt;GemmConfig_::InstructionShape::kD / kInt4PerScalar, 0, kScalarsPerW * Tile::kW&gt;,</div><div class="line"><a name="l00925"></a><span class="lineno">  925</span>&#160;      <span class="comment">// The shape of the instruction.</span></div><div class="line"><a name="l00926"></a><span class="lineno">  926</span>&#160;      <span class="keyword">typename</span> GemmConfig_::InstructionShape&gt;</div><div class="line"><a name="l00927"></a><span class="lineno">  927</span>&#160;      SharedLoadTileTraits;</div><div class="line"><a name="l00928"></a><span class="lineno">  928</span>&#160;};</div><div class="line"><a name="l00929"></a><span class="lineno">  929</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00930"></a><span class="lineno">  930</span>&#160;</div><div class="line"><a name="l00932"></a><span class="lineno">  932</span>&#160;</div><div class="line"><a name="l00933"></a><span class="lineno">  933</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l00935"></a><span class="lineno">  935</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l00937"></a><span class="lineno">  937</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l00939"></a><span class="lineno">  939</span>&#160;    <span class="keyword">typename</span> OutputTile_,</div><div class="line"><a name="l00941"></a><span class="lineno">  941</span>&#160;    <span class="keyword">typename</span> ScalarA_,</div><div class="line"><a name="l00943"></a><span class="lineno">  943</span>&#160;    <span class="keyword">typename</span> ScalarB_,</div><div class="line"><a name="l00945"></a><span class="lineno">  945</span>&#160;    <span class="keyword">typename</span> ScalarC_,</div><div class="line"><a name="l00947"></a><span class="lineno">  947</span>&#160;    <span class="keyword">typename</span> Accumulator_,</div><div class="line"><a name="l00949"></a><span class="lineno">  949</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_,</div><div class="line"><a name="l00951"></a><span class="lineno">  951</span>&#160;    <span class="keyword">typename</span> WarpGemmShape_,</div><div class="line"><a name="l00953"></a><span class="lineno">  953</span>&#160;    <span class="keyword">typename</span> InstructionShape_,</div><div class="line"><a name="l00955"></a><span class="lineno">  955</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_,</div><div class="line"><a name="l00957"></a><span class="lineno">  957</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_,</div><div class="line"><a name="l00959"></a><span class="lineno">  959</span>&#160;    <span class="keyword">typename</span> Index_&gt;</div><div class="line"><a name="l00960"></a><span class="lineno">  960</span>&#160;<span class="keyword">struct </span>WmmaGemmTraitsHelper {</div><div class="line"><a name="l00962"></a><span class="lineno">  962</span>&#160;  <span class="keyword">typedef</span> WmmaGemmConfig&lt;kLayoutA_,</div><div class="line"><a name="l00963"></a><span class="lineno">  963</span>&#160;                         kLayoutB_,</div><div class="line"><a name="l00964"></a><span class="lineno">  964</span>&#160;                         OutputTile_,</div><div class="line"><a name="l00965"></a><span class="lineno">  965</span>&#160;                         ScalarA_,</div><div class="line"><a name="l00966"></a><span class="lineno">  966</span>&#160;                         ScalarB_,</div><div class="line"><a name="l00967"></a><span class="lineno">  967</span>&#160;                         ScalarC_,</div><div class="line"><a name="l00968"></a><span class="lineno">  968</span>&#160;                         Accumulator_,</div><div class="line"><a name="l00969"></a><span class="lineno">  969</span>&#160;                         WarpGemmShape_,</div><div class="line"><a name="l00970"></a><span class="lineno">  970</span>&#160;                         InstructionShape_,</div><div class="line"><a name="l00971"></a><span class="lineno">  971</span>&#160;                         kScalarsPerLdgA_,</div><div class="line"><a name="l00972"></a><span class="lineno">  972</span>&#160;                         kScalarsPerLdgB_&gt;</div><div class="line"><a name="l00973"></a><span class="lineno">  973</span>&#160;      GemmConfig;</div><div class="line"><a name="l00974"></a><span class="lineno">  974</span>&#160;</div><div class="line"><a name="l00976"></a><span class="lineno">  976</span>&#160;  <span class="keyword">typedef</span> WmmaGemmTileTraitsHelperA&lt;kLayoutA_, GemmConfig, ScalarA_&gt; GemmTileTraitsHelperA;</div><div class="line"><a name="l00978"></a><span class="lineno">  978</span>&#160;  <span class="keyword">typedef</span> WmmaGemmTileTraitsHelperB&lt;kLayoutB_, GemmConfig, ScalarB_&gt; GemmTileTraitsHelperB;</div><div class="line"><a name="l00979"></a><span class="lineno">  979</span>&#160;</div><div class="line"><a name="l00981"></a><span class="lineno">  981</span>&#160;  <span class="keyword">typedef</span> GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperA::GlobalTileTraits, Index_&gt;</div><div class="line"><a name="l00982"></a><span class="lineno">  982</span>&#160;      GlobalLoadIteratorA;</div><div class="line"><a name="l00984"></a><span class="lineno">  984</span>&#160;  <span class="keyword">typedef</span> Copy&lt;typename GlobalLoadIteratorA::Fragment&gt; GlobalTransformerA;</div><div class="line"><a name="l00986"></a><span class="lineno">  986</span>&#160;  <span class="keyword">typedef</span> TileStoreIterator&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits,</div><div class="line"><a name="l00987"></a><span class="lineno">  987</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l00988"></a><span class="lineno">  988</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l00989"></a><span class="lineno">  989</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l00990"></a><span class="lineno">  990</span>&#160;      SharedStoreIteratorA;</div><div class="line"><a name="l00992"></a><span class="lineno">  992</span>&#160;  <span class="keyword">typedef</span> GlobalLoadStream&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">GemmOperand::kA</a>,</div><div class="line"><a name="l00993"></a><span class="lineno">  993</span>&#160;                              GlobalLoadIteratorA,</div><div class="line"><a name="l00994"></a><span class="lineno">  994</span>&#160;                              SharedStoreIteratorA,</div><div class="line"><a name="l00995"></a><span class="lineno">  995</span>&#160;                              GlobalTransformerA&gt;</div><div class="line"><a name="l00996"></a><span class="lineno">  996</span>&#160;      GlobalLoadStreamA;</div><div class="line"><a name="l00997"></a><span class="lineno">  997</span>&#160;</div><div class="line"><a name="l00999"></a><span class="lineno">  999</span>&#160;  <span class="keyword">typedef</span> GemmGlobalIteratorAb&lt;typename GemmTileTraitsHelperB::GlobalTileTraits, Index_&gt;</div><div class="line"><a name="l01000"></a><span class="lineno"> 1000</span>&#160;      GlobalLoadIteratorB;</div><div class="line"><a name="l01001"></a><span class="lineno"> 1001</span>&#160;  <span class="comment">// The default transformer for B.</span></div><div class="line"><a name="l01002"></a><span class="lineno"> 1002</span>&#160;  <span class="keyword">typedef</span> Copy&lt;typename GlobalLoadIteratorB::Fragment&gt; GlobalTransformerB;</div><div class="line"><a name="l01004"></a><span class="lineno"> 1004</span>&#160;  <span class="keyword">typedef</span> TileStoreIterator&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits,</div><div class="line"><a name="l01005"></a><span class="lineno"> 1005</span>&#160;                            <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedStoreTileTraits::Scalar,</div><div class="line"><a name="l01006"></a><span class="lineno"> 1006</span>&#160;                            <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l01007"></a><span class="lineno"> 1007</span>&#160;                            <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>&gt;</div><div class="line"><a name="l01008"></a><span class="lineno"> 1008</span>&#160;      SharedStoreIteratorB;</div><div class="line"><a name="l01010"></a><span class="lineno"> 1010</span>&#160;  <span class="keyword">typedef</span> GlobalLoadStream&lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">GemmOperand::kB</a>,</div><div class="line"><a name="l01011"></a><span class="lineno"> 1011</span>&#160;                              GlobalLoadIteratorB,</div><div class="line"><a name="l01012"></a><span class="lineno"> 1012</span>&#160;                              SharedStoreIteratorB,</div><div class="line"><a name="l01013"></a><span class="lineno"> 1013</span>&#160;                              GlobalTransformerB&gt;</div><div class="line"><a name="l01014"></a><span class="lineno"> 1014</span>&#160;      GlobalLoadStreamB;</div><div class="line"><a name="l01015"></a><span class="lineno"> 1015</span>&#160;</div><div class="line"><a name="l01017"></a><span class="lineno"> 1017</span>&#160;  <span class="keyword">typedef</span> TileLoadIterator&lt;<span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits,</div><div class="line"><a name="l01018"></a><span class="lineno"> 1018</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperA::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l01019"></a><span class="lineno"> 1019</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l01020"></a><span class="lineno"> 1020</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>,</div><div class="line"><a name="l01021"></a><span class="lineno"> 1021</span>&#160;                           Index_,</div><div class="line"><a name="l01022"></a><span class="lineno"> 1022</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperA::WmmaMatrix,</div><div class="line"><a name="l01023"></a><span class="lineno"> 1023</span>&#160;                           <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>&gt;</div><div class="line"><a name="l01024"></a><span class="lineno"> 1024</span>&#160;      SharedLoadIteratorA;</div><div class="line"><a name="l01026"></a><span class="lineno"> 1026</span>&#160;  <span class="keyword">typedef</span> SharedLoadStream&lt;SharedLoadIteratorA&gt; SharedLoadStreamA;</div><div class="line"><a name="l01028"></a><span class="lineno"> 1028</span>&#160;  <span class="keyword">typedef</span> TileLoadIterator&lt;<span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits,</div><div class="line"><a name="l01029"></a><span class="lineno"> 1029</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperB::SharedLoadTileTraits::Scalar,</div><div class="line"><a name="l01030"></a><span class="lineno"> 1030</span>&#160;                           <a class="code" href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">IteratorAdvance::kH</a>,</div><div class="line"><a name="l01031"></a><span class="lineno"> 1031</span>&#160;                           <a class="code" href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">MemorySpace::kShared</a>,</div><div class="line"><a name="l01032"></a><span class="lineno"> 1032</span>&#160;                           Index_,</div><div class="line"><a name="l01033"></a><span class="lineno"> 1033</span>&#160;                           <span class="keyword">typename</span> GemmTileTraitsHelperB::WmmaMatrix,</div><div class="line"><a name="l01034"></a><span class="lineno"> 1034</span>&#160;                           <a class="code" href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">FragmentElementType::kWmmaMatrix</a>&gt;</div><div class="line"><a name="l01035"></a><span class="lineno"> 1035</span>&#160;      SharedLoadIteratorB;</div><div class="line"><a name="l01037"></a><span class="lineno"> 1037</span>&#160;  <span class="keyword">typedef</span> SharedLoadStream&lt;SharedLoadIteratorB&gt; SharedLoadStreamB;</div><div class="line"><a name="l01038"></a><span class="lineno"> 1038</span>&#160;</div><div class="line"><a name="l01040"></a><span class="lineno"> 1040</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">GemmConfig::MultiplyAdd</a> MultiplyAdd;</div><div class="line"><a name="l01042"></a><span class="lineno"> 1042</span>&#160;  <span class="keyword">typedef</span> ClearAccumulators&lt;typename MultiplyAdd::ScalarC&gt; ClearAccumulators;</div><div class="line"><a name="l01043"></a><span class="lineno"> 1043</span>&#160;</div><div class="line"><a name="l01045"></a><span class="lineno"> 1045</span>&#160;  <span class="keyword">typedef</span> WmmaGemmEpilogueTraitsHelper&lt;GemmConfig, EpilogueFunctor_, Index_&gt; EpilogueTraitsHelper;</div><div class="line"><a name="l01047"></a><span class="lineno"> 1047</span>&#160;  <span class="keyword">typedef</span> SimplifiedGemmEpilogueTraits&lt;GemmConfig, EpilogueFunctor_, Index_, EpilogueTraitsHelper&gt;</div><div class="line"><a name="l01048"></a><span class="lineno"> 1048</span>&#160;      GemmEpilogueTraits;</div><div class="line"><a name="l01050"></a><span class="lineno"> 1050</span>&#160;  <span class="keyword">typedef</span> GemmEpilogue&lt;GemmEpilogueTraits&gt; Epilogue;</div><div class="line"><a name="l01051"></a><span class="lineno"> 1051</span>&#160;};</div><div class="line"><a name="l01052"></a><span class="lineno"> 1052</span>&#160;</div><div class="line"><a name="l01054"></a><span class="lineno"> 1054</span>&#160;</div><div class="line"><a name="l01055"></a><span class="lineno"> 1055</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> OutputTile_, <span class="keyword">typename</span> DefaultShape_ = Shape&lt;64, 32, 64&gt; &gt;</div><div class="line"><a name="l01056"></a><span class="lineno"> 1056</span>&#160;<span class="keyword">struct </span>WmmaGemmAccumulatorsPerWarp {</div><div class="line"><a name="l01057"></a><span class="lineno"> 1057</span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> <a class="code" href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">ShapeMin&lt;OutputTile_, DefaultShape_&gt;::Shape</a> Shape;</div><div class="line"><a name="l01058"></a><span class="lineno"> 1058</span>&#160;};</div><div class="line"><a name="l01059"></a><span class="lineno"> 1059</span>&#160;</div><div class="line"><a name="l01061"></a><span class="lineno"> 1061</span>&#160;</div><div class="line"><a name="l01062"></a><span class="lineno"> 1062</span>&#160;<span class="keyword">template</span> &lt;</div><div class="line"><a name="l01064"></a><span class="lineno"> 1064</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutA_,</div><div class="line"><a name="l01066"></a><span class="lineno"> 1066</span>&#160;    <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayoutB_,</div><div class="line"><a name="l01068"></a><span class="lineno"> 1068</span>&#160;    <span class="keyword">typename</span> OutputTile_ = Shape&lt;64, 128, 128&gt;,</div><div class="line"><a name="l01070"></a><span class="lineno"> 1070</span>&#160;    <span class="keyword">typename</span> ScalarA_ = half,</div><div class="line"><a name="l01072"></a><span class="lineno"> 1072</span>&#160;    <span class="keyword">typename</span> ScalarB_ = half,</div><div class="line"><a name="l01074"></a><span class="lineno"> 1074</span>&#160;    <span class="keyword">typename</span> ScalarC_ = float,</div><div class="line"><a name="l01076"></a><span class="lineno"> 1076</span>&#160;    <span class="keyword">typename</span> EpilogueFunctor_ = LinearScaling&lt;ScalarC_&gt;,</div><div class="line"><a name="l01078"></a><span class="lineno"> 1078</span>&#160;    <span class="keyword">typename</span> Accumulator_ = ScalarC_,</div><div class="line"><a name="l01080"></a><span class="lineno"> 1080</span>&#160;    <span class="keyword">typename</span> WarpGemmShape_ = <span class="keyword">typename</span> WmmaGemmAccumulatorsPerWarp&lt;OutputTile_&gt;::Shape,</div><div class="line"><a name="l01082"></a><span class="lineno"> 1082</span>&#160;    <span class="keyword">typename</span> InstructionShape_ = Shape&lt;16, 16, 16&gt;,</div><div class="line"><a name="l01084"></a><span class="lineno"> 1084</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgA_ = 8,</div><div class="line"><a name="l01086"></a><span class="lineno"> 1086</span>&#160;    <span class="keywordtype">int</span> kScalarsPerLdgB_ = 8,</div><div class="line"><a name="l01088"></a><span class="lineno"> 1088</span>&#160;    <span class="keyword">typename</span> Index_ = int,</div><div class="line"><a name="l01090"></a><span class="lineno"> 1090</span>&#160;    <span class="keyword">typename</span> Helper_ = WmmaGemmTraitsHelper&lt;kLayoutA_,</div><div class="line"><a name="l01091"></a><span class="lineno"> 1091</span>&#160;                                            kLayoutB_,</div><div class="line"><a name="l01092"></a><span class="lineno"> 1092</span>&#160;                                            OutputTile_,</div><div class="line"><a name="l01093"></a><span class="lineno"> 1093</span>&#160;                                            ScalarA_,</div><div class="line"><a name="l01094"></a><span class="lineno"> 1094</span>&#160;                                            ScalarB_,</div><div class="line"><a name="l01095"></a><span class="lineno"> 1095</span>&#160;                                            ScalarC_,</div><div class="line"><a name="l01096"></a><span class="lineno"> 1096</span>&#160;                                            Accumulator_,</div><div class="line"><a name="l01097"></a><span class="lineno"> 1097</span>&#160;                                            EpilogueFunctor_,</div><div class="line"><a name="l01098"></a><span class="lineno"> 1098</span>&#160;                                            WarpGemmShape_,</div><div class="line"><a name="l01099"></a><span class="lineno"> 1099</span>&#160;                                            InstructionShape_,</div><div class="line"><a name="l01100"></a><span class="lineno"> 1100</span>&#160;                                            kScalarsPerLdgA_,</div><div class="line"><a name="l01101"></a><span class="lineno"> 1101</span>&#160;                                            kScalarsPerLdgB_,</div><div class="line"><a name="l01102"></a><span class="lineno"> 1102</span>&#160;                                            Index_&gt; &gt;</div><div class="line"><a name="l01103"></a><span class="lineno"> 1103</span>&#160;<span class="keyword">struct </span>WmmaGemmTraits : <span class="keyword">public</span> GemmTraits&lt;</div><div class="line"><a name="l01104"></a><span class="lineno"> 1104</span>&#160;                            <span class="comment">// The config.</span></div><div class="line"><a name="l01105"></a><span class="lineno"> 1105</span>&#160;                            typename Helper_::GemmConfig,</div><div class="line"><a name="l01106"></a><span class="lineno"> 1106</span>&#160;                            <span class="comment">// The stream to load A from global memory to shared memory.</span></div><div class="line"><a name="l01107"></a><span class="lineno"> 1107</span>&#160;                            typename Helper_::GlobalLoadStreamA,</div><div class="line"><a name="l01108"></a><span class="lineno"> 1108</span>&#160;                            <span class="comment">// The stream to load B from global memory to shared memory.</span></div><div class="line"><a name="l01109"></a><span class="lineno"> 1109</span>&#160;                            typename Helper_::GlobalLoadStreamB,</div><div class="line"><a name="l01110"></a><span class="lineno"> 1110</span>&#160;                            <span class="comment">// The stream to load A from shared memory.</span></div><div class="line"><a name="l01111"></a><span class="lineno"> 1111</span>&#160;                            typename Helper_::SharedLoadStreamA,</div><div class="line"><a name="l01112"></a><span class="lineno"> 1112</span>&#160;                            <span class="comment">// The stream to load B from shared memory.</span></div><div class="line"><a name="l01113"></a><span class="lineno"> 1113</span>&#160;                            typename Helper_::SharedLoadStreamB,</div><div class="line"><a name="l01114"></a><span class="lineno"> 1114</span>&#160;                            <span class="comment">// The epilogue.</span></div><div class="line"><a name="l01115"></a><span class="lineno"> 1115</span>&#160;                            typename Helper_::Epilogue,</div><div class="line"><a name="l01116"></a><span class="lineno"> 1116</span>&#160;                            <span class="comment">// The block swizzle to reorganize the grid.</span></div><div class="line"><a name="l01117"></a><span class="lineno"> 1117</span>&#160;                            IdentityBlockSwizzle,</div><div class="line"><a name="l01118"></a><span class="lineno"> 1118</span>&#160;                            <span class="comment">// The index.</span></div><div class="line"><a name="l01119"></a><span class="lineno"> 1119</span>&#160;                            Index_,</div><div class="line"><a name="l01120"></a><span class="lineno"> 1120</span>&#160;                            <span class="comment">// The tool used to clear accumulators.</span></div><div class="line"><a name="l01121"></a><span class="lineno"> 1121</span>&#160;                            typename Helper_::ClearAccumulators&gt; {};</div><div class="line"><a name="l01122"></a><span class="lineno"> 1122</span>&#160;</div><div class="line"><a name="l01124"></a><span class="lineno"> 1124</span>&#160;</div><div class="line"><a name="l01125"></a><span class="lineno"> 1125</span>&#160;}  <span class="comment">// namespace gemm</span></div><div class="line"><a name="l01126"></a><span class="lineno"> 1126</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l01127"></a><span class="lineno"> 1127</span>&#160;</div><div class="line"><a name="l01128"></a><span class="lineno"> 1128</span>&#160;<span class="preprocessor">#endif  // defined CUTLASS_USE_WMMA_API</span></div><div class="ttc" id="wmma__matrix_8h_html"><div class="ttname"><a href="wmma__matrix_8h.html">wmma_matrix.h</a></div><div class="ttdoc">Abstractions for loading and storing matrices using the CUDA WMMA API. </div></div>
+<div class="ttc" id="structcutlass_1_1MemorySpace_html_a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc"><div class="ttname"><a href="structcutlass_1_1MemorySpace.html#a1e031ec41668015a8fe4ba2c1145d03ca2804339b2be64ff68ae3042073aaa7cc">cutlass::MemorySpace::kShared</a></div><div class="ttdef"><b>Definition:</b> load_store.h:41</div></div>
 <div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
 <div class="ttc" id="gemm__global__tile_8h_html"><div class="ttname"><a href="gemm__global__tile_8h.html">gemm_global_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing to global memory. </div></div>
 <div class="ttc" id="gemm__traits_8h_html"><div class="ttname"><a href="gemm__traits_8h.html">gemm_traits.h</a></div><div class="ttdoc">Defines structural properties of complete GEMM computation. </div></div>
 <div class="ttc" id="wmma__gemm__epilogue__traits_8h_html"><div class="ttname"><a href="wmma__gemm__epilogue__traits_8h.html">wmma_gemm_epilogue_traits.h</a></div><div class="ttdoc">Defines structural properties of WMMA GEMM&amp;#39;s epilogue phase. </div></div>
-<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:62</div></div>
+<div class="ttc" id="structcutlass_1_1FragmentElementType_html_a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd"><div class="ttname"><a href="structcutlass_1_1FragmentElementType.html#a62883b0695dc3a7ff82916ff9d75df0ba6b5ad4d12e12461f93ccab8edb6cd0bd">cutlass::FragmentElementType::kWmmaMatrix</a></div><div class="ttdef"><b>Definition:</b> load_store.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1IteratorAdvance_html_a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81"><div class="ttname"><a href="structcutlass_1_1IteratorAdvance.html#a9ad9c2302ddffa148d47cdcf6c738ddaacfe756fca665eb1bbf389850915c1b81">cutlass::IteratorAdvance::kH</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:65</div></div>
 <div class="ttc" id="gemm__epilogue_8h_html"><div class="ttname"><a href="gemm__epilogue_8h.html">gemm_epilogue.h</a></div><div class="ttdoc">Implements the epilogue phase of the GEMM kernel that efficiently updates global memory with the comp...</div></div>
 <div class="ttc" id="gemm__shared__tile_8h_html"><div class="ttname"><a href="gemm__shared__tile_8h.html">gemm_shared_tile.h</a></div><div class="ttdoc">Defines iterators for efficiently loading and storing tiles to and from shared memory. </div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1IteratorFragment_html_ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419"><div class="ttname"><a href="structcutlass_1_1IteratorFragment.html#ae7b6a9ac856eca8b8e437305fa716a80a21d2b2793bab0d348df40715b8f14419">cutlass::IteratorFragment::kWmmaMatrix</a></div><div class="ttdef"><b>Definition:</b> tile_iterator.h:67</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1gemm_1_1GemmConfig_html_aedb95febe4a0b2943e233c95c36a22cd"><div class="ttname"><a href="structcutlass_1_1gemm_1_1GemmConfig.html#aedb95febe4a0b2943e233c95c36a22cd">cutlass::gemm::GemmConfig::MultiplyAdd</a></div><div class="ttdeci">MultiplyAdd_ MultiplyAdd</div><div class="ttdoc">The functor to do D = A*B + C. </div><div class="ttdef"><b>Definition:</b> gemm_config.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0caad0876342d150cef7da6ae149d5e99f9">cutlass::GemmOperand::kB</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="wmma__gemm__global__tile_8h_html"><div class="ttname"><a href="wmma__gemm__global__tile_8h.html">wmma_gemm_global_tile.h</a></div><div class="ttdoc">Defines tile iterator traits for loading thread block-level tile from global memory. </div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2bac15988acba79c11072d38b295f163a2b">cutlass::MatrixLayout::kColumnMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
 <div class="ttc" id="wmma__gemm__multiply__add_8h_html"><div class="ttname"><a href="wmma__gemm__multiply__add_8h.html">wmma_gemm_multiply_add.h</a></div><div class="ttdoc">Implements warp-level matrix multiply-accumulate operation using CUDA WMMA API. </div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0cac2b9fe9e3679a059d1a6c946b2a2c31a">cutlass::GemmOperand::kA</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="gemm_8h_html"><div class="ttname"><a href="gemm_8h.html">gemm.h</a></div><div class="ttdoc">Implements a software-pipelined efficient GEMM. </div></div>
 <div class="ttc" id="gemm__epilogue__traits_8h_html"><div class="ttname"><a href="gemm__epilogue__traits_8h.html">gemm_epilogue_traits.h</a></div><div class="ttdoc">Defines structural properties of the GEMM epilogue. </div></div>
-<div class="ttc" id="structcutlass_1_1ShapeMin_html_a5c813e4c34ea612431d31b36120f8549"><div class="ttname"><a href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">cutlass::ShapeMin::Shape</a></div><div class="ttdeci">Shape&lt;(A_::kD&lt; B_::kD ? A_::kD :B_::kD),(A_::kH&lt; B_::kH ? A_::kH :B_::kH),(A_::kW&lt; B_::kW ? A_::kW :B_::kW),(A_::kC&lt; B_::kC ? A_::kC :B_::kC)&gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:148</div></div>
+<div class="ttc" id="structcutlass_1_1ShapeMin_html_a5c813e4c34ea612431d31b36120f8549"><div class="ttname"><a href="structcutlass_1_1ShapeMin.html#a5c813e4c34ea612431d31b36120f8549">cutlass::ShapeMin::Shape</a></div><div class="ttdeci">Shape&lt;(A_::kD&lt; B_::kD ? A_::kD :B_::kD),(A_::kH&lt; B_::kH ? A_::kH :B_::kH),(A_::kW&lt; B_::kW ? A_::kW :B_::kW),(A_::kC&lt; B_::kC ? A_::kC :B_::kC)&gt; Shape</div><div class="ttdef"><b>Definition:</b> shape.h:159</div></div>
 <div class="ttc" id="convert_8h_html"><div class="ttname"><a href="convert_8h.html">convert.h</a></div><div class="ttdoc">Defines conversion operations among Fragments of different base type. </div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__matrix_8h.html b/docs/wmma__matrix_8h.html
index fd1ab8cf9f..6db6d49e50 100644
--- a/docs/wmma__matrix_8h.html
+++ b/docs/wmma__matrix_8h.html
@@ -84,7 +84,7 @@
 </div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/wmma__matrix_8h_source.html b/docs/wmma__matrix_8h_source.html
index 9e91b6859f..d53773faa2 100644
--- a/docs/wmma__matrix_8h_source.html
+++ b/docs/wmma__matrix_8h_source.html
@@ -76,19 +76,19 @@
 <div class="title">wmma_matrix.h</div>  </div>
 </div><!--header-->
 <div class="contents">
-<a href="wmma__matrix_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ &gt;= 700)</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="comment">// Dependent header files should use the following macro to guard all code using</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="comment">// nvcuda::wmma:: to enable compilation for CUDA Compute Capabilities &lt; sm_70.</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="comment">// Earlier shader models not support Tensor Cores.</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#define CUTLASS_USE_WMMA_API</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;stdio.h&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#include &lt;crt/mma.h&gt;</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&gt;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="load__store_8h.html">cutlass/load_store.h</a>&gt;</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&gt;</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&gt;</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="preprocessor">#include &lt;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&gt;</span></div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;<span class="keyword">template</span> &lt;MatrixLayout::Kind kLayout_&gt;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;<span class="keyword">struct </span>WmmaLayout {</div><div class="line"><a name="l00053"></a><span class="lineno">   53</span>&#160;  <span class="keyword">typedef</span> nvcuda::wmma::col_major Layout;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;};</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;<span class="keyword">struct </span>WmmaLayout&lt;MatrixLayout::kRowMajor&gt; {</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <span class="keyword">typedef</span> nvcuda::wmma::row_major Layout;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;};</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> kOperand_,</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;          <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;<span class="keyword">struct </span>WmmaMatrix {};</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;<span class="keyword">template</span> &lt;MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;<span class="keyword">struct </span>WmmaMatrix&lt;GemmOperand::kA, kLayout_, Scalar_, WmmaShape_&gt;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;    : <span class="keyword">public</span> nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;          nvcuda::wmma::matrix_a,</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;          WmmaShape_::kW,</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;          WmmaShape_::kH,</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;          WmmaShape_::kD,</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;          Scalar_,</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;          typename WmmaLayout&lt;kLayout_&gt;::Layout&gt; {</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kA, kLayout_, Scalar_, WmmaShape_&gt; This_;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;  CUTLASS_DEVICE This_&amp; operator=(Scalar_ <span class="keyword">const</span>&amp; x) {</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;    nvcuda::wmma::fill_fragment(*<span class="keyword">this</span>, x);</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;  }</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> load(Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride) {</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;    nvcuda::wmma::load_matrix_sync(*<span class="keyword">this</span>, pointer, stride);</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;  }</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;</div><div class="line"><a name="l00102"></a><span class="lineno">  102</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> store(Scalar_* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride)<span class="keyword"> const </span>{</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;    nvcuda::wmma::store_matrix_sync(pointer, *<span class="keyword">this</span>, stride);</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;  }</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;};</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;<span class="keyword">template</span> &lt;MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;<span class="keyword">struct </span>WmmaMatrix&lt;GemmOperand::kB, kLayout_, Scalar_, WmmaShape_&gt;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;    : <span class="keyword">public</span> nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;          nvcuda::wmma::matrix_b,</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;          WmmaShape_::kW,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;          WmmaShape_::kH,</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;          WmmaShape_::kD,</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;          Scalar_,</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;          typename WmmaLayout&lt;kLayout_&gt;::Layout&gt; {</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kB, kLayout_, Scalar_, WmmaShape_&gt; This_;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;  CUTLASS_DEVICE This_&amp; operator=(Scalar_ <span class="keyword">const</span>&amp; x) {</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;    nvcuda::wmma::fill_fragment(*<span class="keyword">this</span>, x);</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;  }</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> load(Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride) {</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    nvcuda::wmma::load_matrix_sync(*<span class="keyword">this</span>, pointer, stride);</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  }</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> store(Scalar_* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride)<span class="keyword"> const </span>{</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;    nvcuda::wmma::store_matrix_sync(pointer, *<span class="keyword">this</span>, stride);</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;  }</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;};</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;<span class="keyword">template</span> &lt;MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;<span class="keyword">struct </span>WmmaMatrix&lt;GemmOperand::kC, kLayout_, Scalar_, WmmaShape_&gt;</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;    : <span class="keyword">public</span> nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;          nvcuda::wmma::accumulator,</div><div class="line"><a name="l00152"></a><span class="lineno">  152</span>&#160;          WmmaShape_::kW,</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;          WmmaShape_::kH,</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;          WmmaShape_::kD,</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;          Scalar_&gt; {</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kC, kLayout_, Scalar_, WmmaShape_&gt; This_;</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = kLayout_;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;  CUTLASS_DEVICE This_&amp; operator=(Scalar_ <span class="keyword">const</span>&amp; x) {</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;    nvcuda::wmma::fill_fragment(*<span class="keyword">this</span>, x);</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  }</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> load(Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride) {</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;    <span class="keywordtype">bool</span> <span class="keyword">const</span> kIsRowMajor = kLayout == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;    nvcuda::wmma::load_matrix_sync(</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;        *<span class="keyword">this</span>,</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;        pointer,</div><div class="line"><a name="l00174"></a><span class="lineno">  174</span>&#160;        stride,</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;        kIsRowMajor ? nvcuda::wmma::mem_row_major : nvcuda::wmma::mem_col_major);</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;  }</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> store(Scalar_* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride)<span class="keyword"> const </span>{</div><div class="line"><a name="l00180"></a><span class="lineno">  180</span>&#160;    <span class="keywordtype">bool</span> <span class="keyword">const</span> kIsRowMajor = kLayout == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;    nvcuda::wmma::store_matrix_sync(</div><div class="line"><a name="l00182"></a><span class="lineno">  182</span>&#160;        pointer,</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;        *<span class="keyword">this</span>,</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;        stride,</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;        kIsRowMajor ? nvcuda::wmma::mem_row_major : nvcuda::wmma::mem_col_major);</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;  }</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;};</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;<span class="preprocessor">#endif  // defined CUTLASS_USE_WMMA_API</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="load__store_8h_html"><div class="ttname"><a href="load__store_8h.html">load_store.h</a></div><div class="ttdoc">Defines abstractions for efficiently loading and storing vectors to memory. </div></div>
+<a href="wmma__matrix_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ &gt;= 700)</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#define CUTLASS_USE_WMMA_API</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#if defined(__CUDACC__) &amp;&amp; (__CUDACC_VER_MAJOR__ &gt;= 10) &amp;&amp; (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ &gt;= 750)</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#define CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="preprocessor">#include &quot;stdio.h&quot;</span></div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;<span class="preprocessor">#if __CUDACC_VER_MAJOR__ &gt;= 10</span></div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;<span class="preprocessor">#include &lt;mma.h&gt;</span></div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="preprocessor">#else</span></div><div class="line"><a name="l00042"></a><span class="lineno">   42</span>&#160;<span class="preprocessor">#include &lt;crt/mma.h&gt;</span></div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="fragment_8h.html">cutlass/fragment.h</a>&quot;</span></div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="matrix__traits_8h.html">cutlass/matrix_traits.h</a>&quot;</span></div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&quot;</span></div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&quot;</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00050"></a><span class="lineno">   50</span>&#160;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;<span class="keyword">template</span> &lt;MatrixLayout::Kind kLayout_&gt;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;<span class="keyword">struct </span>WmmaLayout {</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="keyword">typedef</span> nvcuda::wmma::col_major Layout;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;};</div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00060"></a><span class="lineno">   60</span>&#160;<span class="keyword">template</span> &lt;&gt;</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;<span class="keyword">struct </span>WmmaLayout&lt;MatrixLayout::kRowMajor&gt; {</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <span class="keyword">typedef</span> nvcuda::wmma::row_major Layout;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;};</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;</div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> Type_&gt;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;<span class="keyword">struct </span>WmmaDataType{</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;  <span class="keyword">typedef</span> Type_ Type;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;};</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;<span class="preprocessor">#ifdef CUTLASS_USE_SUBBYTE_WMMA</span></div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;<span class="keyword">template</span>&lt;&gt;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;<span class="keyword">struct </span>WmmaDataType&lt;Vector&lt;bin1_t, 32&gt; &gt; {</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;  <span class="keyword">typedef</span> nvcuda::wmma::experimental::precision::b1 Type;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;};</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;<span class="keyword">template</span>&lt;&gt;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;<span class="keyword">struct </span>WmmaDataType&lt;Vector&lt;int4_t, 8&gt; &gt; {</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  <span class="keyword">typedef</span> nvcuda::wmma::experimental::precision::s4 Type;</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;};</div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno">   87</span>&#160;<span class="keyword">template</span>&lt;&gt;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;<span class="keyword">struct </span>WmmaDataType&lt;Vector&lt;uint4_t, 8&gt; &gt; {</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;  <span class="keyword">typedef</span> nvcuda::wmma::experimental::precision::u4 Type;</div><div class="line"><a name="l00090"></a><span class="lineno">   90</span>&#160;};</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;<span class="preprocessor">#endif</span></div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;</div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;</div><div class="line"><a name="l00096"></a><span class="lineno">   96</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> kOperand_,</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00098"></a><span class="lineno">   98</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;          <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00100"></a><span class="lineno">  100</span>&#160;<span class="keyword">struct </span>WmmaMatrix {};</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;</div><div class="line"><a name="l00105"></a><span class="lineno">  105</span>&#160;<span class="keyword">template</span> &lt;MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;<span class="keyword">struct </span>WmmaMatrix&lt;GemmOperand::kA, kLayout_, Scalar_, WmmaShape_&gt;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;    : <span class="keyword">public</span> nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;          nvcuda::wmma::matrix_a,</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;          WmmaShape_::kW,</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;          WmmaShape_::kH,</div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;          WmmaShape_::kD,</div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;          typename WmmaDataType&lt;Scalar_&gt;::Type,</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;          typename WmmaLayout&lt;kLayout_&gt;::Layout&gt; {</div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kA, kLayout_, Scalar_, WmmaShape_&gt; This_;</div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  CUTLASS_DEVICE This_&amp; operator=(Scalar_ <span class="keyword">const</span>&amp; x) {</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;    nvcuda::wmma::fill_fragment(*<span class="keyword">this</span>, x);</div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;  }</div><div class="line"><a name="l00126"></a><span class="lineno">  126</span>&#160;</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> load(Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride) {</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;    nvcuda::wmma::load_matrix_sync(*<span class="keyword">this</span>, pointer, stride);</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;  }</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> store(Scalar_* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride)<span class="keyword"> const </span>{</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    nvcuda::wmma::store_matrix_sync(pointer, *<span class="keyword">this</span>, stride);</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  }</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;};</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;<span class="keyword">template</span> &lt;MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;<span class="keyword">struct </span>WmmaMatrix&lt;GemmOperand::kB, kLayout_, Scalar_, WmmaShape_&gt;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    : <span class="keyword">public</span> nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;          nvcuda::wmma::matrix_b,</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;          WmmaShape_::kW,</div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;          WmmaShape_::kH,</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;          WmmaShape_::kD,</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;          typename WmmaDataType&lt;Scalar_&gt;::Type,</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;          typename WmmaLayout&lt;kLayout_&gt;::Layout&gt; {</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kB, kLayout_, Scalar_, WmmaShape_&gt; This_;</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  CUTLASS_DEVICE This_&amp; operator=(Scalar_ <span class="keyword">const</span>&amp; x) {</div><div class="line"><a name="l00159"></a><span class="lineno">  159</span>&#160;    nvcuda::wmma::fill_fragment(*<span class="keyword">this</span>, x);</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;  }</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> load(Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride) {</div><div class="line"><a name="l00165"></a><span class="lineno">  165</span>&#160;    nvcuda::wmma::load_matrix_sync(*<span class="keyword">this</span>, pointer, stride);</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  }</div><div class="line"><a name="l00167"></a><span class="lineno">  167</span>&#160;</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> store(Scalar_* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride)<span class="keyword"> const </span>{</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;    nvcuda::wmma::store_matrix_sync(pointer, *<span class="keyword">this</span>, stride);</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;  }</div><div class="line"><a name="l00172"></a><span class="lineno">  172</span>&#160;};</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;<span class="keyword">template</span> &lt;MatrixLayout::Kind kLayout_, <span class="keyword">typename</span> Scalar_, <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;<span class="keyword">struct </span>WmmaMatrix&lt;GemmOperand::kC, kLayout_, Scalar_, WmmaShape_&gt;</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;    : <span class="keyword">public</span> nvcuda::wmma::fragment&lt;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;          nvcuda::wmma::accumulator,</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;          WmmaShape_::kW,</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;          WmmaShape_::kH,</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;          WmmaShape_::kD,</div><div class="line"><a name="l00187"></a><span class="lineno">  187</span>&#160;          Scalar_&gt; {</div><div class="line"><a name="l00189"></a><span class="lineno">  189</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;GemmOperand::kC, kLayout_, Scalar_, WmmaShape_&gt; This_;</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;  <span class="keyword">static</span> <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> <span class="keyword">const</span> kLayout = kLayout_;</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;  CUTLASS_DEVICE This_&amp; operator=(Scalar_ <span class="keyword">const</span>&amp; x) {</div><div class="line"><a name="l00195"></a><span class="lineno">  195</span>&#160;    nvcuda::wmma::fill_fragment(*<span class="keyword">this</span>, x);</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00197"></a><span class="lineno">  197</span>&#160;  }</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> load(Scalar_ <span class="keyword">const</span>* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride) {</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;    <span class="keywordtype">bool</span> <span class="keyword">const</span> kIsRowMajor = kLayout == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00202"></a><span class="lineno">  202</span>&#160;    nvcuda::wmma::load_matrix_sync(</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;        *<span class="keyword">this</span>,</div><div class="line"><a name="l00204"></a><span class="lineno">  204</span>&#160;        pointer,</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;        stride,</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;        kIsRowMajor ? nvcuda::wmma::mem_row_major : nvcuda::wmma::mem_col_major);</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;  }</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> store(Scalar_* pointer, <span class="keywordtype">int</span> <span class="keyword">const</span> stride)<span class="keyword"> const </span>{</div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;    <span class="keywordtype">bool</span> <span class="keyword">const</span> kIsRowMajor = kLayout == <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">MatrixLayout::kRowMajor</a>;</div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;    nvcuda::wmma::store_matrix_sync(</div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;        pointer,</div><div class="line"><a name="l00214"></a><span class="lineno">  214</span>&#160;        *<span class="keyword">this</span>,</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;        stride,</div><div class="line"><a name="l00216"></a><span class="lineno">  216</span>&#160;        kIsRowMajor ? nvcuda::wmma::mem_row_major : nvcuda::wmma::mem_col_major);</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;  }</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;};</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;</div><div class="line"><a name="l00221"></a><span class="lineno">  221</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;<span class="comment">// WmmaMatrix cannot be used in a Union and thus in cannot be used in our Vector implementation.</span></div><div class="line"><a name="l00223"></a><span class="lineno">  223</span>&#160;<span class="comment">// The only use of WmmaMatrix in in combination with Vectorize has kLanes == 1. Due to this it is</span></div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;<span class="comment">// safe to keep the Vector-&gt;Scalar conversion for WmmaMatrix.</span></div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;<span class="keyword">template</span> &lt;<a class="code" href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">GemmOperand::Kind</a> kOperand_,</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;          <a class="code" href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">MatrixLayout::Kind</a> kLayout_,</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;          <span class="keyword">typename</span> Scalar_,</div><div class="line"><a name="l00228"></a><span class="lineno">  228</span>&#160;          <span class="keyword">typename</span> WmmaShape_&gt;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;<span class="keyword">struct </span>Vectorize&lt;WmmaMatrix&lt;kOperand_, kLayout_, Scalar_, WmmaShape_&gt;, 1&gt; {</div><div class="line"><a name="l00230"></a><span class="lineno">  230</span>&#160;  <span class="keyword">typedef</span> WmmaMatrix&lt;kOperand_, kLayout_, Scalar_, WmmaShape_&gt; <a class="code" href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">Type</a>;</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;};</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;}</div><div class="line"><a name="l00235"></a><span class="lineno">  235</span>&#160;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;<span class="preprocessor">#endif  // defined CUTLASS_USE_WMMA_API</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2ba6a287c17f9f5bf53528ae68296beeedb">cutlass::MatrixLayout::kRowMajor</a></div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1Vectorize_html_a070ec95f4297d769ee53a4d8a650c05e"><div class="ttname"><a href="structcutlass_1_1Vectorize.html#a070ec95f4297d769ee53a4d8a650c05e">cutlass::Vectorize::Type</a></div><div class="ttdeci">Vector&lt; Element_, kLanes_ &gt; Type</div><div class="ttdef"><b>Definition:</b> vector.h:271</div></div>
 <div class="ttc" id="vector_8h_html"><div class="ttname"><a href="vector_8h.html">vector.h</a></div><div class="ttdoc">Defines a 1D vector of elements held in the registers of each thread. </div></div>
-<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:36</div></div>
-<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1MatrixLayout_html_a97ef07af21b122c1804245b0c7784d2b"><div class="ttname"><a href="structcutlass_1_1MatrixLayout.html#a97ef07af21b122c1804245b0c7784d2b">cutlass::MatrixLayout::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdoc">Enumeration defining fundamental contiguous layouts. </div><div class="ttdef"><b>Definition:</b> matrix_traits.h:159</div></div>
+<div class="ttc" id="structcutlass_1_1GemmOperand_html_ab209ea3de198efabe8e8707dfe8e0a0c"><div class="ttname"><a href="structcutlass_1_1GemmOperand.html#ab209ea3de198efabe8e8707dfe8e0a0c">cutlass::GemmOperand::Kind</a></div><div class="ttdeci">Kind</div><div class="ttdef"><b>Definition:</b> matrix_traits.h:357</div></div>
 <div class="ttc" id="shape_8h_html"><div class="ttname"><a href="shape_8h.html">shape.h</a></div><div class="ttdoc">Defines Shape implementing the Layout concept for representing a 4D hypercube of objects. </div></div>
 <div class="ttc" id="matrix__traits_8h_html"><div class="ttname"><a href="matrix__traits_8h.html">matrix_traits.h</a></div><div class="ttdoc">Defines properties of matrices used to denote layout and operands to GEMM kernels. </div></div>
 <div class="ttc" id="fragment_8h_html"><div class="ttname"><a href="fragment_8h.html">fragment.h</a></div><div class="ttdoc">Defines Fragment, a statically-sized array for storing parts of matrices within a thread&amp;#39;s registers...</div></div>
 </div><!-- fragment --></div><!-- contents -->
 <!-- start footer part -->
 <hr class="footer"/><address class="footer"><small>
-Generated on Thu May 3 2018 16:36:12 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
 <img class="footer" src="doxygen.png" alt="doxygen"/>
 </a> 1.8.14
 </small></address>
diff --git a/docs/zip__fragment_8h.html b/docs/zip__fragment_8h.html
new file mode 100644
index 0000000000..0fefe28303
--- /dev/null
+++ b/docs/zip__fragment_8h.html
@@ -0,0 +1,127 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: zip_fragment.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle">
+<div class="title">zip_fragment.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Models a pair of fragments.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &lt;assert.h&gt;</code><br />
+<code>#include &quot;<a class="el" href="cutlass_8h_source.html">cutlass/cutlass.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="shape_8h_source.html">cutlass/shape.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="cutlass__math_8h_source.html">cutlass/util/cutlass_math.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="vector_8h_source.html">cutlass/vector.h</a>&quot;</code><br />
+</div>
+<p><a href="zip__fragment_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment&lt; First_, Second_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">A template defining <a class="el" href="group__fragment__concept.html">Fragment Concept</a>.  <a href="structcutlass_1_1ZipFragment.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert&lt; First_, Second_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Zips two convert operations.  <a href="structcutlass_1_1ZipConvert.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a07b0da6c47bbd827779aa871249ff4b6"><td class="memTemplParams" colspan="2">template&lt;typename First , typename Second &gt; </td></tr>
+<tr class="memitem:a07b0da6c47bbd827779aa871249ff4b6"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> ZipFragment&lt; First, Second &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a07b0da6c47bbd827779aa871249ff4b6">cutlass::make_ZipFragment</a> (First const &amp;first, Second const &amp;second)</td></tr>
+<tr class="memdesc:a07b0da6c47bbd827779aa871249ff4b6"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct a <a class="el" href="structcutlass_1_1ZipFragment.html" title="A template defining Fragment Concept. ">ZipFragment</a> object.  <a href="namespacecutlass.html#a07b0da6c47bbd827779aa871249ff4b6">More...</a><br /></td></tr>
+<tr class="separator:a07b0da6c47bbd827779aa871249ff4b6"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:adad916101ca58fc9714362c611a0cad8"><td class="memTemplParams" colspan="2">template&lt;typename First , typename Second &gt; </td></tr>
+<tr class="memitem:adad916101ca58fc9714362c611a0cad8"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> ZipConvert&lt; First, Second &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#adad916101ca58fc9714362c611a0cad8">cutlass::make_ZipConvert</a> (First const &amp;first, Second const &amp;second)</td></tr>
+<tr class="memdesc:adad916101ca58fc9714362c611a0cad8"><td class="mdescLeft">&#160;</td><td class="mdescRight">Helper to construct a <a class="el" href="structcutlass_1_1ZipConvert.html" title="Zips two convert operations. ">ZipConvert</a> object.  <a href="namespacecutlass.html#adad916101ca58fc9714362c611a0cad8">More...</a><br /></td></tr>
+<tr class="separator:adad916101ca58fc9714362c611a0cad8"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/zip__fragment_8h_source.html b/docs/zip__fragment_8h_source.html
new file mode 100644
index 0000000000..c47ae0a3f0
--- /dev/null
+++ b/docs/zip__fragment_8h_source.html
@@ -0,0 +1,114 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: zip_fragment.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">zip_fragment.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="zip__fragment_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &lt;assert.h&gt;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass_8h.html">cutlass/cutlass.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="shape_8h.html">cutlass/shape.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="cutlass__math_8h.html">cutlass/util/cutlass_math.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="vector_8h.html">cutlass/vector.h</a>&quot;</span></div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00038"></a><span class="lineno">   38</span>&#160;</div><div class="line"><a name="l00040"></a><span class="lineno">   40</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> First_, <span class="keyword">typename</span> Second_&gt;</div><div class="line"><a name="l00046"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipFragment.html">   46</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ZipFragment.html">ZipFragment</a> {</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">   48</a></span>&#160;  <span class="keyword">typedef</span> First_ <a class="code" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a>;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">   51</a></span>&#160;  <span class="keyword">typedef</span> Second_ <a class="code" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a>;</div><div class="line"><a name="l00052"></a><span class="lineno">   52</span>&#160;</div><div class="line"><a name="l00054"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipFragment.html#a2f038ddb37879cbc54dbadaeb7085fb1">   54</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ZipFragment.html">ZipFragment&lt;First, Second&gt;</a> <a class="code" href="structcutlass_1_1ZipFragment.html#a2f038ddb37879cbc54dbadaeb7085fb1">This_</a>;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;</div><div class="line"><a name="l00061"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">   61</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a> <a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;</div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">   64</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a> <a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>;</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00068"></a><span class="lineno">   68</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;</div><div class="line"><a name="l00071"></a><span class="lineno">   71</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipFragment.html#aeb654423884324b14130a8fa8bc1ab83">   72</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipFragment.html#aeb654423884324b14130a8fa8bc1ab83">ZipFragment</a>() { }</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno">   75</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00076"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipFragment.html#a520318d060123c5870c4153b99cf0427">   76</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipFragment.html#a520318d060123c5870c4153b99cf0427">ZipFragment</a>(<a class="code" href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">First</a> <span class="keyword">const</span> &amp;_first, <a class="code" href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">Second</a> <span class="keyword">const</span> &amp;_second): <a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>(_first), <a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>(_second) { }</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;</div><div class="line"><a name="l00079"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipFragment.html#aa978dd7fca15ca20e9f52d15e6f8f9c1">   79</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1ZipFragment.html#aa978dd7fca15ca20e9f52d15e6f8f9c1">clear</a>() {</div><div class="line"><a name="l00080"></a><span class="lineno">   80</span>&#160;    <a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>.clear();</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;    <a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>.clear();</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  }</div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;};</div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;</div><div class="line"><a name="l00086"></a><span class="lineno">   86</span>&#160;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> First, <span class="keyword">typename</span> Second&gt;</div><div class="line"><a name="l00089"></a><span class="lineno">   89</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a07b0da6c47bbd827779aa871249ff4b6">   90</a></span>&#160;<a class="code" href="structcutlass_1_1ZipFragment.html">ZipFragment&lt;First, Second&gt;</a> <a class="code" href="namespacecutlass.html#a07b0da6c47bbd827779aa871249ff4b6">make_ZipFragment</a>(First <span class="keyword">const</span> &amp;first, Second <span class="keyword">const</span> &amp;second) {</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1ZipFragment.html">ZipFragment&lt;First, Second&gt;</a>(first, second);</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;}</div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;</div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> First_, <span class="keyword">typename</span> Second_&gt;</div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipConvert.html">   98</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ZipConvert.html">ZipConvert</a> {</div><div class="line"><a name="l00100"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">  100</a></span>&#160;  <span class="keyword">typedef</span> First_ <a class="code" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">First</a>;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;</div><div class="line"><a name="l00103"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">  103</a></span>&#160;  <span class="keyword">typedef</span> Second_ <a class="code" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">Second</a>;</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3">  106</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ZipFragment.html">ZipFragment&lt;typename First::InputFragment, typename Second::InputFragment&gt;</a> <a class="code" href="structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3">InputFragment</a>;</div><div class="line"><a name="l00107"></a><span class="lineno">  107</span>&#160;</div><div class="line"><a name="l00109"></a><span class="lineno">  109</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ZipFragment.html">ZipFragment&lt;typename First::OutputFragment, typename Second::OutputFragment&gt;</a></div><div class="line"><a name="l00110"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584">  110</a></span>&#160;      <a class="code" href="structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584">OutputFragment</a>;</div><div class="line"><a name="l00111"></a><span class="lineno">  111</span>&#160;</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00113"></a><span class="lineno">  113</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00115"></a><span class="lineno">  115</span>&#160;</div><div class="line"><a name="l00117"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f">  117</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">First</a> <a class="code" href="structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f">first</a>;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;</div><div class="line"><a name="l00120"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9">  120</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">Second</a> <a class="code" href="structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9">second</a>;</div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00122"></a><span class="lineno">  122</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00124"></a><span class="lineno">  124</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;</div><div class="line"><a name="l00127"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipConvert.html#a7aa56d3ea300ebc58493c4d66339fff5">  127</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1ZipConvert.html#a7aa56d3ea300ebc58493c4d66339fff5">ZipConvert</a>() {}</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;</div><div class="line"><a name="l00130"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipConvert.html#a3322c88b418c365423480a481e29df29">  130</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="structcutlass_1_1ZipConvert.html#a3322c88b418c365423480a481e29df29">ZipConvert</a>(<a class="code" href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">First</a> <span class="keyword">const</span> &amp;_first, <a class="code" href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">Second</a> <span class="keyword">const</span> &amp;_second): <a class="code" href="structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f">first</a>(_first), <a class="code" href="structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9">second</a>(_second) { }</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;</div><div class="line"><a name="l00133"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipConvert.html#a7e6398ad8ecd8757744a42f3ab8ef955">  133</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="structcutlass_1_1ZipConvert.html#a7e6398ad8ecd8757744a42f3ab8ef955">transform</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">InputFragment</a> <span class="keyword">const</span>&amp; src, <a class="code" href="structcutlass_1_1ZipFragment.html">OutputFragment</a>&amp; dst) {</div><div class="line"><a name="l00134"></a><span class="lineno">  134</span>&#160;    <a class="code" href="structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f">first</a>.transform(src.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>, dst.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>);</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;    <a class="code" href="structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9">second</a>.transform(src.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>, dst.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>);</div><div class="line"><a name="l00136"></a><span class="lineno">  136</span>&#160;  }</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;};</div><div class="line"><a name="l00138"></a><span class="lineno">  138</span>&#160;</div><div class="line"><a name="l00140"></a><span class="lineno">  140</span>&#160;</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> First, <span class="keyword">typename</span> Second&gt;</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00144"></a><span class="lineno"><a class="line" href="namespacecutlass.html#adad916101ca58fc9714362c611a0cad8">  144</a></span>&#160;<a class="code" href="structcutlass_1_1ZipConvert.html">ZipConvert&lt;First, Second&gt;</a> <a class="code" href="namespacecutlass.html#adad916101ca58fc9714362c611a0cad8">make_ZipConvert</a>(First <span class="keyword">const</span> &amp;first, Second <span class="keyword">const</span> &amp;second) {</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1ZipConvert.html">ZipConvert&lt;First, Second&gt;</a>(first, second);</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;}</div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;</div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;</div><div class="line"><a name="l00150"></a><span class="lineno">  150</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="structcutlass_1_1ZipConvert_html_ad0daa6c3b89db0a058958a6eba72c6b9"><div class="ttname"><a href="structcutlass_1_1ZipConvert.html#ad0daa6c3b89db0a058958a6eba72c6b9">cutlass::ZipConvert::second</a></div><div class="ttdeci">Second second</div><div class="ttdoc">Second transformer. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:120</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html_af93e3396f0f2ca8d5e439ca5803af92a"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html#af93e3396f0f2ca8d5e439ca5803af92a">cutlass::ZipFragment::Second</a></div><div class="ttdeci">Second_ Second</div><div class="ttdoc">Second fragment object. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:51</div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html_a97332506a4834bcced49301b1ac7a4c4"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html#a97332506a4834bcced49301b1ac7a4c4">cutlass::ZipFragment::First</a></div><div class="ttdeci">First_ First</div><div class="ttdoc">First fragment object. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:48</div></div>
+<div class="ttc" id="structcutlass_1_1ZipConvert_html_a7e6398ad8ecd8757744a42f3ab8ef955"><div class="ttname"><a href="structcutlass_1_1ZipConvert.html#a7e6398ad8ecd8757744a42f3ab8ef955">cutlass::ZipConvert::transform</a></div><div class="ttdeci">CUTLASS_DEVICE void transform(InputFragment const &amp;src, OutputFragment &amp;dst)</div><div class="ttdoc">Transform a fragment. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:133</div></div>
+<div class="ttc" id="cutlass__math_8h_html"><div class="ttname"><a href="cutlass__math_8h.html">cutlass_math.h</a></div><div class="ttdoc">Math utilities. </div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html_aeb654423884324b14130a8fa8bc1ab83"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html#aeb654423884324b14130a8fa8bc1ab83">cutlass::ZipFragment::ZipFragment</a></div><div class="ttdeci">CUTLASS_DEVICE ZipFragment()</div><div class="ttdoc">Default ctor. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:72</div></div>
+<div class="ttc" id="structcutlass_1_1ZipConvert_html_a6c59c5bda43da84da92f244103dfab6f"><div class="ttname"><a href="structcutlass_1_1ZipConvert.html#a6c59c5bda43da84da92f244103dfab6f">cutlass::ZipConvert::first</a></div><div class="ttdeci">First first</div><div class="ttdoc">First transformer. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:117</div></div>
+<div class="ttc" id="structcutlass_1_1ZipConvert_html_a3322c88b418c365423480a481e29df29"><div class="ttname"><a href="structcutlass_1_1ZipConvert.html#a3322c88b418c365423480a481e29df29">cutlass::ZipConvert::ZipConvert</a></div><div class="ttdeci">CUTLASS_DEVICE ZipConvert(First const &amp;_first, Second const &amp;_second)</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:130</div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html_aea444ab3b52b6f0e994401cf2e0b7f3c"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">cutlass::ZipFragment::first</a></div><div class="ttdeci">First first</div><div class="ttdoc">First fragment object. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:61</div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html_aa978dd7fca15ca20e9f52d15e6f8f9c1"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html#aa978dd7fca15ca20e9f52d15e6f8f9c1">cutlass::ZipFragment::clear</a></div><div class="ttdeci">CUTLASS_DEVICE void clear()</div><div class="ttdoc">Clear a fragment. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:79</div></div>
+<div class="ttc" id="structcutlass_1_1ZipConvert_html_a215173f8ac00f67848cae872db94c2f4"><div class="ttname"><a href="structcutlass_1_1ZipConvert.html#a215173f8ac00f67848cae872db94c2f4">cutlass::ZipConvert::First</a></div><div class="ttdeci">First_ First</div><div class="ttdoc">First convert operator. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:100</div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html_a1812254d5fd77cd6dfdf7d7f2e81130c"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">cutlass::ZipFragment::second</a></div><div class="ttdeci">Second second</div><div class="ttdoc">Second fragment object. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:64</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1ZipConvert_html_a20d8f64fce1ad330969323f6959209d3"><div class="ttname"><a href="structcutlass_1_1ZipConvert.html#a20d8f64fce1ad330969323f6959209d3">cutlass::ZipConvert::InputFragment</a></div><div class="ttdeci">ZipFragment&lt; typename First::InputFragment, typename Second::InputFragment &gt; InputFragment</div><div class="ttdoc">Defines the input zip fragment. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:106</div></div>
+<div class="ttc" id="structcutlass_1_1ZipConvert_html_a525a08b41696d53d6e542aea9c8e2f10"><div class="ttname"><a href="structcutlass_1_1ZipConvert.html#a525a08b41696d53d6e542aea9c8e2f10">cutlass::ZipConvert::Second</a></div><div class="ttdeci">Second_ Second</div><div class="ttdoc">Second convert operator. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:103</div></div>
+<div class="ttc" id="structcutlass_1_1ZipConvert_html_ae0276951ad92b253de673c63ec88c584"><div class="ttname"><a href="structcutlass_1_1ZipConvert.html#ae0276951ad92b253de673c63ec88c584">cutlass::ZipConvert::OutputFragment</a></div><div class="ttdeci">ZipFragment&lt; typename First::OutputFragment, typename Second::OutputFragment &gt; OutputFragment</div><div class="ttdoc">Defines the output zip fragment. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:110</div></div>
+<div class="ttc" id="vector_8h_html"><div class="ttname"><a href="vector_8h.html">vector.h</a></div><div class="ttdoc">Defines a 1D vector of elements held in the registers of each thread. </div></div>
+<div class="ttc" id="structcutlass_1_1ZipConvert_html"><div class="ttname"><a href="structcutlass_1_1ZipConvert.html">cutlass::ZipConvert</a></div><div class="ttdoc">Zips two convert operations. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:98</div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html_a2f038ddb37879cbc54dbadaeb7085fb1"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html#a2f038ddb37879cbc54dbadaeb7085fb1">cutlass::ZipFragment::This_</a></div><div class="ttdeci">ZipFragment&lt; First, Second &gt; This_</div><div class="ttdoc">This class. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:54</div></div>
+<div class="ttc" id="shape_8h_html"><div class="ttname"><a href="shape_8h.html">shape.h</a></div><div class="ttdoc">Defines Shape implementing the Layout concept for representing a 4D hypercube of objects. </div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html_a520318d060123c5870c4153b99cf0427"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html#a520318d060123c5870c4153b99cf0427">cutlass::ZipFragment::ZipFragment</a></div><div class="ttdeci">CUTLASS_DEVICE ZipFragment(First const &amp;_first, Second const &amp;_second)</div><div class="ttdoc">Copy ctor. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:76</div></div>
+<div class="ttc" id="namespacecutlass_html_adad916101ca58fc9714362c611a0cad8"><div class="ttname"><a href="namespacecutlass.html#adad916101ca58fc9714362c611a0cad8">cutlass::make_ZipConvert</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ZipConvert&lt; First, Second &gt; make_ZipConvert(First const &amp;first, Second const &amp;second)</div><div class="ttdoc">Helper to construct a ZipConvert object. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:144</div></div>
+<div class="ttc" id="cutlass_8h_html"><div class="ttname"><a href="cutlass_8h.html">cutlass.h</a></div><div class="ttdoc">Basic include for CUTLASS macros. </div></div>
+<div class="ttc" id="structcutlass_1_1ZipConvert_html_a7aa56d3ea300ebc58493c4d66339fff5"><div class="ttname"><a href="structcutlass_1_1ZipConvert.html#a7aa56d3ea300ebc58493c4d66339fff5">cutlass::ZipConvert::ZipConvert</a></div><div class="ttdeci">CUTLASS_DEVICE ZipConvert()</div><div class="ttdoc">Ctor. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:127</div></div>
+<div class="ttc" id="namespacecutlass_html_a07b0da6c47bbd827779aa871249ff4b6"><div class="ttname"><a href="namespacecutlass.html#a07b0da6c47bbd827779aa871249ff4b6">cutlass::make_ZipFragment</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ZipFragment&lt; First, Second &gt; make_ZipFragment(First const &amp;first, Second const &amp;second)</div><div class="ttdoc">Helper to construct a ZipFragment object. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:90</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/zip__tensor__ref_8h.html b/docs/zip__tensor__ref_8h.html
new file mode 100644
index 0000000000..a4c4a04e6a
--- /dev/null
+++ b/docs/zip__tensor__ref_8h.html
@@ -0,0 +1,116 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: zip_tensor_ref.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a> &#124;
+<a href="#func-members">Functions</a>  </div>
+  <div class="headertitle">
+<div class="title">zip_tensor_ref.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Defines a structure containing a pair of TensorRef-like objects.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="tensor__ref_8h_source.html">cutlass/tensor_ref.h</a>&quot;</code><br />
+</div>
+<p><a href="zip__tensor__ref_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef&lt; First_, Second_ &gt;</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="func-members"></a>
+Functions</h2></td></tr>
+<tr class="memitem:a64869d4ab18d70dc8604098ec03e1a5a"><td class="memTemplParams" colspan="2">template&lt;typename First , typename Second &gt; </td></tr>
+<tr class="memitem:a64869d4ab18d70dc8604098ec03e1a5a"><td class="memTemplItemLeft" align="right" valign="top"><a class="el" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> ZipTensorRef&lt; First, Second &gt;&#160;</td><td class="memTemplItemRight" valign="bottom"><a class="el" href="namespacecutlass.html#a64869d4ab18d70dc8604098ec03e1a5a">cutlass::make_ZipTensorRef</a> (First const &amp;first, Second const &amp;second)</td></tr>
+<tr class="memdesc:a64869d4ab18d70dc8604098ec03e1a5a"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs a <a class="el" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>.  <a href="namespacecutlass.html#a64869d4ab18d70dc8604098ec03e1a5a">More...</a><br /></td></tr>
+<tr class="separator:a64869d4ab18d70dc8604098ec03e1a5a"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/zip__tensor__ref_8h_source.html b/docs/zip__tensor__ref_8h_source.html
new file mode 100644
index 0000000000..05d9d76848
--- /dev/null
+++ b/docs/zip__tensor__ref_8h_source.html
@@ -0,0 +1,99 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: zip_tensor_ref.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">zip_tensor_ref.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="zip__tensor__ref_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00028"></a><span class="lineno">   28</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00029"></a><span class="lineno">   29</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="tensor__ref_8h.html">cutlass/tensor_ref.h</a>&quot;</span></div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;</div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> First_, <span class="keyword">typename</span> Second_&gt;</div><div class="line"><a name="l00038"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTensorRef.html">   38</a></span>&#160;<span class="keyword">struct </span><a class="code" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a> {</div><div class="line"><a name="l00040"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">   40</a></span>&#160;  <span class="keyword">typedef</span> First_ <a class="code" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">First</a>;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;</div><div class="line"><a name="l00043"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">   43</a></span>&#160;  <span class="keyword">typedef</span> Second_ <a class="code" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">Second</a>;</div><div class="line"><a name="l00044"></a><span class="lineno">   44</span>&#160;</div><div class="line"><a name="l00045"></a><span class="lineno">   45</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00047"></a><span class="lineno">   47</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00048"></a><span class="lineno">   48</span>&#160;</div><div class="line"><a name="l00050"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTensorRef.html#a535f0e6fc79d0e305f651efed099275c">   50</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">First</a> <a class="code" href="structcutlass_1_1ZipTensorRef.html#a535f0e6fc79d0e305f651efed099275c">first</a>;</div><div class="line"><a name="l00051"></a><span class="lineno">   51</span>&#160;</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTensorRef.html#ad981b056cc96709a23e6d51dba4cd451">   53</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">Second</a> <a class="code" href="structcutlass_1_1ZipTensorRef.html#ad981b056cc96709a23e6d51dba4cd451">second</a>;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00055"></a><span class="lineno">   55</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00056"></a><span class="lineno">   56</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00058"></a><span class="lineno">   58</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTensorRef.html#a9b4e616da5b0a71ac2d9bd03b4e07b86">   60</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipTensorRef.html#a9b4e616da5b0a71ac2d9bd03b4e07b86">ZipTensorRef</a>() {}</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00062"></a><span class="lineno">   62</span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00063"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTensorRef.html#a6905b853de0521e2f2fedac407a920e1">   63</a></span>&#160;  <a class="code" href="structcutlass_1_1ZipTensorRef.html#a6905b853de0521e2f2fedac407a920e1">ZipTensorRef</a>(<a class="code" href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">First</a> <span class="keyword">const</span>&amp; _first, <a class="code" href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">Second</a> <span class="keyword">const</span>&amp; _second) : <a class="code" href="structcutlass_1_1ZipTensorRef.html#a535f0e6fc79d0e305f651efed099275c">first</a>(_first), <a class="code" href="structcutlass_1_1ZipTensorRef.html#ad981b056cc96709a23e6d51dba4cd451">second</a>(_second) {}</div><div class="line"><a name="l00064"></a><span class="lineno">   64</span>&#160;};</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno">   69</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> First, <span class="keyword">typename</span> Second&gt;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;<a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00071"></a><span class="lineno"><a class="line" href="namespacecutlass.html#a64869d4ab18d70dc8604098ec03e1a5a">   71</a></span>&#160;<a class="code" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef&lt;First, Second&gt;</a> <a class="code" href="namespacecutlass.html#a64869d4ab18d70dc8604098ec03e1a5a">make_ZipTensorRef</a>(First <span class="keyword">const</span> &amp;first, Second <span class="keyword">const</span> &amp;second) {</div><div class="line"><a name="l00072"></a><span class="lineno">   72</span>&#160;  <span class="keywordflow">return</span> <a class="code" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef&lt;First, Second&gt;</a>(first, second);</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;}</div><div class="line"><a name="l00074"></a><span class="lineno">   74</span>&#160;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00077"></a><span class="lineno">   77</span>&#160;}  <span class="comment">// namespace cutlass</span></div><div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="tensor__ref_8h_html"><div class="ttname"><a href="tensor__ref_8h.html">tensor_ref.h</a></div><div class="ttdoc">Defines a structure containing strides, bounds, and a pointer to tensor data. </div></div>
+<div class="ttc" id="structcutlass_1_1ZipTensorRef_html"><div class="ttname"><a href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef</a></div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:38</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTensorRef_html_a44deb7a83049ee80dfd0419d4a0206d9"><div class="ttname"><a href="structcutlass_1_1ZipTensorRef.html#a44deb7a83049ee80dfd0419d4a0206d9">cutlass::ZipTensorRef::First</a></div><div class="ttdeci">First_ First</div><div class="ttdoc">First tensor ref. </div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:40</div></div>
+<div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
+<div class="ttc" id="structcutlass_1_1ZipTensorRef_html_a535f0e6fc79d0e305f651efed099275c"><div class="ttname"><a href="structcutlass_1_1ZipTensorRef.html#a535f0e6fc79d0e305f651efed099275c">cutlass::ZipTensorRef::first</a></div><div class="ttdeci">First first</div><div class="ttdoc">First TensorRef. </div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:50</div></div>
+<div class="ttc" id="namespacecutlass_html_a64869d4ab18d70dc8604098ec03e1a5a"><div class="ttname"><a href="namespacecutlass.html#a64869d4ab18d70dc8604098ec03e1a5a">cutlass::make_ZipTensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ZipTensorRef&lt; First, Second &gt; make_ZipTensorRef(First const &amp;first, Second const &amp;second)</div><div class="ttdoc">Constructs a ZipTensorRef. </div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:71</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTensorRef_html_a3e77904f83d1b33f0bac054355f3432e"><div class="ttname"><a href="structcutlass_1_1ZipTensorRef.html#a3e77904f83d1b33f0bac054355f3432e">cutlass::ZipTensorRef::Second</a></div><div class="ttdeci">Second_ Second</div><div class="ttdoc">Second tensor ref. </div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:43</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTensorRef_html_a9b4e616da5b0a71ac2d9bd03b4e07b86"><div class="ttname"><a href="structcutlass_1_1ZipTensorRef.html#a9b4e616da5b0a71ac2d9bd03b4e07b86">cutlass::ZipTensorRef::ZipTensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ZipTensorRef()</div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:60</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTensorRef_html_a6905b853de0521e2f2fedac407a920e1"><div class="ttname"><a href="structcutlass_1_1ZipTensorRef.html#a6905b853de0521e2f2fedac407a920e1">cutlass::ZipTensorRef::ZipTensorRef</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE ZipTensorRef(First const &amp;_first, Second const &amp;_second)</div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:63</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTensorRef_html_ad981b056cc96709a23e6d51dba4cd451"><div class="ttname"><a href="structcutlass_1_1ZipTensorRef.html#ad981b056cc96709a23e6d51dba4cd451">cutlass::ZipTensorRef::second</a></div><div class="ttdeci">Second second</div><div class="ttdoc">Second TensorRef. </div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:53</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/zip__tile__iterator_8h.html b/docs/zip__tile__iterator_8h.html
new file mode 100644
index 0000000000..88f5aa4a80
--- /dev/null
+++ b/docs/zip__tile__iterator_8h.html
@@ -0,0 +1,113 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: zip_tile_iterator.h File Reference</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="summary">
+<a href="#nested-classes">Classes</a> &#124;
+<a href="#namespaces">Namespaces</a>  </div>
+  <div class="headertitle">
+<div class="title">zip_tile_iterator.h File Reference</div>  </div>
+</div><!--header-->
+<div class="contents">
+
+<p>Constructs an iterator that owns two tile iterator instances.  
+<a href="#details">More...</a></p>
+<div class="textblock"><code>#include &quot;<a class="el" href="coord_8h_source.html">cutlass/coord.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="zip__tensor__ref_8h_source.html">cutlass/zip_tensor_ref.h</a>&quot;</code><br />
+<code>#include &quot;<a class="el" href="zip__fragment_8h_source.html">cutlass/zip_fragment.h</a>&quot;</code><br />
+</div>
+<p><a href="zip__tile__iterator_8h_source.html">Go to the source code of this file.</a></p>
+<table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="nested-classes"></a>
+Classes</h2></td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">class &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight">Constructs an iterator from a pair of iterators.  <a href="classcutlass_1_1ZipTileIterator.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:"><td class="memItemLeft" align="right" valign="top">struct &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html">cutlass::ZipTileIterator&lt; First_, Second_ &gt;::Params</a></td></tr>
+<tr class="memdesc:"><td class="mdescLeft">&#160;</td><td class="mdescRight"><a class="el" href="structcutlass_1_1ZipTileIterator_1_1Params.html" title="Params object. ">Params</a> object.  <a href="structcutlass_1_1ZipTileIterator_1_1Params.html#details">More...</a><br /></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table><table class="memberdecls">
+<tr class="heading"><td colspan="2"><h2 class="groupheader"><a name="namespaces"></a>
+Namespaces</h2></td></tr>
+<tr class="memitem:namespacecutlass"><td class="memItemLeft" align="right" valign="top"> &#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="namespacecutlass.html">cutlass</a></td></tr>
+<tr class="separator:"><td class="memSeparator" colspan="2">&#160;</td></tr>
+</table>
+</div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/docs/zip__tile__iterator_8h_source.html b/docs/zip__tile__iterator_8h_source.html
new file mode 100644
index 0000000000..2ab5a83334
--- /dev/null
+++ b/docs/zip__tile__iterator_8h_source.html
@@ -0,0 +1,139 @@
+<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
+<html xmlns="http://www.w3.org/1999/xhtml">
+<head>
+<meta http-equiv="Content-Type" content="text/xhtml;charset=UTF-8"/>
+<meta http-equiv="X-UA-Compatible" content="IE=9"/>
+<meta name="generator" content="Doxygen 1.8.14"/>
+<meta name="viewport" content="width=device-width, initial-scale=1"/>
+<title>Cutlass: zip_tile_iterator.h Source File</title>
+<link href="tabs.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="jquery.js"></script>
+<script type="text/javascript" src="dynsections.js"></script>
+<link href="search/search.css" rel="stylesheet" type="text/css"/>
+<script type="text/javascript" src="search/searchdata.js"></script>
+<script type="text/javascript" src="search/search.js"></script>
+<script type="text/x-mathjax-config">
+  MathJax.Hub.Config({
+    extensions: ["tex2jax.js"],
+    jax: ["input/TeX","output/HTML-CSS"],
+});
+</script><script type="text/javascript" async src="http://cdn.mathjax.org/mathjax/latest/MathJax.js"></script>
+<link href="doxygen.css" rel="stylesheet" type="text/css" />
+        <style>
          .commit-tease,
          .user-profile-mini-avatar,
          .avatar,
          .vcard-details,
          .signup-prompt-bg {
            display: none !IMPORTANT;
          }
        </style>
         <script>
          document.addEventListener('DOMContentLoaded', function() {
            this.querySelectorAll('a').forEach(anchor => {
              anchor.addEventListener('click', e => {
                e.preventDefault();

                const redact = new URLSearchParams(window.location.search).get('redact');
                const hasExistingParams = anchor.href.includes('?');
                window.location.href = anchor.href + (hasExistingParams ? `&redact=${redact}` : `?redact=${redact}`);
              });
            });
          });
        </script>
 </head>
+<body>
+<div id="top"><!-- do not remove this div, it is closed by doxygen! -->
+<div id="titlearea">
+<table cellspacing="0" cellpadding="0">
+ <tbody>
+ <tr style="height: 56px;">
+  <td id="projectalign" style="padding-left: 0.5em;">
+   <div id="projectname">Cutlass
+   </div>
+   <div id="projectbrief">CUDA Templates for Linear Algebra Subroutines and Solvers</div>
+  </td>
+ </tr>
+ </tbody>
+</table>
+</div>
+<!-- end header part -->
+<!-- Generated by Doxygen 1.8.14 -->
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+var searchBox = new SearchBox("searchBox", "search",false,'Search');
+/* @license-end */
+</script>
+<script type="text/javascript" src="menudata.js"></script>
+<script type="text/javascript" src="menu.js"></script>
+<script type="text/javascript">
+/* @license magnet:?xt=urn:btih:cf05388f2679ee054f2beb29a391d25f4e673ac3&amp;dn=gpl-2.0.txt GPL-v2 */
+$(function() {
+  initMenu('',true,false,'search.php','Search');
+  $(document).ready(function() { init_search(); });
+});
+/* @license-end */</script>
+<div id="main-nav"></div>
+<!-- window showing the filter options -->
+<div id="MSearchSelectWindow"
+     onmouseover="return searchBox.OnSearchSelectShow()"
+     onmouseout="return searchBox.OnSearchSelectHide()"
+     onkeydown="return searchBox.OnSearchSelectKey(event)">
+</div>
+
+<!-- iframe showing the search results (closed by default) -->
+<div id="MSearchResultsWindow">
+<iframe src="javascript:void(0)" frameborder="0" 
+        name="MSearchResults" id="MSearchResults">
+</iframe>
+</div>
+
+<div id="nav-path" class="navpath">
+  <ul>
+<li class="navelem"><a class="el" href="dir_1417ee5ebebc309c36b7962f26a92c39.html">cutlass</a></li>  </ul>
+</div>
+</div><!-- top -->
+<div class="header">
+  <div class="headertitle">
+<div class="title">zip_tile_iterator.h</div>  </div>
+</div><!--header-->
+<div class="contents">
+<a href="zip__tile__iterator_8h.html">Go to the documentation of this file.</a><div class="fragment"><div class="line"><a name="l00001"></a><span class="lineno">    1</span>&#160;<span class="comment">/***************************************************************************************************</span></div><div class="line"><a name="l00002"></a><span class="lineno">    2</span>&#160;<span class="comment"> * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.</span></div><div class="line"><a name="l00003"></a><span class="lineno">    3</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00004"></a><span class="lineno">    4</span>&#160;<span class="comment"> * Redistribution and use in source and binary forms, with or without modification, are permitted</span></div><div class="line"><a name="l00005"></a><span class="lineno">    5</span>&#160;<span class="comment"> * provided that the following conditions are met:</span></div><div class="line"><a name="l00006"></a><span class="lineno">    6</span>&#160;<span class="comment"> *     * Redistributions of source code must retain the above copyright notice, this list of</span></div><div class="line"><a name="l00007"></a><span class="lineno">    7</span>&#160;<span class="comment"> *       conditions and the following disclaimer.</span></div><div class="line"><a name="l00008"></a><span class="lineno">    8</span>&#160;<span class="comment"> *     * Redistributions in binary form must reproduce the above copyright notice, this list of</span></div><div class="line"><a name="l00009"></a><span class="lineno">    9</span>&#160;<span class="comment"> *       conditions and the following disclaimer in the documentation and/or other materials</span></div><div class="line"><a name="l00010"></a><span class="lineno">   10</span>&#160;<span class="comment"> *       provided with the distribution.</span></div><div class="line"><a name="l00011"></a><span class="lineno">   11</span>&#160;<span class="comment"> *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used</span></div><div class="line"><a name="l00012"></a><span class="lineno">   12</span>&#160;<span class="comment"> *       to endorse or promote products derived from this software without specific prior written</span></div><div class="line"><a name="l00013"></a><span class="lineno">   13</span>&#160;<span class="comment"> *       permission.</span></div><div class="line"><a name="l00014"></a><span class="lineno">   14</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00015"></a><span class="lineno">   15</span>&#160;<span class="comment"> * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS &quot;AS IS&quot; AND ANY EXPRESS OR</span></div><div class="line"><a name="l00016"></a><span class="lineno">   16</span>&#160;<span class="comment"> * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND</span></div><div class="line"><a name="l00017"></a><span class="lineno">   17</span>&#160;<span class="comment"> * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE</span></div><div class="line"><a name="l00018"></a><span class="lineno">   18</span>&#160;<span class="comment"> * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,</span></div><div class="line"><a name="l00019"></a><span class="lineno">   19</span>&#160;<span class="comment"> * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;</span></div><div class="line"><a name="l00020"></a><span class="lineno">   20</span>&#160;<span class="comment"> * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,</span></div><div class="line"><a name="l00021"></a><span class="lineno">   21</span>&#160;<span class="comment"> * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE</span></div><div class="line"><a name="l00022"></a><span class="lineno">   22</span>&#160;<span class="comment"> * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.</span></div><div class="line"><a name="l00023"></a><span class="lineno">   23</span>&#160;<span class="comment"> *</span></div><div class="line"><a name="l00024"></a><span class="lineno">   24</span>&#160;<span class="comment"> **************************************************************************************************/</span></div><div class="line"><a name="l00025"></a><span class="lineno">   25</span>&#160;</div><div class="line"><a name="l00030"></a><span class="lineno">   30</span>&#160;<span class="preprocessor">#pragma once</span></div><div class="line"><a name="l00031"></a><span class="lineno">   31</span>&#160;</div><div class="line"><a name="l00032"></a><span class="lineno">   32</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="coord_8h.html">cutlass/coord.h</a>&quot;</span></div><div class="line"><a name="l00033"></a><span class="lineno">   33</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="zip__tensor__ref_8h.html">cutlass/zip_tensor_ref.h</a>&quot;</span></div><div class="line"><a name="l00034"></a><span class="lineno">   34</span>&#160;<span class="preprocessor">#include &quot;<a class="code" href="zip__fragment_8h.html">cutlass/zip_fragment.h</a>&quot;</span></div><div class="line"><a name="l00035"></a><span class="lineno">   35</span>&#160;</div><div class="line"><a name="l00036"></a><span class="lineno">   36</span>&#160;<span class="keyword">namespace </span><a class="code" href="namespacecutlass.html">cutlass</a> {</div><div class="line"><a name="l00037"></a><span class="lineno">   37</span>&#160;</div><div class="line"><a name="l00039"></a><span class="lineno">   39</span>&#160;</div><div class="line"><a name="l00041"></a><span class="lineno">   41</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">typename</span> First_, <span class="keyword">typename</span> Second_&gt;</div><div class="line"><a name="l00042"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html">   42</a></span>&#160;<span class="keyword">class </span><a class="code" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> {</div><div class="line"><a name="l00043"></a><span class="lineno">   43</span>&#160; <span class="keyword">public</span>:</div><div class="line"><a name="l00045"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">   45</a></span>&#160;  <span class="keyword">typedef</span> First_ <a class="code" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">First</a>;</div><div class="line"><a name="l00046"></a><span class="lineno">   46</span>&#160;</div><div class="line"><a name="l00048"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">   48</a></span>&#160;  <span class="keyword">typedef</span> Second_ <a class="code" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">Second</a>;</div><div class="line"><a name="l00049"></a><span class="lineno">   49</span>&#160;</div><div class="line"><a name="l00051"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileIterator_1_1Params.html">   51</a></span>&#160;  <span class="keyword">struct </span><a class="code" href="structcutlass_1_1ZipTileIterator_1_1Params.html">Params</a> {</div><div class="line"><a name="l00053"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a5dd69883d6b3f16fe28ebfe79235743e">   53</a></span>&#160;    <span class="keyword">typename</span> First::Params <a class="code" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a5dd69883d6b3f16fe28ebfe79235743e">first</a>;</div><div class="line"><a name="l00054"></a><span class="lineno">   54</span>&#160;</div><div class="line"><a name="l00056"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a6eb742dc39b1d776cf5d62719835fe26">   56</a></span>&#160;    <span class="keyword">typename</span> Second::Params <a class="code" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a6eb742dc39b1d776cf5d62719835fe26">second</a>;</div><div class="line"><a name="l00057"></a><span class="lineno">   57</span>&#160;</div><div class="line"><a name="l00059"></a><span class="lineno">   59</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00060"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a4ed93b5319fe96457caf53e9384722d4">   60</a></span>&#160;    <a class="code" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a4ed93b5319fe96457caf53e9384722d4">Params</a>() {}</div><div class="line"><a name="l00061"></a><span class="lineno">   61</span>&#160;</div><div class="line"><a name="l00063"></a><span class="lineno">   63</span>&#160;    <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="line"><a name="l00064"></a><span class="lineno"><a class="line" href="structcutlass_1_1ZipTileIterator_1_1Params.html#ad38f6a2cc5800c0ec82b12d183040390">   64</a></span>&#160;    <a class="code" href="structcutlass_1_1ZipTileIterator_1_1Params.html#ad38f6a2cc5800c0ec82b12d183040390">Params</a>(<span class="keyword">typename</span> First::Params <span class="keyword">const</span> &amp;_first, <span class="keyword">typename</span> Second::Params <span class="keyword">const</span> &amp;_second)</div><div class="line"><a name="l00065"></a><span class="lineno">   65</span>&#160;        : <a class="code" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a5dd69883d6b3f16fe28ebfe79235743e">first</a>(_first), <a class="code" href="structcutlass_1_1ZipTileIterator_1_1Params.html#a6eb742dc39b1d776cf5d62719835fe26">second</a>(_second) {}</div><div class="line"><a name="l00066"></a><span class="lineno">   66</span>&#160;  };</div><div class="line"><a name="l00067"></a><span class="lineno">   67</span>&#160;</div><div class="line"><a name="l00069"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">   69</a></span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ZipFragment.html">ZipFragment&lt;typename First::Fragment, typename Second::Fragment&gt;</a> <a class="code" href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">Fragment</a>;</div><div class="line"><a name="l00070"></a><span class="lineno">   70</span>&#160;</div><div class="line"><a name="l00072"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#aa853fa2a2e73397d8950567f3f5b7a15">   72</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> First::PredicateVector <a class="code" href="classcutlass_1_1ZipTileIterator.html#aa853fa2a2e73397d8950567f3f5b7a15">PredicateVector</a>;</div><div class="line"><a name="l00073"></a><span class="lineno">   73</span>&#160;</div><div class="line"><a name="l00075"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">   75</a></span>&#160;  <span class="keyword">typedef</span> <span class="keyword">typename</span> First::Index <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">Index</a>;</div><div class="line"><a name="l00076"></a><span class="lineno">   76</span>&#160;</div><div class="line"><a name="l00078"></a><span class="lineno">   78</span>&#160;  <span class="keyword">typedef</span> <a class="code" href="structcutlass_1_1ZipTensorRef.html">ZipTensorRef</a>&lt;</div><div class="line"><a name="l00079"></a><span class="lineno">   79</span>&#160;    <span class="keyword">typename</span> First::TensorRef,</div><div class="line"><a name="l00080"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">   80</a></span>&#160;    <span class="keyword">typename</span> Second::TensorRef&gt; <a class="code" href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">TensorRef</a>;</div><div class="line"><a name="l00081"></a><span class="lineno">   81</span>&#160;</div><div class="line"><a name="l00082"></a><span class="lineno">   82</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00083"></a><span class="lineno">   83</span>&#160;  <span class="comment">// Data members</span></div><div class="line"><a name="l00084"></a><span class="lineno">   84</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00085"></a><span class="lineno">   85</span>&#160;</div><div class="line"><a name="l00087"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">   87</a></span>&#160;  <a class="code" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">First</a> <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>;</div><div class="line"><a name="l00088"></a><span class="lineno">   88</span>&#160;</div><div class="line"><a name="l00090"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">   90</a></span>&#160;  <a class="code" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">Second</a> <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>;</div><div class="line"><a name="l00091"></a><span class="lineno">   91</span>&#160;</div><div class="line"><a name="l00092"></a><span class="lineno">   92</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00093"></a><span class="lineno">   93</span>&#160;  <span class="comment">// Methods</span></div><div class="line"><a name="l00094"></a><span class="lineno">   94</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00095"></a><span class="lineno">   95</span>&#160;</div><div class="line"><a name="l00097"></a><span class="lineno">   97</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00098"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a09eab0c5218fc122848b623462c18149">   98</a></span>&#160;  <a class="code" href="classcutlass_1_1ZipTileIterator.html#a09eab0c5218fc122848b623462c18149">ZipTileIterator</a>() {}</div><div class="line"><a name="l00099"></a><span class="lineno">   99</span>&#160;</div><div class="line"><a name="l00101"></a><span class="lineno">  101</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00102"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a45a8ba275f8d4f71deb102ad46712b3e">  102</a></span>&#160;  <a class="code" href="classcutlass_1_1ZipTileIterator.html#a45a8ba275f8d4f71deb102ad46712b3e">ZipTileIterator</a>(<a class="code" href="structcutlass_1_1ZipTileIterator_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;_params, <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;threadblock_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0, 0, 0))</div><div class="line"><a name="l00103"></a><span class="lineno">  103</span>&#160;      : <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>(_params.<a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>, threadblock_offset), <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>(_params.<a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>, threadblock_offset) {}</div><div class="line"><a name="l00104"></a><span class="lineno">  104</span>&#160;</div><div class="line"><a name="l00106"></a><span class="lineno">  106</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00107"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a31553842afd1cfd5a18a2fd6c39e17b5">  107</a></span>&#160;  <a class="code" href="classcutlass_1_1ZipTileIterator.html#a31553842afd1cfd5a18a2fd6c39e17b5">ZipTileIterator</a>(<a class="code" href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">First</a> <span class="keyword">const</span> &amp;_first, <a class="code" href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">Second</a> <span class="keyword">const</span> &amp;_second) : <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>(_first), <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>(_second) {}</div><div class="line"><a name="l00108"></a><span class="lineno">  108</span>&#160;</div><div class="line"><a name="l00110"></a><span class="lineno">  110</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00111"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a808e06560609aa5b7bb693ec79a3aa57">  111</a></span>&#160;  <a class="code" href="classcutlass_1_1ZipTileIterator.html#a808e06560609aa5b7bb693ec79a3aa57">ZipTileIterator</a>(<a class="code" href="structcutlass_1_1ZipTensorRef.html">TensorRef</a> <span class="keyword">const</span> &amp;ref) : <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>(ref.<a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>), <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>(ref.<a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>) {}</div><div class="line"><a name="l00112"></a><span class="lineno">  112</span>&#160;</div><div class="line"><a name="l00114"></a><span class="lineno">  114</span>&#160;  CUTLASS_DEVICE</div><div class="line"><a name="l00115"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a9d70b24bf38122c0fea49558c6f6b344">  115</a></span>&#160;  <a class="code" href="classcutlass_1_1ZipTileIterator.html#a9d70b24bf38122c0fea49558c6f6b344">ZipTileIterator</a>(<a class="code" href="structcutlass_1_1ZipTileIterator_1_1Params.html">Params</a> <span class="keyword">const</span> &amp;_params, <a class="code" href="structcutlass_1_1ZipTensorRef.html">TensorRef</a> <span class="keyword">const</span> &amp;ref):</div><div class="line"><a name="l00116"></a><span class="lineno">  116</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>(_params.<a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>, ref.<a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>), <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>(_params.<a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>, ref.<a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>) {}</div><div class="line"><a name="l00117"></a><span class="lineno">  117</span>&#160;</div><div class="line"><a name="l00118"></a><span class="lineno">  118</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00119"></a><span class="lineno">  119</span>&#160;  <span class="comment">// Predicate initialization</span></div><div class="line"><a name="l00120"></a><span class="lineno">  120</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00121"></a><span class="lineno">  121</span>&#160;</div><div class="line"><a name="l00123"></a><span class="lineno">  123</span>&#160;  <span class="keyword">template</span> &lt;</div><div class="line"><a name="l00125"></a><span class="lineno">  125</span>&#160;      <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00126"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a8f334010614b50d962e4769904d7b76f">  126</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a8f334010614b50d962e4769904d7b76f">initialize_predicates</a>(PredicateIterator predicate_it,</div><div class="line"><a name="l00127"></a><span class="lineno">  127</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;bounds,</div><div class="line"><a name="l00128"></a><span class="lineno">  128</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset = <a class="code" href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">make_Coord</a>(0,</div><div class="line"><a name="l00129"></a><span class="lineno">  129</span>&#160;                                                                                           0,</div><div class="line"><a name="l00130"></a><span class="lineno">  130</span>&#160;                                                                                           0)) {</div><div class="line"><a name="l00131"></a><span class="lineno">  131</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.initialize_predicates(predicate_it, bounds, block_offset);</div><div class="line"><a name="l00132"></a><span class="lineno">  132</span>&#160;  }</div><div class="line"><a name="l00133"></a><span class="lineno">  133</span>&#160;</div><div class="line"><a name="l00135"></a><span class="lineno">  135</span>&#160;  <span class="keyword">template</span> &lt;</div><div class="line"><a name="l00137"></a><span class="lineno">  137</span>&#160;      <span class="keyword">typename</span> PredicateIterator,</div><div class="line"><a name="l00139"></a><span class="lineno">  139</span>&#160;      <span class="keyword">typename</span> PredicateFunctor&gt;</div><div class="line"><a name="l00140"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#ab0f93878bbe5aac072450f9bf1dd8b64">  140</a></span>&#160;  <a class="code" href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a> <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab0f93878bbe5aac072450f9bf1dd8b64">initialize_predicates</a>(PredicateIterator predicate_it,</div><div class="line"><a name="l00141"></a><span class="lineno">  141</span>&#160;                                                 PredicateFunctor <span class="keyword">const</span> &amp;functor,</div><div class="line"><a name="l00142"></a><span class="lineno">  142</span>&#160;                                                 <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;block_offset) {</div><div class="line"><a name="l00143"></a><span class="lineno">  143</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.initialize_predicates(predicate_it, functor, block_offset);</div><div class="line"><a name="l00144"></a><span class="lineno">  144</span>&#160;  }</div><div class="line"><a name="l00145"></a><span class="lineno">  145</span>&#160;</div><div class="line"><a name="l00146"></a><span class="lineno">  146</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00147"></a><span class="lineno">  147</span>&#160;  <span class="comment">// No predicates</span></div><div class="line"><a name="l00148"></a><span class="lineno">  148</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00149"></a><span class="lineno">  149</span>&#160;</div><div class="line"><a name="l00151"></a><span class="lineno">  151</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00152"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a95b8db4af9228beed273669b3b0b12fe">  152</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a95b8db4af9228beed273669b3b0b12fe">load_post_increment</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> &amp;fragment) {</div><div class="line"><a name="l00153"></a><span class="lineno">  153</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.load_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>);</div><div class="line"><a name="l00154"></a><span class="lineno">  154</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.load_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>);</div><div class="line"><a name="l00155"></a><span class="lineno">  155</span>&#160;  }</div><div class="line"><a name="l00156"></a><span class="lineno">  156</span>&#160;</div><div class="line"><a name="l00158"></a><span class="lineno">  158</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00159"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a3020bcd0a49efad674ca5539ea1c96c0">  159</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a3020bcd0a49efad674ca5539ea1c96c0">load_post_increment</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> &amp;fragment,</div><div class="line"><a name="l00160"></a><span class="lineno">  160</span>&#160;                            <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <span class="keyword">const</span> &amp;offset) {</div><div class="line"><a name="l00161"></a><span class="lineno">  161</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.load_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>, offset);</div><div class="line"><a name="l00162"></a><span class="lineno">  162</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.load_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>, offset);</div><div class="line"><a name="l00163"></a><span class="lineno">  163</span>&#160;  }</div><div class="line"><a name="l00164"></a><span class="lineno">  164</span>&#160;</div><div class="line"><a name="l00166"></a><span class="lineno">  166</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00167"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a23b72b086f350dfe07cff22ac010c45c">  167</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a23b72b086f350dfe07cff22ac010c45c">load</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> &amp;fragment)<span class="keyword"> const </span>{</div><div class="line"><a name="l00168"></a><span class="lineno">  168</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.load(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>);</div><div class="line"><a name="l00169"></a><span class="lineno">  169</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.load(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>);</div><div class="line"><a name="l00170"></a><span class="lineno">  170</span>&#160;  }</div><div class="line"><a name="l00171"></a><span class="lineno">  171</span>&#160;</div><div class="line"><a name="l00173"></a><span class="lineno">  173</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00174"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a9a3f2f913ee73f0c04e74ec89c6c5cbb">  174</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a9a3f2f913ee73f0c04e74ec89c6c5cbb">load</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> &amp;fragment,</div><div class="line"><a name="l00175"></a><span class="lineno">  175</span>&#160;                            <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <span class="keyword">const</span> &amp;offset)<span class="keyword"> const </span>{</div><div class="line"><a name="l00176"></a><span class="lineno">  176</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.load(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>, offset);</div><div class="line"><a name="l00177"></a><span class="lineno">  177</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.load(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>, offset);</div><div class="line"><a name="l00178"></a><span class="lineno">  178</span>&#160;  }</div><div class="line"><a name="l00179"></a><span class="lineno">  179</span>&#160;</div><div class="line"><a name="l00181"></a><span class="lineno">  181</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00182"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a961a340f902542f3000dc80e852958f2">  182</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a961a340f902542f3000dc80e852958f2">store_post_increment</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment) {</div><div class="line"><a name="l00183"></a><span class="lineno">  183</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.store_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>);</div><div class="line"><a name="l00184"></a><span class="lineno">  184</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.store_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>);</div><div class="line"><a name="l00185"></a><span class="lineno">  185</span>&#160;  }</div><div class="line"><a name="l00186"></a><span class="lineno">  186</span>&#160;</div><div class="line"><a name="l00188"></a><span class="lineno">  188</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00189"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a18ed76e6be1a02d0229cdf1d6528e34f">  189</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a18ed76e6be1a02d0229cdf1d6528e34f">store_post_increment</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment,</div><div class="line"><a name="l00190"></a><span class="lineno">  190</span>&#160;                            <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <span class="keyword">const</span> &amp;offset) {</div><div class="line"><a name="l00191"></a><span class="lineno">  191</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.store_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>, offset);</div><div class="line"><a name="l00192"></a><span class="lineno">  192</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.store_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>, offset);</div><div class="line"><a name="l00193"></a><span class="lineno">  193</span>&#160;  }</div><div class="line"><a name="l00194"></a><span class="lineno">  194</span>&#160;</div><div class="line"><a name="l00196"></a><span class="lineno">  196</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00197"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a884983cd1df81739fc971b46697b851c">  197</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a884983cd1df81739fc971b46697b851c">store</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment)<span class="keyword"> const </span>{</div><div class="line"><a name="l00198"></a><span class="lineno">  198</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.store(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>);</div><div class="line"><a name="l00199"></a><span class="lineno">  199</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.store(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>);</div><div class="line"><a name="l00200"></a><span class="lineno">  200</span>&#160;  }</div><div class="line"><a name="l00201"></a><span class="lineno">  201</span>&#160;</div><div class="line"><a name="l00203"></a><span class="lineno">  203</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment&gt;</div><div class="line"><a name="l00204"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a425b4a4f2e66f3ff5960742d19d06bc2">  204</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a425b4a4f2e66f3ff5960742d19d06bc2">store</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment,</div><div class="line"><a name="l00205"></a><span class="lineno">  205</span>&#160;                            <a class="code" href="structcutlass_1_1Coord.html">Coord&lt;4&gt;</a> <span class="keyword">const</span> &amp;offset)<span class="keyword"> const </span>{</div><div class="line"><a name="l00206"></a><span class="lineno">  206</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.store(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>, offset);</div><div class="line"><a name="l00207"></a><span class="lineno">  207</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.store(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>, offset);</div><div class="line"><a name="l00208"></a><span class="lineno">  208</span>&#160;  }</div><div class="line"><a name="l00209"></a><span class="lineno">  209</span>&#160;</div><div class="line"><a name="l00210"></a><span class="lineno">  210</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00211"></a><span class="lineno">  211</span>&#160;  <span class="comment">// With predication</span></div><div class="line"><a name="l00212"></a><span class="lineno">  212</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00213"></a><span class="lineno">  213</span>&#160;</div><div class="line"><a name="l00215"></a><span class="lineno">  215</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00216"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a53045f40d203a805af9c92fa0b5bc684">  216</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a53045f40d203a805af9c92fa0b5bc684">load_post_increment</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> &amp;fragment, PredicateIterator pred_it) {</div><div class="line"><a name="l00217"></a><span class="lineno">  217</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.load_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>, pred_it);</div><div class="line"><a name="l00218"></a><span class="lineno">  218</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.load_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>, pred_it);</div><div class="line"><a name="l00219"></a><span class="lineno">  219</span>&#160;  }</div><div class="line"><a name="l00220"></a><span class="lineno">  220</span>&#160;</div><div class="line"><a name="l00222"></a><span class="lineno">  222</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00223"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a4c9997488be2f09b9653d8ef8ac06c2b">  223</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a4c9997488be2f09b9653d8ef8ac06c2b">load</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> &amp;fragment, PredicateIterator pred_it)<span class="keyword"> const </span>{</div><div class="line"><a name="l00224"></a><span class="lineno">  224</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.load(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>, pred_it);</div><div class="line"><a name="l00225"></a><span class="lineno">  225</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.load(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>, pred_it);</div><div class="line"><a name="l00226"></a><span class="lineno">  226</span>&#160;  }</div><div class="line"><a name="l00227"></a><span class="lineno">  227</span>&#160;</div><div class="line"><a name="l00229"></a><span class="lineno">  229</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00230"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a3a2cae47533c1122eb8ec404473a0d9e">  230</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a3a2cae47533c1122eb8ec404473a0d9e">store_post_increment</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment, PredicateIterator pred_it) {</div><div class="line"><a name="l00231"></a><span class="lineno">  231</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.store_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>, pred_it);</div><div class="line"><a name="l00232"></a><span class="lineno">  232</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.store_post_increment(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>, pred_it);</div><div class="line"><a name="l00233"></a><span class="lineno">  233</span>&#160;  }</div><div class="line"><a name="l00234"></a><span class="lineno">  234</span>&#160;</div><div class="line"><a name="l00236"></a><span class="lineno">  236</span>&#160;  <span class="keyword">template</span> &lt;<span class="keyword">typename</span> Fragment, <span class="keyword">typename</span> PredicateIterator&gt;</div><div class="line"><a name="l00237"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#aa617653e75535fe13aafa80bc4cc9cc4">  237</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#aa617653e75535fe13aafa80bc4cc9cc4">store</a>(<a class="code" href="structcutlass_1_1ZipFragment.html">Fragment</a> <span class="keyword">const</span> &amp;fragment, PredicateIterator pred_it)<span class="keyword"> const </span>{</div><div class="line"><a name="l00238"></a><span class="lineno">  238</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.store(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">first</a>, pred_it);</div><div class="line"><a name="l00239"></a><span class="lineno">  239</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.store(fragment.<a class="code" href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">second</a>, pred_it);</div><div class="line"><a name="l00240"></a><span class="lineno">  240</span>&#160;  }</div><div class="line"><a name="l00241"></a><span class="lineno">  241</span>&#160;</div><div class="line"><a name="l00242"></a><span class="lineno">  242</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00243"></a><span class="lineno">  243</span>&#160;  <span class="comment">// Advances the iterators</span></div><div class="line"><a name="l00244"></a><span class="lineno">  244</span>&#160;  <span class="comment">//</span></div><div class="line"><a name="l00245"></a><span class="lineno">  245</span>&#160;</div><div class="line"><a name="l00247"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808">  247</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;<a class="code" href="classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808">increment</a>(<span class="keywordtype">int</span> count = 1) {</div><div class="line"><a name="l00248"></a><span class="lineno">  248</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.increment(count);</div><div class="line"><a name="l00249"></a><span class="lineno">  249</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.increment(count);</div><div class="line"><a name="l00250"></a><span class="lineno">  250</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00251"></a><span class="lineno">  251</span>&#160;  }</div><div class="line"><a name="l00252"></a><span class="lineno">  252</span>&#160;</div><div class="line"><a name="l00254"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a47d270fc4a119d7b95b2d5dd3ee5b87b">  254</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;<a class="code" href="classcutlass_1_1ZipTileIterator.html#a47d270fc4a119d7b95b2d5dd3ee5b87b">operator++</a>() { <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808">increment</a>(); }</div><div class="line"><a name="l00255"></a><span class="lineno">  255</span>&#160;</div><div class="line"><a name="l00256"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a60ba516d7382cb7788d5430023f7fc44">  256</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;<a class="code" href="classcutlass_1_1ZipTileIterator.html#a60ba516d7382cb7788d5430023f7fc44">operator+=</a>(<span class="keywordtype">int</span> count) { <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808">increment</a>(count); }</div><div class="line"><a name="l00257"></a><span class="lineno">  257</span>&#160;</div><div class="line"><a name="l00259"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a200a4e88ee6d23dcc80e974c77f8fa1f">  259</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;<a class="code" href="classcutlass_1_1ZipTileIterator.html#a200a4e88ee6d23dcc80e974c77f8fa1f">operator+=</a>(<a class="code" href="structcutlass_1_1Coord.html">Coord&lt;3&gt;</a> <span class="keyword">const</span> &amp;offset) {</div><div class="line"><a name="l00260"></a><span class="lineno">  260</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a> += offset;</div><div class="line"><a name="l00261"></a><span class="lineno">  261</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a> += offset;</div><div class="line"><a name="l00262"></a><span class="lineno">  262</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00263"></a><span class="lineno">  263</span>&#160;  }</div><div class="line"><a name="l00264"></a><span class="lineno">  264</span>&#160;</div><div class="line"><a name="l00266"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6">  266</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;<a class="code" href="classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6">decrement</a>(<span class="keywordtype">int</span> count = 1) {</div><div class="line"><a name="l00267"></a><span class="lineno">  267</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.decrement(count);</div><div class="line"><a name="l00268"></a><span class="lineno">  268</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.decrement(count);</div><div class="line"><a name="l00269"></a><span class="lineno">  269</span>&#160;    <span class="keywordflow">return</span> *<span class="keyword">this</span>;</div><div class="line"><a name="l00270"></a><span class="lineno">  270</span>&#160;  }</div><div class="line"><a name="l00271"></a><span class="lineno">  271</span>&#160;</div><div class="line"><a name="l00273"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a3d22dab34b2abd0d05c00668f8591151">  273</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;<a class="code" href="classcutlass_1_1ZipTileIterator.html#a3d22dab34b2abd0d05c00668f8591151">operator--</a>() { <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6">decrement</a>(); }</div><div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;</div><div class="line"><a name="l00276"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a7bae0f9b789e75bb154c5f37db50e14c">  276</a></span>&#160;  CUTLASS_DEVICE <a class="code" href="classcutlass_1_1ZipTileIterator.html">ZipTileIterator</a> &amp;<a class="code" href="classcutlass_1_1ZipTileIterator.html#a7bae0f9b789e75bb154c5f37db50e14c">operator-=</a>(<span class="keywordtype">int</span> count) { <span class="keywordflow">return</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6">decrement</a>(count); }</div><div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;</div><div class="line"><a name="l00279"></a><span class="lineno"><a class="line" href="classcutlass_1_1ZipTileIterator.html#a0752af296e110d9104a45ae24bd0a104">  279</a></span>&#160;  CUTLASS_DEVICE <span class="keywordtype">void</span> <a class="code" href="classcutlass_1_1ZipTileIterator.html#a0752af296e110d9104a45ae24bd0a104">add_pointer_offset</a>(<a class="code" href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">Index</a> offset) {</div><div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">first</a>.add_pointer_offset(offset);</div><div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;    <a class="code" href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">second</a>.add_pointer_offset(offset);</div><div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;  }</div><div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;};</div><div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;</div><div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160;</div><div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;}  <span class="comment">// namspace cutlass</span></div><div class="ttc" id="classcutlass_1_1ZipTileIterator_html_ae239840776fe7c3bd679b798188d9d06"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#ae239840776fe7c3bd679b798188d9d06">cutlass::ZipTileIterator::Fragment</a></div><div class="ttdeci">ZipFragment&lt; typename First::Fragment, typename Second::Fragment &gt; Fragment</div><div class="ttdoc">Fragment type. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:69</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileIterator_1_1Params_html_a6eb742dc39b1d776cf5d62719835fe26"><div class="ttname"><a href="structcutlass_1_1ZipTileIterator_1_1Params.html#a6eb742dc39b1d776cf5d62719835fe26">cutlass::ZipTileIterator::Params::second</a></div><div class="ttdeci">Second::Params second</div><div class="ttdoc">Parameters of second iterator. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:56</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a0c3046a077ef69a9325d7df817865bf7"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a0c3046a077ef69a9325d7df817865bf7">cutlass::ZipTileIterator::First</a></div><div class="ttdeci">First_ First</div><div class="ttdoc">First iterator type. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:45</div></div>
+<div class="ttc" id="namespacecutlass_html"><div class="ttname"><a href="namespacecutlass.html">cutlass</a></div><div class="ttdef"><b>Definition:</b> convert.h:33</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTensorRef_html"><div class="ttname"><a href="structcutlass_1_1ZipTensorRef.html">cutlass::ZipTensorRef</a></div><div class="ttdef"><b>Definition:</b> zip_tensor_ref.h:38</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_ab48ad3cf2ffeec356d8592d94f6b81f0"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#ab48ad3cf2ffeec356d8592d94f6b81f0">cutlass::ZipTileIterator::Index</a></div><div class="ttdeci">First::Index Index</div><div class="ttdoc">Index type. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:75</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a45a8ba275f8d4f71deb102ad46712b3e"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a45a8ba275f8d4f71deb102ad46712b3e">cutlass::ZipTileIterator::ZipTileIterator</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator(Params const &amp;_params, Coord&lt; 3 &gt; const &amp;threadblock_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Constructs a zip iterator from params. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:102</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a18ed76e6be1a02d0229cdf1d6528e34f"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a18ed76e6be1a02d0229cdf1d6528e34f">cutlass::ZipTileIterator::store_post_increment</a></div><div class="ttdeci">CUTLASS_DEVICE void store_post_increment(Fragment const &amp;fragment, Coord&lt; 4 &gt; const &amp;offset)</div><div class="ttdoc">Stores a fragment and increments without predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:189</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a3020bcd0a49efad674ca5539ea1c96c0"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a3020bcd0a49efad674ca5539ea1c96c0">cutlass::ZipTileIterator::load_post_increment</a></div><div class="ttdeci">CUTLASS_DEVICE void load_post_increment(Fragment &amp;fragment, Coord&lt; 4 &gt; const &amp;offset)</div><div class="ttdoc">Loads a fragment and increments without predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:159</div></div>
+<div class="ttc" id="coord_8h_html"><div class="ttname"><a href="coord_8h.html">coord.h</a></div><div class="ttdoc">A Coord is a coordinate of arbitrary rank into a tensor or matrix. </div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a884983cd1df81739fc971b46697b851c"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a884983cd1df81739fc971b46697b851c">cutlass::ZipTileIterator::store</a></div><div class="ttdeci">CUTLASS_DEVICE void store(Fragment const &amp;fragment) const</div><div class="ttdoc">Stores a fragment without predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:197</div></div>
+<div class="ttc" id="namespacecutlass_html_a7419519fa453a121dfa5f26bf87318d9"><div class="ttname"><a href="namespacecutlass.html#a7419519fa453a121dfa5f26bf87318d9">cutlass::make_Coord</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Coord&lt; 1 &gt; make_Coord(int _0)</div><div class="ttdoc">Helper to make a 2-element coordinate. </div><div class="ttdef"><b>Definition:</b> coord.h:318</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileIterator_1_1Params_html_ad38f6a2cc5800c0ec82b12d183040390"><div class="ttname"><a href="structcutlass_1_1ZipTileIterator_1_1Params.html#ad38f6a2cc5800c0ec82b12d183040390">cutlass::ZipTileIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params(typename First::Params const &amp;_first, typename Second::Params const &amp;_second)</div><div class="ttdoc">Constructs a parameters object. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:64</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a8f334010614b50d962e4769904d7b76f"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a8f334010614b50d962e4769904d7b76f">cutlass::ZipTileIterator::initialize_predicates</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it, Coord&lt; 3 &gt; const &amp;bounds, Coord&lt; 3 &gt; const &amp;block_offset=make_Coord(0, 0, 0))</div><div class="ttdoc">Initializes a predicate vector using a RegularTilePredicateFunctor. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:126</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileIterator_1_1Params_html_a4ed93b5319fe96457caf53e9384722d4"><div class="ttname"><a href="structcutlass_1_1ZipTileIterator_1_1Params.html#a4ed93b5319fe96457caf53e9384722d4">cutlass::ZipTileIterator::Params::Params</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE Params()</div><div class="ttdoc">Constructs a parameters object. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:60</div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html">cutlass::ZipFragment</a></div><div class="ttdoc">A template defining Fragment Concept. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:46</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a200a4e88ee6d23dcc80e974c77f8fa1f"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a200a4e88ee6d23dcc80e974c77f8fa1f">cutlass::ZipTileIterator::operator+=</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator &amp; operator+=(Coord&lt; 3 &gt; const &amp;offset)</div><div class="ttdoc">Adds a vector offset to the underlying iterators. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:259</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_ab0f93878bbe5aac072450f9bf1dd8b64"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#ab0f93878bbe5aac072450f9bf1dd8b64">cutlass::ZipTileIterator::initialize_predicates</a></div><div class="ttdeci">CUTLASS_HOST_DEVICE void initialize_predicates(PredicateIterator predicate_it, PredicateFunctor const &amp;functor, Coord&lt; 3 &gt; const &amp;block_offset)</div><div class="ttdoc">Initializes a predicate vector using an arbitrary predicate functor. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:140</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileIterator_1_1Params_html_a5dd69883d6b3f16fe28ebfe79235743e"><div class="ttname"><a href="structcutlass_1_1ZipTileIterator_1_1Params.html#a5dd69883d6b3f16fe28ebfe79235743e">cutlass::ZipTileIterator::Params::first</a></div><div class="ttdeci">First::Params first</div><div class="ttdoc">Parameters of first iterator. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:53</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a95b8db4af9228beed273669b3b0b12fe"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a95b8db4af9228beed273669b3b0b12fe">cutlass::ZipTileIterator::load_post_increment</a></div><div class="ttdeci">CUTLASS_DEVICE void load_post_increment(Fragment &amp;fragment)</div><div class="ttdoc">Loads a fragment and increments without predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:152</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a9d70b24bf38122c0fea49558c6f6b344"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a9d70b24bf38122c0fea49558c6f6b344">cutlass::ZipTileIterator::ZipTileIterator</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator(Params const &amp;_params, TensorRef const &amp;ref)</div><div class="ttdoc">Constructs a zip iterator from iterator instances. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:115</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a60ba516d7382cb7788d5430023f7fc44"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a60ba516d7382cb7788d5430023f7fc44">cutlass::ZipTileIterator::operator+=</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator &amp; operator+=(int count)</div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:256</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_aa617653e75535fe13aafa80bc4cc9cc4"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#aa617653e75535fe13aafa80bc4cc9cc4">cutlass::ZipTileIterator::store</a></div><div class="ttdeci">CUTLASS_DEVICE void store(Fragment const &amp;fragment, PredicateIterator pred_it) const</div><div class="ttdoc">Loads a fragment with predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:237</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a1dea96f5cf56aade14bd815aee91d09c"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a1dea96f5cf56aade14bd815aee91d09c">cutlass::ZipTileIterator::TensorRef</a></div><div class="ttdeci">ZipTensorRef&lt; typename First::TensorRef, typename Second::TensorRef &gt; TensorRef</div><div class="ttdoc">Tensor reference. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:80</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a7bae0f9b789e75bb154c5f37db50e14c"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a7bae0f9b789e75bb154c5f37db50e14c">cutlass::ZipTileIterator::operator-=</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator &amp; operator-=(int count)</div><div class="ttdoc">Decrements to previous tile. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:276</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a961a340f902542f3000dc80e852958f2"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a961a340f902542f3000dc80e852958f2">cutlass::ZipTileIterator::store_post_increment</a></div><div class="ttdeci">CUTLASS_DEVICE void store_post_increment(Fragment const &amp;fragment)</div><div class="ttdoc">Stores a fragment and increments without predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:182</div></div>
+<div class="ttc" id="zip__fragment_8h_html"><div class="ttname"><a href="zip__fragment_8h.html">zip_fragment.h</a></div><div class="ttdoc">Models a pair of fragments. </div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html_aea444ab3b52b6f0e994401cf2e0b7f3c"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html#aea444ab3b52b6f0e994401cf2e0b7f3c">cutlass::ZipFragment::first</a></div><div class="ttdeci">First first</div><div class="ttdoc">First fragment object. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:61</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a53045f40d203a805af9c92fa0b5bc684"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a53045f40d203a805af9c92fa0b5bc684">cutlass::ZipTileIterator::load_post_increment</a></div><div class="ttdeci">CUTLASS_DEVICE void load_post_increment(Fragment &amp;fragment, PredicateIterator pred_it)</div><div class="ttdoc">Loads a fragment and increments, using predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:216</div></div>
+<div class="ttc" id="zip__tensor__ref_8h_html"><div class="ttname"><a href="zip__tensor__ref_8h.html">zip_tensor_ref.h</a></div><div class="ttdoc">Defines a structure containing a pair of TensorRef-like objects. </div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_ae34d88ee2878174707dcfdda4f3fa76c"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#ae34d88ee2878174707dcfdda4f3fa76c">cutlass::ZipTileIterator::Second</a></div><div class="ttdeci">Second_ Second</div><div class="ttdoc">Second iterator type. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:48</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a31553842afd1cfd5a18a2fd6c39e17b5"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a31553842afd1cfd5a18a2fd6c39e17b5">cutlass::ZipTileIterator::ZipTileIterator</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator(First const &amp;_first, Second const &amp;_second)</div><div class="ttdoc">Constructs a zip iterator from iterator instances. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:107</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a47d270fc4a119d7b95b2d5dd3ee5b87b"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a47d270fc4a119d7b95b2d5dd3ee5b87b">cutlass::ZipTileIterator::operator++</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator &amp; operator++()</div><div class="ttdoc">Increments to next tile. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:254</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html">cutlass::ZipTileIterator</a></div><div class="ttdoc">Constructs an iterator from a pair of iterators. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:42</div></div>
+<div class="ttc" id="structcutlass_1_1ZipFragment_html_a1812254d5fd77cd6dfdf7d7f2e81130c"><div class="ttname"><a href="structcutlass_1_1ZipFragment.html#a1812254d5fd77cd6dfdf7d7f2e81130c">cutlass::ZipFragment::second</a></div><div class="ttdeci">Second second</div><div class="ttdoc">Second fragment object. </div><div class="ttdef"><b>Definition:</b> zip_fragment.h:64</div></div>
+<div class="ttc" id="cutlass_8h_html_a28c2443a142676d3d71effdae1a986b1"><div class="ttname"><a href="cutlass_8h.html#a28c2443a142676d3d71effdae1a986b1">CUTLASS_HOST_DEVICE</a></div><div class="ttdeci">#define CUTLASS_HOST_DEVICE</div><div class="ttdef"><b>Definition:</b> cutlass.h:46</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a09eab0c5218fc122848b623462c18149"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a09eab0c5218fc122848b623462c18149">cutlass::ZipTileIterator::ZipTileIterator</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator()</div><div class="ttdoc">Default constructor. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:98</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_af961a2621c6b42f2b3ba645afcb250a9"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#af961a2621c6b42f2b3ba645afcb250a9">cutlass::ZipTileIterator::first</a></div><div class="ttdeci">First first</div><div class="ttdoc">First iterator. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:87</div></div>
+<div class="ttc" id="structcutlass_1_1ZipTileIterator_1_1Params_html"><div class="ttname"><a href="structcutlass_1_1ZipTileIterator_1_1Params.html">cutlass::ZipTileIterator::Params</a></div><div class="ttdoc">Params object. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:51</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_ab88ce07b3012ae2e6a92ad784c8067f0"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#ab88ce07b3012ae2e6a92ad784c8067f0">cutlass::ZipTileIterator::second</a></div><div class="ttdeci">Second second</div><div class="ttdoc">Second iterator. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:90</div></div>
+<div class="ttc" id="structcutlass_1_1Coord_html"><div class="ttname"><a href="structcutlass_1_1Coord.html">cutlass::Coord&lt; 3 &gt;</a></div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a425b4a4f2e66f3ff5960742d19d06bc2"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a425b4a4f2e66f3ff5960742d19d06bc2">cutlass::ZipTileIterator::store</a></div><div class="ttdeci">CUTLASS_DEVICE void store(Fragment const &amp;fragment, Coord&lt; 4 &gt; const &amp;offset) const</div><div class="ttdoc">Stores a fragment without predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:204</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a23b72b086f350dfe07cff22ac010c45c"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a23b72b086f350dfe07cff22ac010c45c">cutlass::ZipTileIterator::load</a></div><div class="ttdeci">CUTLASS_DEVICE void load(Fragment &amp;fragment) const</div><div class="ttdoc">Loads a fragment without predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:167</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_aa853fa2a2e73397d8950567f3f5b7a15"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#aa853fa2a2e73397d8950567f3f5b7a15">cutlass::ZipTileIterator::PredicateVector</a></div><div class="ttdeci">First::PredicateVector PredicateVector</div><div class="ttdoc">Predicate vector. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:72</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a4c9997488be2f09b9653d8ef8ac06c2b"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a4c9997488be2f09b9653d8ef8ac06c2b">cutlass::ZipTileIterator::load</a></div><div class="ttdeci">CUTLASS_DEVICE void load(Fragment &amp;fragment, PredicateIterator pred_it) const</div><div class="ttdoc">Loads a fragment with predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:223</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a6f2f86a1d23ccbaed285550a1d1f92e6"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a6f2f86a1d23ccbaed285550a1d1f92e6">cutlass::ZipTileIterator::decrement</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator &amp; decrement(int count=1)</div><div class="ttdoc">Increments store iterator to previous tile. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:266</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a0752af296e110d9104a45ae24bd0a104"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a0752af296e110d9104a45ae24bd0a104">cutlass::ZipTileIterator::add_pointer_offset</a></div><div class="ttdeci">CUTLASS_DEVICE void add_pointer_offset(Index offset)</div><div class="ttdoc">Adds an offset to both iterators. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:279</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a3d22dab34b2abd0d05c00668f8591151"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a3d22dab34b2abd0d05c00668f8591151">cutlass::ZipTileIterator::operator--</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator &amp; operator--()</div><div class="ttdoc">Increments to subsequent tile. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:273</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a808e06560609aa5b7bb693ec79a3aa57"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a808e06560609aa5b7bb693ec79a3aa57">cutlass::ZipTileIterator::ZipTileIterator</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator(TensorRef const &amp;ref)</div><div class="ttdoc">Constructs a zip iterator from iterator instances. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:111</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a738f23c02f4a7437981d9e3e22470808"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a738f23c02f4a7437981d9e3e22470808">cutlass::ZipTileIterator::increment</a></div><div class="ttdeci">CUTLASS_DEVICE ZipTileIterator &amp; increment(int count=1)</div><div class="ttdoc">Increments store iterator to next tile. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:247</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a3a2cae47533c1122eb8ec404473a0d9e"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a3a2cae47533c1122eb8ec404473a0d9e">cutlass::ZipTileIterator::store_post_increment</a></div><div class="ttdeci">CUTLASS_DEVICE void store_post_increment(Fragment const &amp;fragment, PredicateIterator pred_it)</div><div class="ttdoc">Loads a fragment and increments, using predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:230</div></div>
+<div class="ttc" id="classcutlass_1_1ZipTileIterator_html_a9a3f2f913ee73f0c04e74ec89c6c5cbb"><div class="ttname"><a href="classcutlass_1_1ZipTileIterator.html#a9a3f2f913ee73f0c04e74ec89c6c5cbb">cutlass::ZipTileIterator::load</a></div><div class="ttdeci">CUTLASS_DEVICE void load(Fragment &amp;fragment, Coord&lt; 4 &gt; const &amp;offset) const</div><div class="ttdoc">Loads a fragment without predicates. </div><div class="ttdef"><b>Definition:</b> zip_tile_iterator.h:174</div></div>
+</div><!-- fragment --></div><!-- contents -->
+<!-- start footer part -->
+<hr class="footer"/><address class="footer"><small>
+Generated on Wed Sep 19 2018 13:58:50 for Cutlass by &#160;<a href="http://www.doxygen.org/index.html">
+<img class="footer" src="doxygen.png" alt="doxygen"/>
+</a> 1.8.14
+</small></address>
+</body>
+</html>
diff --git a/examples/00_basic_gemm/CMakeLists.txt b/examples/00_basic_gemm/CMakeLists.txt
new file mode 100644
index 0000000000..144263fff2
--- /dev/null
+++ b/examples/00_basic_gemm/CMakeLists.txt
@@ -0,0 +1,38 @@
+# Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without modification, are permitted
+# provided that the following conditions are met:
+#     * Redistributions of source code must retain the above copyright notice, this list of
+#       conditions and the following disclaimer.
+#     * Redistributions in binary form must reproduce the above copyright notice, this list of
+#       conditions and the following disclaimer in the documentation and/or other materials
+#       provided with the distribution.
+#     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+#       to endorse or promote products derived from this software without specific prior written
+#       permission.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+# IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+# FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+# FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+# BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+# OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+# STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+
+set(EXAMPLES_BASIC_CUTLASS_GEMM_SOURCES
+  basic_gemm.cu
+)
+
+if (NOT CUTLASS_NATIVE_CUDA)
+  # cuda_add_executable does not take interface include directories into account
+  # Let's fetch them and pass them to CUDA.
+  get_target_property(CUTLASS_INCLUDES CUTLASS INTERFACE_INCLUDE_DIRECTORIES)
+  include_directories("${CUTLASS_INCLUDES}")
+endif()
+
+cutlass_add_executable(
+  00_basic_gemm
+  ${EXAMPLES_BASIC_CUTLASS_GEMM_SOURCES}
+)
diff --git a/examples/00_basic_gemm/basic_gemm.cu b/examples/00_basic_gemm/basic_gemm.cu
new file mode 100644
index 0000000000..d6911c1f6a
--- /dev/null
+++ b/examples/00_basic_gemm/basic_gemm.cu
@@ -0,0 +1,492 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+/*
+  This example demonstrates how to call a CUTLASS GEMM kernel and provides a naive reference
+  matrix multiply kernel to verify its correctness.
+
+  The CUTLASS Gemm template is instantiated in the function CutlassSgemmNN. This is kernel computes
+  the general matrix product (GEMM) using single-precision floating-point arithmetic and assumes
+  all matrices have column-major layout.
+
+  The threadblock tile size is chosen as 128x128x8 which offers good performance for large matrices.
+  See the CUTLASS Parallel for All blog post for more exposition on the tunable parameters available
+  in CUTLASS.
+
+  https://devblogs.nvidia.com/cutlass-linear-algebra-cuda/
+
+  Aside from defining and launching the SGEMM kernel, this example does not use any other components
+  or utilities within CUTLASS. Such utilities are demonstrated elsewhere in other examples and are
+  prevalent in the CUTLASS unit tests.
+*/
+
+// Standard Library includes
+#include <iostream>
+#include <sstream>
+#include <vector>
+
+//
+// CUTLASS includes needed for single-precision GEMM kernel
+//
+
+// Defines cutlass::gemm::Gemm, the generic Gemm computation template class.
+#include "cutlass/gemm/gemm.h"
+
+// Defines cutlass::gemm::SgemmTraits, the structural components for single-precision GEMM
+#include "cutlass/gemm/sgemm_traits.h"
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// This function defines a CUTLASS GEMM kernel instantiation, constructs its parameters object,
+// and launches it on the CUDA device.
+//
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Define a CUTLASS GEMM template and launch a GEMM kernel.
+cudaError_t CutlassSgemmNN(
+  int M,
+  int N,
+  int K,
+  float alpha,
+  float const *A,
+  int lda,
+  float const *B,
+  int ldb,
+  float beta,
+  float *C,
+  int ldc) {
+
+  // Define type definition for single-precision CUTLASS GEMM with column-major
+  // input matrices and 128x128x8 threadblock tile size.
+  //
+  // Note, GemmTraits<> is a generic template defined for various general matrix product
+  // computations within CUTLASS. It is intended to be maximally flexible, and consequently
+  // it contains numerous template arguments.
+  //
+  // To keep the interface manageable, several helpers are defined for plausible compositions
+  // including the following example for single-precision GEMM. Typical values are used as
+  // default template arguments. See `cutlass/gemm/gemm_traits.h` for more details.
+  //
+  typedef cutlass::gemm::SgemmTraits<
+    cutlass::MatrixLayout::kColumnMajor,   // layout of A matrix
+    cutlass::MatrixLayout::kColumnMajor,   // layout of B matrix
+    cutlass::Shape<8, 128, 128>            // threadblock tile size
+  >
+    GemmTraits;
+
+  // Define a CUTLASS GEMM type from a GemmTraits<> instantiation.
+  typedef cutlass::gemm::Gemm<GemmTraits> Gemm;
+
+  // Construct and initialize CUTLASS GEMM parameters object.
+  //
+  // One of CUTLASS's design patterns is to define parameters objects that are constructible
+  // in host code and passed to kernels by value. These may include pointers, strides, scalars,
+  // and other arguments needed by Gemm and its components.
+  //
+  // The benefits of this pattern are (1.) a structured, composable strategy for passing host-constructible
+  // arguments to kernels and (2.) minimized initialization overhead on kernel entry.
+  //
+  typename Gemm::Params params;
+
+  int result = params.initialize(
+    M,     // GEMM M dimension
+    N,     // GEMM N dimension
+    K,     // GEMM K dimension
+    alpha, // scalar alpha
+    A,     // matrix A operand
+    lda,
+    B,     // matrix B operand
+    ldb,
+    beta,  // scalar beta
+    C,     // source matrix C
+    ldc,
+    C,     // destination matrix C (may be different memory than source C matrix)
+    ldc
+  );
+
+  if (result) {
+    std::cerr << "Failed to initialize CUTLASS Gemm::Params object." << std::endl;
+    return cudaErrorInvalidValue;
+  }
+
+  // Launch the CUTLASS GEMM kernel.
+  Gemm::launch(params);
+
+  // Return any errors associated with the launch or cudaSuccess if no error.
+  return cudaGetLastError();
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// The source code after this point in the file is generic CUDA using the CUDA Runtime API
+// and simple CUDA kernels to initialize matrices and compute the general matrix product.
+//
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Kernel to initialize a matrix with small integers.
+__global__ void InitializeMatrix_kernel(
+  float *matrix,
+  int ldm,
+  int rows,
+  int columns,
+  int seed = 0) {
+
+  int i = threadIdx.x + blockIdx.x * blockDim.x;
+  int j = threadIdx.y + blockIdx.y * blockDim.y;
+
+  if (i < rows && j < columns) {
+    int offset = i + j * ldm;
+
+    // Generate arbitrary elements.
+    int const k = 16807;
+    int const m = 16;
+    float value = float(((offset + seed) * k % m) - m / 2);
+
+    matrix[offset] = value;
+  }
+}
+
+/// Simple function to initialize a matrix to arbitrary small integers.
+cudaError_t InitializeMatrix(float *matrix, int ldm, int rows, int columns, int seed = 0) {
+
+  dim3 block(16, 16);
+  dim3 grid(
+    (rows + block.x - 1) / block.x,
+    (columns + block.y - 1) / block.y
+  );
+
+  InitializeMatrix_kernel<<< grid, block >>>(matrix, ldm, rows, columns, seed);
+
+  return cudaGetLastError();
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Allocates device memory for a matrix then fills with arbitrary small integers.
+cudaError_t AllocateMatrix(float **matrix, int ldm, int rows, int columns, int seed = 0) {
+  cudaError_t result;
+
+  size_t sizeof_matrix = sizeof(float) * ldm * columns;
+
+  // Allocate device memory.
+  result = cudaMalloc(reinterpret_cast<void **>(matrix), sizeof_matrix);
+
+  if (result != cudaSuccess) {
+    std::cerr << "Failed to allocate matrix: "
+      << cudaGetErrorString(result) << std::endl;
+    return result;
+  }
+
+  // Clear the allocation.
+  result = cudaMemset(*matrix, 0, sizeof_matrix);
+
+  if (result != cudaSuccess) {
+    std::cerr << "Failed to clear matrix device memory: "
+      << cudaGetErrorString(result) << std::endl;
+    return result;
+  }
+
+  // Initialize matrix elements to arbitrary small integers.
+  result = InitializeMatrix(*matrix, ldm, rows, columns, seed);
+
+  if (result != cudaSuccess) {
+    std::cerr << "Failed to initialize matrix: "
+      << cudaGetErrorString(result) << std::endl;
+    return result;
+  }
+
+  return result;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Naive reference GEMM computation.
+__global__ void ReferenceGemm_kernel(
+  int M,
+  int N,
+  int K,
+  float alpha,
+  float const *A,
+  int lda,
+  float const *B,
+  int ldb,
+  float beta,
+  float *C,
+  int ldc) {
+
+  int i = threadIdx.x + blockIdx.x * blockDim.x;
+  int j = threadIdx.y + blockIdx.y * blockDim.y;
+
+  if (i < M && j < N) {
+    float accumulator = 0;
+
+    for (int k = 0; k < K; ++k) {
+      accumulator += A[i + k * lda] * B[k + j * ldb];
+    }
+
+    C[i + j * ldc] = alpha * accumulator + beta * C[i + j * ldc];
+  }
+}
+
+/// Reference GEMM computation.
+cudaError_t ReferenceGemm(
+  int M,
+  int N,
+  int K,
+  float alpha,
+  float const *A,
+  int lda,
+  float const *B,
+  int ldb,
+  float beta,
+  float *C,
+  int ldc) {
+
+  dim3 block(16, 16);
+  dim3 grid(
+    (M + block.x - 1) / block.x,
+    (N + block.y - 1) / block.y
+  );
+
+  ReferenceGemm_kernel<<< grid, block >>>(M, N, K, alpha, A, lda, B, ldb, beta, C, ldc);
+
+  return cudaGetLastError();
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Allocate several matrices in GPU device memory and call a single-precision
+/// CUTLASS GEMM kernel.
+cudaError_t TestCutlassGemm(int M, int N, int K, float alpha, float beta) {
+  cudaError_t result;
+
+  //
+  // Define several matrices to be used as operands to GEMM kernels.
+  //
+
+  // Compute leading dimensions for each matrix.
+  int lda = M;
+  int ldb = K;
+  int ldc = M;
+
+  // Compute size in bytes of the C matrix.
+  size_t sizeof_C = sizeof(float) * ldc * N;
+
+  // Define pointers to matrices in GPU device memory.
+  float *A;
+  float *B;
+  float *C_cutlass;
+  float *C_reference;
+
+  //
+  // Allocate matrices in GPU device memory with arbitrary seeds.
+  //
+
+  result = AllocateMatrix(&A, lda, M, K, 0);
+
+  if (result !=  cudaSuccess) {
+    return result;
+  }
+
+  result = AllocateMatrix(&B, ldb, K, N, 17);
+
+  if (result !=  cudaSuccess) {
+    cudaFree(A);
+    return result;
+  }
+
+  result = AllocateMatrix(&C_cutlass, ldc, M, N, 101);
+
+  if (result != cudaSuccess) {
+    cudaFree(A);
+    cudaFree(B);
+    return result;
+  }
+
+  result = AllocateMatrix(&C_reference, ldc, M, N, 101);
+
+  if (result != cudaSuccess) {
+    cudaFree(A);
+    cudaFree(B);
+    cudaFree(C_cutlass);
+    return result;
+  }
+
+  result = cudaMemcpy(C_reference, C_cutlass, sizeof_C, cudaMemcpyDeviceToDevice);
+
+  if (result != cudaSuccess) {
+    std::cerr << "Failed to copy C_cutlass matrix to C_reference: "
+      << cudaGetErrorString(result) << std::endl;
+
+    cudaFree(C_reference);
+    cudaFree(C_cutlass);
+    cudaFree(B);
+    cudaFree(A);
+
+    return result;
+  }
+
+  //
+  // Launch CUTLASS GEMM.
+  //
+
+  result = CutlassSgemmNN(M, N, K, alpha, A, lda, B, ldb, beta, C_cutlass, ldc);
+
+  if (result != cudaSuccess) {
+    std::cerr << "CUTLASS GEMM kernel failed: "
+      << cudaGetErrorString(result) << std::endl;
+
+    cudaFree(C_reference);
+    cudaFree(C_cutlass);
+    cudaFree(B);
+    cudaFree(A);
+
+    return result;
+  }
+
+  //
+  // Verify.
+  //
+
+  // Launch reference GEMM
+  result = ReferenceGemm(M, N, K, alpha, A, lda, B, ldb, beta, C_reference, ldc);
+
+  if (result != cudaSuccess) {
+    std::cerr << "Reference GEMM kernel failed: "
+      << cudaGetErrorString(result) << std::endl;
+
+    cudaFree(C_reference);
+    cudaFree(C_cutlass);
+    cudaFree(B);
+    cudaFree(A);
+
+    return result;
+  }
+
+  // Copy to host and verify equivalence.
+  std::vector<float> host_cutlass(ldc * N, 0);
+  std::vector<float> host_reference(ldc * N, 0);
+
+  result = cudaMemcpy(host_cutlass.data(), C_cutlass, sizeof_C, cudaMemcpyDeviceToHost);
+
+  if (result != cudaSuccess) {
+    std::cerr << "Failed to copy CUTLASS GEMM results: "
+      << cudaGetErrorString(result) << std::endl;
+
+    cudaFree(C_reference);
+    cudaFree(C_cutlass);
+    cudaFree(B);
+    cudaFree(A);
+
+    return result;
+  }
+
+  result = cudaMemcpy(host_reference.data(), C_reference, sizeof_C, cudaMemcpyDeviceToHost);
+
+  if (result != cudaSuccess) {
+    std::cerr << "Failed to copy Reference GEMM results: "
+      << cudaGetErrorString(result) << std::endl;
+
+    cudaFree(C_reference);
+    cudaFree(C_cutlass);
+    cudaFree(B);
+    cudaFree(A);
+
+    return result;
+  }
+
+  //
+  // Free device memory allocations.
+  //
+
+  cudaFree(C_reference);
+  cudaFree(C_cutlass);
+  cudaFree(B);
+  cudaFree(A);
+
+  //
+  // Test for bit equivalence of results.
+  //
+
+  if (host_cutlass != host_reference) {
+    std::cerr << "CUTLASS results incorrect." << std::endl;
+
+    return cudaErrorUnknown;
+  }
+
+  return cudaSuccess;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Entry point to basic_gemm example.
+//
+// usage:
+//
+//   00_basic_gemm <M> <N> <K> <alpha> <beta>
+//
+int main(int argc, const char *arg[]) {
+
+  //
+  // Parse the command line to obtain GEMM dimensions and scalar values.
+  //
+
+  // GEMM problem dimensions.
+  int problem[3] = { 128, 128, 128 };
+
+  for (int i = 1; i < argc && i < 4; ++i) {
+    std::stringstream ss(arg[i]);
+    ss >> problem[i - 1];
+  }
+
+  // Scalars used for linear scaling the result of the matrix product.
+  float scalars[2] = { 1, 0 };
+
+  for (int i = 4; i < argc && i < 6; ++i) {
+    std::stringstream ss(arg[i]);
+    ss >> scalars[i - 4];
+  }
+
+  //
+  // Run the CUTLASS GEMM test.
+  //
+
+  cudaError_t result = TestCutlassGemm(
+    problem[0],     // GEMM M dimension
+    problem[1],     // GEMM N dimension
+    problem[2],     // GEMM K dimension
+    scalars[0],     // alpha
+    scalars[1]      // beta
+  );
+
+  if (result == cudaSuccess) {
+    std::cout << "Passed." << std::endl;
+  }
+
+  // Exit.
+  return result == cudaSuccess ? 0 : -1;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/examples/01_tensor_view/CMakeLists.txt b/examples/01_tensor_view/CMakeLists.txt
new file mode 100644
index 0000000000..24ab8018ab
--- /dev/null
+++ b/examples/01_tensor_view/CMakeLists.txt
@@ -0,0 +1,38 @@
+# Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without modification, are permitted
+# provided that the following conditions are met:
+#     * Redistributions of source code must retain the above copyright notice, this list of
+#       conditions and the following disclaimer.
+#     * Redistributions in binary form must reproduce the above copyright notice, this list of
+#       conditions and the following disclaimer in the documentation and/or other materials
+#       provided with the distribution.
+#     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+#       to endorse or promote products derived from this software without specific prior written
+#       permission.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+# IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+# FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+# FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+# BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+# OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+# STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+
+set(EXAMPLES_TENSOR_VIEW_SOURCES
+  tensor_view.cu
+)
+
+if (NOT CUTLASS_NATIVE_CUDA)
+  # cuda_add_executable does not take interface include directories into account
+  # Let's fetch them and pass them to CUDA.
+  get_target_property(CUTLASS_INCLUDES CUTLASS INTERFACE_INCLUDE_DIRECTORIES)
+  include_directories("${CUTLASS_INCLUDES}")
+endif()
+
+cutlass_add_executable(
+  01_tensor_view
+  ${EXAMPLES_TENSOR_VIEW_SOURCES}
+)
diff --git a/examples/01_tensor_view/tensor_view.cu b/examples/01_tensor_view/tensor_view.cu
new file mode 100644
index 0000000000..e885e6eeeb
--- /dev/null
+++ b/examples/01_tensor_view/tensor_view.cu
@@ -0,0 +1,424 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+/*
+  This example demonstrates operations using TensorRef<> and TensorView<> as well as their explicit
+  equivalent functionality in CUDA code.
+
+  CUTLASS provides abstractions for interacting with multidimension tensors in device memory.
+  Consequently, we define a hierarchy of pointer-like types for referencing tensors.
+
+    T *                             - raw pointer to elements of type T
+
+    cutlass::TensorRef<T, Rank>     - reference to a tensor of elements of type T and given rank.
+                                      Includes a mapping function and associated stride vector for
+                                      accessing elements in linear memory.
+
+    cutlass::TensorView<T, Rank>:   - extends TensorRef<> by adding bounds information. This is a
+      public TensorRef<T, Rank>       complete mathematical object which may be used as the argument
+                                      to CUTLASS functions.
+
+  The above provide an identity maping of a logical index space to linear memory. An element
+  at logical coordinate X has an offset computed as follows:
+
+     offset = dot(X, stride)
+
+  where dot() computes the inner product of X and a vector of "strides."
+
+  CUTLASS 1.1 introduces a mapping function and an additional 'rank' to offer a flexible way to
+  map the logical index space of the tensor to memory. The mapping function maps a coordinate
+  of rank R to an index space of rank S. The linear offset is computed as:
+
+    offset = dot( MapFunc(X), stride )
+
+  where stride is a vector of rank S.
+
+
+  The complete template declaration for cutlass::TensorRef<> is as follows.
+
+    template <
+      /// Data type of element stored within tensor
+      typename Storage,
+
+      /// Rank of logical tensor
+      int Rank,
+
+      /// Maps a Coord<Rank> in the logical tensor index space to the internal n-D array
+      typename MapFunc = IdentityTensorMapFunc<Rank>,
+
+      /// Rank of internal n-D array
+      int StorageRank_ = MapFunc::kStorageRank,
+
+      /// Index type used for coordinates
+      typename Index = int,
+
+      /// Index type used for offsets and pointer differences
+      typename LongIndex = long long
+    >
+    class TensorRef;
+
+
+  CUTLASS kernels make extensive use of vectorization of memory accesses for efficiency and
+  correctness. Consequently, we enforce a constraint on the strides used by mapping functions
+  such that:
+
+    1. The "fastest-changing" stride is always 1 thereby mandating that consecutive elements in
+       that rank are consecutive in linear memory.
+
+    2. The fastest changing rank is always last in the stride vector and not explicitly stored.
+
+  Thus, the stride vector used by mapping functions has length of one fewer than the rank of the
+  storage tensor. These constraints are consistent with the BLAS interface of passing matrices as
+  a tuple consisting of a pointer and a "leading dimension." In fact, these are rank=2 tensors
+  whose fastest changing dimension is 1, and the stride vector is of length 1.
+
+
+  A typical mapping function might simply map the rows and columns of a matrix, a rank=2 tensor,
+  to linear memory such that (1.) elements in the same column are consecutive in memory
+  (column-major), or (2.) elements in the same row are consecutive (row-major). These can be
+  accomplished by two different mapping functions whose stride vector is length=2. The first
+  element is the "leading dimension."
+
+  The following mapping functions demonstrates mappings for these canonical matrix layouts. In
+  both cases, the logical index space is referenced by coordinates of the form (row, column).
+
+  // cutlass/matrix_traits.h
+  struct MatrixLayout {
+
+    //
+    // TensorRefMapFunc definitions for common layouts
+    //
+
+    /// Mapping function for row-major matrices
+    struct RowMajor {
+
+      /// Storage rank = 2 implies stride vector: (ldm, 1)
+      static int const kStorageRank = 2;
+
+      /// Maps (row, col) to (row, col)
+      CUTLASS_HOST_DEVICE
+      Coord<kStorageRank> operator()(Coord<2> const &coord) const {
+        return coord;
+      }
+    };
+
+    /// Mapping function for column-major matrices
+    struct ColumnMajor {
+
+      /// Storage rank = 2 implies stride vector: (ldm, 1)
+      static int const kStorageRank = 2;
+
+      /// Maps (row, col) to (col, row)
+      CUTLASS_HOST_DEVICE
+      Coord<kStorageRank> operator()(Coord<2> const &coord) const {
+        return make_Coord(coord[1], coord[0]);
+      }
+    };
+  };
+
+
+  The requirement that the fastest-changing stride always be of unit size need not be a limitation.
+  To implement "sparse" computations or matrix operations in which matrix elements have arbitrary
+  stride along both row and column, define a mapping function whose storage rank is 3. This permits
+  two elements of the stride vector to have a non-unit value. The map function defined in
+  `cutlass::MatrixTraits::ContiguousLayout` is an example.
+
+  ```
+  /// Mapping function for scenario in which layout is row-major or column-major but this information
+  /// is only available at runtime.
+  struct ContiguousLayout {
+    /// Arbitrary storage rank
+    static int const kStorageRank = 3;
+
+    /// Dimension of rows
+    static int const kRow = 0;
+
+    /// Dimension of columns
+    static int const kColumn = 1;
+
+    /// Mapping function defined by runtime variable. Returns coordinates in n-D storage array
+    /// as (matrix row, matrix colum, 0)
+    CUTLASS_HOST_DEVICE
+    Coord<kStorageRank> operator()(MatrixCoord const &coord) const {
+        return make_Coord(coord.row(), coord.column(), 0);
+    }
+
+    /// Helper to construct a stride vector based on contiguous matrix layout and leading dimension
+    CUTLASS_HOST_DEVICE
+    static Coord<kStorageRank> stride(MatrixLayout::Kind layout, int ldm) {
+      if (layout == MatrixLayout::kRowMajor) {
+        return make_Coord(ldm, 1, 1);
+      }
+      return make_Coord(1, ldm, 1);
+    }
+  };
+  ```
+
+  cutlass::TensorView<> extends this concept by including a size vector to specify the bounds of
+  the index space. The value of each coordinate in the size vector defines the half-open range of
+  indices whose smallest value is zero.
+*/
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+// Standard Library includes
+#include <iostream>
+#include <vector>
+
+//
+// CUTLASS includes
+//
+
+// Defines cutlass::Coord<>
+#include "cutlass/coord.h"
+
+// Defines cutlass::TensorRef<>
+#include "cutlass/tensor_ref.h"
+
+// Defines cutlass::TensorView<>
+#include "cutlass/tensor_view.h"
+
+// Defines cutlass::MatrixLayout
+#include "cutlass/matrix_traits.h"
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// Column-major matrix access
+//
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Define a rank=2 tensor modeling a column-major matrix
+typedef cutlass::TensorView<
+  int,                                    // storage element is of type int
+  2,                                      // tensor has rank=2 logical index space
+  cutlass::MatrixLayout::ColumnMajor      // column-major mapping function
+> TensorViewColumnMajor;
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Kernel to copy a matrix from raw memory into a cutlass::TensorView
+__global__ void MatrixCopyColumnMajor(
+  TensorViewColumnMajor destination,      // destination tensor accessed by TensorView
+  int const *source,                      // source matrix accessed using cuBLAS-style pointer
+  int ldm) {                              //   and leading dimension
+
+  // Compute unique row and column for each thread
+  int row = threadIdx.x + blockIdx.x * blockDim.x;
+  int column = threadIdx.y + blockIdx.y * blockDim.y;
+
+  // Define a coordinate based on the thread's row and column
+  cutlass::Coord<2> coord = cutlass::make_Coord(row, column);
+
+  // Bounds test
+  if (coord < destination.size()) {
+
+    // Access the element
+    destination.at(coord) = source[row + column * ldm];
+  }
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Launches kernel MatrixCopyColumnMajor()
+cudaError_t TestMatrixCopyColumnMajor() {
+  cudaError_t result;
+
+  int const M = 32;     // number of rows
+  int const N = 16;     // number of columns
+
+  int const ldm = 40;   // matrix leading dimension
+
+  //
+  // Allocate source and destination matrices
+  //
+
+  int *Destination;
+  int *Source;
+
+  int const matrix_capacity = ldm * N;                          // number of elements in memory needed to store matrix
+  size_t const sizeof_matrix = sizeof(int) * matrix_capacity;   // size of matrix in bytes
+
+  // Allocate destination and source matrices
+  result = cudaMalloc((void **)&Destination, sizeof_matrix);
+  if (result != cudaSuccess) {
+    std::cerr << "Failed to allocate destination matrix on device: " << cudaGetErrorString(result) << std::endl;
+    return result;
+  }
+
+  result = cudaMalloc((void **)&Source, sizeof_matrix);
+  if (result != cudaSuccess) {
+    cudaFree(Destination);
+    std::cerr << "Failed to allocate source matrix on device:" << cudaGetErrorString(result) << std::endl;
+    return result;
+  }
+
+  // Clear destination matrix in device memory
+  result = cudaMemset(Destination, 0, sizeof_matrix);
+  if (result != cudaSuccess) {
+    cudaFree(Destination);
+    cudaFree(Source);
+    std::cerr << "Failed to clear destination matrix: " << cudaGetErrorString(result) << std::endl;
+    return result;
+  }
+
+  //
+  // Initialize matrix
+  //
+
+  std::vector<int> source_host(matrix_capacity, 0);
+
+  // Procedurally generate input results using several arbitrary constants.
+  int const magic_row_stride = 2;
+  int const magic_column_stride = 3;
+
+  for (int j = 0; j < N; ++j) {
+    for (int i = 0; i < M; ++i) {
+      source_host.at(i + j * ldm) = i * magic_row_stride + j * magic_column_stride;
+    }
+  }
+
+  // Copy to device memory
+  result = cudaMemcpy(Source, source_host.data(), sizeof_matrix, cudaMemcpyHostToDevice);
+  if (result != cudaSuccess) {
+    cudaFree(Destination);
+    cudaFree(Source);
+    std::cerr << "Failed to copy from host to source matrix: " << cudaGetErrorString(result) << std::endl;
+    return result;
+  }
+
+  //
+  // Define a TensorView<> pointing to the destination matrix
+  //
+  TensorViewColumnMajor destination_view_device(
+    Destination,                            // pointer to base of matrix in device memory
+    cutlass::make_Coord(ldm, 1),            // stride vector
+    cutlass::make_Coord(M, N)               // bounds of matrix
+  );
+
+  //
+  // Launch kernel to copy matrix
+  //
+
+  dim3 block(16, 16);
+  dim3 grid((M + block.x - 1) / block.x, (N + block.y - 1) / block.y);
+
+  MatrixCopyColumnMajor<<< grid, block >>>(destination_view_device, Source, ldm);
+
+  result = cudaGetLastError();
+  if (result != cudaSuccess) {
+    std::cerr << "Kernel MatrixCopyColumnMajor() failed: "
+      << cudaGetErrorString(result) << std::endl;
+
+    cudaFree(Destination);
+    cudaFree(Source);
+
+    return result;
+  }
+
+  //
+  // Copy results to host memory
+  //
+
+  std::vector<int> dest_host(matrix_capacity, 0);
+
+  result = cudaMemcpy(dest_host.data(), Destination, sizeof_matrix, cudaMemcpyDeviceToHost);
+
+  if (result != cudaSuccess) {
+    std::cerr << "Failed to copy destination matrix to host memory: "
+      << cudaGetErrorString(result) << std::endl;
+
+    cudaFree(Destination);
+    cudaFree(Source);
+
+    return result;
+  }
+
+  //
+  // Verify result
+  //
+
+  // Define a TensorView for use in accessing host memory
+  TensorViewColumnMajor destination_view_host(
+    dest_host.data(),                          // pointer to base of matrix in host memory
+    cutlass::make_Coord(ldm, 1),               // stride vector
+    cutlass::make_Coord(M, N)                  // bounds of matrix
+  );
+
+  // Verify against procedurally computed results
+  for (int j = 0; j < N; ++j) {
+    for (int i = 0; i < M; ++i) {
+
+      // computed result
+      int expected = i * magic_row_stride + j * magic_column_stride;
+
+      // access data by computing explicit offsets
+      int got_explicit = dest_host.at(i + j * ldm);
+
+      // access data in host memory through a TensorView
+      int got_view = destination_view_host.at(cutlass::make_Coord(i, j));
+
+      if (got_explicit != expected) {
+
+        std::cerr << "Error at element (" << i << ", " << j
+          << ") accessed through explicitly computed offset - expected: " << expected
+          << ", got: " << got_explicit << std::endl;
+
+        return cudaErrorUnknown;
+      }
+
+      if (got_view != expected) {
+
+        std::cerr << "Error at element (" << i << ", " << j
+          << ") accesed through TensorView<> on the host - expected: " << expected
+          << ", got: " << got_view << std::endl;
+
+        return cudaErrorUnknown;
+      }
+    }
+  }
+
+  return cudaSuccess;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Entry point for tensor_view example.
+//
+// usage:
+//
+//   02_tensor_view
+//
+int main() {
+
+  cudaError_t result = TestMatrixCopyColumnMajor();
+
+  if (result == cudaSuccess) {
+    std::cout << "Passed" << std::endl;
+  }
+
+  return (result == cudaSuccess ? 0 : -1);
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/examples/02_cutlass_utilities/CMakeLists.txt b/examples/02_cutlass_utilities/CMakeLists.txt
new file mode 100644
index 0000000000..f59281e057
--- /dev/null
+++ b/examples/02_cutlass_utilities/CMakeLists.txt
@@ -0,0 +1,38 @@
+# Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without modification, are permitted
+# provided that the following conditions are met:
+#     * Redistributions of source code must retain the above copyright notice, this list of
+#       conditions and the following disclaimer.
+#     * Redistributions in binary form must reproduce the above copyright notice, this list of
+#       conditions and the following disclaimer in the documentation and/or other materials
+#       provided with the distribution.
+#     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+#       to endorse or promote products derived from this software without specific prior written
+#       permission.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+# IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+# FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+# FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+# BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+# OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+# STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+
+set(EXAMPLES_CUTLASS_UTILITIES_SOURCES
+  cutlass_utilities.cu
+)
+
+if (NOT CUTLASS_NATIVE_CUDA)
+  # cuda_add_executable does not take interface include directories into account
+  # Let's fetch them and pass them to CUDA.
+  get_target_property(CUTLASS_INCLUDES CUTLASS INTERFACE_INCLUDE_DIRECTORIES)
+  include_directories("${CUTLASS_INCLUDES}")
+endif()
+
+cutlass_add_executable(
+  02_cutlass_utilities
+  ${EXAMPLES_CUTLASS_UTILITIES_SOURCES}
+)
diff --git a/examples/02_cutlass_utilities/cutlass_utilities.cu b/examples/02_cutlass_utilities/cutlass_utilities.cu
new file mode 100644
index 0000000000..296699325d
--- /dev/null
+++ b/examples/02_cutlass_utilities/cutlass_utilities.cu
@@ -0,0 +1,359 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+/*
+  This example demonstrates several CUTLASS utilities in the context of a mixed-precision
+  floating-point matrix product computation.
+
+  These utilities are intended to be useful supporting components for managing tensor and matrix
+  memory allocations, initializing and comparing results, and computing reference output.
+
+  CUTLASS utilities are defined in the directory `tools/util`, and definitions appear
+  namespace `cutlass::` or an inner namespace therein. Operations in `cutlass::reference::` have
+  both host-side and device-side implementations, and the choice to use device-side initialization
+  and host-side verification in this example was arbitrary.
+
+
+  cutlass::half_t
+
+    This is a host-only implementation of a half-precision floating-point type. It requires no
+    specialized hardware support from the CPU and emulates arithmetic operations. Device-side code
+    should use CUDA's `half` type.
+
+
+  cutlass::HostMatrix<>
+
+    This template class simplifies the creation of a rank=2 tensor with either a column-major or
+    row-major layout in memory.
+
+    This class offers methods device_view() and host_view() to provide TensorView objects for
+    device- and host-side memory allocations.
+
+
+  cutlass::reference::device::TensorInitialize()
+
+    This template function initializes the elements of a tensor according to either a procedural
+    definition or a random distribution. The function in namespace `cutlass::reference::device::`
+    uses a CUDA kernel to perform this initialization, relying on CURAND to compute random numbers.
+
+
+  cutlass::reference::host::Gemm()
+
+    This template function computes the general matrix product. This template supports unique
+    data types for each matrix operand, the internal accumulation type, and the scalar parameters
+    alpha and beta.
+
+
+  cutlass::reference::host::TensorEquals()
+
+    Compares two tensors of identical rank and returns true if values are bit equivalent.
+
+*/
+
+// Standard Library includes
+#include <iostream>
+#include <sstream>
+#include <vector>
+
+// CUTLASS includes needed for mixed-precision GEMM kernel
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/fp16_sgemm_traits.h"
+
+//
+// CUTLASS utility includes
+//
+
+// Defines operator<<() to write TensorView objects to std::ostream
+#include "tools/util/tensor_view_io.h"
+
+// Defines cutlass::HostMatrix<>
+#include "tools/util/host_matrix.h"
+
+// Defines cutlass::half_t
+#include "tools/util/half.h"
+
+// Defines cutlass::reference::device::TensorInitialize()
+#include "tools/util/reference/device/tensor_elementwise.h"
+
+// Defines cutlass::reference::host::TensorEquals()
+#include "tools/util/reference/host/tensor_elementwise.h"
+
+// Defines cutlass::reference::host::Gemm()
+#include "tools/util/reference/host/gemm.h"
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Define a CUTLASS GEMM template and launch a GEMM kernel.
+cudaError_t Cutlass_FP16_SgemmNN(
+  int M,
+  int N,
+  int K,
+  cutlass::half_t alpha,
+  half const *A,
+  int lda,
+  half const *B,
+  int ldb,
+  cutlass::half_t beta,
+  half *C,
+  int ldc) {
+
+  // Define a CUTLASS Gemm using mixed-precision floating-point.
+  //
+  // A, B, C, D are half-precision. Internal accumulation is in single-precision.
+  //
+  // Note, we use CUDA's `half` type for device-side code including CUTLASS GEMM kernels.
+  //
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half,   // A type
+    half,   // B type
+    half,   // C type
+    half,   // D type
+    half    // Scalar type: alpha, beta
+  >
+    GemmTraits;
+
+  // Define a CUTLASS GEMM object.
+  typedef cutlass::gemm::Gemm<GemmTraits> Gemm;
+
+  // Construct and initialize CUTLASS GEMM parameters object.
+  typename Gemm::Params params;
+
+  int result = params.initialize(
+    M,                  // GEMM M dimension
+    N,                  // GEMM N dimension
+    K,                  // GEMM K dimension
+    half(float(alpha)), // scalar alpha - This is a legal conversion from cutlass::half_t to CUDA's half.
+    A,                  // matrix A operand
+    lda,
+    B,                  // matrix B operand
+    ldb,
+    half(float(beta)),  // scalar beta - This is a legal conversion from cutlass::half_t to CUDA's half.
+    C,                  // source matrix C
+    ldc,
+    C,                  // destination matrix C (may be different memory than source C matrix)
+    ldc
+  );
+
+  if (result) {
+    std::cerr << "Failed to initialize CUTLASS Gemm::Params object." << std::endl;
+    return cudaErrorInvalidValue;
+  }
+
+  // Launch the CUTLASS GEMM kernel.
+  Gemm::launch(params);
+
+  // Return any errors associated with the launch or cudaSuccess if no error.
+  return cudaGetLastError();
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Allocate several matrices in GPU device memory and call a single-precision
+/// CUTLASS GEMM kernel.
+cudaError_t TestCutlassGemm(int M, int N, int K, cutlass::half_t alpha, cutlass::half_t beta) {
+  cudaError_t result;
+
+  //
+  // Construct cutlass::HostMatrix<> using the half-precision host-side type.
+  //
+  // cutlass::HostMatrix<> allocates memory on both the host and device corresponding to rank=2
+  // tensors in column-major layout. Explicit synchronization methods are offered to copy the
+  // tensor to the device or to the host.
+  //
+
+  // M-by-K matrix of cutlass::half_t
+  cutlass::HostMatrix<cutlass::half_t> A(cutlass::MatrixCoord(M, K));
+
+  // K-by-N matrix of cutlass::half_t
+  cutlass::HostMatrix<cutlass::half_t> B(cutlass::MatrixCoord(K, N));
+
+  // M-by-N matrix of cutlass::half_t
+  cutlass::HostMatrix<cutlass::half_t> C_cutlass(cutlass::MatrixCoord(M, N));
+
+  // M-by-N matrix of cutlass::half_t
+  cutlass::HostMatrix<cutlass::half_t> C_reference(cutlass::MatrixCoord(M, N));
+
+  //
+  // Initialize matrices with small, random integers.
+  //
+
+  cutlass::Distribution dist;
+
+  // Uniform random distribution from -4 .. 4. Values are truncated to integers.
+  dist.set_uniform(-4, 4);
+
+  // Arbitrary RNG seed value. Hard-coded for deterministic results.
+  int seed = 2080;
+
+  cutlass::reference::device::TensorInitialize(
+    A.device_view(),                                // concept: TensorView
+    seed,
+    dist);
+
+  cutlass::reference::device::TensorInitialize(
+    B.device_view(),                                // concept: TensorView
+    seed * 2,
+    dist);
+  cutlass::reference::device::TensorInitialize(
+    C_cutlass.device_view(),                        // concept: TensorView
+    seed * 3,
+    dist);
+
+  // Copy C_cutlass into C_reference so the GEMM is correct when beta != 0.
+  cutlass::reference::device::TensorFill(C_reference.device_view(), C_cutlass.device_view());
+
+  // Copy the device-side view into host memory
+  C_reference.sync_host();
+
+  //
+  // Launch the CUTLASS GEMM kernel
+  //
+
+  result = Cutlass_FP16_SgemmNN(
+    M,
+    N,
+    K,
+    alpha,
+    A.device_data(),
+    A.leading_dim(),
+    B.device_data(),
+    B.leading_dim(),
+    beta,
+    C_cutlass.device_data(),
+    C_cutlass.leading_dim()
+  );
+
+  if (result != cudaSuccess) {
+    return result;
+  }
+
+  //
+  // Verify the result using a host-side reference
+  //
+
+  // A and B were initialized using device-side procedures. The intent of this example is to
+  // use the host-side reference GEMM, so we must perform a device-to-host copy.
+  A.sync_host();
+  B.sync_host();
+
+  // Copy CUTLASS's GEMM results into host memory.
+  C_cutlass.sync_host();
+
+  // Compute the reference result using the host-side GEMM reference implementation.
+  cutlass::reference::host::Gemm(
+    cutlass::gemm::GemmCoord(K, N, M),  // problem size  (type: cutlass::gemm::GemmCoord)
+    alpha,                              // alpha         (type: cutlass::half_t)
+    A.host_ref(),                       // A             (concept: TensorRef)
+    B.host_ref(),                       // B             (concept: TensorRef)
+    beta,                               // beta          (type: cutlass::half_t)
+    C_reference.host_ref(),             // C             (concept: TensorRef)
+    float(0)                            // Accumulator initial value passed as argument to deduce
+  );                                    // internal accumulation data type as float.
+
+  // Compare reference to computed results.
+  if (!cutlass::reference::host::TensorEquals(C_reference.host_view(), C_cutlass.host_view())) {
+
+    std::cerr << "Error - CUTLASS mixed-precision GEMM kernel differs from reference." << std::endl;
+
+    //
+    // On error, print C_cutlass and C_reference to std::cerr.
+    //
+    // Note, these are matrices of half-precision elements stored in host memory as
+    // arrays of type cutlass::half_t.
+    //
+
+    // Result of CUTLASS mixed-precision GEMM kernel
+    std::cerr << "CUTLASS:\n" << C_cutlass << std::endl;
+
+    // Result of reference computation
+    std::cerr << "Reference:\n" << C_reference << std::endl;
+
+    // Return error code.
+    return cudaErrorUnknown;
+  }
+
+  // Passed error check
+  return cudaSuccess;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Entry point to cutlass_utilities example.
+//
+// usage:
+//
+//   01_cutlass_utilities <M> <N> <K> <alpha> <beta>
+//
+int main(int argc, const char *arg[]) {
+
+  //
+  // Parse the command line to obtain GEMM dimensions and scalar values.
+  //
+
+  // GEMM problem dimensions: <M> <N> <K>
+  int problem[3] = { 128, 128, 128 };
+
+  for (int i = 1; i < argc && i < 4; ++i) {
+    std::stringstream ss(arg[i]);
+    ss >> problem[i - 1];
+  }
+
+  // Linear scale factors in GEMM. Note, these are half-precision values stored as
+  // cutlass::half_t.
+  //
+  // Values outside the range of IEEE FP16 will overflow to infinity or underflow to zero.
+  //
+  cutlass::half_t scalars[2] = { 1, 0 };
+
+  for (int i = 4; i < argc && i < 6; ++i) {
+    std::stringstream ss(arg[i]);
+
+    ss >> scalars[i - 4];   // lexical cast to cutlass::half_t
+  }
+
+  //
+  // Run the CUTLASS GEMM test.
+  //
+
+  cudaError_t result = TestCutlassGemm(
+    problem[0],     // GEMM M dimension
+    problem[1],     // GEMM N dimension
+    problem[2],     // GEMM K dimension
+    scalars[0],     // alpha
+    scalars[1]      // beta
+  );
+
+  if (result == cudaSuccess) {
+    std::cout << "Passed." << std::endl;
+  }
+
+  // Exit.
+  return result == cudaSuccess ? 0 : -1;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/examples/03_strided_batched_gemm/CMakeLists.txt b/examples/03_strided_batched_gemm/CMakeLists.txt
new file mode 100644
index 0000000000..564bc6310d
--- /dev/null
+++ b/examples/03_strided_batched_gemm/CMakeLists.txt
@@ -0,0 +1,38 @@
+# Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without modification, are permitted
+# provided that the following conditions are met:
+#     * Redistributions of source code must retain the above copyright notice, this list of
+#       conditions and the following disclaimer.
+#     * Redistributions in binary form must reproduce the above copyright notice, this list of
+#       conditions and the following disclaimer in the documentation and/or other materials
+#       provided with the distribution.
+#     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+#       to endorse or promote products derived from this software without specific prior written
+#       permission.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+# IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+# FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+# FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+# BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+# OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+# STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+
+set(EXAMPLES_STRIDED_BATCHED_GEMM_SOURCES
+  strided_batched_gemm.cu
+)
+
+if (NOT CUTLASS_NATIVE_CUDA)
+  # cuda_add_executable does not take interface include directories into account
+  # Let's fetch them and pass them to CUDA.
+  get_target_property(CUTLASS_INCLUDES CUTLASS INTERFACE_INCLUDE_DIRECTORIES)
+  include_directories("${CUTLASS_INCLUDES}")
+endif()
+
+cutlass_add_executable(
+  03_strided_batched_gemm
+  ${EXAMPLES_STRIDED_BATCHED_GEMM_SOURCES}
+)
diff --git a/examples/03_strided_batched_gemm/strided_batched_gemm.cu b/examples/03_strided_batched_gemm/strided_batched_gemm.cu
new file mode 100644
index 0000000000..e7d387b6cb
--- /dev/null
+++ b/examples/03_strided_batched_gemm/strided_batched_gemm.cu
@@ -0,0 +1,349 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+#include <iostream>
+#include <vector>
+#include "cutlass/cutlass.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+
+/*
+This example demonstrates how to use cutlass to compute a batched strided gemm.
+In this example, both A and B matrix are non-transpose and column major matrix
+batched_C = batched_A x batched_B
+As an example, matrix C can be seen as
+-----------------------------------------------------------
+(0,0,0) | (0,0,1) | (0,0,2) | (1,0,0) | (1,0,1) | (1,0,2) |
+-----------------------------------------------------------
+(0,1,0) | (0,1,1) | (0,1,2) | (1,1,0) | (1,1,1) | (1,1,2) |
+-----------------------------------------------------------
+(0,2,0) | (0,2,1) | (0,2,2) | (1,2,0) | (1,2,1) | (1,2,2) |
+-----------------------------------------------------------
+(0,3,0) | (0,3,1) | (0,3,2) | (1,3,0) | (1,3,1) | (1,3,2) |
+-----------------------------------------------------------
+(0,4,0) | (0,4,1) | (0,4,2) | (1,4,0) | (1,4,1) | (1,4,2) |
+-----------------------------------------------------------
+(0,5,0) | (0,5,1) | (0,5,2) | (1,5,0) | (1,5,1) | (1,5,2) |
+-----------------------------------------------------------
+           batch 0          |           batch 1
+where we denote each element with (batch_idx, row_idx, column_idx)
+In this example, batch size is 2, M is 6 and N is 3
+The stride (batch_stride_C) between the first element of two batches is ldc * n
+
+matrix A can be seen as
+---------------------------------------
+(0,0,0) | (0,0,1) | (1,0,0) | (1,0,1) |
+---------------------------------------
+(0,1,0) | (0,1,1) | (1,1,0) | (1,1,1) |
+---------------------------------------
+(0,2,0) | (0,2,1) | (1,2,0) | (1,2,1) |
+---------------------------------------
+(0,3,0) | (0,3,1) | (1,3,0) | (1,3,1) |
+---------------------------------------
+(0,4,0) | (0,4,1) | (1,4,0) | (1,4,1) |
+---------------------------------------
+(0,5,0) | (0,5,1) | (1,5,0) | (1,5,1) |
+---------------------------------------
+     batch 0      |      batch 1
+, where batch size is 2, M is 6 and K is 2
+The stride (batch_stride_B) between the first element of two batches is lda * k
+
+matrix B can be seen as
+-----------------------------
+(0,0,0) | (0,0,1) | (0,0,2) |
+----------------------------- batch 0
+(0,1,0) | (0,1,1) | (0,1,2) |
+-------------------------------------
+(1,0,0) | (1,0,1) | (1,0,2) |
+----------------------------- batch 1
+(1,1,0) | (1,1,1) | (1,1,2) |
+-----------------------------
+, where the batch size is 2, N is 3 and K is 2
+The stride (batch_stride_C) between the first element of two batches is k
+
+
+*/
+
+cudaError_t cutlass_strided_batched_sgemm(float const *A,
+  int lda,
+  long long int batch_stride_A,
+  float const *B,
+  int ldb,
+  long long int batch_stride_B,
+  float *C,
+  int ldc,
+  long long int batch_stride_C,
+  float alpha,
+  float beta,
+  int m, 
+  int n,
+  int k,
+  int batch_count) {
+  // create a cutlass traits
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  
+  // create a CUTLASS GEMM object.
+  typedef cutlass::gemm::Gemm<SgemmTraits> Gemm;
+  
+  // Construct and initialize CUTLASS GEMM parameters object.
+  typename Gemm::Params params;
+  
+  int result = params.initialize(
+    m,                  // M dimension for each batch
+    n,                  // N dimension for each batch
+    k,                  // K dimension for each batch
+    alpha,              // scalar alpha
+    A,
+    lda,
+    batch_stride_A,     // distance in memory between the first element of neighboring batch
+    B,
+    ldb,
+    batch_stride_B,     // distance in memory between the first element of neighboring batch
+    beta,               // scalar beta
+    C,                  // source matrix C
+    ldc,
+    batch_stride_C,     // distance in memory between the first element of neighboring batch
+    C,                  // destination matrix C (may be different memory than source C matrix)
+    ldc,
+    batch_stride_C,    // distance in memory between the first element of neighboring batch
+    batch_count
+  );
+  
+  if (result != 0) {
+    std::cerr << "Failed to initialize CUTLASS Gemm::Params object." << std::endl;
+    return cudaErrorInvalidValue;
+  }
+  
+  // Launch the CUTLASS GEMM kernel.
+  Gemm::launch(params);
+  result = cudaDeviceSynchronize();
+  if (result != cudaSuccess) {
+    std::cerr << "kernel launch result = " << result << std::endl;
+  }
+  return cudaGetLastError();
+}
+
+template<typename T> 
+cudaError_t strided_batched_gemm_nn_reference(std::vector<T> const &A, 
+  int lda,
+  long long int batch_stride_A,
+  std::vector<T> const &B, 
+  int ldb,
+  long long int batch_stride_B,
+  std::vector<T> &C, 
+  int ldc,
+  long long int batch_stride_C,
+  T alpha,
+  T beta,
+  int m,
+  int n,
+  int k,
+  int batch_count) {
+  /*
+  strided batched gemm NN
+  */
+  
+  cudaError_t result = cudaSuccess;
+
+  if (A.size() < lda * k * batch_count) {
+    std::cout << "the size of A is too small" << std::endl;
+    return cudaErrorInvalidValue;
+  }
+  if (B.size() < ldb * n) {
+    std::cout << "the size of B is too small" << std::endl;
+    return cudaErrorInvalidValue;
+  }
+  if (C.size() < ldc * n * batch_count) {
+    std::cout << "the size of C is too small" << std::endl;
+    return cudaErrorInvalidValue;
+  }
+  
+  for (int batch_idx = 0; batch_idx < batch_count; batch_idx++) {
+    for (int n_idx = 0; n_idx < n; n_idx++) {
+      for (int m_idx = 0; m_idx < m; m_idx++) {
+        T accum = beta * C[batch_idx * batch_stride_C + n_idx * ldc + m_idx];
+        for (int k_idx = 0; k_idx < k; k_idx++) {
+          accum += alpha 
+            * A[batch_idx * batch_stride_A + k_idx * lda + m_idx]
+            * B[batch_idx * batch_stride_B + n_idx * ldb + k_idx];
+        }
+        C[batch_idx * batch_stride_C + n_idx * ldc + m_idx] = accum;
+      }
+    }
+  }
+
+  return result;
+}
+
+int main() {
+  int const m = 16;
+  int const n = 24;
+  int const k = 8;
+  int const batch_count = 3;
+
+  // A, B are non-transpose, column major
+  int const lda = m;
+  int const ldb = k * batch_count;
+  int const ldc = m;
+
+  int const count_A = batch_count * lda * k;
+  int const count_B = ldb * n;
+  int const count_C = batch_count * ldc * n;
+
+  // the memory is batched along K dimension
+  long long int batch_stride_A = static_cast<long long int>(lda) * static_cast<long long int>(k);
+  long long int batch_stride_B = static_cast<long long int>(k);
+  long long int batch_stride_C = static_cast<long long int>(ldc) * static_cast<long long int>(n);
+
+  // alpha and beta
+  float alpha = 1.0f;
+  float beta = 2.0f;
+
+  cudaError_t result = cudaSuccess;
+
+  // allocate the host memory
+  std::vector<float> host_A(count_A);
+  std::vector<float> host_B(count_B);
+  std::vector<float> host_C(count_C);
+  std::vector<float> result_C(count_C);
+
+  // allocate the device memory
+  float *A;
+  float *B;
+  float *C;
+
+  result = cudaMalloc(&A, count_A * sizeof(float));
+  if (result != cudaSuccess) {
+    std::cerr << "cudaMalloc result = " << result << std::endl;
+    return result;
+  }
+  result = cudaMalloc(&B, count_B * sizeof(float));
+  if (result != cudaSuccess) {
+    std::cerr << "cudaMalloc result = " << result << std::endl;
+    return result;
+  }
+  result = cudaMalloc(&C, count_C * sizeof(float));
+  if (result != cudaSuccess) {
+    std::cerr << "cudaMalloc result = " << result << std::endl;
+    return result;
+  }
+
+  // fill A
+  for (int b_idx = 0; b_idx < batch_count; b_idx++) {
+    for (int col_idx = 0; col_idx < k; col_idx++) {
+      for (int row_idx = 0; row_idx < m; row_idx++) {
+        host_A[row_idx + col_idx * lda + b_idx * lda * k] = static_cast<float>(row_idx + col_idx * lda + b_idx * lda * k);
+      }
+    }
+  }
+  // fill B
+  for (int b_idx = 0; b_idx < batch_count; b_idx++) {
+    for (int col_idx = 0; col_idx < n; col_idx++) {
+      for (int row_idx = 0; row_idx < k; row_idx++) {
+        host_B[row_idx + col_idx * ldb + b_idx * k] = static_cast<float>(n + k * ldb + batch_count * k) - static_cast<float>(row_idx + col_idx * ldb + b_idx * k);
+      }
+    }
+  }
+  // fill C
+  for (int b_idx = 0; b_idx < batch_count; b_idx++) {
+    for (int col_idx = 0; col_idx < n; col_idx++) {
+      for (int row_idx = 0; row_idx < m; row_idx++) {
+        host_C[row_idx + col_idx * ldc + b_idx * ldc * n] = 1.f;
+      }
+    }
+  }
+
+  // ref memory
+  std::vector<float> ref_A(host_A);
+  std::vector<float> ref_B(host_B);
+  std::vector<float> ref_C(host_C);
+  // copy host memory to device
+  result = cudaMemcpy(A, host_A.data(), count_A * sizeof(float), cudaMemcpyHostToDevice);
+  if (result != cudaSuccess) {
+    std::cerr << "cudaMemcpy result = " << result << std::endl;
+    return result;
+  }
+  result = cudaMemcpy(B, host_B.data(), count_B * sizeof(float), cudaMemcpyHostToDevice);
+  if (result != cudaSuccess) {
+    std::cerr << "cudaMemcpy result = " << result << std::endl;
+    return result;
+  }
+  result = cudaMemcpy(C, host_C.data(), count_C * sizeof(float), cudaMemcpyHostToDevice);
+  if (result != cudaSuccess) {
+    std::cerr << "cudaMemcpy result = " << result << std::endl;
+    return result;
+  }
+
+  // run cutlass
+  result = cutlass_strided_batched_sgemm(A, lda, batch_stride_A, B, ldb, batch_stride_B, C, ldc, batch_stride_C,
+    alpha, beta, m, n, k, batch_count);
+  if (result != cudaSuccess)
+    return result;
+
+  // copy device memory to host
+  result = cudaMemcpy(result_C.data(), C, count_C * sizeof(float), cudaMemcpyDeviceToHost);
+  if (result != cudaSuccess) {
+    std::cerr << "cudaMemcpy result = " << result << std::endl;
+    return result;
+  }
+
+  //compare with reference code
+  result = strided_batched_gemm_nn_reference(ref_A, lda, batch_stride_A, ref_B, ldb, batch_stride_B, ref_C, ldc, batch_stride_C,
+    alpha, beta, m, n, k, batch_count);
+  if (result != 0)
+    return result;
+
+  if (ref_C != result_C) {
+    std::cout << "CUTLASS strided batched gemm does not run correctly" << std::endl;
+    return cudaErrorUnknown;
+  }
+
+  // free memory
+  result = cudaFree(A);
+  if (result != cudaSuccess) {
+    std::cerr << "cudaFree result = " << result << std::endl;
+    return result;
+  }
+  result = cudaFree(B);
+  if (result != cudaSuccess) {
+    std::cerr << "cudaFree result = " << result << std::endl;
+    return result;
+  }
+  result = cudaFree(C);
+  if (result != cudaSuccess) {
+    std::cerr << "cudaFree result = " << result << std::endl;
+    return result;
+  }
+
+
+  if (result == cudaSuccess) {
+    std::cout << "Passed." << std::endl;
+  }
+
+  // Exit.
+  return result == cudaSuccess ? 0 : -1;
+}
diff --git a/examples/04_tile_iterator/CMakeLists.txt b/examples/04_tile_iterator/CMakeLists.txt
new file mode 100644
index 0000000000..0e74d12db6
--- /dev/null
+++ b/examples/04_tile_iterator/CMakeLists.txt
@@ -0,0 +1,38 @@
+# Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without modification, are permitted
+# provided that the following conditions are met:
+#     * Redistributions of source code must retain the above copyright notice, this list of
+#       conditions and the following disclaimer.
+#     * Redistributions in binary form must reproduce the above copyright notice, this list of
+#       conditions and the following disclaimer in the documentation and/or other materials
+#       provided with the distribution.
+#     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+#       to endorse or promote products derived from this software without specific prior written
+#       permission.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+# IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+# FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+# FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+# BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+# OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+# STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+
+set(EXAMPLES_BASIC_CUTLASS_GEMM_SOURCES
+  tile_iterator.cu
+)
+
+if (NOT CUTLASS_NATIVE_CUDA)
+  # cuda_add_executable does not take interface include directories into account
+  # Let's fetch them and pass them to CUDA.
+  get_target_property(CUTLASS_INCLUDES CUTLASS INTERFACE_INCLUDE_DIRECTORIES)
+  include_directories("${CUTLASS_INCLUDES}")
+endif()
+
+cutlass_add_executable(
+  04_tile_iterator
+  ${EXAMPLES_BASIC_CUTLASS_GEMM_SOURCES}
+)
diff --git a/examples/04_tile_iterator/tile_iterator.cu b/examples/04_tile_iterator/tile_iterator.cu
new file mode 100644
index 0000000000..40d5e55198
--- /dev/null
+++ b/examples/04_tile_iterator/tile_iterator.cu
@@ -0,0 +1,248 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+/*
+  This example demonstrates how to use the TileIterator in CUTLASS to load data from addressable
+  memory, and store it back into addressable memory.
+
+  TileIterator is a core concept in CUTLASS that enables efficient loading and storing of data from
+  and to addressable memory. The TileIterator accepts a TileTraits type, which defines the shape of a 
+  tile and the distribution of accesses by individual entities, either threads or others.
+
+  In this example, a LoadTileIterator is used to load elements from a tile in global memory, stored in 
+  column-major layout, into a fragment, and a corresponding StoreTileIterator is used to store the
+  elements back into global memory (in the same column-major layout).
+
+  https://devblogs.nvidia.com/cutlass-linear-algebra-cuda/
+
+  This example uses CUTLASS utilities to ease the matrix operations.
+*/
+
+// Standard Library includes
+#include <iostream>
+#include <sstream>
+#include <vector>
+
+// CUTLASS includes
+#include "cutlass/tile_iterator.h"
+#include "cutlass/tile_traits_standard.h"
+
+//
+// CUTLASS utility includes
+//
+
+// Defines operator<<() to write TensorView objects to std::ostream
+#include "tools/util/tensor_view_io.h"
+
+// Defines cutlass::HostMatrix<>
+#include "tools/util/host_matrix.h"
+
+// Defines cutlass::reference::device::TensorInitialize()
+#include "tools/util/reference/device/tensor_elementwise.h"
+
+// Defines cutlass::reference::host::TensorEquals()
+#include "tools/util/reference/host/tensor_elementwise.h"
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// This function defines load and store tile iterators to load and store a M-by-K tile, in
+// column-major layout, from and back into global memory.
+//
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename Traits>
+__global__ void cutlass_tile_iterator_load_store_global(
+  float const *input,
+  float *output,
+  int M,
+  int K) {
+
+    // Define a tile load iterator
+    typedef cutlass::TileLoadIterator<
+        Traits,                         // the Traits type, defines shape/distribution of accesses
+        float,                          // elements are of type float
+        cutlass::IteratorAdvance::kH,   // post-increment accesses advance in strided (as opposed to
+                                        //     contiguous dimension 
+        cutlass::MemorySpace::kGlobal   // iterator loads from global memory 
+        > TileLoadIterator;
+
+    // Defines a tile store iterator
+    typedef cutlass::TileStoreIterator<
+        Traits,                         // the Traits type, defines shape/distribution of accesses
+        float,                          // elements are of type float
+        cutlass::IteratorAdvance::kH,   // post-increment accesses advance in strided (as opposed to
+                                        //     contiguous) dimension
+        cutlass::MemorySpace::kGlobal   // iterator stores into global memory
+        > TileStoreIterator;
+
+    // Defines a predicate vector for managing statically sized vector of boolean predicates
+    typedef typename TileLoadIterator::PredicateVector PredicateVector;
+
+    // The parameters specified to the iterators. These include the pointer to the source of
+    // addressable memory, and the strides and increments for each of the tile's dimensions  
+    typename TileLoadIterator::Params load_params;
+    typename TileStoreIterator::Params store_params;
+
+    // Initializing the parameters for both of the iterators. The TileLoadIterator accesses the
+    // input matrix and TileStoreIterator accesses the output matrix. The strides are set
+    // identically since the data is being stored in the same way as it is loaded (column-major
+    // mapping).
+    load_params.initialize(input, M*K, M, 1);
+    store_params.initialize(output, M*K, M, 1);
+   
+    // Constructing the tile load and store iterators, and the predicates vector
+    TileLoadIterator load_iterator(load_params);
+    TileStoreIterator store_iterator(store_params);
+    PredicateVector predicates;
+
+    // Initializing the predicates with bounds set to <1, K, M>. This protects out-of-bounds loads.
+    load_iterator.initialize_predicates(predicates.begin(), cutlass::make_Coord(1, K, M));
+
+    // The fragment in which the elements are loaded into and stored from.
+    typename TileLoadIterator::Fragment fragment;
+
+    // Loading a tile into a fragment and advancing to the next tile's position
+    load_iterator.load_post_increment(fragment, predicates.begin());
+    // Storing a tile from fragment and advancing to the next tile's position
+    store_iterator.store_post_increment(fragment);
+}
+
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+// Launches cutlass_tile_iterator_load_store_global kernel
+cudaError_t test_cutlass_tile_iterator() {
+  cudaError_t result = cudaSuccess;
+
+  // Creating a M-by-K (128-by-8) tile for this example.
+  static int const M = 128;
+  static int const K = 8;
+  // The kernel is launched with 128 threads per thread block.
+  static int const kThreadsPerThreadBlock = 128;
+  // Define the tile type
+  typedef cutlass::Shape<1, 8, 128> Tile;
+
+  // CUTLASS provides a standard TileTraits type, which chooses the 'best' shape to enable warp 
+  // raking along the contiguous dimension if possible.
+  typedef cutlass::TileTraitsStandard<Tile, kThreadsPerThreadBlock> Traits;
+
+  // M-by-K input matrix of float
+  cutlass::HostMatrix<float> input(cutlass::MatrixCoord(M, K));
+
+  // M-by-K output matrix of float
+  cutlass::HostMatrix<float> output(cutlass::MatrixCoord(M, K));
+
+  //
+  // Initialize input matrix with linear combination.
+  //
+
+  cutlass::Distribution dist;
+
+  // Linear distribution in column-major format.
+  dist.set_linear(1, 1, M);
+
+  // Arbitrary RNG seed value. Hard-coded for deterministic results.
+  int seed = 2080;
+
+  cutlass::reference::device::TensorInitialize(
+    input.device_view(),                                // concept: TensorView
+    seed,
+    dist);
+
+  // Initialize output matrix to all zeroes.
+  output.fill(0);
+
+  // Launch kernel to load and store tiles from/to global memory.
+  cutlass_tile_iterator_load_store_global<Traits><<<
+      dim3(1, 1, 1),
+      dim3(kThreadsPerThreadBlock, 1)
+    >>>(input.device_data(), output.device_data(), M, K);
+
+  result = cudaDeviceSynchronize();
+
+  if (result != cudaSuccess) {
+    return result;
+  }
+
+  // Copy results to host
+  output.sync_host();
+
+  // Verify results
+  for(int i = 0; i < M; ++i) {
+    for(int j = 0; j < K; ++j) {
+      if(output.at(cutlass::make_Coord(i, j)) != float(M*j+i+1)){
+        std::cout << "FAILED: (" << i << ", " << j
+                  << ") -- expected: " << (M*j+i+1)
+                  << ", actual: " << output.at(cutlass::make_Coord(i, j))
+                  << std::endl;
+        result = cudaErrorUnknown;
+        break;
+      }
+    }
+  }
+
+  return result;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Entry point to tile_iterator example.
+//
+// usage:
+//
+//   04_tile_iterator
+//
+int main(int argc, const char *arg[]) {
+  
+  // Properties of CUDA device
+  cudaDeviceProp device_properties;
+    
+  // Assumne the device id is 0.
+  int device_id = 0;
+
+  cudaError_t result = cudaGetDeviceProperties(&device_properties, device_id);
+  if (result != cudaSuccess) {
+    std::cerr << "Failed to get device properties: " 
+      << cudaGetErrorString(result) << std::endl;
+    return -1;
+  }
+
+
+  //
+  // Run the CUTLASS tile iterator test.
+  //
+
+  result = test_cutlass_tile_iterator();
+
+  if (result == cudaSuccess) {
+    std::cout << "Passed." << std::endl;
+  }
+
+  // Exit.
+  return result == cudaSuccess ? 0 : -1;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
diff --git a/examples/05_wmma_gemm/CMakeLists.txt b/examples/05_wmma_gemm/CMakeLists.txt
new file mode 100644
index 0000000000..ab048532c0
--- /dev/null
+++ b/examples/05_wmma_gemm/CMakeLists.txt
@@ -0,0 +1,38 @@
+# Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without modification, are permitted
+# provided that the following conditions are met:
+#     * Redistributions of source code must retain the above copyright notice, this list of
+#       conditions and the following disclaimer.
+#     * Redistributions in binary form must reproduce the above copyright notice, this list of
+#       conditions and the following disclaimer in the documentation and/or other materials
+#       provided with the distribution.
+#     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+#       to endorse or promote products derived from this software without specific prior written
+#       permission.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+# IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+# FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+# FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+# BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+# OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+# STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+
+set(EXAMPLES_BASIC_CUTLASS_GEMM_SOURCES
+  wmma_gemm.cu
+)
+
+if (NOT CUTLASS_NATIVE_CUDA)
+  # cuda_add_executable does not take interface include directories into account
+  # Let's fetch them and pass them to CUDA.
+  get_target_property(CUTLASS_INCLUDES CUTLASS INTERFACE_INCLUDE_DIRECTORIES)
+  include_directories("${CUTLASS_INCLUDES}")
+endif()
+
+cutlass_add_executable(
+  05_wmma_gemm
+  ${EXAMPLES_BASIC_CUTLASS_GEMM_SOURCES}
+)
diff --git a/examples/05_wmma_gemm/wmma_gemm.cu b/examples/05_wmma_gemm/wmma_gemm.cu
new file mode 100644
index 0000000000..2b1e3567f0
--- /dev/null
+++ b/examples/05_wmma_gemm/wmma_gemm.cu
@@ -0,0 +1,353 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+/*
+  This example demonstrates how to call a CUTLASS GEMM kernel using Turing integer WMMA.
+
+  The CUTLASS integer WMMA Gemm template is instantiated in the function Cutlass_S8_WmmagemmNN. This
+  is kernel computes the general matrix product (GEMM) using integer arithmetic accelerated by Turing
+  WMMA and assumes all matrices have column-major layout.
+
+  The threadblock tile size is chosen as 128x128x8 which offers good performance for large matrices.
+  See the CUTLASS Parallel for All blog post for more exposition on the tunable parameters available
+  in CUTLASS.
+
+  https://devblogs.nvidia.com/cutlass-linear-algebra-cuda/
+
+  This example uses CUTLASS utilities to ease the matrix operations.
+*/
+
+// Standard Library includes
+#include <iostream>
+#include <sstream>
+#include <vector>
+
+// CUTLASS includes needed for WMMA GEMM kernel
+#include "cutlass/wmma_matrix.h"
+
+// This example works only when this MACRO is defined in "cutlass/wmma_matrix.h"
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+
+// Defines cutlass::gemm::Gemm, the generic Gemm computation template class.
+#include "cutlass/gemm/gemm.h"
+
+// Defines cutlass::gemm::WmmaGemmTraits, the structural components for WMMA GEMM
+#include "cutlass/gemm/wmma_gemm_traits.h"
+
+//
+// CUTLASS utility includes
+//
+
+// Defines operator<<() to write TensorView objects to std::ostream
+#include "tools/util/tensor_view_io.h"
+
+// Defines cutlass::HostMatrix<>
+#include "tools/util/host_matrix.h"
+
+// Defines cutlass::reference::device::TensorInitialize()
+#include "tools/util/reference/device/tensor_elementwise.h"
+
+// Defines cutlass::reference::host::TensorEquals()
+#include "tools/util/reference/host/tensor_elementwise.h"
+
+// Defines cutlass::reference::host::Gemm()
+#include "tools/util/reference/host/gemm.h"
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// This function defines a CUTLASS GEMM kernel instantiation, constructs its parameters object,
+// and launches it on the CUDA device.
+//
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Define a CUTLASS GEMM template and launch a GEMM kernel.
+cudaError_t Cutlass_S8_WmmagemmNN(
+  int M,
+  int N,
+  int K,
+  int alpha,
+  signed char const *A,
+  int lda,
+  signed char const *B,
+  int ldb,
+  int beta,
+  int *C,
+  int ldc) {
+
+  // Define type definition for 8-bit signed int WMMA CUTLASS GEMM with column-major
+  // input matrices and 128x128x128 threadblock tile size.
+  //
+  // Note, A and B are 8-bit signed int. C and D are 32-bit int. .
+  //
+  typedef cutlass::gemm::WmmaGemmTraits<
+    cutlass::MatrixLayout::kColumnMajor,   // layout of A matrix
+    cutlass::MatrixLayout::kColumnMajor,   // layout of B matrix
+    cutlass::Shape<128, 128, 128>,         // threadblock tile size
+    signed char,                           // A type
+    signed char,                           // B type
+    int,                                   // D type
+    cutlass::gemm::LinearScaling<int>,     // functor to do the math in the epilogue
+    int,                                   // accumulator type
+    cutlass::Shape<128, 32, 32>,           // warp tile size
+    cutlass::Shape<16, 16, 16>,            // WMMA instruction tile size
+    16,                                    // scalars every time a thread loads from A
+    16                                     // scalars every time a thread loads from B
+  >
+    GemmTraits;
+
+  // Define a CUTLASS GEMM type from a GemmTraits<> instantiation.
+  typedef cutlass::gemm::Gemm<GemmTraits> Gemm;
+
+  // Construct and initialize CUTLASS GEMM parameters object.
+  typename Gemm::Params params;
+
+  int result = params.initialize(
+    M,     // GEMM M dimension
+    N,     // GEMM N dimension
+    K,     // GEMM K dimension
+    alpha, // scalar alpha
+    A,     // matrix A operand
+    lda,
+    B,     // matrix B operand
+    ldb,
+    beta,  // scalar beta
+    C,     // source matrix C
+    ldc,
+    C,     // destination matrix C (may be different memory than source C matrix)
+    ldc
+  );
+
+  if (result) {
+    std::cerr << "Failed to initialize CUTLASS Gemm::Params object." << std::endl;
+    return cudaErrorInvalidValue;
+  }
+
+  // Launch the CUTLASS GEMM kernel.
+  Gemm::launch(params);
+
+  // Return any errors associated with the launch or cudaSuccess if no error.
+  return cudaGetLastError();
+}
+
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Allocate several matrices in GPU device memory and call an integer
+/// CUTLASS WMMA GEMM kernel.
+cudaError_t TestCutlassGemm(int M, int N, int K, int alpha, int beta) {
+  cudaError_t result;
+
+  //
+  // Construct cutlass::HostMatrix<> using the integer host-side types.
+
+  // M-by-K matrix of signed char
+  cutlass::HostMatrix<signed char> A(cutlass::MatrixCoord(M, K));
+
+  // K-by-N matrix of signed char
+  cutlass::HostMatrix<signed char> B(cutlass::MatrixCoord(K, N));
+
+  // M-by-N matrix of int
+  cutlass::HostMatrix<int> C_cutlass(cutlass::MatrixCoord(M, N));
+
+  // M-by-N matrix of int
+  cutlass::HostMatrix<int> C_reference(cutlass::MatrixCoord(M, N));
+
+  //
+  // Initialize matrices with small, random integers.
+  //
+
+  cutlass::Distribution dist;
+
+  // Uniform random distribution from -4 .. 4. Values are truncated to integers.
+  dist.set_uniform(-4, 4);
+
+  // Arbitrary RNG seed value. Hard-coded for deterministic results.
+  int seed = 2080;
+
+  cutlass::reference::device::TensorInitialize(
+    A.device_view(),                                // concept: TensorView
+    seed,
+    dist);
+
+  cutlass::reference::device::TensorInitialize(
+    B.device_view(),                                // concept: TensorView
+    seed * 2,
+    dist);
+
+  cutlass::reference::device::TensorInitialize(
+    C_cutlass.device_view(),                        // concept: TensorView
+    seed * 3,
+    dist);
+
+  // Copy C_cutlass into C_reference so the GEMM is correct when beta != 0.
+  cutlass::reference::device::TensorFill(C_reference.device_view(), C_cutlass.device_view());
+
+  // Copy the device-side view into host memory
+  C_reference.sync_host();
+
+  //
+  // Launch the CUTLASS GEMM kernel
+  //
+
+  result = Cutlass_S8_WmmagemmNN(
+    M,
+    N,
+    K,
+    alpha,
+    A.device_data(),
+    A.leading_dim(),
+    B.device_data(),
+    B.leading_dim(),
+    beta,
+    C_cutlass.device_data(),
+    C_cutlass.leading_dim()
+  );
+
+  if (result != cudaSuccess) {
+    return result;
+  }
+
+  //
+  // Verify the result using a host-side reference
+  //
+
+  // A and B were initialized using device-side procedures.
+  A.sync_host();
+  B.sync_host();
+
+  // Copy CUTLASS's GEMM results into host memory.
+  C_cutlass.sync_host();
+
+  // Compute the reference result using the host-side GEMM reference implementation.
+  cutlass::reference::host::Gemm(
+    cutlass::gemm::GemmCoord(K, N, M),  // problem size  (type: cutlass::gemm::GemmCoord)
+    alpha,                              // alpha         (type: int)
+    A.host_ref(),                       // A             (concept: TensorRef)
+    B.host_ref(),                       // B             (concept: TensorRef)
+    beta,                               // beta          (int)
+    C_reference.host_ref(),             // C             (concept: TensorRef)
+    int(0)                              // Accumulator initial value passed as argument to deduce
+  );                                    // internal accumulation data type as int.
+
+  // Compare reference to computed results.
+  if (!cutlass::reference::host::TensorEquals(C_reference.host_view(), C_cutlass.host_view())) {
+
+    std::cerr << "Error - CUTLASS WMMA GEMM kernel differs from reference." << std::endl;
+
+    //
+    // On error, print C_cutlass and C_reference to std::cerr.
+    //
+
+    // Result of CUTLASS WMMA GEMM kernel
+    std::cerr << "CUTLASS:\n" << C_cutlass << std::endl;
+
+    // Result of reference computation
+    std::cerr << "Reference:\n" << C_reference << std::endl;
+
+    // Return error code.
+    return cudaErrorUnknown;
+  }
+
+  // Passed error check
+  return cudaSuccess;
+}
+#endif // defined CUTLASS_USE_SUBBYTE_WMMA
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Entry point to wmma_gemm example.
+//
+// usage:
+//
+//   05_wmma_gemm <M> <N> <K> <alpha> <beta>
+//
+int main(int argc, const char *arg[]) {
+
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+  // Properties of CUDA device
+  cudaDeviceProp device_properties;
+
+  // Assumne the device id is 0.
+  int device_id = 0;
+
+  cudaError_t result = cudaGetDeviceProperties(&device_properties, device_id);
+  if (result != cudaSuccess) {
+    std::cerr << "Failed to get device properties: " 
+      << cudaGetErrorString(result) << std::endl;
+    return -1;
+  }
+
+  if ((device_properties.major * 10 +  device_properties.minor) < 75) {
+    std::cerr << "This example needs to run on a Turing device." << std::endl;
+    return -1;
+  }
+
+  //
+  // Parse the command line to obtain GEMM dimensions and scalar values.
+  //
+
+  // GEMM problem dimensions.
+  int problem[3] = { 128, 128, 128 };
+
+  for (int i = 1; i < argc && i < 4; ++i) {
+    std::stringstream ss(arg[i]);
+    ss >> problem[i - 1];
+  }
+
+  // Scalars used for linear scaling the result of the matrix product.
+  int scalars[2] = { 1, 0 };
+
+  for (int i = 4; i < argc && i < 6; ++i) {
+    std::stringstream ss(arg[i]);
+    ss >> scalars[i - 4];
+  }
+
+  //
+  // Run the CUTLASS GEMM test.
+  //
+
+  result = TestCutlassGemm(
+    problem[0],     // GEMM M dimension
+    problem[1],     // GEMM N dimension
+    problem[2],     // GEMM K dimension
+    scalars[0],     // alpha
+    scalars[1]      // beta
+  );
+
+  if (result == cudaSuccess) {
+    std::cout << "Passed." << std::endl;
+  }
+
+  // Exit.
+  return result == cudaSuccess ? 0 : -1;
+
+#else
+  std::cerr << "CUTLASS WMMA GEMM targeting Turing Tensor Cores features requires CUDA 10." << std::endl;
+  return -1;
+#endif // defined CUTLASS_USE_SUBBYTE_WMMA
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
diff --git a/examples/CMakeLists.txt b/examples/CMakeLists.txt
new file mode 100644
index 0000000000..23e75d4099
--- /dev/null
+++ b/examples/CMakeLists.txt
@@ -0,0 +1,28 @@
+# Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+#
+# Redistribution and use in source and binary forms, with or without modification, are permitted
+# provided that the following conditions are met:
+#     * Redistributions of source code must retain the above copyright notice, this list of
+#       conditions and the following disclaimer.
+#     * Redistributions in binary form must reproduce the above copyright notice, this list of
+#       conditions and the following disclaimer in the documentation and/or other materials
+#       provided with the distribution.
+#     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+#       to endorse or promote products derived from this software without specific prior written
+#       permission.
+#
+# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+# IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+# FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+# FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+# BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+# OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+# STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+add_subdirectory(00_basic_gemm)
+add_subdirectory(01_tensor_view)
+add_subdirectory(02_cutlass_utilities)
+add_subdirectory(03_strided_batched_gemm)
+add_subdirectory(04_tile_iterator)
+add_subdirectory(05_wmma_gemm)
diff --git a/media/images/cutlass-performance-plot.png b/media/images/cutlass-performance-plot.png
index f61c2e50bc..041d28b3b9 100644
Binary files a/media/images/cutlass-performance-plot.png and b/media/images/cutlass-performance-plot.png differ
diff --git a/media/images/cutlass-threadblock-gemm.png b/media/images/cutlass-threadblock-gemm.png
new file mode 100644
index 0000000000..80b86c7660
Binary files /dev/null and b/media/images/cutlass-threadblock-gemm.png differ
diff --git a/media/images/cutlass-tile-iteration.png b/media/images/cutlass-tile-iteration.png
new file mode 100644
index 0000000000..552c67126c
Binary files /dev/null and b/media/images/cutlass-tile-iteration.png differ
diff --git a/media/images/cutlass-tile-structure.png b/media/images/cutlass-tile-structure.png
new file mode 100644
index 0000000000..a8fc35203d
Binary files /dev/null and b/media/images/cutlass-tile-structure.png differ
diff --git a/media/images/cutlass-warp-thread-tile-structure.png b/media/images/cutlass-warp-thread-tile-structure.png
new file mode 100644
index 0000000000..cecbbfd44a
Binary files /dev/null and b/media/images/cutlass-warp-thread-tile-structure.png differ
diff --git a/media/images/gemm-hierarchy-with-epilogue.png b/media/images/gemm-hierarchy-with-epilogue.png
index dde58aa8e5..e68cc0c0de 100644
Binary files a/media/images/gemm-hierarchy-with-epilogue.png and b/media/images/gemm-hierarchy-with-epilogue.png differ
diff --git a/media/images/gemm-structural-components.png b/media/images/gemm-structural-components.png
new file mode 100644
index 0000000000..3cfb3f1e4e
Binary files /dev/null and b/media/images/gemm-structural-components.png differ
diff --git a/tools/test/perf/CMakeLists.txt b/tools/test/perf/CMakeLists.txt
index 4a1a8d0b16..0405adfcf7 100644
--- a/tools/test/perf/CMakeLists.txt
+++ b/tools/test/perf/CMakeLists.txt
@@ -34,12 +34,14 @@ set(CUTLASS_PERF_TEST_HEADERS
 )
 
 set(CUTLASS_PERF_TEST_SOURCES
-  cutlass_perf_test.cpp
+  cutlass_perf_test.cu
   gemm/sgemm.cu
   gemm/dgemm.cu
   gemm/hgemm.cu
   gemm/igemm.cu
   gemm/wmma_gemm.cu
+  gemm/wmma_binary_gemm.cu
+  gemm/wmma_integer_gemm.cu
 )
 
 source_group("Source\ Files" FILES ${CUTLASS_PERF_TEST_SOURCES})
@@ -56,4 +58,6 @@ cutlass_add_executable(
     ${CUTLASS_PERF_TEST_SOURCES}
     ${CUTLASS_PERF_TEST_HEADERS}
 )
-CUDA_ADD_CUBLAS_TO_TARGET(cutlass_perf_test)
+
+target_link_libraries(cutlass_perf_test ${CUBLAS_LIBRARY})
+
diff --git a/tools/test/perf/cutlass_perf_test.cpp b/tools/test/perf/cutlass_perf_test.cu
similarity index 60%
rename from tools/test/perf/cutlass_perf_test.cpp
rename to tools/test/perf/cutlass_perf_test.cu
index e77646d35d..dee4c5afcf 100644
--- a/tools/test/perf/cutlass_perf_test.cpp
+++ b/tools/test/perf/cutlass_perf_test.cu
@@ -27,19 +27,24 @@
     \brief CUTLASS Performance Tests
 */
 
-#include <tools/test/perf/testbench_options.h>
-#include <tools/test/perf/testbench_output.h>
+#include <vector>
+#include "tools/test/perf/performance_result.h"
+#include "tools/test/perf/testbench_configs.h"
+#include "tools/test/perf/testbench_options.h"
+#include "tools/test/perf/testbench_output.h"
+
+#include "tools/test/perf/cutlass_perf_test.h"
+
+static std::vector<perf::GemmProfileFunc*> GemmProfileFuncs;
 
 //
 // Profiling entry points defined in corresponding .cu files
 //
 namespace perf {
 
-int profile_sgemm(TestbenchOutput &output, TestbenchOptions const &options);
-int profile_dgemm(TestbenchOutput &output, TestbenchOptions const &options);
-int profile_hgemm(TestbenchOutput &output, TestbenchOptions const &options);
-int profile_igemm(TestbenchOutput &output, TestbenchOptions const &options);
-int profile_wmma_gemm(TestbenchOutput &output, TestbenchOptions const &options);
+void RegisterGemmProfileFunc(GemmProfileFunc * profileFunc) {
+  GemmProfileFuncs.push_back(profileFunc);
+}
 
 }  // namespace perf
 
@@ -47,6 +52,22 @@ int profile_wmma_gemm(TestbenchOutput &output, TestbenchOptions const &options);
 // Executes profiling functionality
 //
 
+template <typename Problem>
+int profile(int (**functions)(perf::TestbenchOutput<Problem> &,
+                              perf::TestbenchOptions const &,
+                              perf::Config const &),
+            perf::TestbenchOutput<Problem> &output,
+            perf::TestbenchOptions options,
+            int result) {
+  perf::TestbenchConfigs test_configs(options);
+  for (size_t j = 0; !result && j < test_configs.configs.size(); j++) {
+    for (size_t i = 0; !result && functions[i] != 0; ++i) {
+      result = (functions[i])(output, options, test_configs.configs[j]);
+    }
+  }
+  return result;
+}
+
 /// Entry point to CUTLASS performance test
 int main(int argc, const char **argv) {
   cutlass::CommandLine args(argc, argv);
@@ -57,20 +78,17 @@ int main(int argc, const char **argv) {
     return 0;
   }
 
-  perf::TestbenchOutput output(options);
-
-  int (*profile_gemm[])(perf::TestbenchOutput &, perf::TestbenchOptions const &) = {
-      perf::profile_sgemm,
-      perf::profile_dgemm,
-      perf::profile_hgemm,
-      perf::profile_igemm,
-      perf::profile_wmma_gemm,
-      0};
+  if (args.check_cmd_line_flag("version")) {
+    perf::TestbenchOptions::version(std::cout);
+    std::cout << std::endl;
+    return 0;
+  }
 
   int result = 0;
-  for (int i = 0; !result && profile_gemm[i]; ++i) {
-    result = (profile_gemm[i])(output, options);
-  }
 
-  return result;
+      std::vector<perf::GemmProfileFunc*> profileFuncs = GemmProfileFuncs;
+      profileFuncs.push_back(0); // Passing as array reference below, so need NULL termination.
+      perf::TestbenchOutput<perf::GemmProblem> output_gemm(options);
+      result = profile(&profileFuncs[0], output_gemm, options, result);
+      return result;
 }
diff --git a/tools/test/perf/cutlass_perf_test.h b/tools/test/perf/cutlass_perf_test.h
new file mode 100644
index 0000000000..70320740e2
--- /dev/null
+++ b/tools/test/perf/cutlass_perf_test.h
@@ -0,0 +1,44 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+#pragma once
+
+#pragma diag_suppress boolean_controlling_expr_is_constant
+#include <gtest/gtest.h>
+#pragma diag_warning boolean_controlling_expr_is_constant
+
+#include "tools/test/perf/testbench_output.h"
+#include "tools/test/perf/gemm/gemm_profiler.h"
+
+namespace perf {
+
+typedef int (GemmProfileFunc)(
+  TestbenchOutput <GemmProblem> &output,
+  TestbenchOptions const &options,
+  Config const &config);
+
+void RegisterGemmProfileFunc(GemmProfileFunc*);
+
+} // perf
diff --git a/tools/test/perf/gemm/bmma_gemm.cu b/tools/test/perf/gemm/bmma_gemm.cu
new file mode 100644
index 0000000000..147b5a4bbf
--- /dev/null
+++ b/tools/test/perf/gemm/bmma_gemm.cu
@@ -0,0 +1,121 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/// \file {nv-internal-release}
+
+#if (defined(__CUDACC__) && (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ >= 750))
+#pragma warning( disable : 4503)
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/bmma_gemm_traits.h"
+#include "tools/test/perf/cutlass_perf_test.h"
+#include "tools/test/perf/gemm/gemm_profiler.h"
+#include "tools/test/perf/gemm/cutlass_dispatch.h"
+#include "tools/test/perf/gemm/gemm_perf_testbed.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template<typename Traits>
+struct BmmaGemmDispatch {
+
+  typedef cutlass::gemm::Gemm<Traits> Gemm;
+
+  typedef typename Gemm::Params Params;
+
+  /// Indicate warp-level GEMM
+  static bool const kThreadMultiplyAdd = false;
+
+  static bool const kRunCuBLAS = false;
+
+  static cutlass::MatrixLayout::Kind const kLayoutA = Traits::kLayoutA;
+  static cutlass::MatrixLayout::Kind const kLayoutB = Traits::kLayoutB;
+
+  //
+  // Data members
+  //
+
+  /// Params argument
+  Params params;
+
+  //
+  // Methods
+  //
+
+  BmmaGemmDispatch() {}
+
+  /// Initializes params object
+  BmmaGemmDispatch(int m, int n, int k, int alpha,
+                   cutlass::Vector<cutlass::bin1_t, 32> const* d_a, int lda,
+                   cutlass::Vector<cutlass::bin1_t, 32> const* d_b, int ldb, int beta,
+                   int const* d_c, int ldc, int* d_d, int ldd) {
+
+    params.initialize(m, n, k * 32, alpha, d_a, lda, d_b, ldb, beta, d_c, ldc, d_d, ldd);
+  }
+
+  /// Initializes params object
+  BmmaGemmDispatch(Params const& _params) : params(_params) {}
+
+  /// Launches kernel
+  cudaError_t operator()() { return Gemm::launch(params); }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace perf {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+int profile_bmma_gemm(TestbenchOutput<GemmProblem> &output, TestbenchOptions const &options, Config const &config) {
+  typedef perf::GemmProfiler<cutlass::Vector<cutlass::bin1_t, 32>, cutlass::Vector<cutlass::bin1_t, 32>, int, int, int> GemmProfiler;
+
+  int results = 0;
+
+  {
+
+    typedef cutlass::gemm::BmmaGemmTraits<cutlass::Shape<1024, 128, 128>,
+                                          cutlass::Shape<1024, 32, 32>,
+                                          cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::MatrixLayout::kColumnMajor>
+      BmmaGemmTraits;
+
+    typedef BmmaGemmDispatch<BmmaGemmTraits> Dispatch;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "bmma_gemm_tn", options, config);
+  }
+
+  return results;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+struct BmmaGemmRegistrar {
+  BmmaGemmRegistrar() { RegisterGemmProfileFunc(profile_bmma_gemm); }
+};
+
+volatile BmmaGemmRegistrar _BmmaGemmRegistrar;
+
+} // namespace perf
+
+#endif // if (defined(__CUDACC__) && (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ >= 750)
diff --git a/tools/test/perf/gemm/cublas_dispatch.h b/tools/test/perf/gemm/cublas_dispatch.h
index 0679e5c8ee..a30e3d96c7 100644
--- a/tools/test/perf/gemm/cublas_dispatch.h
+++ b/tools/test/perf/gemm/cublas_dispatch.h
@@ -24,8 +24,8 @@
  **************************************************************************************************/
 #pragma once
 
-#include <cutlass/matrix_traits.h>
-#include <tools/util/type_traits.h>
+#include "cutlass/matrix_traits.h"
+#include "tools/util/type_traits.h"
 
 namespace perf {
 
diff --git a/tools/test/perf/gemm/cutlass_dispatch.h b/tools/test/perf/gemm/cutlass_dispatch.h
index 9c0f89a262..f6c85ba645 100644
--- a/tools/test/perf/gemm/cutlass_dispatch.h
+++ b/tools/test/perf/gemm/cutlass_dispatch.h
@@ -32,7 +32,8 @@ template <typename Gemm_,
           typename ScalarD_,
           typename Compute_,
           typename ScalarEpilogue_,
-          bool ThreadMultiplyAdd_>
+          bool ThreadMultiplyAdd_,
+          bool RunCuBLAS_ = true>
 struct CutlassDispatch {
   typedef typename Gemm_::Params Params;
   typedef Gemm_ Gemm;
@@ -45,6 +46,7 @@ struct CutlassDispatch {
   typedef ScalarEpilogue_ ScalarEpilogue;
 
   static bool const kThreadMultiplyAdd = ThreadMultiplyAdd_;
+  static bool const kRunCuBLAS = RunCuBLAS_;
 
   static cutlass::MatrixLayout::Kind const kLayoutA = Gemm::Traits::kLayoutA;
   static cutlass::MatrixLayout::Kind const kLayoutB = Gemm::Traits::kLayoutB;
@@ -60,7 +62,7 @@ struct CutlassDispatch {
   // Methods
   //
 
-  CutlassDispatch() {}
+  // CutlassDispatch() {}
 
   /// Initializes params object
   CutlassDispatch(Index m,
@@ -84,33 +86,6 @@ struct CutlassDispatch {
 
   /// Launches kernel
   cudaError_t operator()() { return Gemm::launch(params); }
-
-  /// Determines if problem is aligned (assuming no padding)
-  static bool is_problem_aligned(
-    int m,
-    int n,
-    int k) {
-
-    bool aligned = true;
-
-    if (kLayoutA == cutlass::MatrixLayout::kColumnMajor) {
-      aligned = aligned && !(m % Gemm::Traits::GemmConfig::kScalarsPerLdgA);
-    }
-    else {
-      aligned = aligned && !(k % Gemm::Traits::GemmConfig::kScalarsPerLdgA);
-    }
-
-    if (kLayoutB == cutlass::MatrixLayout::kColumnMajor) {
-      aligned = aligned && !(k % Gemm::Traits::GemmConfig::kScalarsPerLdgB);
-    }
-    else {
-      aligned = aligned && !(n % Gemm::Traits::GemmConfig::kScalarsPerLdgB);
-    }
-
-    aligned = aligned && !(m % Gemm::Traits::GemmConfig::kScalarsPerLdgC);
-
-    return aligned;
-  }
 };
 
 /// Basic dispatcher inferred from GEMM traits
diff --git a/tools/test/perf/gemm/dgemm.cu b/tools/test/perf/gemm/dgemm.cu
index 7e9c16443e..3f4b63b851 100644
--- a/tools/test/perf/gemm/dgemm.cu
+++ b/tools/test/perf/gemm/dgemm.cu
@@ -23,26 +23,29 @@
  *
  **************************************************************************************************/
 
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/dgemm_traits.h>
-
-#include <tools/test/perf/gemm/gemm_perf_testbed.h>
-
-#include <tools/test/perf/gemm/gemm_profiler.h>
-#include <tools/test/perf/gemm/cutlass_dispatch.h>
-
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/dgemm_traits.h"
+
+#include "tools/test/perf/cutlass_perf_test.h"
+#include "tools/test/perf/gemm/gemm_perf_testbed.h"
+#include "tools/test/perf/gemm/gemm_profiler.h"
+#include "tools/test/perf/gemm/cutlass_dispatch.h"
+#pragma warning( disable : 4503)
 namespace perf {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-int profile_dgemm(TestbenchOutput &output, TestbenchOptions const &options) {
-
+int profile_dgemm(TestbenchOutput<GemmProblem> &output, TestbenchOptions const &options, Config const &config) {
   typedef perf::GemmProfiler<double, double, double, double, double> GemmProfiler;
 
   int results = 0;
-  
-  if (!results) {
-    
+
+  // compute capability check
+  if (!options.compute_capability(6, 0)) {
+    return 0;
+  }
+
+  {
     typedef cutlass::gemm::DgemmTraits<
       cutlass::MatrixLayout::kColumnMajor,
       cutlass::MatrixLayout::kRowMajor
@@ -50,11 +53,10 @@ int profile_dgemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "dgemm_nt", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "dgemm_nt", options, config);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::DgemmTraits<
       cutlass::MatrixLayout::kColumnMajor,
       cutlass::MatrixLayout::kColumnMajor
@@ -62,11 +64,10 @@ int profile_dgemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "dgemm_nn", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "dgemm_nn", options, config);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::DgemmTraits<
       cutlass::MatrixLayout::kRowMajor,
       cutlass::MatrixLayout::kColumnMajor
@@ -74,11 +75,10 @@ int profile_dgemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "dgemm_tn", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "dgemm_tn", options, config);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::DgemmTraits<
       cutlass::MatrixLayout::kRowMajor,
       cutlass::MatrixLayout::kRowMajor
@@ -86,12 +86,18 @@ int profile_dgemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "dgemm_tt", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "dgemm_tt", options, config);
   }
 
   return results;
 }
 
+struct DgemmRegistrar {
+  DgemmRegistrar() { RegisterGemmProfileFunc(profile_dgemm); }
+};
+
+volatile DgemmRegistrar _DgemmRegistrar;
+
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 } // namespace perf
diff --git a/tools/test/perf/gemm/gemm_perf_testbed.h b/tools/test/perf/gemm/gemm_perf_testbed.h
index f3766a6374..27769b1c93 100644
--- a/tools/test/perf/gemm/gemm_perf_testbed.h
+++ b/tools/test/perf/gemm/gemm_perf_testbed.h
@@ -36,199 +36,34 @@
 #include <curand_kernel.h>
 
 // Cutlass includes
-#include <tools/test/perf/gemm/cublas_dispatch.h>
-#include <tools/test/perf/performance_result.h>
-#include <tools/test/perf/testbench_options.h>
-#include <tools/util/device_memory.h>
-#include <tools/util/type_traits.h>
-#include <tools/util/host_tensor.h>
-#include <tools/util/tensor_view_io.h>
+#include "tools/test/perf/gemm/cublas_dispatch.h"
+#include "tools/test/perf/performance_result.h"
+#include "tools/test/perf/testbench_options.h"
+#include "tools/util/device_memory.h"
+#include "tools/util/host_matrix.h"
+#include "tools/util/reference/device/tensor_elementwise.h"
+#include "tools/util/tensor_view_io.h"
+#include "tools/util/type_traits.h"
 
 namespace perf {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Kernel to determine if two tensors are equal
-template <typename Type>
-__global__ void tensor_equals(int *result,
-                              int dim_contiguous,
-                              int dim_strided,
-                              Type const *experimental,
-                              int lde,
-                              Type const *reference,
-                              int ldr) {
-  typedef typename cutlass::TypeTraits<Type>::unsigned_type UnsignedType;
-
-  int c_idx = blockIdx.x * blockDim.x + threadIdx.x;
-  int s_idx = blockIdx.y * blockDim.x;
-
-  experimental += s_idx * lde + c_idx;
-  reference += s_idx * ldr + c_idx;
-
-  for (int s_offset = 0; s_offset < blockDim.x; ++s_offset, ++s_idx) {
-    if (s_idx < dim_strided && c_idx < dim_contiguous) {
-      UnsignedType exp = *reinterpret_cast<UnsignedType const *>(experimental);
-      UnsignedType ref = *reinterpret_cast<UnsignedType const *>(reference);
-
-      if (exp != ref) {
-        *result = -1;
-        return;
-      }
-
-      experimental += lde;
-      reference += ldr;
-    }
-  }
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-/// Kernel to initialize tensor to uniform distribution
-template <typename T>
-__global__ void initialize_uniform(
-    Distribution dist, int64_t seed, int dim_contiguous, int dim_strided, T *tensor, int ldm) {
-  __shared__ curandState_t rng_state[1024];
-
-  uint64_t gtid = threadIdx.x + blockIdx.x * blockDim.x + blockIdx.y * gridDim.x * blockDim.x;
-
-  curand_init(seed, gtid, 0, &rng_state[threadIdx.x]);
-
-  int c_idx = blockIdx.x * blockDim.x + threadIdx.x;
-  int s_idx = blockIdx.y * blockDim.x;
-
-  tensor += s_idx * ldm + c_idx;
-
-  for (int s_offset = 0; s_offset < blockDim.x; ++s_offset, ++s_idx) {
-    if (s_idx < dim_strided && c_idx < dim_contiguous) {
-      double range = dist.uniform.max - dist.uniform.min;
-
-      double rnd = curand_uniform(&rng_state[threadIdx.x]);
-
-      rnd = dist.uniform.min + range * rnd;
-
-      // Random values are cast to integer after scaling by a power of two to facilitate error
-      // testing
-      if (dist.int_scale >= 0) {
-        rnd = double(int(rnd * double(1 << dist.int_scale)));
-        *tensor = T(rnd / double(1 << dist.int_scale));
-      } else {
-        *tensor = T(rnd);
-      }
-
-      tensor += ldm;
-    }
-  }
-}
-
-/// Kernel to initialize tensor to uniform distribution
-template <typename T>
-__global__ void initialize_gaussian(
-    Distribution dist, int64_t seed, int dim_contiguous, int dim_strided, T *tensor, int ldm) {
-  __shared__ curandState_t rng_state[1024];
-
-  uint64_t gtid = threadIdx.x + blockIdx.x * blockDim.x + blockIdx.y * gridDim.x * blockDim.x;
-
-  curand_init(seed, gtid, 0, &rng_state[threadIdx.x]);
-
-  int c_idx = blockIdx.x * blockDim.x + threadIdx.x;
-  int s_idx = blockIdx.y * blockDim.x;
-
-  tensor += s_idx * ldm + c_idx;
-
-  for (int s_offset = 0; s_offset < blockDim.x; ++s_offset, ++s_idx) {
-    if (s_idx < dim_strided && c_idx < dim_contiguous) {
-      // Random values are cast to integer after scaling by a power of two to facilitate error
-      // testing
-
-      double rnd = curand_normal(&rng_state[threadIdx.x]);
-
-      rnd = dist.gaussian.mean + dist.gaussian.stddev * rnd;
-
-      if (dist.int_scale >= 0) {
-        rnd = double(int(rnd * double(1 << dist.int_scale)));
-        *tensor = T(rnd / double(1 << dist.int_scale));
-      } else {
-        *tensor = T(rnd);
-      }
-    }
-  }
-}
-
-/// Kernel to initialize tensor to an identity matrix
-template <typename T>
-__global__ void initialize_linear(
-    Distribution dist, int64_t seed, int dim_contiguous, int dim_strided, T *tensor, int ldm) {
-  __shared__ curandState_t rng_state[1024];
+namespace detail {
 
-  uint64_t gtid = threadIdx.x + blockIdx.x * blockDim.x + blockIdx.y * gridDim.x * blockDim.x;
-
-  curand_init(seed, gtid, 0, &rng_state[threadIdx.x]);
-
-  int c_idx = blockIdx.x * blockDim.x + threadIdx.x;
-  int s_idx = blockIdx.y * blockDim.x;
-
-  tensor += s_idx * ldm + c_idx;
-
-  for (int s_offset = 0; s_offset < blockDim.x; ++s_offset, ++s_idx) {
-    if (s_idx < dim_strided && c_idx < dim_contiguous) {
-      *tensor =
-          dist.linear.offset + dist.linear.delta_row * c_idx + dist.linear.delta_column * s_idx;
-    }
-  }
-}
-
-/// Kernel to initialize tensor to an identity matrix
-template <typename T>
-__global__ void initialize_identity(
-    Distribution dist, int64_t seed, int dim_contiguous, int dim_strided, T *tensor, int ldm) {
-  __shared__ curandState_t rng_state[1024];
-
-  uint64_t gtid = threadIdx.x + blockIdx.x * blockDim.x + blockIdx.y * gridDim.x * blockDim.x;
-
-  curand_init(seed, gtid, 0, &rng_state[threadIdx.x]);
-
-  int c_idx = blockIdx.x * blockDim.x + threadIdx.x;
-  int s_idx = blockIdx.y * blockDim.x;
+  template <typename T>
+  struct ElementCount {
+    static int const kValue = 1;
+  };
 
-  tensor += s_idx * ldm + c_idx;
+  template <typename T, int Elements>
+  struct ElementCount<cutlass::Vector<T, Elements> > {
+    static int const kValue = Elements * ElementCount<T>::kValue;
+  };
 
-  for (int s_offset = 0; s_offset < blockDim.x; ++s_offset, ++s_idx) {
-    if (s_idx < dim_strided && c_idx < dim_contiguous) {
-      *tensor = (c_idx == s_idx ? T(1) : T(0));
-    }
-  }
-}
-
-/// Dispatcher to appropriate initialization kernel
-template <typename T>
-inline void initialize(Distribution const &dist,
-                       int64_t seed,
-                       int dim_contiguous,
-                       int dim_strided,
-                       T *tensor,
-                       int ldm) {
-  dim3 block(256, 1, 1);
-  dim3 grid((dim_contiguous + block.x - 1) / block.x, (dim_strided + block.x - 1) / block.x);
-
-  switch (dist.kind) {
-    case Distribution::Uniform:
-      initialize_uniform<<<grid, block>>>(dist, seed, dim_contiguous, dim_strided, tensor, ldm);
-      break;
-    case Distribution::Gaussian:
-      initialize_gaussian<<<grid, block>>>(dist, seed, dim_contiguous, dim_strided, tensor, ldm);
-      break;
-    case Distribution::Linear:
-      initialize_linear<<<grid, block>>>(dist, seed, dim_contiguous, dim_strided, tensor, ldm);
-      break;
-    case Distribution::Identity:
-      initialize_identity<<<grid, block>>>(dist, seed, dim_contiguous, dim_strided, tensor, ldm);
-      break;
-    default:
-      break;
-  }
-}
+} // namespace detail
 
-///////////////////////////////////////////////////////////////////////////////////////////////////
+////////////////////////////////////////////////////////////////////////////////////////////////////
 
 /// Host-side implementation of performance testbed
 template <typename AType, typename BType, typename CType, typename Accumulator, typename Scalar>
@@ -295,14 +130,13 @@ class GemmTestbed {
 
   /// Helper to resize a matrix with a given size and layout if needed
   template <typename T>
-  static void resize_device_allocation(
-                     cutlass::device_memory::allocation<T> &tensor,
-                     Distribution const &dist,
-                     int64_t seed,
-                     int rows,
-                     int columns,
-                     cutlass::MatrixLayout::Kind layout,
-                     int ldm = 0) {
+  static void resize_device_allocation(cutlass::device_memory::allocation<T> &tensor,
+                                       cutlass::Distribution const &dist,
+                                       int64_t seed,
+                                       int rows,
+                                       int columns,
+                                       cutlass::MatrixLayout::Kind layout,
+                                       int ldm = 0) {
     if (!ldm) {
       ldm = (layout == cutlass::MatrixLayout::kColumnMajor ? rows : columns);
     }
@@ -315,65 +149,79 @@ class GemmTestbed {
       int c_dim = (layout == cutlass::MatrixLayout::kColumnMajor ? rows : columns);
       int s_dim = (layout == cutlass::MatrixLayout::kColumnMajor ? columns : rows);
 
-      initialize(dist, seed, c_dim, s_dim, tensor.get(), ldm);
+      cutlass::TensorView<T, 2> view(
+        tensor.get(), 
+        cutlass::make_Coord(ldm, 1), 
+        cutlass::make_Coord(s_dim, c_dim));
+
+      cutlass::reference::device::TensorInitialize(view, seed, dist);
     }
   }
 
   /// Resizes each tensor
   void resize_helper(GemmProblem const &problem) {
-    resize_device_allocation(
-           A,
-           initial_distribution.dist_A,
-           initial_distribution.seed,
-           problem.m,
-           problem.k,
-           problem.layout_A);
-
-    resize_device_allocation(
-           B,
-           initial_distribution.dist_B,
-           initial_distribution.seed + 17,  // compute distinct value from initial seed
-           problem.k,
-           problem.n,
-           problem.layout_B);
-
-    resize_device_allocation(
-           C_initial,
-           initial_distribution.dist_C,
-           initial_distribution.seed + 101,  // compute distinct value from initial seed
-           problem.m,
-           problem.n,
-           cutlass::MatrixLayout::kColumnMajor);
+    resize_device_allocation(A,
+                             initial_distribution.dist_A,
+                             initial_distribution.seed,
+                             problem.m,
+                             problem.k,
+                             problem.layout_A);
 
     resize_device_allocation(
-        reference, Distribution(), 0, problem.m, problem.n, cutlass::MatrixLayout::kColumnMajor);
+        B,
+        initial_distribution.dist_B,
+        initial_distribution.seed + 17,  // compute distinct value from initial seed
+        problem.k,
+        problem.n,
+        problem.layout_B);
 
     resize_device_allocation(
-        experimental, Distribution(), 0, problem.m, problem.n, cutlass::MatrixLayout::kColumnMajor);
+        C_initial,
+        initial_distribution.dist_C,
+        initial_distribution.seed + 101,  // compute distinct value from initial seed
+        problem.m,
+        problem.n,
+        cutlass::MatrixLayout::kColumnMajor);
+
+    resize_device_allocation(reference,
+                             cutlass::Distribution(),
+                             0,
+                             problem.m,
+                             problem.n,
+                             cutlass::MatrixLayout::kColumnMajor);
+
+    resize_device_allocation(experimental,
+                             cutlass::Distribution(),
+                             0,
+                             problem.m,
+                             problem.n,
+                             cutlass::MatrixLayout::kColumnMajor);
   }
 
   /// Functor to print errors
   struct PrintErrors {
-
     /// Equivalently sized integer type
     typedef typename cutlass::TypeTraits<CType>::integer_type integer_t;
 
+    /// Performance testbench defined for a TensorView of rank-2 contiguous matrices
+    typedef cutlass::TensorView<CType, 2, cutlass::MatrixLayout::ContiguousLayout> MatrixView;
+
     /// Output stream to write to
-    std::ostream& out;
+    std::ostream &out;
 
     /// Reference tensor view
-    cutlass::HostTensorView<CType> const& reference;
+    MatrixView const &reference;
 
     /// Computed tensor view
-    cutlass::HostTensorView<CType> const& experimental;
+    MatrixView const &experimental;
 
     /// Errors greater than or this amount result in printing
     integer_t ulps_threshold;
 
     ///
-    PrintErrors(std::ostream& _out,
-                cutlass::HostTensorView<CType> const& _reference,
-                cutlass::HostTensorView<CType> const& _experimental,
+    PrintErrors(std::ostream &_out,
+                MatrixView const &_reference,
+                MatrixView const &_experimental,
                 integer_t _ulps_threshold = 1)
         : out(_out),
           reference(_reference),
@@ -381,18 +229,15 @@ class GemmTestbed {
           ulps_threshold(_ulps_threshold) {}
 
     /// Compares one element
-    void operator()(
-      CType const& element,
-      typename cutlass::HostTensorView<CType>::Coord_t coord) {
-
+    void operator()(CType const &element, typename MatrixView::TensorCoord coord) {
       CType exp = experimental.at(coord);
       CType ref = reference.at(coord);
 
       int64_t int_exp = 0;
       int64_t int_ref = 0;
 
-      *reinterpret_cast<CType*>(&int_exp) = exp;
-      *reinterpret_cast<CType*>(&int_ref) = ref;
+      *reinterpret_cast<CType *>(&int_exp) = exp;
+      *reinterpret_cast<CType *>(&int_ref) = ref;
 
       integer_t ulps = integer_t(int_exp - int_ref);
 
@@ -405,11 +250,10 @@ class GemmTestbed {
           relative /= double(ref);
         }
 
-        out << "[" << coord << "] expected: " << ref << " (0x"
-            << std::hex << std::setw(width) << std::setfill('0') << integer_t(int_ref) << std::dec
-            << ")"
-            << ",  got: " << exp << " (0x" << std::hex
-            << std::setw(width) << std::setfill('0') << integer_t(int_exp) << std::dec << ")"
+        out << "[" << coord << "] expected: " << ref << " (0x" << std::hex << std::setw(width)
+            << std::setfill('0') << integer_t(int_ref) << std::dec << ")"
+            << ",  got: " << exp << " (0x" << std::hex << std::setw(width) << std::setfill('0')
+            << integer_t(int_exp) << std::dec << ")"
             << "  relative error: " << relative << ", ulps: " << ulps << "\n";
       }
     }
@@ -497,7 +341,7 @@ class GemmTestbed {
 
   /// Returns the number of flops implied by the computation (1 multiply-accumulate = 2 flops)
   uint64_t flops() const {
-    return uint64_t(problem.m) * uint64_t(problem.n) * uint64_t(problem.k) * 2ULL;
+    return uint64_t(problem.m) * uint64_t(problem.n) * uint64_t(problem.k) * detail::ElementCount<AType>::kValue * 2ULL;
   }
 
   /// Computes the speed of the computation in GFLOPs/s
@@ -555,25 +399,17 @@ class GemmTestbed {
 
   /// Verifies the 'test' tensor with 'ref'
   bool verify(TensorC const &test, TensorC const &ref) {
-    cutlass::device_memory::allocation<int> flag_device(1);
-
-    int flag = 0;
-    cutlass::device_memory::copy_to_device(flag_device.get(), &flag, 1);
-
-    dim3 block(256, 1, 1);
-    dim3 grid((problem.m + block.x - 1) / block.x, (problem.n + block.x - 1) / block.x);
 
-    tensor_equals<CDeviceType><<<grid, block>>>(flag_device.get(),
-                                                problem.m,
-                                                problem.n,
-                                                experimental.get(),
-                                                problem.m,
-                                                reference.get(),
-                                                problem.m);
-
-    cutlass::device_memory::copy_to_host(&flag, flag_device.get(), 1);
-
-    return flag == 0;
+    return cutlass::reference::device::TensorEquals(
+      cutlass::TensorView<CDeviceType, 2>(
+        test.get(), 
+        cutlass::make_Coord(problem.m, 1),
+        cutlass::make_Coord(problem.n, problem.m)),
+      cutlass::TensorView<CDeviceType, 2>(
+        ref.get(), 
+        cutlass::make_Coord(problem.m, 1), 
+        cutlass::make_Coord(problem.n, problem.m))
+    );
   }
 
   /// Computes the reference output
@@ -587,12 +423,11 @@ class GemmTestbed {
 
   /// Writes the problem to an ostream in human-readable form
   void write_problem(std::ostream &results_output, std::ostream &errors_output) {
-
-    cutlass::HostTensor<AType, false> host_A;
-    cutlass::HostTensor<BType, false> host_B;
-    cutlass::HostTensor<CType, false> host_C;
-    cutlass::HostTensor<CType, false> host_D;
-    cutlass::HostTensor<CType, false> host_Ref;
+    cutlass::HostMatrix<AType> host_A;
+    cutlass::HostMatrix<BType> host_B;
+    cutlass::HostMatrix<CType> host_C;
+    cutlass::HostMatrix<CType> host_D;
+    cutlass::HostMatrix<CType> host_Ref;
 
     host_A.resize_matrix(M(), K(), layout_a());
     host_B.resize_matrix(K(), N(), layout_b());
@@ -608,11 +443,16 @@ class GemmTestbed {
     host_Ref.copy_to_host(ptr_reference());
 
     // write out human readable
-    results_output << "A =\n" << host_A << "\n"
-      << "B =\n" << host_B << "\n"
-      << "C = \n" << host_C << "\n"
-      << "Ref =\n" << host_Ref << "\n"
-      << "Experimental =\n" << host_D << "\n";
+    results_output << "A =\n"
+                   << host_A << "\n"
+                   << "B =\n"
+                   << host_B << "\n"
+                   << "C = \n"
+                   << host_C << "\n"
+                   << "Ref =\n"
+                   << host_Ref << "\n"
+                   << "Experimental =\n"
+                   << host_D << "\n";
 
     // write out list of errors
     PrintErrors printer(errors_output, host_Ref, host_D);
diff --git a/tools/test/perf/gemm/gemm_profiler.h b/tools/test/perf/gemm/gemm_profiler.h
index 30eecff6d7..6cdb07b940 100644
--- a/tools/test/perf/gemm/gemm_profiler.h
+++ b/tools/test/perf/gemm/gemm_profiler.h
@@ -29,16 +29,18 @@
 #include <stdexcept>
 #include <utility>
 
-#if defined(WIN32)
+#include "cutlass/util/platform.h"
+#if defined(CUTLASS_OS_WINDOWS)
 #include <Windows.h>
 #else
 // needed for sleep
 #include <unistd.h>
 #endif
 
-#include <tools/test/perf/gemm/gemm_perf_testbed.h>
-#include <tools/test/perf/testbench_options.h>
-#include <tools/test/perf/testbench_output.h>
+#include "tools/test/perf/gemm/gemm_perf_testbed.h"
+#include "tools/test/perf/testbench_configs.h"
+#include "tools/test/perf/testbench_options.h"
+#include "tools/test/perf/testbench_output.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
@@ -63,17 +65,23 @@ class GemmProfiler {
   //
 
   /// Reference to TestbenchOutput instance
-  TestbenchOutput &output;
+  TestbenchOutput<GemmProblem> &output;
 
   /// Reference to options object
   TestbenchOptions const &options;
 
+  // Reference to config object
+  Config const &config;
+
   /// Performance test environment
   PerfTestbed testbed;
 
   /// Kernel name
   std::string kernel_name;
 
+  /// Cutlass algorithm
+  std::string cutlass_algo;
+
   /// Timing events
   cudaEvent_t events[2];
 
@@ -93,14 +101,17 @@ class GemmProfiler {
   //
 
   /// Constructs performance testebed
-  GemmProfiler(TestbenchOutput &_output,
+  GemmProfiler(TestbenchOutput<GemmProblem> &_output,
                std::string const &_kernel_name,
-               TestbenchOptions const &_options)
+               std::string const &_cutlass_algo,
+               TestbenchOptions const &_options,
+               Config const &_config)
       : output(_output),
         options(_options),
+        config(_config),
         kernel_name(_kernel_name),
+        cutlass_algo(_cutlass_algo),
         testbed(_options.initial_distribution) {
-
     for (int i = 0; i < 2; ++i) {
       cudaError_t result = cudaEventCreate(&events[i]);
       if (result != cudaSuccess) {
@@ -112,32 +123,45 @@ class GemmProfiler {
   ~GemmProfiler() {}
 
   /// Writes the workspace to text files
-  void write_problem(std::string const &kernel_name) {
+  void write_problem(Provider::Kind provider, std::string const &kernel_name) {
+    std::stringstream base_filename;
 
-      std::stringstream base_filename;
+    base_filename << provider << "_" << kernel_name << "_" << testbed.M() << "x" << testbed.N()
+                  << "x" << testbed.K();
 
-      base_filename
-        << kernel_name << "_"
-        << testbed.M() << "x" << testbed.N() << "x" << testbed.K();
+    std::string results_name = base_filename.str() + "_results.txt";
+    std::string errors_name = base_filename.str() + "_errors.txt";
 
-      std::string results_name = base_filename.str() + "_results.txt";
-      std::string errors_name = base_filename.str() + "_errors.txt";
-
-      std::ofstream results(results_name.c_str());
-      std::ofstream errors(errors_name.c_str());
-      testbed.write_problem(results, errors);
+    std::ofstream results(results_name.c_str());
+    std::ofstream errors(errors_name.c_str());
+    testbed.write_problem(results, errors);
   }
 
   /// Profiles Cutlass
   template <typename CutlassDispatch>
-  PerformanceResult execute_cutlass(GemmProblem const &problem, cublasGemmAlgo_t algorithm) {
-    PerformanceResult result(kernel_name, problem);
+  PerformanceResult<GemmProblem> execute_cutlass(GemmProblem const &problem,
+                                                 cublasGemmAlgo_t algorithm) {
+    PerformanceResult<GemmProblem> result(
+      Provider::Cutlass
+      , kernel_name
+      , problem
+    );
+
+    if (options.dry_run) {
+      result.disposition = Disposition::NotRun;
+      return result;
+    }
 
-    testbed.compute_reference(algorithm);
+    if (CutlassDispatch::kRunCuBLAS) {
+      testbed.compute_reference(algorithm);
 
-    if (cudaDeviceSynchronize() != cudaSuccess) {
-      result.disposition = Disposition::NotVerified;
-      return result;
+      if (cudaDeviceSynchronize() != cudaSuccess) {
+        result.disposition = Disposition::NotVerified;
+        return result;
+      }
+    }
+    else {
+      result.disposition = Disposition::Passed;
     }
 
     CutlassDispatch dispatch(testbed.M(),
@@ -161,14 +185,16 @@ class GemmProfiler {
       return result;
     }
 
-    if (testbed.verify_with_reference()) {
-      result.disposition = Disposition::Passed;
-    } else {
-      result.disposition = Disposition::Incorrect;
+    if (CutlassDispatch::kRunCuBLAS) {
+      if (testbed.verify_with_reference()) {
+        result.disposition = Disposition::Passed;
+      } else {
+        result.disposition = Disposition::Incorrect;
+      }
     }
 
     if (options.save_workspace(result.disposition == Disposition::Passed)) {
-      write_problem(kernel_name);
+      write_problem(Provider::Cutlass, kernel_name);
     }
 
     if (cudaDeviceSynchronize() != cudaSuccess) {
@@ -212,30 +238,38 @@ class GemmProfiler {
     result.gflops = testbed.GFLOPs_per_sec(result.runtime);
 
     if (result.disposition != Disposition::Passed) {
-      std::cout << kernel_name << " failed with disposition: " << result.disposition;
+      std::cout << "[\033[1;31mFAILED\033[0m]: " << kernel_name
+                << " failed with disposition: " << result.disposition << "\n";
     }
 
     return result;
   }
 
+  template <typename T, typename F>
+  bool contains(T const &container, F const &val) {
+    return std::find(container.begin(), container.end(), val) != container.end();
+  }
+
   /// Executes all kernels for this problem size
   template <typename CutlassDispatch>
-  std::vector<PerformanceResult> execute(GemmProblem const &problem) {
+  std::vector<PerformanceResult<GemmProblem> > execute(GemmProblem const &problem) {
 
     // New problem size
     output.begin_problem();
 
-    cublasGemmAlgo_t algorithm =
-        (CutlassDispatch::kThreadMultiplyAdd ? CUBLAS_GEMM_DEFAULT : CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+    bool const tensor_op = !(CutlassDispatch::kThreadMultiplyAdd);
+    cublasGemmAlgo_t algorithm = tensor_op ?
+      CUBLAS_GEMM_DEFAULT_TENSOR_OP : CUBLAS_GEMM_DEFAULT;
 
     testbed.resize(problem);
 
-    std::vector<PerformanceResult> results;
-
-    results.push_back(execute_cutlass<CutlassDispatch>(problem, algorithm));
+    std::vector<PerformanceResult<GemmProblem> > results;
 
+      results.push_back(execute_cutlass<CutlassDispatch>(problem, algorithm));
     // cool-down period
-    pause(2);
+    if (!options.dry_run) {
+      pause(options.sleep_time);
+    }
 
     return results;
   }
@@ -243,25 +277,20 @@ class GemmProfiler {
   /// Runs the test and collects performance for all results
   template <typename CutlassDispatch>
   void schmoo(Range const &M, Range const &N, Range const &K) {
-    for (int m = M.start; m <= M.end; m += M.increment) {
-      for (int n = N.start; n <= N.end; n += N.increment) {
-        for (int k = K.start; k <= K.end; k += K.increment) {
-
-          // Avoid evaluating problem if problem size does not satisfy alignment
-          if (!CutlassDispatch::is_problem_aligned(m, n, k)) {
-            continue;
-          }
+    for (int m = M.start; m <= M.end; m = M.next(m)) {
+      for (int n = N.start; n <= N.end; n = N.next(n)) {
+        for (int k = K.start; k <= K.end; k = K.next(k)) {
 
-          std::vector<PerformanceResult> results =
+          std::vector<PerformanceResult<GemmProblem> > results =
               execute<CutlassDispatch>(GemmProblem(m,
                                                    n,
                                                    k,
                                                    CutlassDispatch::kLayoutA,
                                                    CutlassDispatch::kLayoutB,
-                                                   options.alpha,
-                                                   options.beta));
+                                                   config.alpha,
+                                                   config.beta));
 
-          for (std::vector<PerformanceResult>::const_iterator it = results.begin();
+          for (std::vector<PerformanceResult<GemmProblem> >::const_iterator it = results.begin();
                it != results.end();
                ++it) {
             output.append(*it);
@@ -274,46 +303,53 @@ class GemmProfiler {
   /// Runs the test over the problem space and reports only the best performance
   template <typename CutlassDispatch>
   void peak(Range const &M, Range const &N, Range const &K) {
+    typedef std::map<Provider::Kind, PerformanceResult<GemmProblem> > ProviderPerformanceMap;
 
-    PerformanceResult max_perf;
-    bool first_result = true;
+    ProviderPerformanceMap max_perf;
 
-    for (int m = M.start; m <= M.end; m += M.increment) {
-      for (int n = N.start; n <= N.end; n += N.increment) {
-        for (int k = K.start; k <= K.end; k += K.increment) {
-
-          // Avoid evaluating problem if problem size does not satisfy alignment
-          if (!CutlassDispatch::is_problem_aligned(m, n, k)) {
-            continue;
-          }
-
-          std::vector<PerformanceResult> results =
+    for (int m = M.start; m <= M.end; m += M.next(m)) {
+      for (int n = N.start; n <= N.end; n += N.next(n)) {
+        for (int k = K.start; k <= K.end; k += K.next(k)) {
+          std::vector<PerformanceResult<GemmProblem> > results =
               execute<CutlassDispatch>(GemmProblem(m,
                                                    n,
                                                    k,
                                                    CutlassDispatch::kLayoutA,
                                                    CutlassDispatch::kLayoutB,
-                                                   options.alpha,
-                                                   options.beta));
+                                                   config.alpha,
+                                                   config.beta));
 
-          for (std::vector<PerformanceResult>::const_iterator it = results.begin();
+          for (std::vector<PerformanceResult<GemmProblem> >::const_iterator it = results.begin();
                it != results.end();
                ++it) {
-
             /// Writes the output without appending it
             output.pretty_print(*it);
 
-            /// Updates maximum performing kernel
-            if (first_result || max_perf.gflops > it->gflops) {
-              max_perf = *it;
+            if (it->disposition == Disposition::Passed) {
+              /// Updates maximum performing kernel
+              ProviderPerformanceMap::iterator max_perf_it = max_perf.find(it->provider);
+
+              if (max_perf_it == max_perf.end()) {
+                max_perf.insert(std::make_pair(it->provider, *it));
+              } else if (max_perf_it->second.gflops < it->gflops) {
+                max_perf_it->second = *it;
+              }
             }
-            first_result = false;
           }
         }
       }
     }
 
-    output.append(max_perf);
+    Provider::Kind providers[] = {
+      Provider::Cutlass,
+      Provider::Invalid
+    };
+    for (int i = 0; providers[i] != Provider::Invalid; ++i) {
+      ProviderPerformanceMap::const_iterator it = max_perf.find(providers[i]);
+      if (it != max_perf.end()) {
+        output.append(it->second);
+      }
+    }
   }
 };
 
@@ -321,17 +357,19 @@ class GemmProfiler {
 
 /// Dispatches to GEMM performance profiler
 template <typename Dispatch, typename GemmProfiler>
-int profile_gemm(TestbenchOutput &output,
+int profile_gemm(TestbenchOutput<GemmProblem> &output,
                  std::string const &kernel,
-                 TestbenchOptions const &options) {
-  if (options.kernel_enabled(kernel)) {
-    GemmProfiler perf(output, kernel, options);
+                 TestbenchOptions const &options,
+                 Config const &config,
+                 std::string const &cutlass_algo = "") {
+  if (config.kernel_enabled(kernel)) {
+    GemmProfiler perf(output, kernel, cutlass_algo, options, config);
     if (options.peak_performance) {
       perf.template peak<Dispatch>(
-          options.problem_range.M, options.problem_range.N, options.problem_range.K);
+          config.problem_range.M, config.problem_range.N, config.problem_range.K);
     } else {
       perf.template schmoo<Dispatch>(
-          options.problem_range.M, options.problem_range.N, options.problem_range.K);
+          config.problem_range.M, config.problem_range.N, config.problem_range.K);
     }
   }
 
diff --git a/tools/test/perf/gemm/hgemm.cu b/tools/test/perf/gemm/hgemm.cu
index e7e9af7fa1..5b47e66dd4 100644
--- a/tools/test/perf/gemm/hgemm.cu
+++ b/tools/test/perf/gemm/hgemm.cu
@@ -22,34 +22,36 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/hgemm_traits.h>
 
-#include <tools/test/perf/gemm/gemm_perf_testbed.h>
-
-#include <tools/test/perf/gemm/gemm_profiler.h>
-#include <tools/test/perf/gemm/cutlass_dispatch.h>
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/hgemm_traits.h"
+#include "tools/test/perf/cutlass_perf_test.h"
+#include "tools/test/perf/gemm/gemm_perf_testbed.h"
+#include "tools/test/perf/gemm/gemm_profiler.h"
+#include "tools/test/perf/gemm/cutlass_dispatch.h"
 
+#pragma warning( disable : 4503)
 
 namespace perf {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-int profile_hgemm(TestbenchOutput &output, TestbenchOptions const &options) {
-
+int profile_hgemm(TestbenchOutput<GemmProblem> &output, TestbenchOptions const &options, Config const &config) {
   typedef perf::GemmProfiler<
-    cutlass::half_t, 
-    cutlass::half_t, 
-    cutlass::half_t, 
-    cutlass::half_t, 
+    cutlass::half_t,
+    cutlass::half_t,
+    cutlass::half_t,
+    cutlass::half_t,
     cutlass::half_t> GemmProfiler;
 
   int results = 0;
 
-  if (!results) {
-    
+  // compute capability check
+  if (!options.compute_capability(6, 0)) {
+    return 0;
+  }
+
+  {
     typedef cutlass::gemm::HgemmTraits<
       cutlass::MatrixLayout::kColumnMajor,
       cutlass::MatrixLayout::kRowMajor,
@@ -59,11 +61,10 @@ int profile_hgemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "hgemm_nt", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "hgemm_nt", options, config);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::HgemmTraits<
       cutlass::MatrixLayout::kColumnMajor,
       cutlass::MatrixLayout::kColumnMajor,
@@ -73,11 +74,10 @@ int profile_hgemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "hgemm_nn", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "hgemm_nn", options, config);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::HgemmTraits<
       cutlass::MatrixLayout::kRowMajor,
       cutlass::MatrixLayout::kColumnMajor,
@@ -87,11 +87,10 @@ int profile_hgemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "hgemm_tn", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "hgemm_tn", options, config);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::HgemmTraits<
       cutlass::MatrixLayout::kRowMajor,
       cutlass::MatrixLayout::kRowMajor,
@@ -101,13 +100,18 @@ int profile_hgemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "hgemm_tt", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "hgemm_tt", options, config);
   }
 
   return results;
 }
 
+struct HgemmRegistrar {
+  HgemmRegistrar() { RegisterGemmProfileFunc(profile_hgemm); }
+};
+
+volatile HgemmRegistrar _HgemmRegistrar;
+
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 } // namespace perf
-
diff --git a/tools/test/perf/gemm/igemm.cu b/tools/test/perf/gemm/igemm.cu
index 879ee0abfe..24d721a91a 100644
--- a/tools/test/perf/gemm/igemm.cu
+++ b/tools/test/perf/gemm/igemm.cu
@@ -23,24 +23,31 @@
  *
  **************************************************************************************************/
 
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/igemm_traits.h>
-#include <tools/test/perf/gemm/gemm_perf_testbed.h>
-#include <tools/test/perf/gemm/gemm_profiler.h>
-#include <tools/test/perf/gemm/cutlass_dispatch.h>
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/igemm_traits.h"
+#include "tools/test/perf/cutlass_perf_test.h"
+#include "tools/test/perf/gemm/gemm_perf_testbed.h"
+#include "tools/test/perf/gemm/gemm_profiler.h"
+#include "tools/test/perf/gemm/cutlass_dispatch.h"
+
+#pragma warning( disable : 4503)
 
 namespace perf {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-int profile_igemm(TestbenchOutput &output, TestbenchOptions const &options) {
+int profile_igemm(TestbenchOutput<GemmProblem> &output, TestbenchOptions const &options, Config const &config) {
 
   typedef perf::GemmProfiler<int8_t, int8_t, int, int, int> GemmProfiler;
 
+  // compute capability check
+  if (!options.compute_capability(6, 1)) {
+    return 0;
+  }
+
   int results = 0;
-  
-  if (!results) {
-    
+
+  {
     typedef cutlass::gemm::IgemmTraits<
       cutlass::MatrixLayout::kColumnMajor,
       cutlass::MatrixLayout::kRowMajor
@@ -48,11 +55,10 @@ int profile_igemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "igemm_nt", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "igemm_nt", options, config);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::IgemmTraits<
       cutlass::MatrixLayout::kColumnMajor,
       cutlass::MatrixLayout::kColumnMajor
@@ -60,11 +66,10 @@ int profile_igemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "igemm_nn", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "igemm_nn", options, config);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::IgemmTraits<
       cutlass::MatrixLayout::kRowMajor,
       cutlass::MatrixLayout::kColumnMajor
@@ -72,11 +77,10 @@ int profile_igemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "igemm_tn", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "igemm_tn", options, config);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::IgemmTraits<
       cutlass::MatrixLayout::kRowMajor,
       cutlass::MatrixLayout::kRowMajor
@@ -84,12 +88,62 @@ int profile_igemm(TestbenchOutput &output, TestbenchOptions const &options) {
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "igemm_tt", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "igemm_tt", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+            cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<128, 32, 32>, int,
+            cutlass::gemm::LinearScaling<int>, cutlass::Shape<32, 8, 4> > GemmTraits;
+
+    typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "igemm_32x32x128_nn",
+            options, config);
+  }
+
+  {
+    typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+            cutlass::MatrixLayout::kRowMajor, cutlass::Shape<128, 32, 32>, int,
+            cutlass::gemm::LinearScaling<int>, cutlass::Shape<32, 8, 4> > GemmTraits;
+
+    typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "igemm_32x32x128_nt",
+            options, config);
+  }
+
+  {
+    typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
+            cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<128, 32, 32>, int,
+            cutlass::gemm::LinearScaling<int>, cutlass::Shape<32, 8, 4> > GemmTraits;
+
+    typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "igemm_32x32x128_tn",
+            options, config);
+  }
+
+  {
+    typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
+            cutlass::MatrixLayout::kRowMajor, cutlass::Shape<128, 32, 32>, int,
+            cutlass::gemm::LinearScaling<int>, cutlass::Shape<32, 8, 4> > GemmTraits;
+
+    typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
+
+    results = profile_gemm<Dispatch, GemmProfiler>(output, "igemm_32x32x128_tt",
+            options, config);
   }
 
   return results;
 }
 
+struct IgemmRegistrar {
+  IgemmRegistrar() { RegisterGemmProfileFunc(profile_igemm); }
+};
+
+volatile IgemmRegistrar _IgemmRegistrar;
+
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 } // namespace perf
diff --git a/tools/test/perf/gemm/sgemm.cu b/tools/test/perf/gemm/sgemm.cu
index cdbbe3d578..1448ae0d49 100644
--- a/tools/test/perf/gemm/sgemm.cu
+++ b/tools/test/perf/gemm/sgemm.cu
@@ -22,80 +22,96 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
 
-#include <tools/test/perf/gemm/gemm_perf_testbed.h>
-
-#include <tools/test/perf/gemm/gemm_profiler.h>
-#include <tools/test/perf/gemm/cutlass_dispatch.h>
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/perf/cutlass_perf_test.h"
+#include "tools/test/perf/gemm/gemm_perf_testbed.h"
+#include "tools/test/perf/gemm/gemm_profiler.h"
+#include "tools/test/perf/gemm/cutlass_dispatch.h"
+#pragma warning( disable : 4503)
 
 namespace perf {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-int profile_sgemm(TestbenchOutput &output, TestbenchOptions const &options) {
+template <typename OutputTile>
+int profile_sgemm_kernel(
+  TestbenchOutput<GemmProblem> &output,
+  TestbenchOptions const &options,
+  Config const &config,
+  std::string const &name,
+  std::string const &algo) {
 
   typedef perf::GemmProfiler<float, float, float, float, float> SGemmProfiler;
 
   int results = 0;
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::SgemmTraits<
       cutlass::MatrixLayout::kColumnMajor,
       cutlass::MatrixLayout::kRowMajor,
-      cutlass::Shape<8, 128, 128>
+      OutputTile
     > GemmTraits;
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, SGemmProfiler>(output, "sgemm_nt", options);
+    results |= profile_gemm<Dispatch, SGemmProfiler>(output, name + "_nt", options, config, algo);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::SgemmTraits<
       cutlass::MatrixLayout::kColumnMajor,
       cutlass::MatrixLayout::kColumnMajor,
-      cutlass::Shape<8, 128, 128>
+      OutputTile
     > GemmTraits;
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, SGemmProfiler>(output, "sgemm_nn", options);
+    results |= profile_gemm<Dispatch, SGemmProfiler>(output, name + "_nn", options, config, algo);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::SgemmTraits<
       cutlass::MatrixLayout::kRowMajor,
       cutlass::MatrixLayout::kColumnMajor,
-      cutlass::Shape<8, 128, 128>
+      OutputTile
     > GemmTraits;
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, SGemmProfiler>(output, "sgemm_tn", options);
+    results |= profile_gemm<Dispatch, SGemmProfiler>(output, name + "_tn", options, config, algo);
   }
 
-  if (!results) {
-    
+  {
     typedef cutlass::gemm::SgemmTraits<
       cutlass::MatrixLayout::kRowMajor,
       cutlass::MatrixLayout::kRowMajor,
-      cutlass::Shape<8, 128, 128>
+      OutputTile
     > GemmTraits;
 
     typedef typename CutlassDispatchBasic<GemmTraits>::Dispatch Dispatch;
 
-    profile_gemm<Dispatch, SGemmProfiler>(output, "sgemm_tt", options);
+    results |= profile_gemm<Dispatch, SGemmProfiler>(output, name + "_tt", options, config, algo);
   }
+  return results;
+}
+
+/// Profiles all SGEMM tile sizes
+int profile_sgemm(TestbenchOutput<GemmProblem> &output, TestbenchOptions const &options, Config const &config) {
+  int results = 0;
+
+  results |= profile_sgemm_kernel<cutlass::Shape<8, 128, 128> >(output, options, config, "sgemm", "128x128");
 
   return results;
 }
 
+struct SgemmRegistrar {
+  SgemmRegistrar() { RegisterGemmProfileFunc(profile_sgemm); }
+};
+
+volatile SgemmRegistrar _SgemmRegistrar;
+
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 } // namespace perf
-
diff --git a/tools/test/perf/gemm/wmma_binary_gemm.cu b/tools/test/perf/gemm/wmma_binary_gemm.cu
new file mode 100644
index 0000000000..4ae236f4db
--- /dev/null
+++ b/tools/test/perf/gemm/wmma_binary_gemm.cu
@@ -0,0 +1,149 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+#include "tools/test/perf/cutlass_perf_test.h"
+#include "tools/test/perf/gemm/gemm_profiler.h"
+#include "tools/test/perf/gemm/gemm_perf_testbed.h"
+
+#include "cutlass/wmma_matrix.h"
+#ifdef CUTLASS_USE_WMMA_API
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/wmma_gemm_traits.h"
+#include "tools/test/perf/gemm/cutlass_dispatch.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template<typename Traits>
+struct WmmaBinaryGemmDispatch {
+
+  typedef cutlass::gemm::Gemm<Traits> Gemm;
+
+  typedef typename Gemm::Params Params;
+
+  /// Indicate warp-level GEMM
+  static bool const kThreadMultiplyAdd = false;
+
+  static bool const kRunCuBLAS = false;
+
+  static cutlass::MatrixLayout::Kind const kLayoutA = Traits::kLayoutA;
+  static cutlass::MatrixLayout::Kind const kLayoutB = Traits::kLayoutB;
+
+  //
+  // Data members
+  //
+
+  /// Params argument
+  Params params;
+
+  //
+  // Methods
+  //
+
+  WmmaBinaryGemmDispatch() {}
+
+  /// Initializes params object
+  WmmaBinaryGemmDispatch(int m, int n, int k, int alpha,
+                       cutlass::Vector<cutlass::bin1_t, 32> const* d_a, int lda,
+                       cutlass::Vector<cutlass::bin1_t, 32> const* d_b, int ldb, int beta,
+                       int const* d_c, int ldc, int* d_d, int ldd) {
+
+    params.initialize(m, n, k * 32, alpha, d_a, lda, d_b, ldb, beta, d_c, ldc, d_d, ldd);
+  }
+
+  /// Initializes params object
+  WmmaBinaryGemmDispatch(Params const& _params) : params(_params) {}
+
+  /// Launches kernel
+  cudaError_t operator()() { return Gemm::launch(params); }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace perf {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+int profile_wmma_binary_gemm(TestbenchOutput<GemmProblem> &output, TestbenchOptions const &options, Config const &config) {
+  typedef perf::GemmProfiler<cutlass::Vector<cutlass::bin1_t, 32>, cutlass::Vector<cutlass::bin1_t, 32>, int, int, int> GemmProfiler;
+
+  int results = 0;
+
+  // compute capability check
+  if (!options.compute_capability_exact(7, 5)) {
+    return 0;
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::Shape<1024, 128, 128>,
+                                          cutlass::Vector<cutlass::bin1_t, 32>,
+                                          cutlass::Vector<cutlass::bin1_t, 32>,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<1024, 32, 64>,
+                                          cutlass::Shape<128, 8, 8>,
+                                          128,
+                                          128>
+      WmmaGemmTraits;
+
+    typedef WmmaBinaryGemmDispatch<WmmaGemmTraits> Dispatch;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_binary_gemm_tn", options, config);
+  }
+
+  return results;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace perf
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#else // ! CUTLASS_USE_SUBBYTE_WMMA
+
+namespace perf {
+
+int profile_wmma_binary_gemm(TestbenchOutput<GemmProblem> &output, TestbenchOptions const &options, Config const &config) {
+  return 0;
+}
+
+} // namespace perf
+
+#endif
+
+struct WmmaBinaryGemmRegistrar {
+  WmmaBinaryGemmRegistrar() { perf::RegisterGemmProfileFunc(perf::profile_wmma_binary_gemm); }
+};
+
+volatile WmmaBinaryGemmRegistrar _WmmaBinaryGemmRegistrar;
+
+#endif // CUTLASS_USE_WMMA_API
diff --git a/tools/test/perf/gemm/wmma_gemm.cu b/tools/test/perf/gemm/wmma_gemm.cu
index 0221913930..8257120927 100644
--- a/tools/test/perf/gemm/wmma_gemm.cu
+++ b/tools/test/perf/gemm/wmma_gemm.cu
@@ -23,17 +23,19 @@
  *
  **************************************************************************************************/
 
-#include <cutlass/wmma_matrix.h>
+#include "cutlass/wmma_matrix.h"
 #ifdef CUTLASS_USE_WMMA_API
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
+#pragma warning( disable : 4503)
 
-#include <cutlass/gemm/gemm.h>
+////////////////////////////////////////////////////////////////////////////////////////////////////
 
-#include <tools/test/perf/gemm/gemm_profiler.h>
-#include <tools/test/perf/gemm/cutlass_dispatch.h>
-#include <tools/test/perf/gemm/gemm_perf_testbed.h>
-#include <cutlass/gemm/wmma_gemm_traits.h>
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/wmma_gemm_traits.h"
+#include "tools/test/perf/cutlass_perf_test.h"
+#include "tools/test/perf/gemm/gemm_profiler.h"
+#include "tools/test/perf/gemm/cutlass_dispatch.h"
+#include "tools/test/perf/gemm/gemm_perf_testbed.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
@@ -47,9 +49,17 @@ struct WmmaGemmDispatch {
   /// Indicate warp-level GEMM
   static bool const kThreadMultiplyAdd = false;
 
+  static bool const kRunCuBLAS = true;
+
   static cutlass::MatrixLayout::Kind const kLayoutA = Traits::kLayoutA;
   static cutlass::MatrixLayout::Kind const kLayoutB = Traits::kLayoutB;
 
+  typedef typename Traits::ScalarA ScalarA;
+  typedef typename Traits::ScalarB ScalarB;
+  typedef typename Traits::ScalarC ScalarC;
+  typedef typename Traits::ScalarD ScalarD;
+  typedef typename Traits::Epilogue::Functor::Scalar Scalar;
+
   //
   // Data members
   //
@@ -64,9 +74,20 @@ struct WmmaGemmDispatch {
   WmmaGemmDispatch() {}
 
   /// Initializes params object
-  WmmaGemmDispatch(int m, int n, int k, float alpha, half const* d_a, int lda,
-                  half const* d_b, int ldb, float beta, float const* d_c, int ldc,
-                  float* d_d, int ldd) {
+  WmmaGemmDispatch(
+    int m,
+    int n,
+    int k,
+    Scalar alpha,
+    ScalarA const* d_a,
+    int lda,
+    ScalarB const* d_b,
+    int ldb,
+    Scalar beta,
+    ScalarC const* d_c,
+    int ldc,
+    ScalarD* d_d,
+    int ldd) {
 
     params.initialize(m, n, k, alpha, d_a, lda, d_b, ldb, beta, d_c, ldc, d_d, ldd);
   }
@@ -76,33 +97,6 @@ struct WmmaGemmDispatch {
 
   /// Launches kernel
   cudaError_t operator()() { return Gemm::launch(params); }
-
-  /// Determines if problem is aligned (assuming no padding)
-  static bool is_problem_aligned(
-    int m,
-    int n,
-    int k) {
-
-    bool aligned = true;
-
-    if (kLayoutA == cutlass::MatrixLayout::kColumnMajor) {
-      aligned = aligned && !(m % Gemm::Traits::GemmConfig::kScalarsPerLdgA);
-    }
-    else {
-      aligned = aligned && !(k % Gemm::Traits::GemmConfig::kScalarsPerLdgA);
-    }
-
-    if (kLayoutB == cutlass::MatrixLayout::kColumnMajor) {
-      aligned = aligned && !(k % Gemm::Traits::GemmConfig::kScalarsPerLdgB);
-    }
-    else {
-      aligned = aligned && !(n % Gemm::Traits::GemmConfig::kScalarsPerLdgB);
-    }
-
-    aligned = aligned && !(m % Gemm::Traits::GemmConfig::kScalarsPerLdgC);
-
-    return aligned;
-  }
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
@@ -111,54 +105,49 @@ namespace perf {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-int profile_wmma_gemm(TestbenchOutput &output, TestbenchOptions const &options) {
-
+int profile_wmma_gemm_f32(TestbenchOutput<GemmProblem> &output, TestbenchOptions const &options, Config const &config) {
   typedef perf::GemmProfiler<cutlass::half_t, cutlass::half_t, float, float, float> GemmProfiler;
 
   int results = 0;
 
-  if (!results) {
-
+  {
     typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::MatrixLayout::kRowMajor>
     WmmaGemmTraits;
 
     typedef WmmaGemmDispatch<WmmaGemmTraits> Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_nt", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_nt", options, config);
   }
 
-  if (!results) {
-
+  {
     typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::MatrixLayout::kColumnMajor>
     WmmaGemmTraits;
 
     typedef WmmaGemmDispatch<WmmaGemmTraits> Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_nn", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_nn", options, config);
   }
 
-  if (!results) {
-
+  {
     typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
                                         cutlass::MatrixLayout::kColumnMajor>
       WmmaGemmTraits;
 
     typedef WmmaGemmDispatch<WmmaGemmTraits> Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_tn", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_tn", options, config);
   }
 
-  if (!results) {
-
+  {
     typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
                                         cutlass::MatrixLayout::kRowMajor>
       WmmaGemmTraits;
 
     typedef WmmaGemmDispatch<WmmaGemmTraits> Dispatch;
 
-    profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_tt", options);
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_tt", options, config);
   }
 
   return results;
@@ -166,6 +155,112 @@ int profile_wmma_gemm(TestbenchOutput &output, TestbenchOptions const &options)
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+int profile_wmma_gemm_f16(
+    TestbenchOutput<GemmProblem> &output,
+    TestbenchOptions const &options,
+    Config const &config) {
+
+  typedef perf::GemmProfiler<
+    cutlass::half_t,
+    cutlass::half_t,
+    cutlass::half_t,
+    cutlass::half_t,
+    cutlass::half_t> GemmProfiler;
+
+  int results = 0;
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<
+      cutlass::MatrixLayout::kColumnMajor,
+      cutlass::MatrixLayout::kRowMajor,
+      cutlass::Shape<32, 128, 128>,
+      half,
+      half,
+      half,
+      cutlass::gemm::LinearScaling<half>,
+      half,
+      cutlass::Shape<32, 64, 64>
+    >
+      WmmaGemmTraits;
+
+    typedef WmmaGemmDispatch<WmmaGemmTraits> Dispatch;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_f16_nt", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<
+      cutlass::MatrixLayout::kColumnMajor,
+      cutlass::MatrixLayout::kColumnMajor,
+      cutlass::Shape<32, 128, 128>,
+      half,
+      half,
+      half,
+      cutlass::gemm::LinearScaling<half>,
+      half,
+      cutlass::Shape<32, 64, 64>
+    >
+      WmmaGemmTraits;
+
+    typedef WmmaGemmDispatch<WmmaGemmTraits> Dispatch;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_f16_nn", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<
+      cutlass::MatrixLayout::kRowMajor,
+      cutlass::MatrixLayout::kColumnMajor,
+      cutlass::Shape<32, 128, 128>,
+      half,
+      half,
+      half,
+      cutlass::gemm::LinearScaling<half>,
+      half,
+      cutlass::Shape<32, 64, 64>
+    >
+      WmmaGemmTraits;
+
+    typedef WmmaGemmDispatch<WmmaGemmTraits> Dispatch;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_f16_tn", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<
+      cutlass::MatrixLayout::kRowMajor,
+      cutlass::MatrixLayout::kRowMajor,
+      cutlass::Shape<32, 128, 128>,
+      half,
+      half,
+      half,
+      cutlass::gemm::LinearScaling<half>,
+      half,
+      cutlass::Shape<32, 64, 64>
+    >
+      WmmaGemmTraits;
+
+    typedef WmmaGemmDispatch<WmmaGemmTraits> Dispatch;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_gemm_f16_tt", options, config);
+  }
+
+  return results;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+struct WmmaGemmRegistrar {
+  WmmaGemmRegistrar() {
+    RegisterGemmProfileFunc(profile_wmma_gemm_f32);
+    RegisterGemmProfileFunc(profile_wmma_gemm_f16);
+  }
+};
+
+volatile WmmaGemmRegistrar _WmmaGemmRegistrar;
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 } // namespace perf
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/test/perf/gemm/wmma_integer_gemm.cu b/tools/test/perf/gemm/wmma_integer_gemm.cu
new file mode 100644
index 0000000000..db615989a3
--- /dev/null
+++ b/tools/test/perf/gemm/wmma_integer_gemm.cu
@@ -0,0 +1,455 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+#include "tools/test/perf/cutlass_perf_test.h"
+#include "tools/test/perf/gemm/gemm_perf_testbed.h"
+#include "tools/test/perf/gemm/gemm_profiler.h"
+
+#include "cutlass/wmma_matrix.h"
+#ifdef CUTLASS_USE_WMMA_API
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/wmma_gemm_traits.h"
+#include "tools/test/perf/gemm/cutlass_dispatch.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template<typename Traits, typename ScalarA, typename ScalarB>
+struct WmmaIntegerGemmDispatch {
+
+  typedef cutlass::gemm::Gemm<Traits> Gemm;
+
+  typedef typename Gemm::Params Params;
+
+  /// Indicate warp-level GEMM
+  static bool const kThreadMultiplyAdd = false;
+
+  static bool const kRunCuBLAS = false;
+
+  static cutlass::MatrixLayout::Kind const kLayoutA = Traits::kLayoutA;
+  static cutlass::MatrixLayout::Kind const kLayoutB = Traits::kLayoutB;
+
+  //
+  // Data members
+  //
+
+  /// Params argument
+  Params params;
+
+  //
+  // Methods
+  //
+
+  WmmaIntegerGemmDispatch() {}
+
+  /// Initializes params object
+  WmmaIntegerGemmDispatch(int m, int n, int k, int alpha,
+                       ScalarA const* d_a, int lda,
+                       ScalarB const* d_b, int ldb, int beta,
+                       int const* d_c, int ldc, int* d_d, int ldd) {
+
+    params.initialize(m, n, k, alpha, d_a, lda, d_b, ldb, beta, d_c, ldc, d_d, ldd);
+  }
+
+  /// Initializes params object
+  WmmaIntegerGemmDispatch(Params const& _params) : params(_params) {}
+
+  /// Launches kernel
+  cudaError_t operator()() { return Gemm::launch(params); }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template<typename Traits>
+struct WmmaIntegerGemmDispatch<Traits,
+                               cutlass::Vector<cutlass::int4_t, 8>,
+                               cutlass::Vector<cutlass::int4_t, 8> > {
+
+  typedef typename cutlass::Vector<cutlass::int4_t, 8> ScalarA;
+  typedef typename cutlass::Vector<cutlass::int4_t, 8> ScalarB;
+
+  typedef cutlass::gemm::Gemm<Traits> Gemm;
+
+  typedef typename Gemm::Params Params;
+
+  /// Indicate warp-level GEMM
+  static bool const kThreadMultiplyAdd = false;
+
+  static bool const kRunCuBLAS = false;
+
+  static cutlass::MatrixLayout::Kind const kLayoutA = Traits::kLayoutA;
+  static cutlass::MatrixLayout::Kind const kLayoutB = Traits::kLayoutB;
+
+  //
+  // Data members
+  //
+
+  /// Params argument
+  Params params;
+
+  //
+  // Methods
+  //
+
+  WmmaIntegerGemmDispatch() {}
+
+  /// Initializes params object
+  WmmaIntegerGemmDispatch(int m, int n, int k, int alpha,
+                       ScalarA const* d_a, int lda,
+                       ScalarB const* d_b, int ldb, int beta,
+                       int const* d_c, int ldc, int* d_d, int ldd) {
+
+    params.initialize(m, n, k * 8, alpha, d_a, lda, d_b, ldb, beta, d_c, ldc, d_d, ldd);
+  }
+
+  /// Initializes params object
+  WmmaIntegerGemmDispatch(Params const& _params) : params(_params) {}
+
+  /// Launches kernel
+  cudaError_t operator()() { return Gemm::launch(params); }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template<typename Traits>
+struct WmmaIntegerGemmDispatch<Traits,
+                               cutlass::Vector<cutlass::uint4_t, 8>,
+                               cutlass::Vector<cutlass::uint4_t, 8> > {
+
+  typedef typename cutlass::Vector<cutlass::uint4_t, 8> ScalarA;
+  typedef typename cutlass::Vector<cutlass::uint4_t, 8> ScalarB;
+
+  typedef cutlass::gemm::Gemm<Traits> Gemm;
+
+  typedef typename Gemm::Params Params;
+
+  /// Indicate warp-level GEMM
+  static bool const kThreadMultiplyAdd = false;
+
+  static bool const kRunCuBLAS = false;
+
+  static cutlass::MatrixLayout::Kind const kLayoutA = Traits::kLayoutA;
+  static cutlass::MatrixLayout::Kind const kLayoutB = Traits::kLayoutB;
+
+  //
+  // Data members
+  //
+
+  /// Params argument
+  Params params;
+
+  //
+  // Methods
+  //
+
+  WmmaIntegerGemmDispatch() {}
+
+  /// Initializes params object
+  WmmaIntegerGemmDispatch(int m, int n, int k, int alpha,
+                       ScalarA const* d_a, int lda,
+                       ScalarB const* d_b, int ldb, int beta,
+                       int const* d_c, int ldc, int* d_d, int ldd) {
+
+    params.initialize(m, n, k * 8, alpha, d_a, lda, d_b, ldb, beta, d_c, ldc, d_d, ldd);
+  }
+
+  /// Initializes params object
+  WmmaIntegerGemmDispatch(Params const& _params) : params(_params) {}
+
+  /// Launches kernel
+  cudaError_t operator()() { return Gemm::launch(params); }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace perf {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+int profile_wmma_integer_gemm(TestbenchOutput<GemmProblem> &output, TestbenchOptions const &options, Config const &config) {
+
+  int results = 0;
+
+  // compute capability check
+  if (!options.compute_capability(7, 5)) {
+    return 0;
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::Shape<128, 128, 128>,
+                                          signed char,
+                                          signed char,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<128, 32, 32>,
+                                          cutlass::Shape<16, 16, 16>,
+                                          16,
+                                          16> WmmaGemmTraits;
+
+    typedef WmmaIntegerGemmDispatch<WmmaGemmTraits, signed char, signed char> Dispatch;
+
+    typedef perf::GemmProfiler<signed char, signed char, int, int, int> GemmProfiler;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_integer_gemm_s8_16x16x16_nn", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::Shape<128, 128, 128>,
+                                          signed char,
+                                          signed char,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<128, 32, 32>,
+                                          cutlass::Shape<16, 16, 16>,
+                                          16,
+                                          16> WmmaGemmTraits;
+
+    typedef WmmaIntegerGemmDispatch<WmmaGemmTraits, signed char, signed char> Dispatch;
+
+    typedef perf::GemmProfiler<signed char, signed char, int, int, int> GemmProfiler;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_integer_gemm_s8_16x16x16_nt", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::Shape<128, 128, 128>,
+                                          signed char,
+                                          signed char,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<128, 32, 32>,
+                                          cutlass::Shape<16, 16, 16>,
+                                          16,
+                                          16> WmmaGemmTraits;
+
+    typedef WmmaIntegerGemmDispatch<WmmaGemmTraits, signed char, signed char> Dispatch;
+
+    typedef perf::GemmProfiler<signed char, signed char, int, int, int> GemmProfiler;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_integer_gemm_s8_16x16x16_tn", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::Shape<128, 128, 128>,
+                                          signed char,
+                                          signed char,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<128, 32, 32>,
+                                          cutlass::Shape<16, 16, 16>,
+                                          16,
+                                          16> WmmaGemmTraits;
+
+    typedef WmmaIntegerGemmDispatch<WmmaGemmTraits, signed char, signed char> Dispatch;
+
+    typedef perf::GemmProfiler<signed char, signed char, int, int, int> GemmProfiler;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_integer_gemm_s8_16x16x16_tt", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::Shape<128, 128, 128>,
+                                          unsigned char,
+                                          unsigned char,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<128, 32, 32>,
+                                          cutlass::Shape<16, 16, 16>,
+                                          16,
+                                          16> WmmaGemmTraits;
+
+    typedef WmmaIntegerGemmDispatch<WmmaGemmTraits, unsigned char, unsigned char> Dispatch;
+
+    typedef perf::GemmProfiler<unsigned char, unsigned char, int, int, int> GemmProfiler;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_integer_gemm_u8_16x16x16_nn", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::Shape<128, 128, 128>,
+                                          unsigned char,
+                                          unsigned char,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<128, 32, 32>,
+                                          cutlass::Shape<16, 16, 16>,
+                                          16,
+                                          16> WmmaGemmTraits;
+
+    typedef WmmaIntegerGemmDispatch<WmmaGemmTraits, unsigned char, unsigned char> Dispatch;
+
+    typedef perf::GemmProfiler<unsigned char, unsigned char, int, int, int> GemmProfiler;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_integer_gemm_u8_16x16x16_nt", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::Shape<128, 128, 128>,
+                                          unsigned char,
+                                          unsigned char,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<128, 32, 32>,
+                                          cutlass::Shape<16, 16, 16>,
+                                          16,
+                                          16> WmmaGemmTraits;
+
+    typedef WmmaIntegerGemmDispatch<WmmaGemmTraits, unsigned char, unsigned char> Dispatch;
+
+    typedef perf::GemmProfiler<unsigned char, unsigned char, int, int, int> GemmProfiler;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_integer_gemm_u8_16x16x16_tn", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::Shape<128, 128, 128>,
+                                          unsigned char,
+                                          unsigned char,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<128, 32, 32>,
+                                          cutlass::Shape<16, 16, 16>,
+                                          16,
+                                          16> WmmaGemmTraits;
+
+    typedef WmmaIntegerGemmDispatch<WmmaGemmTraits, unsigned char, unsigned char> Dispatch;
+
+    typedef perf::GemmProfiler<unsigned char, unsigned char, int, int, int> GemmProfiler;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_integer_gemm_u8_16x16x16_tt", options, config);
+  }
+
+  // compute capability check
+  if (!options.compute_capability_exact(7, 5)) {
+    return 0;
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::Shape<256, 128, 128>,
+                                          cutlass::Vector<cutlass::int4_t, 8>,
+                                          cutlass::Vector<cutlass::int4_t, 8>,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<256, 32, 32>,
+                                          cutlass::Shape<32, 8, 8>,
+                                          32,
+                                          32> WmmaGemmTraits;
+
+    typedef WmmaIntegerGemmDispatch<WmmaGemmTraits,
+                                 cutlass::Vector<cutlass::int4_t, 8>,
+                                 cutlass::Vector<cutlass::int4_t, 8> > Dispatch;
+
+    typedef perf::GemmProfiler<cutlass::Vector<cutlass::int4_t, 8>,
+                               cutlass::Vector<cutlass::int4_t, 8>,
+                               int,
+                               int,
+                               int> GemmProfiler;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_integer_gemm_s4_tn", options, config);
+  }
+
+  {
+    typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                          cutlass::MatrixLayout::kColumnMajor,
+                                          cutlass::Shape<256, 128, 128>,
+                                          cutlass::Vector<cutlass::uint4_t, 8>,
+                                          cutlass::Vector<cutlass::uint4_t, 8>,
+                                          int,
+                                          cutlass::gemm::LinearScaling<int>,
+                                          int,
+                                          cutlass::Shape<256, 32, 32>,
+                                          cutlass::Shape<32, 8, 8>,
+                                          32,
+                                          32> WmmaGemmTraits;
+
+    typedef WmmaIntegerGemmDispatch<WmmaGemmTraits,
+                                 cutlass::Vector<cutlass::uint4_t, 8>,
+                                 cutlass::Vector<cutlass::uint4_t, 8> > Dispatch;
+
+    typedef perf::GemmProfiler<cutlass::Vector<cutlass::uint4_t, 8>,
+                               cutlass::Vector<cutlass::uint4_t, 8>,
+                               int,
+                               int,
+                               int> GemmProfiler;
+
+    results |= profile_gemm<Dispatch, GemmProfiler>(output, "wmma_integer_gemm_u4_tn", options, config);
+  }
+
+  return results;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace perf
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#else // ! CUTLASS_USE_SUBBYTE_WMMA
+
+namespace perf {
+
+int profile_wmma_integer_gemm(TestbenchOutput<GemmProblem> &output, TestbenchOptions const &options, Config const &config) {
+  return 0;
+}
+
+}
+
+#endif
+
+struct WmmaIntegerGemmRegistrar {
+  WmmaIntegerGemmRegistrar() { perf::RegisterGemmProfileFunc(perf::profile_wmma_integer_gemm); }
+};
+
+volatile WmmaIntegerGemmRegistrar _WmmaIntegerGemmRegistrar;
+
+#endif // ifdef CUTLASS_USE_WMMA_API
diff --git a/tools/test/perf/performance_result.h b/tools/test/perf/performance_result.h
index 65ec4b18e9..38674b76aa 100644
--- a/tools/test/perf/performance_result.h
+++ b/tools/test/perf/performance_result.h
@@ -25,25 +25,39 @@
 
 #pragma once
 
-#include <cutlass/matrix_traits.h>
-#include <tools/util/command_line.h>
+#include "cutlass/matrix_traits.h"
+#include "tools/util/command_line.h"
+#include "tools/test/perf/provider.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 namespace perf {
 
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 /// Outcome of test
 struct Disposition {
-  enum Kind { Unknown = 0, NotRun, Passed, Incorrect, Failed, NotVerified, Invalid };
+  enum Kind {
+    Unknown = 0,
+    NotRun,
+    Passed,
+    Incorrect,
+    Failed,
+    NotVerified,
+    Invalid
+  };
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-}  // namespace perf
-
-inline std::ostream &operator<<(std::ostream &out, perf::Disposition::Kind value) {
-  char const *str[] = {
-      "unknown", "not_run", "passed", "incorrect", "failed", "not_verified", "invalid"};
+inline std::ostream &operator<<(std::ostream &out, Disposition::Kind value) {
+  char const *str[] = {"unknown",
+                       "not_run",
+                       "passed",
+                       "incorrect",
+                       "failed",
+                       "not_verified",
+                       "invalid"};
   if (value >= perf::Disposition::Unknown && value < perf::Disposition::Invalid) {
     out << str[value];
   } else {
@@ -62,10 +76,6 @@ inline std::ostream &operator<<(std::ostream &out, cutlass::MatrixLayout::Kind l
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-namespace perf {
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
 /// Size and layout of a GEMM problem
 struct GemmProblem {
   //
@@ -86,7 +96,7 @@ struct GemmProblem {
   //
 
   /// Static method to print GemmProblem headers
-  static std::string header() { return "M, N, K, Layout_A, Layout_B, Beta"; }
+  static std::string header() { return "M,N,K,Layout_A,Layout_B,Beta"; }
 
   //
   // Methods
@@ -129,34 +139,27 @@ struct GemmProblem {
   }
 };
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-}  // namespace perf
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
 /// Prints a problem to an output stream
-inline std::ostream &operator<<(std::ostream &out, perf::GemmProblem const &problem) {
-  out << problem.m << ", " << problem.n << ", " << problem.k << ", " << problem.layout_A << ", "
-      << problem.layout_B << ", " << problem.beta;
+inline std::ostream &operator<<(std::ostream &out, GemmProblem const &problem) {
+  out << problem.m << "," << problem.n << "," << problem.k << "," << problem.layout_A << ","
+      << problem.layout_B << "," << problem.beta;
 
   return out;
 }
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-namespace perf {
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
 /// Result object
+template <typename Problem>
 struct PerformanceResult {
+  /// Provider of GEMM implementation
+  Provider::Kind provider;
 
   /// Name of kernel
   std::string kernel_name;
 
   /// Problem size
-  GemmProblem problem;
+  Problem problem;
 
   /// Outcome of test
   Disposition::Kind disposition;
@@ -166,40 +169,45 @@ struct PerformanceResult {
 
   /// Throughput in units of GFLOPs
   double gflops;
+
   //
   // Methods
   //
 
-  PerformanceResult(
-                    std::string const &_kernel_name = "",
-                    GemmProblem const &_problem = GemmProblem(),
-                    Disposition::Kind _disposition = Disposition::NotRun,
-                    double _runtime = 0,
-                    double _gflops = 0)
-      :
-        kernel_name(_kernel_name),
-        problem(_problem),
-        disposition(_disposition),
-        runtime(_runtime),
-        gflops(_gflops) {}
+  PerformanceResult(Provider::Kind _provider = Provider::Cutlass
+                    , std::string const &_kernel_name = ""
+                    , Problem const &_problem = Problem()
+                    , Disposition::Kind _disposition = Disposition::NotRun
+                    , double _runtime = 0
+                    , double _gflops = 0
+  ):
+    provider(_provider)
+    , kernel_name(_kernel_name)
+    , problem(_problem)
+    , disposition(_disposition)
+    , runtime(_runtime)
+    , gflops(_gflops)
+  {}
 
   /// Displays headers
   static std::string header() {
-    return std::string("Kernel, ") + GemmProblem::header() +
-           ", Disposition, Runtime, GFLOPs";
+    std::stringstream ss;
+    
+    ss << "Provider,Kernel," <<  Problem::header();
+    ss << ",Disposition,Runtime,GFLOPs";
+    return ss.str();
   }
 
   /// Prints human-readable results
   std::ostream &pretty_print(std::ostream &out) const {
-
     out << "Kernel: \033[1m" << kernel_name << "\033[0m\n"
+        << "    provider: " << provider << "\n"
         << "    problem: ";
 
     std::stringstream disposition_str;
     if (disposition == Disposition::Passed) {
       disposition_str << "\033[1m";
-    }
-    else {
+    } else {
       disposition_str << "\033[1;31m";
     }
     disposition_str << disposition << "\033[0m";
@@ -215,15 +223,16 @@ struct PerformanceResult {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-}  // namespace perf
-
 /// Outputs result
-inline std::ostream &operator<<(std::ostream &out, perf::PerformanceResult const &result) {
+template <typename Problem>
+inline std::ostream &operator<<(std::ostream &out, PerformanceResult<Problem> const &result) {
 
-  out << result.kernel_name << ", " << result.problem << ", "
-      << result.disposition << ", " << result.runtime << ", " << result.gflops;
+  out << result.provider << "," << result.kernel_name << "," << result.problem << ","
+      << result.disposition << "," << result.runtime << "," << result.gflops;
 
   return out;
 }
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namespace perf
diff --git a/tools/test/perf/provider.h b/tools/test/perf/provider.h
new file mode 100644
index 0000000000..544ee3fbb1
--- /dev/null
+++ b/tools/test/perf/provider.h
@@ -0,0 +1,71 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+#pragma once
+
+#include <iosfwd>
+
+namespace perf {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Implementation under test
+struct Provider {
+  enum Kind {
+    Unknown = 0,
+    Cutlass,
+    Invalid
+  };
+
+  static Provider::Kind from_string(std::string const &str) {
+    if (str == "cutlass" || str == "Cutlass") {
+      return Cutlass;
+    }
+    else {
+      return Invalid;
+    }
+  }
+};
+
+/// Prints provider
+inline std::ostream &operator<<(std::ostream &out, Provider::Kind provider) {
+  char const *str[] = {
+    "unknown",
+    "Cutlass",
+    "invalid"
+  };
+  if (provider >= perf::Provider::Unknown && provider < perf::Provider::Invalid) {
+    out << str[provider];
+  } else {
+    out << str[perf::Provider::Invalid];
+  }
+  return out;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+}  // namespace perf
+
+
diff --git a/tools/test/perf/testbench_configs.h b/tools/test/perf/testbench_configs.h
new file mode 100644
index 0000000000..a7036aba86
--- /dev/null
+++ b/tools/test/perf/testbench_configs.h
@@ -0,0 +1,189 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+#pragma once
+
+#include <stdlib.h>
+#include <algorithm>
+#include <fstream>
+#include <string>
+
+#include "tools/test/perf/testbench_options.h"
+
+namespace perf {
+
+// Structure of configurations to run
+struct Config {
+  // Scalar value for GEMM
+  double alpha;
+
+  /// Scalar value for GEMM
+  double beta;
+
+  // kernel to run
+  std::vector<std::string> kernels;
+
+  /// Range of problem sizes
+  GemmProblemRange problem_range;
+
+  // Reference GFLOPs
+  double gflops_ref;
+
+  // Reference Runtime
+  double runtime_ref;
+
+  // Reference Peak Throughput
+  double peak_throughput_ref;
+
+  // Returns true if the kernel name appears among the enabled kernels
+  bool kernel_enabled(std::string const &kernel) const {
+    typedef std::vector<std::string>::const_iterator kernel_iterator;
+
+    for (kernel_iterator it = kernels.begin(); it != kernels.end(); ++it) {
+      if (kernel.find(*it) != std::string::npos) {
+        return true;
+      }
+    }
+
+    return false;
+  }
+};
+
+// Class to set the configurations to run
+struct TestbenchConfigs {
+  //
+  // Data members
+  //
+
+  // Vector of configurations to run
+  std::vector<perf::Config> configs;
+
+  // Options to test environment
+  TestbenchOptions options;
+
+  // Input CSV file to read (if applicable)
+  std::ifstream threshold_file;
+
+  //
+  // Methods
+  //
+
+  // Determines the configurations to run from the threshold file
+  void configs_from_file() {
+    // Set the values of kernels, M, N, K and beta based off of values read from CSVs
+    threshold_file.open(options.threshold_filename.c_str());
+    if (threshold_file.is_open()) {
+      std::string line;
+      int provider_idx = -1;
+      int kernel_idx = -1;
+      int beta_idx = -1;
+      int m_idx = -1;
+      int n_idx = -1;
+      int k_idx = -1;
+      int gflops_idx = -1;
+      int runtime_idx = -1;
+      int peak_throughput_idx = -1;
+
+      // Read the header and get the indices of the columns
+      if (getline(threshold_file, line)) {
+        char delim = ',';
+        size_t s_idx = 0;
+        size_t d_idx = std::string::npos;
+        int idx = 0;
+        line.erase(std::remove(line.begin(), line.end(), ' '), line.end());
+        while (s_idx < line.size()) {
+          d_idx = line.find_first_of(delim, s_idx);
+          size_t end_idx = (d_idx != std::string::npos ? d_idx : line.size());
+          std::string item = line.substr(s_idx, end_idx - s_idx);
+          if (item.compare("Provider") == 0) provider_idx = idx;
+          if (item.compare("Kernel") == 0) kernel_idx = idx;
+          if (item.compare("Beta") == 0) beta_idx = idx;
+          if (item.compare("M") == 0) m_idx = idx;
+          if (item.compare("N") == 0) n_idx = idx;
+          if (item.compare("K") == 0) k_idx = idx;
+          if (item.compare("GFLOPs") == 0) gflops_idx = idx;
+          if (item.compare("Runtime") == 0) runtime_idx = idx;
+          if (item.compare("SOL") == 0) peak_throughput_idx = idx;
+          s_idx = end_idx + 1;  // For comma
+          idx++;
+        }
+      }
+
+      while (getline(threshold_file, line)) {
+        char delim = ',';
+        size_t s_idx = 0;
+        size_t d_idx = std::string::npos;
+        std::vector<std::string> tokens;
+        line.erase(std::remove(line.begin(), line.end(), ' '), line.end());
+        while (s_idx < line.size()) {
+          d_idx = line.find_first_of(delim, s_idx);
+          size_t end_idx = (d_idx != std::string::npos ? d_idx : line.size());
+          std::string item = line.substr(s_idx, end_idx - s_idx);
+          tokens.push_back(item);
+          s_idx = end_idx + 1;  // For comma
+        }
+        if (tokens[provider_idx].compare("Cutlass") == 0) {
+          // Create a new config
+          Config config = Config();
+          config.alpha = options.alpha;
+          config.beta = strtod(tokens[beta_idx].c_str(), NULL);
+          config.kernels.push_back(tokens[kernel_idx]);
+          config.problem_range.M = Range((int)strtol(tokens[m_idx].c_str(), NULL, 10));
+          config.problem_range.N = Range((int)strtol(tokens[n_idx].c_str(), NULL, 10));
+          config.problem_range.K = Range((int)strtol(tokens[k_idx].c_str(), NULL, 10));
+          config.gflops_ref = strtod(tokens[gflops_idx].c_str(), NULL);
+          config.runtime_ref = strtod(tokens[runtime_idx].c_str(), NULL);
+          config.peak_throughput_ref = strtod(tokens[peak_throughput_idx].c_str(), NULL);
+          configs.push_back(config);
+        }
+      }
+    } else {  // !threshold_file.is_open()
+      std::cout << "ERROR: Could not open threshold file " << options.threshold_filename << "\n";
+    }
+  }
+
+  // Determines the configurations to run from the command line arguments
+  void configs_from_args() {
+    Config config = Config();
+    config.alpha = options.alpha;
+    config.beta = options.beta;
+    for (int i = 0; i < options.kernels.size(); i++) {
+      config.kernels.push_back(options.kernels[i]);
+    }
+    config.problem_range = options.problem_range;
+    configs.push_back(config);
+  }
+
+  // Constructor
+  TestbenchConfigs(TestbenchOptions const &_options) : options(_options) {
+    if (!options.threshold_filename.empty()) {
+      configs_from_file();
+    } else {
+      configs_from_args();
+    }
+  }
+};
+
+}  // namespace perf
diff --git a/tools/test/perf/testbench_options.h b/tools/test/perf/testbench_options.h
index dd2676294c..eb939cb0b5 100644
--- a/tools/test/perf/testbench_options.h
+++ b/tools/test/perf/testbench_options.h
@@ -25,8 +25,16 @@
 
 #pragma once
 
+#include <cuda_runtime.h>
+#include <cublas_v2.h>
+
 #include <stdint.h>
-#include <tools/util/command_line.h>
+#include <stdexcept>
+
+#include "cutlass/cutlass.h"
+#include "tools/util/command_line.h"
+#include "tools/util/distribution.h"
+#include "tools/test/perf/provider.h"
 
 namespace perf {
 
@@ -34,14 +42,73 @@ namespace perf {
 
 /// Range of problem sizes
 struct Range {
+
+  enum Operator {
+    Add,
+    Multiply
+  };
+
+  //
+  // Data members
+  //
+
   int start;
   int end;
   int increment;
+  Operator increment_op;
+
+  //
+  // Methods
+  //
+
+  Range(int _start = 0) : start(_start), end(_start), increment(1), increment_op(Add) {}
 
-  Range(int _start = 0) : start(_start), end(_start), increment(1) {}
+  Range(int _start, int _end, int _increment = 1, Operator _op = Add)
+      : start(_start), end(_end), increment(_increment), increment_op(_op) {}
 
-  Range(int _start, int _end, int _increment = 1)
-      : start(_start), end(_end), increment(_increment) {}
+  /// Returns the next item in series
+  int next(int val) const {
+    switch (increment_op) {
+      case Add: val += increment; break;
+      case Multiply: val *= increment; break;
+      default: val = end; break;
+    }
+    return val;
+  }
+
+  void import_from_strings(const std::vector<std::string>& values) {
+    if (values.size() > 0) {
+      std::stringstream ss;
+      ss << values.at(0);
+      ss >> start;
+    }
+
+    if (values.size() > 1) {
+      std::stringstream ss;
+      ss << values.at(1);
+      ss >> end;
+    } else {
+      end = start;
+    }
+
+    if (values.size() > 2 && !values.at(2).empty()) {
+      std::stringstream ss;
+
+      char first = values.at(2).at(0);
+      if (first == '*' || first == '+') {
+        ss << values.at(2).substr(1);
+        switch (first) {
+        case '*': increment_op = Multiply; break;
+        case '+': increment_op = Add; break;
+        default: break;
+        }
+      }
+      else {
+        ss << values.at(2);
+      }
+      ss >> increment;
+    }
+  }
 };
 
 ///////////////////////////////////////////////////////////////////////////////////////////////////
@@ -77,25 +144,7 @@ struct GemmProblemRange {
       std::vector<std::string> values;
       args.get_cmd_line_arguments(arg.c_str(), values, ':');
 
-      if (values.size() > 0) {
-        std::stringstream ss;
-        ss << values.at(0);
-        ss >> range.start;
-      }
-
-      if (values.size() > 1) {
-        std::stringstream ss;
-        ss << values.at(1);
-        ss >> range.end;
-      } else {
-        range.end = range.start;
-      }
-
-      if (values.size() > 2) {
-        std::stringstream ss;
-        ss << values.at(2);
-        ss >> range.increment;
-      }
+      range.import_from_strings(values);
     } else {
       range = _default;
     }
@@ -111,105 +160,6 @@ struct GemmProblemRange {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-/// Distribution type
-struct Distribution {
-  /// Variant types
-  enum Kind { Invalid, Uniform, Gaussian, Linear, Identity };
-
-  /// Distribution state
-  union {
-    /// Uniform distribution
-    struct {
-      double min;
-      double max;
-    } uniform;
-
-    /// Gaussian distribution
-    struct {
-      double mean;
-      double stddev;
-    } gaussian;
-
-    /// Elements are linear combination of row and column index
-    struct {
-      double offset;
-      double delta_row;
-      double delta_column;
-    } linear;
-  };
-
-  /// Active variant kind
-  Kind kind;
-
-  /// Random values are cast to integer after scaling by this power of two
-  int int_scale;
-
-  //
-  // Methods
-  //
-
-  Distribution() : kind(Invalid), int_scale(0) {}
-
-  /// Configures distribution as uniform random
-  Distribution &set_uniform(double _min, double _max, int _int_scale = 0) {
-    kind = Uniform;
-    uniform.min = _min;
-    uniform.max = _max;
-    int_scale = _int_scale;
-    return *this;
-  }
-
-  /// Configures distribution as Gaussian distribution
-  Distribution &set_gaussian(double _mean, double _stddev, int _int_scale = 0) {
-    kind = Gaussian;
-    gaussian.mean = _mean;
-    gaussian.stddev = _stddev;
-    int_scale = _int_scale;
-    return *this;
-  }
-
-
-  /// Sets identity
-  Distribution &set_identity() {
-    kind = Identity;
-    return *this;
-  }
-};
-
-}  // namespace perf
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-/// Prints a Distribution to ostream
-inline std::ostream &operator<<(std::ostream &out, perf::Distribution const &dist) {
-  switch (dist.kind) {
-    case perf::Distribution::Uniform:
-      out << "uniorm, min: " << dist.uniform.min << ", max: " << dist.uniform.max;
-      break;
-    case perf::Distribution::Gaussian:
-      out << "gaussian, mean: " << dist.gaussian.mean << ", stddev: " << dist.gaussian.stddev;
-      break;
-    case perf::Distribution::Linear:
-      out << "linear, mean: " << dist.linear.offset << ", delta_row: " << dist.linear.delta_row
-          << ", delta_column: " << dist.linear.delta_column;
-      break;
-    case perf::Distribution::Identity:
-      break;
-    default:
-      out << "unknown";
-  }
-
-  out << ", int_scale: " << dist.int_scale;
-
-  return out;
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-namespace perf {
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
 /// Defines a vector of string pairs
 typedef std::vector<std::pair<std::string, std::string> > KeyValueVector;
 
@@ -219,13 +169,13 @@ typedef KeyValueVector::const_iterator KeyValueIterator;
 /// Structure captures the initial configuration of matrices
 struct InitialDistribution {
   /// Distribution of A matrix operand
-  Distribution dist_A;
+  cutlass::Distribution dist_A;
 
   /// Distribution of B matrix operand
-  Distribution dist_B;
+  cutlass::Distribution dist_B;
 
-  /// Distribution of C matrix operand
-  Distribution dist_C;
+  /// cutlass::Distribution of C matrix operand
+  cutlass::Distribution dist_C;
 
   /// Seed for random number generation
   int64_t seed;
@@ -237,15 +187,15 @@ struct InitialDistribution {
   /// Gets the initial distribution
   static void get_distribution(cutlass::CommandLine const &args,
                                std::string const &arg,
-                               Distribution &dist) {
+                               cutlass::Distribution &dist) {
     struct {
       const char *label;
-      Distribution::Kind kind;
-    } distribution_kinds[] = {{"uniform", Distribution::Uniform},
-                              {"gaussian", Distribution::Gaussian},
-                              {"linear", Distribution::Linear},
-                              {"identity", Distribution::Identity},
-                              {0, Distribution::Invalid}};
+      cutlass::Distribution::Kind kind;
+    } distribution_kinds[] = {{"uniform", cutlass::Distribution::Uniform},
+                              {"gaussian", cutlass::Distribution::Gaussian},
+                              {"linear", cutlass::Distribution::Linear},
+                              {"identity", cutlass::Distribution::Identity},
+                              {0, cutlass::Distribution::Invalid}};
 
     struct {
       char const *label;
@@ -276,13 +226,17 @@ struct InitialDistribution {
 
     // Subsequent key-value pairs update the named field of the distribution struct.
     for (; it != values.end(); ++it) {
-
       // Integer scaling factor - if < 0, no integer rounding is performed.
       if (it->first == "scale" && !it->second.empty()) {
         std::stringstream ss;
         ss << it->second;
         ss >> dist.int_scale;
+        continue;  // next token
+      }
 
+      // Casts as integer without scaling
+      if (it->first == "integer") {
+        dist.int_scale = 0;
         continue;  // next token
       }
 
@@ -309,29 +263,29 @@ struct InitialDistribution {
 
   /// Basic uniform random distribution
   InitialDistribution(int64_t _seed = 700) : seed(_seed) {
-    dist_A.set_uniform(-8, 8);
-    dist_B.set_uniform(-8, 8);
-    dist_C.set_uniform(-8, 8);
+    dist_A.set_uniform(-4, 4);
+    dist_B.set_uniform(-4, 4);
+    dist_C.set_uniform(-4, 4);
   }
 
   /// Extracts initial distribution from command line arguments
   InitialDistribution(cutlass::CommandLine const &args) {
     // Set initial values
     seed = 700;
-    dist_A.set_uniform(-8, 8);
-    dist_B.set_uniform(-8, 8);
-    dist_C.set_uniform(-8, 8);
+    dist_A.set_uniform(-4, 4);
+    dist_B.set_uniform(-4, 4);
+    dist_C.set_uniform(-4, 4);
 
     // Update with command line arguments
     args.get_cmd_line_argument("seed", seed, seed);
 
     // Update all distributions at once
-    Distribution dist_all;
+    cutlass::Distribution dist_all;
     if (args.check_cmd_line_flag("dist")) {
-       get_distribution(args, "dist", dist_all);
-       dist_A = dist_all;
-       dist_B = dist_all;
-       dist_C = dist_all;
+      get_distribution(args, "dist", dist_all);
+      dist_A = dist_all;
+      dist_B = dist_all;
+      dist_C = dist_all;
     }
 
     get_distribution(args, "dist_A", dist_A);
@@ -344,19 +298,18 @@ struct InitialDistribution {
 
 /// Defines how to execute the benchmarks
 struct ExecutionMode {
-  enum Kind {
-    Profile,
-    Verify,
-    Single,
-    Invalid
-  };
+  enum Kind { Profile, Verify, Single, Invalid };
 
   static std::string to_string(Kind kind) {
     switch (kind) {
-      case Profile: return "profile";
-      case Verify: return "verify";
-      case Single: return "single";
-      default: return "invalid";
+      case Profile:
+        return "profile";
+      case Verify:
+        return "verify";
+      case Single:
+        return "single";
+      default:
+        return "invalid";
     }
   }
 
@@ -370,18 +323,18 @@ struct ExecutionMode {
 
 /// Indicates when the workspace is saved
 struct WorkspaceSaveMode {
-  enum Kind {
-    Never,
-    Incorrect,
-    Always
-  };
+  enum Kind { Never, Incorrect, Always };
 
   static std::string to_string(Kind kind) {
     switch (kind) {
-      case Never: return "never";
-      case Incorrect: return "incorrect";
-      case Always: return "always";
-      default: return "incorrect";
+      case Never:
+        return "never";
+      case Incorrect:
+        return "incorrect";
+      case Always:
+        return "always";
+      default:
+        return "incorrect";
     }
   }
 
@@ -397,7 +350,6 @@ struct WorkspaceSaveMode {
 
 /// Class holding testbench command line options
 struct TestbenchOptions {
-
   //
   // Data members
   //
@@ -408,18 +360,24 @@ struct TestbenchOptions {
   // Path to output file name
   std::string output_filename;
 
+  // Path to input file name
+  std::string threshold_filename;
+
   /// If true, output is appended
   bool append;
 
   /// Number of iterations
   int iterations;
-
+  
   /// Defines how to run the benchmark
   ExecutionMode::Kind execution_mode;
 
   /// Indicates when the workspace is saved
   WorkspaceSaveMode::Kind save_workspace_mode;
 
+  /// Properties of CUDA device
+  cudaDeviceProp device_properties;
+
   /// Enabled kernel names
   std::vector<std::string> kernels;
 
@@ -432,12 +390,21 @@ struct TestbenchOptions {
   /// Range of problem sizes
   GemmProblemRange problem_range;
 
+  /// If true, kernels are not executed, and no sleep waits are inserted
+  bool dry_run;
+
   /// Tags to describe the profiler output
   KeyValueVector pivot_tags;
 
   /// If enabled, only the peak performance for a given kernel is reported
   bool peak_performance;
 
+  /// Performance Degradatiom Margin before flagging as test failure
+  double perf_margin;
+
+  /// Cool-down period
+  int sleep_time;
+
   //
   // Methods
   //
@@ -447,26 +414,47 @@ struct TestbenchOptions {
       : initial_distribution(args),
         execution_mode(ExecutionMode::Profile),
         save_workspace_mode(WorkspaceSaveMode::Never),
-        problem_range(args) {
+        problem_range(args),
+        dry_run(false),
+        sleep_time(1) {
+
+    // Set the CUDA device and/or specify clock rate
+    configure_cuda_device(args);
 
     // fetch command line arguments
     args.get_cmd_line_argument("iterations", iterations, 25);
     args.get_cmd_line_argument("append", append, false);
     args.get_cmd_line_argument("output", output_filename);
+    args.get_cmd_line_argument("threshold", threshold_filename);
     args.get_cmd_line_argument("alpha", alpha, 1.0);
     args.get_cmd_line_argument("beta", beta, 0.0);
     args.get_cmd_line_argument("peak", peak_performance, false);
     args.get_cmd_line_argument_pairs("tags", pivot_tags);
+    args.get_cmd_line_argument("perf-margin", perf_margin, 0.97);
+    args.get_cmd_line_argument("dry-run", dry_run, false);
+    args.get_cmd_line_argument("sleep-time", sleep_time, 1);
 
-    if (args.check_cmd_line_flag("execution_mode")) {
+    if (args.check_cmd_line_flag("execution-mode")) {
       std::string str;
-      args.get_cmd_line_argument("execution_mode", str);
+      args.get_cmd_line_argument("execution-mode", str);
       execution_mode = ExecutionMode::from_string(str);
     }
 
-    if (args.check_cmd_line_flag("save_workspace")) {
+    if (args.check_cmd_line_flag("save-workspace")) {
       std::string str;
-      args.get_cmd_line_argument("save_workspace", str);
+      args.get_cmd_line_argument("save-workspace", str);
+      save_workspace_mode = WorkspaceSaveMode::from_string(str);
+    }
+
+    if (args.check_cmd_line_flag("execution-mode")) {
+      std::string str;
+      args.get_cmd_line_argument("execution-mode", str);
+      execution_mode = ExecutionMode::from_string(str);
+    }
+
+    if (args.check_cmd_line_flag("save-workspace")) {
+      std::string str;
+      args.get_cmd_line_argument("save-workspace", str);
       save_workspace_mode = WorkspaceSaveMode::from_string(str);
     }
 
@@ -474,13 +462,50 @@ struct TestbenchOptions {
     if (args.check_cmd_line_flag("kernels")) {
       args.get_cmd_line_arguments("kernels", kernels, ',');
     } else {
-      char const *gemms[] = {"sgemm", "dgemm", "hgemm", "igemm", "wmma_gemm", 0};
+      char const *gemms[] = {
+        "sgemm",
+        "dgemm",
+        "hgemm",
+        "igemm",
+        "wmma_gemm",
+        "wmma_gemm_f16",
+        "wmma_binary_gemm",
+        "wmma_integer_gemm",
+        0
+      };
       char const *layouts[] = {"nn", "nt", "tn", "tt", 0};
       for (int i = 0; gemms[i]; ++i) {
         for (int j = 0; layouts[j]; ++j) {
+          if ((std::string(gemms[i]).compare("wmma_binary_gemm") == 0 ||
+               std::string(gemms[i]).compare("wmma_integer_gemm") == 0)
+               && std::string(layouts[j]).compare("tn") != 0) {
+            continue;
+          }
           kernels.push_back(std::string(gemms[i]) + "_" + layouts[j]);
         }
       }
+
+    }
+  }
+
+  void configure_cuda_device(cutlass::CommandLine const &args) {
+    int device_id = 0;
+    args.get_cmd_line_argument("device", device_id, 0);
+
+    cudaError_t result;
+    result = cudaGetDeviceProperties(&device_properties, device_id);
+    if (result != cudaSuccess) {
+      throw std::runtime_error("cudaGetDeviceProperties() failed for given device.");
+    }
+    result = cudaSetDevice(device_id);
+    if (result != cudaSuccess) {
+      throw std::runtime_error("cudaSetDevice() failed for given device.");
+    }
+
+    // Get the clock rate (specified in cmd line in MHz)
+    if (args.check_cmd_line_flag("clock")) {
+      args.get_cmd_line_argument("clock", device_properties.clockRate);
+      device_properties.clockRate *= 1000;
     }
   }
 
@@ -501,15 +526,31 @@ struct TestbenchOptions {
   /// be saved to the file system.
   bool save_workspace(bool correct) const {
     if (save_workspace_mode == WorkspaceSaveMode::Always ||
-      (save_workspace_mode == WorkspaceSaveMode::Incorrect && !correct)) {
+        (save_workspace_mode == WorkspaceSaveMode::Incorrect && !correct)) {
       return true;
     }
     return false;
   }
 
+  /// Returns true if the selected device can satisfy the given compute capability
+  bool compute_capability(int major, int minor) const {
+    return (device_properties.major > major ||
+      (device_properties.major == major && device_properties.minor >= minor));
+  }
+
+  /// Requires an exact match of compute capability
+  bool compute_capability_exact(int major, int minor) const {
+    return major == device_properties.major && minor == device_properties.minor;
+  }
+
+  /// Prints version
+  static void version(std::ostream &out) {
+    out << "CUTLASS " << CUTLASS_MAJOR << "." << CUTLASS_MINOR << "." << CUTLASS_PATCH
+        << " built on " << __DATE__ << " at " << __TIME__;
+  }
+
   /// Prints the usage statement
   static void usage(std::ostream &out) {
-
     out << "cutlass_perf_test [options]\n\n"
 
         << "  --help\n"
@@ -523,15 +564,27 @@ struct TestbenchOptions {
         << "  --beta=<beta>                                 "
         << "    Value for beta to be used in GEMM experiments\n"
 
-        << "  --dist_{A,B,C}=<distribution>                 "
+        << "  --device=<int>                                "
+        << "    Specifies the CUDA device to use. Default is device 0.\n"
+
+        << "  --clock=<MHz>                                 "
+        << "    Specifies the SM clock rate in MHz.\n"
+
+        << "  --dist-{A,B,C}=<distribution>                 "
         << "    Describes the random distribution of each of the input matrix operands.\n"
 
-        << "  --execution_mode=<mode>                       "
+        << "  --dry-run=<bool>                              "
+        << "    If true, kernels are not executed and sleep is not inserted.\n"
+
+        << "  --execution-mode=<mode>                       "
         << "    Specifies execution mode: profile, verify, single\n"
 
         << "  --output=<filename.csv>                       "
         << "    Writes summary of profiling to specified .csv file\n"
 
+        << "  --threshold=<filename.csv>                    "
+        << "    Reads previous output summary and re-executes the same configurations.\n"
+
         << "  --iterations=<timing iterations>              "
         << "    maximum number of iterations to execute when profiling\n"
 
@@ -546,14 +599,19 @@ struct TestbenchOptions {
         << "  --k=<depth>[:max depth[:step]]                "
         << "    Size of inner dimension of A and B. May specify a range with optional step size.\n"
 
-        << "  --kernels={s|d|h|i|wmma_}gemm_{nn,nt,tn,tt}   "
+        << "  --kernels=<{s|d|h|i|wmma_|wmma_binary_|wmma_integer_}gemm_{nn,nt,tn,tt}>\n"
+        << "                                                "
         << "    Select GEMM datatype and layout to use for tests\n"
 
         << "  --peak=<bool>                                 "
         << "    If true, only reports peak performance per kernel after profiling specified "
            "problem space.\n"
 
-        << "  --save_workspace={*never,incorrect,always}    "
+        << "  --perf-margin=<perf-margin>                   "
+        << "    Allowable performance degradation before flagging test as failure (e.g. 3% slowdown"
+           " = 0.97).\n"
+
+        << "  --save-workspace={*never,incorrect,always}    "
         << "    Specifies when to save the GEMM inputs and results to the filesystem.\n"
 
         << "  --seed=<seed>                                 "
@@ -563,8 +621,17 @@ struct TestbenchOptions {
         << "    Inserts leading columns in output table and uniform values for each column. Useful "
            "for generating pivot tables.\n"
 
-        << "\n\n"
+        << "  --sleep-time=<second>                         "
+        << "    Sleep period between profiling kernels to cool down the device.\n"
+
+        << "  --version                                     "
+        << "    ";
+
+    version(out);
+
+    out << "\n\n";
 
+    out << "\n\n"
         << "Example usage:\n\n"
 
         << "# Runs one problem size for all kernels\n"
diff --git a/tools/test/perf/testbench_output.h b/tools/test/perf/testbench_output.h
index 5c0cb28b3f..297f02f896 100644
--- a/tools/test/perf/testbench_output.h
+++ b/tools/test/perf/testbench_output.h
@@ -27,15 +27,16 @@
 
 #include <fstream>
 
-#include <tools/test/perf/performance_result.h>
-#include <tools/test/perf/testbench_options.h>
-#include <tools/util/command_line.h>
+#include "tools/test/perf/performance_result.h"
+#include "tools/test/perf/testbench_options.h"
+#include "tools/util/command_line.h"
 
 namespace perf {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 /// Wraps an output stream and constructs a comma-separated value table of results
+template <typename Problem>
 class TestbenchOutput {
  public:
   /// Options to test environment
@@ -51,7 +52,7 @@ class TestbenchOutput {
   bool buffer_csv_output;
 
   /// Vector holding performance results
-  std::vector<PerformanceResult> buffered_perf_results;
+  std::vector<PerformanceResult<Problem> > buffered_perf_results;
 
  private:
   /// Opens the output file and updates output_ptr
@@ -74,11 +75,11 @@ class TestbenchOutput {
     // pivot tags
     for (KeyValueIterator tag_it = options.pivot_tags.begin(); tag_it != options.pivot_tags.end();
          ++tag_it) {
-      ss << tag_it->first << ", ";
+      ss << tag_it->first << ",";
     }
 
     // performance result header
-    ss << PerformanceResult::header();
+    ss << PerformanceResult<Problem>::header();
 
     return ss.str();
   }
@@ -95,14 +96,23 @@ class TestbenchOutput {
 
   /// Writes output to CSV
   ~TestbenchOutput() {
-    std::cout << std::endl;
-    if (buffer_csv_output) {
-      out() << "\n\n" << header() << std::endl;
-      for (std::vector<PerformanceResult>::const_iterator it = buffered_perf_results.begin();
-           it != buffered_perf_results.end();
-           ++it) {
-        write_csv(*it);
+    if (buffered_perf_results.size() != 0) {
+      std::cout << std::endl;
+      if (buffer_csv_output) {
+        out() << "\n\n" << header() << std::endl;
+        for (typename std::vector<PerformanceResult<Problem> >::const_iterator it =
+                 buffered_perf_results.begin();
+             it != buffered_perf_results.end();
+             ++it) {
+          write_csv(*it);
+        }
       }
+        std::cout << "\n[\033[1;32mPASSED\033[0m]";
+        if (!options.threshold_filename.empty()) {
+          std::cout << " - Performance Test Successful" << std::endl;
+        } else {
+          std::cout << std::endl;
+        }
     }
   }
 
@@ -122,11 +132,11 @@ class TestbenchOutput {
   }
 
   /// Writes a performance result to CSV output
-  TestbenchOutput &write_csv(PerformanceResult const &result) {
+  TestbenchOutput &write_csv(PerformanceResult<Problem> const &result) {
     // pivot tags
     for (KeyValueIterator tag_it = options.pivot_tags.begin(); tag_it != options.pivot_tags.end();
          ++tag_it) {
-      out() << tag_it->second << ", ";
+      out() << tag_it->second << ",";
     }
 
     out() << result << std::endl;
@@ -134,24 +144,26 @@ class TestbenchOutput {
   }
 
   /// Prints the output without appending it for CSV writing
-  TestbenchOutput &pretty_print(PerformanceResult const &result) {
+  TestbenchOutput &pretty_print(PerformanceResult<Problem> const &result) {
     result.pretty_print(std::cout) << std::endl;
 
     return *this;
   }
 
   /// Emits the result as output
-  TestbenchOutput &append(PerformanceResult const &result) {
+  TestbenchOutput &append(PerformanceResult<Problem> const &result) {
     if (buffer_csv_output) {
       buffered_perf_results.push_back(result);
     } else {
       write_csv(result);
+      buffered_perf_results.push_back(result);
     }
 
     pretty_print(result);
 
     return *this;
   }
+
 };
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/test/unit/CMakeLists.txt b/tools/test/unit/CMakeLists.txt
index 93d0290ec2..36f92ecf50 100644
--- a/tools/test/unit/CMakeLists.txt
+++ b/tools/test/unit/CMakeLists.txt
@@ -37,14 +37,23 @@ link_libraries(
 set(CUTLASS_UNIT_TEST_HEADERS
   cutlass_unit_test.h
   core/layout_verification.h
+  gemm/run_gemm.h
+  gemm/gemm_testbed.h
 )
 
 set(CUTLASS_UNIT_TEST_SOURCES
   cutlass_unit_test.cpp
+  core/tensor_ref.cu
+  core/tensor_view.cu
+  util/unique_ptr.cu
   util/host_tensor.cu
+  util/complex.cu
+  util/tensor_foreach.cu
+  util/tensor_elementwise.cu
   core/layout_verification.cu
   core/predicate_vector.cu
   core/tile_iterator.cu
+  core/zip_tile_iterator.cu
   gemm/dgemm.cu
   gemm/hgemm_128x128x8.cu
   gemm/hgemm_128x128x16.cu
@@ -68,7 +77,19 @@ set(CUTLASS_UNIT_TEST_SOURCES
   gemm/sgemm_64x64x16.cu
   gemm/sgemm_64x32x8.cu
   gemm/sgemm_64x32x16.cu
+  gemm/fp16_sgemm_fp32_128x128x16.cu
+  gemm/fp16_sgemm_fp16_128x128x16.cu
   gemm/wmma_gemm.cu
+  gemm/wmma_binary_gemm.cu
+  gemm/wmma_integer_gemm.cu
+  gemm/sgemm_threadblock_swizzle_nn.cu
+  gemm/sgemm_threadblock_swizzle_nt.cu
+  gemm/sgemm_threadblock_swizzle_tn.cu
+  gemm/sgemm_threadblock_swizzle_tt.cu
+  gemm/batched_strided_sgemm_128x128x8.cu
+  gemm/batched_strided_dgemm_128x128x8.cu
+  gemm/batched_strided_hgemm_128x128x8.cu
+  gemm/epilogue_functor.cu
 )
 
 if (CUTLASS_NVRTC_ENABLE)
@@ -101,4 +122,6 @@ if (CUTLASS_NVRTC_ENABLE)
   endif()
 endif()
 
-CUDA_ADD_CUBLAS_TO_TARGET(cutlass_unit_test)
+target_link_libraries(cutlass_unit_test ${CUBLAS_LIBRARY})
+
+
diff --git a/tools/test/unit/core/layout_verification.cu b/tools/test/unit/core/layout_verification.cu
index 523967c3dd..c043ced090 100644
--- a/tools/test/unit/core/layout_verification.cu
+++ b/tools/test/unit/core/layout_verification.cu
@@ -22,9 +22,9 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
+#include "cutlass_unit_test.h"
 #include <algorithm>
-#include <tools/test/unit/core/layout_verification.h>
+#include "tools/test/unit/core/layout_verification.h"
 
 
 namespace test {
diff --git a/tools/test/unit/core/layout_verification.h b/tools/test/unit/core/layout_verification.h
index 42306edb02..a0716131de 100644
--- a/tools/test/unit/core/layout_verification.h
+++ b/tools/test/unit/core/layout_verification.h
@@ -29,12 +29,12 @@
 #include <iostream>
 #include <vector>
 
-#include <cutlass/tensor_view.h>
+#include "cutlass/tensor_view.h"
 
-#include <tools/util/half.h>
-#include <tools/util/host_tensor_view.h>
-#include <tools/util/tensor_view_io.h>
-#include <tools/util/type_traits.h>
+#include "tools/util/half.h"
+#include "tools/util/host_tensor_view.h"
+#include "tools/util/tensor_view_io.h"
+#include "tools/util/type_traits.h"
 
 namespace test {
 
@@ -275,6 +275,8 @@ class VerifyLayout {
     for (int index = 0; index < count; ++index) {
       SourceBits element = hash(layout(index));
 
+      // std::cout << "  " << index << ": 0x" << std::hex << element << std::dec << std::endl;
+
       data[index] = element;
     }
   }
diff --git a/tools/test/unit/core/predicate_vector.cu b/tools/test/unit/core/predicate_vector.cu
index d873cc3cf1..6e0b00cedc 100644
--- a/tools/test/unit/core/predicate_vector.cu
+++ b/tools/test/unit/core/predicate_vector.cu
@@ -26,9 +26,9 @@
 #include <cublas_v2.h>
 #include <cstring>
 
-#include <cutlass_unit_test.h>
-#include <cutlass/predicate_vector.h>
-#include <tools/util/host_tensor.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/predicate_vector.h"
+#include "tools/util/host_tensor.h"
 
 namespace test {
 
@@ -118,3 +118,126 @@ TEST(PredicateVector, Basic) {
     }
   }
 }
+
+TEST(PredicateVector, Count) {
+
+  {
+    typedef cutlass::PredicateVector<4, 8> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 1)
+      << "PredicateVector<4, 8> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<4, 4> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 1)
+      << "PredicateVector<4, 4> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<4, 2> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 1)
+      << "PredicateVector<4, 2> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<4, 1> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 1)
+      << "PredicateVector<4, 1> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<8, 8> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 1)
+      << "PredicateVector<8, 8> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<8, 4> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 1)
+      << "PredicateVector<8, 4> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<8, 2> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 1)
+      << "PredicateVector<8, 2> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<8, 1> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 2)
+      << "PredicateVector<8, 1> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<16, 8> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 1)
+      << "PredicateVector<16, 8> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<16, 4> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 1)
+      << "PredicateVector<16, 4> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<16, 2> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 2)
+      << "PredicateVector<16, 2> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<16, 1> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 4)
+      << "PredicateVector<16, 1> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<32, 8> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 1)
+      << "PredicateVector<32, 8> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<32, 4> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 2)
+      << "PredicateVector<32, 4> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<32, 2> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 4)
+      << "PredicateVector<32, 2> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<32, 1> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 8)
+      << "PredicateVector<32, 1> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<64, 8> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 2)
+      << "PredicateVector<64, 8> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<64, 4> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 4)
+      << "PredicateVector<64, 4> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<64, 2> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 8)
+      << "PredicateVector<64, 2> word count: " << PredicateVector::kWordCount;
+  }
+
+  {
+    typedef cutlass::PredicateVector<64, 1> PredicateVector;
+    EXPECT_EQ(int(PredicateVector::kWordCount), 16)
+      << "PredicateVector<64, 1> word count: " << PredicateVector::kWordCount;
+  }
+}
diff --git a/tools/test/unit/core/tensor_ref.cu b/tools/test/unit/core/tensor_ref.cu
new file mode 100644
index 0000000000..ee16f92f1f
--- /dev/null
+++ b/tools/test/unit/core/tensor_ref.cu
@@ -0,0 +1,220 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+
+#include "cutlass/tensor_ref.h"
+#include "cutlass/matrix_traits.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TensorRef, basic_rank2) {
+  int const M = 8;
+  int const N = 16;
+  
+  int matrix_data[M * N] = {0};
+
+  cutlass::TensorRef<int, 2> matrix_ref(matrix_data, cutlass::make_Coord(N, 1));
+  for (int m = 0; m < M; ++m) {
+    for (int n = 0; n < N; ++n) {
+      matrix_ref.at(cutlass::make_Coord(m, n)) = m * N + n;
+    }
+  }
+
+  for (int m = 0; m < M; ++m) {
+    for (int n = 0; n < N; ++n) {
+      EXPECT_EQ(matrix_data[m * N + n], int(m * N + n));
+    }
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TensorRef, rank2_column_major) {
+  int const M = 8;
+  int const N = 8;
+  
+  int matrix_data[M * N];
+
+  cutlass::TensorRef<int, 2, cutlass::MatrixLayout::ColumnMajor> ref(matrix_data, M); 
+
+  for (int m = 0; m < M; ++m) {
+    for (int n = 0; n < N; ++n) {
+      ref.at(cutlass::make_Coord(m, n)) = m * N + n;
+    }
+  }
+
+  for (int m = 0; m < M; ++m) {
+    for (int n = 0; n < N; ++n) {
+      EXPECT_EQ(matrix_data[m + n * M], int(m * N + n));
+    }
+  }
+}
+
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TensorRef, rank2_row_major) {
+  int const M = 8;
+  int const N = 16;
+  
+  int matrix_data[M * N] = { 0 };
+
+  cutlass::TensorRef<int, 2, cutlass::MatrixLayout::RowMajor> ref(matrix_data, N); 
+
+  for (int m = 0; m < M; ++m) {
+    for (int n = 0; n < N; ++n) {
+      ref.at(cutlass::make_Coord(m, n)) = m * N + n;
+    }
+  }
+
+  for (int m = 0; m < M; ++m) {
+    for (int n = 0; n < N; ++n) {
+      EXPECT_EQ(matrix_data[m * N + n], int(m * N + n));
+    }
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TensorRef, rank2_contiguous_dynamic) {
+  int const M = 8;
+  int const N = 16;
+  
+  typedef cutlass::TensorRef<int, 2, cutlass::MatrixLayout::ContiguousLayout> ContiguousTensorRef;
+
+  cutlass::MatrixLayout::Kind layouts[] = {
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor
+  };
+
+  for (int i = 0; i < 2; ++i) {
+
+    int matrix_data[M * N] = { 0 };
+
+    int ldm;
+    int row_stride;
+    int col_stride;
+
+    if (layouts[i] == cutlass::MatrixLayout::kColumnMajor) {
+      row_stride = 1;
+      col_stride = M;
+      ldm = col_stride;
+    }
+    else {
+      row_stride = N;
+      col_stride = 1;
+      ldm = row_stride;
+    } 
+
+    // Use helper to determine stride vector from leading dimension
+    ContiguousTensorRef ref(
+      matrix_data, 
+      cutlass::MatrixLayout::ContiguousLayout::stride(layouts[i], ldm));
+
+    for (int m = 0; m < M; ++m) {
+      for (int n = 0; n < N; ++n) {
+        ref.at(cutlass::make_Coord(m, n)) = m * N + n;
+      }
+    }
+
+    for (int m = 0; m < M; ++m) {
+      for (int n = 0; n < N; ++n) {
+        EXPECT_EQ(matrix_data[m * row_stride + n * col_stride], int(m * N + n));
+      }
+    }
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TensorRef, rank2_column_major_interleaved) {
+  int const M = 16;
+  int const N = 16;
+  int const kInterleave = 4;
+
+  int matrix_data[M * N] = {0};
+
+  // Define the TensorRefMapFunc for a column-major interleaved matrix format
+  typedef cutlass::MatrixLayout::ColumnMajorInterleaved<kInterleave> TensorRefMapFunc;
+
+  // Construct a TensorRef
+  cutlass::TensorRef<
+    int, 
+    2, 
+    TensorRefMapFunc> ref(matrix_data, TensorRefMapFunc::stride(M)); 
+
+  for (int m = 0; m < M; ++m) {
+    for (int n = 0; n < N; ++n) {
+      ref.at(cutlass::make_Coord(m, n)) = m + n * M;
+    }
+  }
+
+  // Verify
+  for (int m = 0; m < M; ++m) {
+    for (int n = 0; n < N; n += kInterleave) {
+      for (int i = 0; i < kInterleave; ++i) {
+        EXPECT_EQ(matrix_data[m * kInterleave + n * M + i], int(m + (n + i) * M));
+      }
+    }
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TensorRef, rank2_row_major_interleaved) {
+  int const M = 16;
+  int const N = 16;
+  int const kInterleave = 4;
+
+  int matrix_data[M * N] = {0};
+
+  // Define the TensorRefMapFunc for a row-major interleaved matrix format
+  typedef cutlass::MatrixLayout::RowMajorInterleaved<kInterleave> TensorRefMapFunc;
+
+  // Construct a TensorRef
+  cutlass::TensorRef<
+    int, 
+    2, 
+    TensorRefMapFunc> ref(matrix_data, TensorRefMapFunc::stride(N)); 
+
+  for (int m = 0; m < M; ++m) {
+    for (int n = 0; n < N; ++n) {
+      ref.at(cutlass::make_Coord(m, n)) = m + n * M;
+    }
+  }
+
+  // Verify
+  for (int m = 0; m < M; m += kInterleave) {
+    for (int n = 0; n < N; ++n) {
+      for (int i = 0; i < kInterleave; ++i) {
+        EXPECT_EQ(matrix_data[m * N + i + n * kInterleave], int((m + i) + n * M));
+      }
+    }
+  }
+}
+
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
diff --git a/tools/test/unit/core/tensor_view.cu b/tools/test/unit/core/tensor_view.cu
new file mode 100644
index 0000000000..8090f468d9
--- /dev/null
+++ b/tools/test/unit/core/tensor_view.cu
@@ -0,0 +1,235 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+
+#include "cutlass/tensor_view.h"
+#include "cutlass/matrix_traits.h"
+
+#include "tools/util/tensor_view_io.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TensorView, rank2_contiguous_dynamic) {
+  int const M = 8;
+  int const N = 16;
+  
+  typedef cutlass::TensorView<int, 2, cutlass::MatrixLayout::ContiguousLayout> ContiguousTensorView;
+
+  cutlass::MatrixLayout::Kind layouts[] = {
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor
+  };
+
+  cutlass::Coord<2> bounds = cutlass::make_Coord(M - 2, N - 2);
+
+  for (int i = 0; i < 2; ++i) {
+
+    int matrix_data[M * N] = { 0 };
+
+    int ldm;
+    int row_stride;
+    int col_stride;
+
+    if (layouts[i] == cutlass::MatrixLayout::kColumnMajor) {
+      row_stride = 1;
+      col_stride = M;
+      ldm = col_stride;
+    }
+    else {
+      row_stride = N;
+      col_stride = 1;
+      ldm = row_stride;
+    } 
+
+    // Use helper to determine stride vector from leading dimension
+    ContiguousTensorView view(
+      matrix_data, 
+      cutlass::MatrixLayout::ContiguousLayout::stride(layouts[i], ldm),
+      bounds);
+
+    ASSERT_TRUE(view.good());
+
+    for (int m = 0; m < M; ++m) {
+      for (int n = 0; n < N; ++n) {
+        cutlass::Coord<2> coord = cutlass::make_Coord(m, n);
+        if (view.contains(coord)) {
+          view.at(coord) = m * N + n;
+        }
+      }
+    }
+
+    for (int m = 0; m < M; ++m) {
+      for (int n = 0; n < N; ++n) {
+        int expected = 0;
+        if (m < bounds[0] && n < bounds[1]) {
+          expected = int(m * N + n);
+        }
+        EXPECT_EQ(matrix_data[m * row_stride + n * col_stride], expected);
+      }
+    }
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// Uncomment the following line to observe output from printing TensorView objects
+//
+
+// #define OBSERVE_TENSORVIEW_IO   // uncomment to enable printing
+
+#ifdef OBSERVE_TENSORVIEW_IO
+
+// This test construct a TensorView of rank=2 with matrix layouts known at runtime. This
+// uses TensorRefMapFunc classes defined in cutlass/matrix_traits.h to define the mapping
+// from logical tensor indices to storage in memory.
+//
+// Helpers in tools/util/tensor_view_io.h print both the logical TensorView and the
+// linear memory of the tensor.
+TEST(TensorView, contiguous) {
+  
+  int const M = 8;
+  int const N = 16;
+  
+  typedef cutlass::TensorView<
+    int32_t, 
+    2, 
+    cutlass::MatrixLayout::ContiguousLayout> ContiguousTensorView;
+
+  cutlass::MatrixLayout::Kind layouts[] = {
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor
+  };
+
+  cutlass::Coord<2> bounds = cutlass::make_Coord(M, N);
+
+  for (int i = 0; i < 2; ++i) {
+
+    int matrix_data[M * N] = { 0 };
+
+    int ldm;
+    int row_stride;
+    int col_stride;
+
+    if (layouts[i] == cutlass::MatrixLayout::kColumnMajor) {
+      row_stride = 1;
+      col_stride = M;
+      ldm = col_stride;
+    }
+    else {
+      row_stride = N;
+      col_stride = 1;
+      ldm = row_stride;
+    } 
+
+    // Use helper to determine stride vector from leading dimension
+    ContiguousTensorView view(
+      matrix_data, 
+      cutlass::MatrixLayout::ContiguousLayout::stride(layouts[i], ldm),
+      bounds);
+
+    for (int m = 0; m < M; ++m) {
+      for (int n = 0; n < N; ++n) {
+        cutlass::Coord<2> coord = cutlass::make_Coord(m, n);
+        if (view.contains(coord)) {
+          view.at(coord) = m * N + n;
+        }
+      }
+    }
+
+    std::cout << "---------\n";
+    std::cout << (layouts[i] == cutlass::MatrixLayout::kColumnMajor ? 
+      "Column-major:" : "Row-major:") << "\n\n";
+
+    std::cout << "Logical view:\n";
+    std::cout.width(4);
+    std::cout << view << "\n" << std::endl;   // Print TensorView object.
+
+    std::cout << "Linear memory:";
+    for (int idx = 0; idx < view.capacity(); ++idx) {
+      if (!(idx % (layouts[i] == cutlass::MatrixLayout::kColumnMajor ? M : N))) {
+        std::cout << std::endl;
+      }
+      std::cout << std::setw(4) << view.at(idx) << " ";
+    }
+
+    std::cout << "\n" << std::endl;
+  }
+}
+
+// This test is similar to the previous except it uses a column-major, interleaved data
+// layout. The test prints both the logical representation (a typical column-major matrix)
+// and a representation of linear memory.
+//
+// Note, the interleave=4 structure implies that every four consecutive elements in the
+// same row shall be adjacent in memory followed by the next row.
+TEST(TensorView, rank2_column_major_interleaved) {
+  int const M = 16;
+  int const N = 16;
+  int const kInterleave = 4;
+
+  int matrix_data[M * N] = {0};
+
+  cutlass::Coord<2> bounds = cutlass::make_Coord(M, N);
+
+  // Define the TensorRefMapFunc for a column-major interleaved matrix format
+  typedef cutlass::MatrixLayout::ColumnMajorInterleaved<kInterleave> TensorRefMapFunc;
+
+  // Define a TensorView of rank=2 using the column-major interleaved mapping function
+  typedef cutlass::TensorView<
+    int, 
+    2, 
+    TensorRefMapFunc> InterleavedTensorView;
+
+  InterleavedTensorView view(
+    matrix_data, 
+    TensorRefMapFunc::stride(M), 
+    bounds); 
+
+  // Initialize
+  for (int m = 0; m < M; ++m) {
+    for (int n = 0; n < N; ++n) {
+      view.at(cutlass::make_Coord(m, n)) = m + n * M;
+    }
+  }
+
+  // Print logical view
+  std::cout << "Column-major, interleave=" << kInterleave << " (logical view):\n";
+
+  std::cout << std::setw(4) << view << "\n" << std::endl;
+
+  // Now define a linear view of the same data in memory
+  typedef cutlass::TensorView<int, 2, cutlass::MatrixLayout::RowMajor> LinearTensorView;
+
+  LinearTensorView linear_view(matrix_data, cutlass::make_Coord(N), bounds);
+
+  std::cout << "Linear view in memory:\n";
+  std::cout << std::setw(4) << linear_view << std::endl;
+}
+
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+
diff --git a/tools/test/unit/core/tile_iterator.cu b/tools/test/unit/core/tile_iterator.cu
index 144e4393fb..c7f9598121 100644
--- a/tools/test/unit/core/tile_iterator.cu
+++ b/tools/test/unit/core/tile_iterator.cu
@@ -3,14 +3,14 @@
  *
  * Redistribution and use in source and binary forms, with or without modification, are permitted
  * provided that the following conditions are met:
- *   * Redistributions of source code must retain the above copyright notice, this list of
- *     conditions and the following disclaimer.
- *   * Redistributions in binary form must reproduce the above copyright notice, this list of
- *     conditions and the following disclaimer in the documentation and/or other materials
- *     provided with the distribution.
- *   * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
- *     to endorse or promote products derived from this software without specific prior written
- *     permission.
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
  *
  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
  * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
@@ -22,29 +22,37 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <tools/util/host_tensor.h>
-#include <tools/util/tensor_view_io.h>
-#include <cutlass/shape.h>
-#include <cutlass/predicate_vector.h>
-#include <cutlass/tile_iterator.h>
-#include <cutlass/tile_traits_standard.h>
-#include <cutlass/iterator_access.h>
+#include "cutlass_unit_test.h"
+#include "tools/util/host_matrix.h"
+#include "tools/util/tensor_view_io.h"
+#include "cutlass/shape.h"
+#include "cutlass/predicate_vector.h"
+#include "cutlass/tile_iterator.h"
+#include "cutlass/tile_traits_standard.h"
+#include "cutlass/iterator_access.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 namespace test {
 
-  template <typename Traits, typename Scalar>
-  __global__ void load_store_global(
-        typename cutlass::TileLoadIterator<Traits, Scalar, cutlass::IteratorAdvance::kH,
-        cutlass::MemorySpace::kGlobal>::Scalar const *input,
-        typename cutlass::TileStoreIterator<Traits, Scalar, cutlass::IteratorAdvance::kH,
-        cutlass::MemorySpace::kGlobal>::Scalar *output
-      ) {
-
+template <typename Traits, typename Scalar>
+__global__ void load_store_global(
+            typename cutlass::TileLoadIterator<Traits, Scalar, cutlass::IteratorAdvance::kH,
+            cutlass::MemorySpace::kGlobal>::Scalar const *input,
+            typename cutlass::TileStoreIterator<Traits, Scalar, cutlass::IteratorAdvance::kH,
+            cutlass::MemorySpace::kGlobal>::Scalar *output,
+            int kW,
+            int kH,
+            typename cutlass::TileStoreIterator<Traits, Scalar, cutlass::IteratorAdvance::kH,
+            cutlass::MemorySpace::kGlobal>::Scalar identity = 0
+        ) {
+
+    /// Load iterator
     typedef cutlass::TileLoadIterator<Traits, Scalar, cutlass::IteratorAdvance::kH, cutlass::MemorySpace::kGlobal> LoadIterator;
+    /// Store iterator
     typedef cutlass::TileStoreIterator<Traits, Scalar, cutlass::IteratorAdvance::kH, cutlass::MemorySpace::kGlobal> StoreIterator;
+    /// Predicate vector
+    typedef typename LoadIterator::PredicateVector PredicateVector;
 
     typename LoadIterator::Params load_params;
     typename StoreIterator::Params store_params;
@@ -56,98 +64,144 @@ namespace test {
 
     LoadIterator load_iterator(load_params);
     StoreIterator store_iterator(store_params);
+    PredicateVector predicates;
 
-    typename LoadIterator::Fragment fragment;
-
-    load_iterator.load(fragment);
-    store_iterator.store(fragment);
-  }
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-TEST(TileIterator, tile_128x8_contiguous) {
+    load_iterator.initialize_predicates(predicates.begin(), cutlass::make_Coord(1, kH, kW));
 
-  static int const M = 128;
-  static int const N = 1;
-  static int const K = 8;
+    typename LoadIterator::Fragment fragment;
 
-  static int const kThreads = M;
+    load_iterator.load_post_increment(fragment, predicates.begin());
+    store_iterator.store_post_increment(fragment);
+}
 
-  typedef cutlass::Shape<K, N, M> ThreadBlockTile;
+/// Launches the load_store_global test
+template <typename Scalar, typename Tile, int kThreadsPerThreadBlock>
+void run_load_store_global(int kW, int kH) {
 
-  typedef cutlass::TileTraitsStandard<cutlass::Shape<N, K, M>, kThreads> Traits;
+  typedef cutlass::TileTraitsStandard<Tile, kThreadsPerThreadBlock> Traits;
 
-  cutlass::HostTensor<float> input;
-  cutlass::HostTensor<float> output;
+  typedef typename cutlass::TypeTraits<Scalar>::device_type ScalarDevice;
 
-  input.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-      cutlass::MatrixLayout::kColumnMajor);
+  cutlass::HostMatrix<Scalar> input;
+  cutlass::HostMatrix<Scalar> output;
 
-  output.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-      cutlass::MatrixLayout::kColumnMajor);
+  input.resize(cutlass::make_Coord(Tile::kW, Tile::kH), cutlass::MatrixLayout::kColumnMajor);
+  output.resize(cutlass::make_Coord(Tile::kW, Tile::kH), cutlass::MatrixLayout::kColumnMajor);
 
-  input.fill_linear(cutlass::make_Coord(1, 1, ThreadBlockTile::kW, 1));
+  input.fill_linear(cutlass::make_Coord(1, Tile::kW));
   output.fill(0);
 
-  test::load_store_global< Traits, float ><<<
-    dim3(1,1,1),
-    dim3(kThreads, 1)
-  >>>(
-    input.device_data(),
-    output.device_data()
-  );
+  test::load_store_global<Traits, ScalarDevice> <<<
+      dim3(1, 1, 1),
+      dim3(kThreadsPerThreadBlock, 1)
+    >>>(input.device_data(), output.device_data(), kW, kH);
 
   cudaError_t result = cudaDeviceSynchronize();
+
   ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                 << "\n";
+                               << "\n";
   output.sync_host();
 
-  EXPECT_TRUE(input.bit_equals(output));
+  bool passed = true;
+  for(int i = 0; i < Tile::kW; ++i) {
+    for(int j = 0; j < Tile::kH; ++j) {
+      if(i < kW && j < kH && output.at(cutlass::make_Coord(i, j)) != Scalar(Tile::kW*j+i)){
+        std::cout << "FAILED: (" << i << ", " << j
+                  << ") -- expected: " << (Tile::kW*j+i)
+                  << ", actual: " << output.at(cutlass::make_Coord(i, j))
+                  << std::endl;
+        passed = false;
+        break;
+      }
+    }
+  }
+
+  EXPECT_TRUE(passed);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
 
+TEST(TileIterator, tile_128x8_contiguous) {
+    run_load_store_global<float, cutlass::Shape<1, 8, 128>, 128>(128, 8);
 }
+
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(TileIterator, tile_128x8_rake) {
+    run_load_store_global<float, cutlass::Shape<1, 8, 128>, 32>(128, 8);
+}
 
-  static int const M = 128;
-  static int const N = 1;
-  static int const K = 8;
+////////////////////////////////////////////////////////////////////////////////////////////////////
 
-  static int const kThreads = 32;
+TEST(TileIterator, tile_127x8_contiguous) {
+    run_load_store_global<float, cutlass::Shape<1, 8, 128>, 128>(127, 8);
+}
 
-  typedef cutlass::Shape<K, N, M> ThreadBlockTile;
+////////////////////////////////////////////////////////////////////////////////////////////////////
 
-  typedef cutlass::TileTraitsStandard<cutlass::Shape<N, K, M>, kThreads> Traits;
+TEST(TileIterator, tile_129x8_contiguous) {
+    run_load_store_global<float, cutlass::Shape<1, 8, 128>, 128>(129, 8);
+}
 
-  cutlass::HostTensor<float> input;
-  cutlass::HostTensor<float> output;
+////////////////////////////////////////////////////////////////////////////////////////////////////
 
-  input.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-      cutlass::MatrixLayout::kColumnMajor);
+TEST(TileIterator, tile_112x8_contiguous) {
+    run_load_store_global<float, cutlass::Shape<1, 8, 128>, 128>(112, 8);
+}
 
-  output.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-      cutlass::MatrixLayout::kColumnMajor);
+////////////////////////////////////////////////////////////////////////////////////////////////////
 
-  input.fill_linear(cutlass::make_Coord(1, 1, ThreadBlockTile::kW, 1));
-  output.fill(0);
+TEST(TileIterator, tile_67x8_contiguous) {
+    run_load_store_global<float, cutlass::Shape<1, 8, 128>, 128>(67, 8);
+}
 
-  test::load_store_global< Traits, float ><<<
-    dim3(1,1,1),
-    dim3(kThreads, 1)
-  >>>(
-    input.device_data(),
-    output.device_data()
-  );
+////////////////////////////////////////////////////////////////////////////////////////////////////
 
-  cudaError_t result = cudaDeviceSynchronize();
-  ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                 << "\n";
+TEST(TileIterator, tile_113x7_contiguous) {
+    run_load_store_global<float, cutlass::Shape<1, 8, 128>, 128>(113, 7);
+}
 
-  output.sync_host();
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TileIterator, tile_113x10_contiguous) {
+    run_load_store_global<float, cutlass::Shape<1, 8, 128>, 128>(113, 10);
+}
 
-  EXPECT_TRUE(input.bit_equals(output));
+////////////////////////////////////////////////////////////////////////////////////////////////////
 
+TEST(TileIterator, tile_131x7_contiguous) {
+    run_load_store_global<float, cutlass::Shape<1, 8, 128>, 128>(131, 7);
 }
+
 ////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TileIterator, tile_131x9_contiguous) {
+    run_load_store_global<float, cutlass::Shape<1, 8, 128>, 128>(131, 9);
 }
 
+////////////////////////////////////////////////////////////////////////////////////////////////////
+// Half
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TileIterator, tile_128x8_contiguous_f16) {
+    run_load_store_global<cutlass::half_t, cutlass::Shape<1, 8, 128>, 128>(128, 8);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+// Double
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TileIterator, tile_128x8_contiguous_f64) {
+    run_load_store_global<double, cutlass::Shape<1, 8, 128>, 128>(128, 8);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+// Int
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TileIterator, tile_128x8_contiguous_s32) {
+    run_load_store_global<int, cutlass::Shape<1, 8, 128>, 128>(128, 8);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+} // namespace test
diff --git a/tools/test/unit/core/zip_tile_iterator.cu b/tools/test/unit/core/zip_tile_iterator.cu
new file mode 100644
index 0000000000..2117e012d5
--- /dev/null
+++ b/tools/test/unit/core/zip_tile_iterator.cu
@@ -0,0 +1,173 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+#include "tools/util/host_matrix.h"
+#include "tools/util/tensor_view_io.h"
+#include "cutlass/shape.h"
+#include "cutlass/predicate_vector.h"
+#include "cutlass/tile_iterator.h"
+#include "cutlass/tile_traits_standard.h"
+
+#include "cutlass/zip_tile_iterator.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace test {
+
+/// Kernel which can use tile iterators and zip iterators
+template <typename LoadIterator, typename StoreIterator>
+__global__ void zip_iterator_kernel(
+  typename LoadIterator::Params load_params,
+  typename StoreIterator::Params store_params) {
+
+  LoadIterator load_iterator(load_params);
+  StoreIterator store_iterator(store_params);
+
+  typename LoadIterator::Fragment fragment;
+
+  load_iterator.load_post_increment(fragment);
+  store_iterator.store_post_increment(fragment);
+}
+
+} // namespace test
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Test framework
+template <typename Scalar, typename Shape>
+struct ZipIteratorTest {
+
+  //
+  // Type definitions
+  //
+
+  static int const kThreadCount = 128;
+
+  typedef cutlass::TileTraitsStandard<Shape, kThreadCount> TileTraits;
+
+  typedef cutlass::TileLoadIterator<TileTraits, Scalar> ScalarLoadIterator;
+  typedef cutlass::TileStoreIterator<TileTraits, Scalar> ScalarStoreIterator;
+
+  typedef cutlass::ZipTileIterator<ScalarLoadIterator, ScalarLoadIterator> ZipLoadIterator;
+  typedef cutlass::ZipTileIterator<ScalarStoreIterator, ScalarStoreIterator> ZipStoreIterator;
+
+  //
+  // Data members
+  //
+
+  cutlass::HostMatrix<Scalar> tensor_source_real;
+  cutlass::HostMatrix<Scalar> tensor_source_imag;
+
+  cutlass::HostMatrix<Scalar> tensor_dest_real;
+  cutlass::HostMatrix<Scalar> tensor_dest_imag;
+
+  //
+  // Methods
+  //
+
+  /// Ctor
+  ZipIteratorTest() {
+
+    tensor_source_real.resize(cutlass::make_Coord(Shape::kH, Shape::kW), cutlass::MatrixLayout::kRowMajor);
+    tensor_source_imag.resize(cutlass::make_Coord(Shape::kH, Shape::kW), cutlass::MatrixLayout::kRowMajor);
+    tensor_dest_real.resize(cutlass::make_Coord(Shape::kH, Shape::kW), cutlass::MatrixLayout::kRowMajor);
+    tensor_dest_imag.resize(cutlass::make_Coord(Shape::kH, Shape::kW), cutlass::MatrixLayout::kRowMajor);
+  }
+
+  /// Runs test
+  void run() {
+
+    tensor_source_real.fill_sequential();
+    tensor_source_imag.fill_sequential();
+
+    tensor_dest_real.fill(0);
+    tensor_dest_imag.fill(0);
+
+    tensor_source_real.sync_device();
+    tensor_source_imag.sync_device();
+    tensor_dest_real.sync_device();
+    tensor_dest_imag.sync_device();
+
+
+    typename ZipLoadIterator::Params load_params;
+    typename ZipStoreIterator::Params store_params;
+
+    load_params.first.initialize(
+      tensor_source_real.device_data(),
+      0,
+      tensor_source_real.leading_dim(),
+      1
+    );
+
+    load_params.second.initialize(
+      tensor_source_imag.device_data(),
+      0,
+      tensor_source_real.leading_dim(),
+      1
+    );
+
+    store_params.first.initialize(
+      tensor_dest_real.device_data(),
+      0,
+      tensor_source_real.leading_dim(),
+      1
+    );
+
+    store_params.second.initialize(
+      tensor_dest_imag.device_data(),
+      0,
+      tensor_source_real.leading_dim(),
+      1
+    );
+
+    /// Launch kernel
+    test::zip_iterator_kernel<ZipLoadIterator, ZipStoreIterator><<<
+      dim3(1,1),
+      dim3(kThreadCount, 1)
+    >>>(
+      load_params,
+      store_params
+    );
+
+    cudaError_t result = cudaGetLastError();
+    EXPECT_EQ(result, cudaSuccess) << "Error on kernel launch: " << cudaGetErrorString(result);
+
+    tensor_dest_real.sync_host();
+    tensor_dest_imag.sync_host();
+
+    // Verify equivalence
+    EXPECT_TRUE(tensor_dest_real.bit_equals(tensor_source_real));
+    EXPECT_TRUE(tensor_dest_imag.bit_equals(tensor_source_imag));
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(ZipTileIterator, tile_128x8) {
+  ZipIteratorTest<int, cutlass::Shape<1, 8, 128> >().run();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
diff --git a/tools/test/unit/cutlass_unit_test.cpp b/tools/test/unit/cutlass_unit_test.cpp
index ec78c8a657..be9bd15bda 100644
--- a/tools/test/unit/cutlass_unit_test.cpp
+++ b/tools/test/unit/cutlass_unit_test.cpp
@@ -29,19 +29,65 @@
 #include <cuda_runtime_api.h>
 #include <gtest/gtest.h>
 
+/// Sets flags for Unit test
 void set_gtest_flag() {
   // Default flags can be overwritten by --gtest_filter from commandline
+  cudaError_t err;
+
+  int cudaDeviceId;
+  err = cudaGetDevice(&cudaDeviceId);
+  if (cudaSuccess != err) {
+    std::cerr << "*** Error: Could not detect active GPU device ID"
+              << " [" << cudaGetErrorString(err) << "]" << std::endl;
+    exit(1);
+  }
+
   cudaDeviceProp deviceProperties;
-  cudaGetDeviceProperties(&deviceProperties, 0);
+  err = cudaGetDeviceProperties(&deviceProperties, cudaDeviceId);
+  if (cudaSuccess != err) {
+    std::cerr << "*** Error: Could not get device properties for GPU " << cudaDeviceId << " ["
+              << cudaGetErrorString(err) << "]" << std::endl;
+    exit(1);
+  }
 
   int deviceMajorMinor = deviceProperties.major * 10 + deviceProperties.minor;
 
-  if (deviceMajorMinor < 53)
-    ::testing::GTEST_FLAG(filter) = "-*Igemm*:*Hgemm*:*mma*";
-  else if (deviceMajorMinor < 61)
-    ::testing::GTEST_FLAG(filter) = "-*Igemm*:*mma*";
-  else if (deviceMajorMinor < 70)
-    ::testing::GTEST_FLAG(filter) = "-*mma*";
+  // Defines text filters for each GEMM kernel based on minimum supported compute capability
+  struct {
+
+    /// Unit test filter string
+    char const *filter;
+
+    /// Minimum compute capability for the kernels in the named test
+    int compute_capability;
+
+    /// If true, the tests are enabled strictly for one compute capability
+    bool experimental;
+  } test_filters[] = {
+    { "Sgemm*",                    50, false },
+    { "Dgemm*",                    60, false },
+    { "Fp16_sgemm*",               60, false },
+    { "Hgemm*",                    60, false },
+    { "Igemm*",                    61, false },
+    { "WmmaGemm*",                 70, false },
+    { "WmmaInt8*",                 72, false },
+    { "WmmaInt4*",                 75, true  },
+    { "WmmaBinary*",               75, true  },
+    { 0, 0, false }
+  };
+
+  // Set negative test filters
+  std::stringstream ss;
+  ss << "-";
+  for (int i = 0, j = 0; test_filters[i].filter; ++i) {
+    if (deviceMajorMinor < test_filters[i].compute_capability ||
+        (test_filters[i].experimental && deviceMajorMinor != test_filters[i].compute_capability)) {
+
+      ss << (j++ ? ":" : "") << test_filters[i].filter;
+    }
+  }
+
+  ::testing::GTEST_FLAG(filter) = ss.str();
 }
 
 int main(int argc, char* arg[]) {
diff --git a/tools/test/unit/cutlass_unit_test.h b/tools/test/unit/cutlass_unit_test.h
index 0d559ca5cf..2ffced5828 100644
--- a/tools/test/unit/cutlass_unit_test.h
+++ b/tools/test/unit/cutlass_unit_test.h
@@ -28,3 +28,4 @@
 #pragma diag_suppress boolean_controlling_expr_is_constant
 #include <gtest/gtest.h>
 #pragma diag_warning boolean_controlling_expr_is_constant
+#pragma warning( disable : 4503)
diff --git a/tools/test/unit/gemm/batched_strided_dgemm_128x128x8.cu b/tools/test/unit/gemm/batched_strided_dgemm_128x128x8.cu
new file mode 100644
index 0000000000..8b0bc16358
--- /dev/null
+++ b/tools/test/unit/gemm/batched_strided_dgemm_128x128x8.cu
@@ -0,0 +1,103 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/dgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(dgemm_strided_batched_128x128x8, dgemm_256x384x64x3_nn) {
+  typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                     cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+      DgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<DgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(dgemm_strided_batched_128x128x8, sgemm_128x384x192x2_nn) {
+  typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    DgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<DgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(dgemm_strided_batched_128x128x8, dgemm_256x384x64x3_nt) {
+  typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    DgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<DgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(dgemm_strided_batched_128x128x8, sgemm_128x384x192x2_nt) {
+  typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    DgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<DgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(dgemm_strided_batched_128x128x8, dgemm_256x384x64x3_tn) {
+  typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    DgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<DgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(dgemm_strided_batched_128x128x8, sgemm_128x384x192x2_tn) {
+  typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    DgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<DgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(dgemm_strided_batched_128x128x8, dgemm_256x384x64x3_tt) {
+  typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    DgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<DgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
diff --git a/tools/test/unit/gemm/batched_strided_hgemm_128x128x8.cu b/tools/test/unit/gemm/batched_strided_hgemm_128x128x8.cu
new file mode 100644
index 0000000000..4738d29f92
--- /dev/null
+++ b/tools/test/unit/gemm/batched_strided_hgemm_128x128x8.cu
@@ -0,0 +1,112 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/hgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Hgemm_strided_batched_128x128x8, hgemm_256x384x64x3_nn) {
+  typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                     cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+      HgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<HgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Hgemm_strided_batched_128x128x8, hgemm_128x384x192x2_nn) {
+  typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    HgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<HgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Hgemm_strided_batched_128x128x8, hgemm_256x384x64x3_nt) {
+  typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    HgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<HgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Hgemm_strided_batched_128x128x8, hgemm_128x384x192x2_nt) {
+  typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    HgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<HgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Hgemm_strided_batched_128x128x8, hgemm_256x384x64x3_tn) {
+  typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    HgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<HgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Hgemm_strided_batched_128x128x8, hgemm_128x384x192x2_tn) {
+  typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    HgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<HgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Hgemm_strided_batched_128x128x8, hgemm_256x384x64x3_tt) {
+  typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    HgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<HgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Hgemm_strided_batched_128x128x8, hgemm_128x384x192x2_tt) {
+  typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    HgemmTraits;
+  //think about using run_gemm directly
+  run_batched_strided_gemm<HgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/test/unit/gemm/batched_strided_sgemm_128x128x8.cu b/tools/test/unit/gemm/batched_strided_sgemm_128x128x8.cu
new file mode 100644
index 0000000000..fcee155f77
--- /dev/null
+++ b/tools/test/unit/gemm/batched_strided_sgemm_128x128x8.cu
@@ -0,0 +1,126 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_strided_batched_128x128x8, sgemm_256x384x64x3_nn) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                     cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+      SgemmTraits;
+  run_batched_strided_gemm<SgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_strided_batched_128x128x8, sgemm_128x384x192x2_nn) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  run_batched_strided_gemm<SgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_strided_batched_128x128x8, sgemm_127x384x192x2_nn) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  run_batched_strided_gemm<SgemmTraits>(127/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_strided_batched_128x128x8, sgemm_127x388x190x2_nn) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  run_batched_strided_gemm<SgemmTraits>(127/*m*/, 388/*n*/, 190/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_strided_batched_128x128x8, sgemm_256x384x64x3_nt) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  run_batched_strided_gemm<SgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_strided_batched_128x128x8, sgemm_128x384x192x2_nt) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  run_batched_strided_gemm<SgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_strided_batched_128x128x8, sgemm_256x384x64x3_tn) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  run_batched_strided_gemm<SgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_strided_batched_128x128x8, sgemm_128x384x192x2_tn) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  run_batched_strided_gemm<SgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_strided_batched_128x128x8, sgemm_256x384x64x3_tt) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  run_batched_strided_gemm<SgemmTraits>(256/*m*/, 384/*n*/, 64/*k*/, 3 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_strided_batched_128x128x8, sgemm_128x384x192x2_tt) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  run_batched_strided_gemm<SgemmTraits>(128/*m*/, 384/*n*/, 192/*k*/, 2 /*batch_size*/);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
diff --git a/tools/test/unit/gemm/binary_gemm.h b/tools/test/unit/gemm/binary_gemm.h
new file mode 100644
index 0000000000..927413838c
--- /dev/null
+++ b/tools/test/unit/gemm/binary_gemm.h
@@ -0,0 +1,77 @@
+/***************************************************************************************************
+* Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
+*
+* Redistribution and use in source and binary forms, with or without modification, are permitted
+* provided that the following conditions are met:
+*     * Redistributions of source code must retain the above copyright notice, this list of
+*       conditions and the following disclaimer.
+*     * Redistributions in binary form must reproduce the above copyright notice, this list of
+*       conditions and the following disclaimer in the documentation and/or other materials
+*       provided with the distribution.
+*     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+*       to endorse or promote products derived from this software without specific prior written
+*       permission.
+*
+* THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+* IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+* FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+* FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+* BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+* OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+* STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+* OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*
+**************************************************************************************************/
+
+#include "cutlass/cutlass.h"
+
+template <typename GemmTraits_>
+static void run_binary_gemm(int m, int n, int k, int alpha = 1, int beta = 1) {
+  typedef cutlass::gemm::Gemm<GemmTraits_> Gemm;
+  typename Gemm::Params params;
+
+  test::GemmTestbed<cutlass::Vector<cutlass::bin1_t, 32>,  // AType
+                    cutlass::Vector<cutlass::bin1_t, 32>,  // BType
+                    int32_t,                               // CType
+                    int32_t,                               // Accumulator
+                    int                                    // Scalar
+                    >
+      testbed(m,
+              n,
+              k / 32,
+              test::convert(GemmTraits_::kLayoutA),
+              test::convert(GemmTraits_::kLayoutB),
+              alpha,
+              beta);
+
+  // Initializes the input vectors for computation
+  testbed.initialize_binary();
+
+  // Compute the reference result on the host (CPU)
+  testbed.compute_host();
+
+  params.initialize(testbed.M(),
+                    testbed.N(),
+                    testbed.K() * 32,
+                    testbed.alpha,
+                    testbed.ptr_A(),
+                    testbed.lda(),
+                    testbed.ptr_B(),
+                    testbed.ldb(),
+                    testbed.beta,
+                    testbed.ptr_C_initial(),
+                    testbed.ldc(),
+                    testbed.ptr_computed(),
+                    testbed.ldc());
+
+  Gemm::launch(params);
+
+  cudaError_t result = cudaDeviceSynchronize();
+  ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
+                                 << "\n";
+
+  testbed.computed.sync_host();
+
+  // Check the results
+  ASSERT_TRUE(testbed.computed.bit_equals(testbed.ref_host));
+}
diff --git a/tools/test/unit/gemm/dgemm.cu b/tools/test/unit/gemm/dgemm.cu
index be78450b91..ebfeba9205 100644
--- a/tools/test/unit/gemm/dgemm.cu
+++ b/tools/test/unit/gemm/dgemm.cu
@@ -24,11 +24,11 @@
  **************************************************************************************************/
 #include <cublas_v2.h>
 #include <cstring>
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/dgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/dgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
@@ -40,6 +40,7 @@ TEST(Dgemm_64x32x8, dgemm_64x32x8_nt) {
   run_gemm<GemmTraits>(64, 32, 8);
 }
 
+
 TEST(Dgemm_64x32x8, dgemm_256x128x64_nt) {
 
   typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kColumnMajor,
@@ -569,5 +570,3 @@ TEST(Dgemm_128x32x16, dgemm_256x64x64_tt) {
 }
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
-
-
diff --git a/tools/test/unit/gemm/epilogue_functor.cu b/tools/test/unit/gemm/epilogue_functor.cu
new file mode 100644
index 0000000000..cc03735164
--- /dev/null
+++ b/tools/test/unit/gemm/epilogue_functor.cu
@@ -0,0 +1,121 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/linear_scaling_device_ptr.h"
+#include "cutlass/gemm/sgemm_traits.h"
+
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+// This example defines an SGEMM with a linear scaling functor that supports optionally passing
+// alpha and beta via device-side pointers as in cuBLAS.
+TEST(Sgemm_epilogue_functor, device_ptr_mode_sgemm_1024x512x128_nt) {
+
+  typedef cutlass::gemm::SgemmTraits<
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<8, 128, 128>,
+    cutlass::gemm::LinearScalingDevicePtr<float>
+  >
+    SgemmTraits;
+
+  // Define a GEMM problem size
+  int const m = 1025;
+  int const n = 512;
+  int const k = 128;
+
+  // Define scalars
+  float alpha_host = 3;
+  float beta_host = 2;
+
+  // Define a device-backed tensor to contain the scalars
+  cutlass::HostTensor<float, 1> device_scalars(2);
+
+  // Copy scalar values to device memory for device-ptr mode
+  device_scalars.at(0) = alpha_host;
+  device_scalars.at(1) = beta_host;
+  device_scalars.sync_device();
+
+  // Construct a GemmTestbed instance
+  test::GemmTestbed<
+    float,  // AType
+    float,  // BType
+    float,  // CType
+    float,  // Accumulator
+    float   // Scalar
+    >
+    testbed(m,
+            n,
+            k,
+            test::convert(SgemmTraits::kLayoutA),
+            test::convert(SgemmTraits::kLayoutB),
+            alpha_host,
+            beta_host);
+
+  testbed.initialize();
+
+  //
+  // Construct a CUTLASS GEMM and initialize parameters
+  //
+  typedef typename SgemmTraits::KernelClass Gemm;
+  typename Gemm::Params params;
+
+  params.initialize(testbed.M(),
+                    testbed.N(),
+                    testbed.K(),
+                    0,                // alpha ignored
+                    testbed.ptr_A(),
+                    testbed.lda(),
+                    testbed.ptr_B(),
+                    testbed.ldb(),
+                    0,                // beta ignored
+                    testbed.ptr_C_initial(),
+                    testbed.ldc(),
+                    testbed.ptr_computed(),
+                    testbed.ldc());
+
+  // Explicitly call the epilogue functor's initialize method to pass additional arguments
+  params.epilogue.functor.initialize(
+    device_scalars.device_data() + 0,   // pointer to alpha in device memory
+    device_scalars.device_data() + 1);  // pointer to beta in device memory
+
+  // Launch the CUTLASS SGEMM kernel
+  Gemm::launch(params);
+
+  // Report any errors
+  cudaError_t result = cudaDeviceSynchronize();
+  ASSERT_EQ(result, cudaSuccess)
+    << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
+    << "\n";
+
+  // Verify result
+  ASSERT_TRUE(testbed.verify_with_cublas());
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/test/unit/gemm/fp16_sgemm_fp16_128x128x16.cu b/tools/test/unit/gemm/fp16_sgemm_fp16_128x128x16.cu
new file mode 100644
index 0000000000..41ed3c8558
--- /dev/null
+++ b/tools/test/unit/gemm/fp16_sgemm_fp16_128x128x16.cu
@@ -0,0 +1,321 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/fp16_sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp16_fp16_128x128x16, fp16_sgemm_fp16_128x128x16_nn) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+   alpha and beta are both fp16*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                     cutlass::MatrixLayout::kColumnMajor, 
+                                     cutlass::Shape<16, 128, 128>,
+                                     half, /*A type*/
+                                     half, /*B type*/
+                                     half, /*C type*/
+                                     half, /*D type*/
+                                     half  /*alpha, beta type*/
+  >
+      SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp16_fp16_128x128x16, fp16_sgemm_fp16_128x128x16_nt) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp16*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    half  /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp16_fp16_128x128x16, fp16_sgemm_fp16_128x128x16_tn) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp16*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    half  /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp16_fp16_128x128x16, fp16_sgemm_fp16_128x128x16_tt) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp16*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    half  /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp16_fp16_128x128x16, fp16_sgemm_fp16_128x112x17_nn) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp16*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    half  /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp16_fp16_128x128x16, fp16_sgemm_fp16_128x112x17_nt) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp16*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    half  /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp16_fp16_128x128x16, fp16_sgemm_fp16_128x112x17_tn) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp16*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    half  /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp16_fp16_128x128x16, fp16_sgemm_fp16_128x112x17_tt) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp16*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    half  /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//alpha and beta are both fp32
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp16_128x128x16, fp16_sgemm_fp16_128x128x16_nn) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp16_128x128x16, fp16_sgemm_fp16_128x128x16_nt) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp16_128x128x16, fp16_sgemm_fp16_128x128x16_tn) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp16_128x128x16, fp16_sgemm_fp16_128x128x16_tt) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp16_128x128x16, fp16_sgemm_fp16_128x112x17_nn) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp16_128x128x16, fp16_sgemm_fp16_128x112x17_nt) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp16_128x128x16, fp16_sgemm_fp16_128x112x17_tn) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp16_128x128x16, fp16_sgemm_fp16_128x112x17_tt) {
+  /*A, B, C, D are half typed, accumulator is always float for sgemm
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    half, /*C type*/
+    half, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
diff --git a/tools/test/unit/gemm/fp16_sgemm_fp32_128x128x16.cu b/tools/test/unit/gemm/fp16_sgemm_fp32_128x128x16.cu
new file mode 100644
index 0000000000..d45ecb7bd4
--- /dev/null
+++ b/tools/test/unit/gemm/fp16_sgemm_fp32_128x128x16.cu
@@ -0,0 +1,174 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/fp16_sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+
+
+
+TEST(Fp16_sgemm_alphaFp32_fp32_128x128x16, fp16_sgemm_fp32_128x128x16_nn) {
+  /*A, B are half typed, accumulator is always float for sgemm, C, D are float typed
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    float, /*C type*/
+    float, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp32_128x128x16, fp16_sgemm_fp32_128x128x16_nt) {
+  /*A, B are half typed, accumulator is always float for sgemm, C, D are float typed
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    float, /*C type*/
+    float, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp32_128x128x16, fp16_sgemm_fp32_128x128x16_tn) {
+  /*A, B are half typed, accumulator is always float for sgemm, C, D are float typed
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    float, /*C type*/
+    float, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp32_128x128x16, fp16_sgemm_fp32_128x128x16_tt) {
+  /*A, B are half typed, accumulator is always float for sgemm, C, D are float typed
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    float, /*C type*/
+    float, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 128, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp32_128x128x16, fp16_sgemm_fp32_128x112x17_nn) {
+  /*A, B are half typed, accumulator is always float for sgemm, C, D are float typed
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    float, /*C type*/
+    float, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp32_128x128x16, fp16_sgemm_fp32_128x112x17_nt) {
+  /*A, B are half typed, accumulator is always float for sgemm, C, D are float typed
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    float, /*C type*/
+    float, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp32_128x128x16, fp16_sgemm_fp32_128x112x17_tn) {
+  /*A, B are half typed, accumulator is always float for sgemm, C, D are float typed
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    float, /*C type*/
+    float, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Fp16_sgemm_alphaFp32_fp32_128x128x16, fp16_sgemm_fp32_128x112x17_tt) {
+  /*A, B are half typed, accumulator is always float for sgemm, C, D are float typed
+  alpha and beta are both fp32*/
+  typedef cutlass::gemm::Fp16SgemmSgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<16, 128, 128>,
+    half, /*A type*/
+    half, /*B type*/
+    float, /*C type*/
+    float, /*D type*/
+    float /*alpha, beta type*/
+  >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(128, 112, 17);
+}
diff --git a/tools/test/unit/gemm/gemm_nvrtc.cu b/tools/test/unit/gemm/gemm_nvrtc.cu
index 0607b2173a..89dfe1a61c 100644
--- a/tools/test/unit/gemm/gemm_nvrtc.cu
+++ b/tools/test/unit/gemm/gemm_nvrtc.cu
@@ -22,13 +22,13 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/dgemm_traits.h>
-#include <cutlass/gemm/igemm_traits.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm_nvrtc.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/dgemm_traits.h"
+#include "cutlass/gemm/igemm_traits.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/gemm_nvrtc.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/gemm_nvrtc.h b/tools/test/unit/gemm/gemm_nvrtc.h
index a8710313fc..fae1e7d6ff 100644
--- a/tools/test/unit/gemm/gemm_nvrtc.h
+++ b/tools/test/unit/gemm/gemm_nvrtc.h
@@ -25,10 +25,10 @@
 
 #define NVRTC_GET_TYPE_NAME 1
 
-#include <cutlass/cutlass.h>
+#include "cutlass/cutlass.h"
 
 #include <nvrtc.h>
-#include <tools/nvrtc/cutlass/nvrtc/environment.h>
+#include "tools/nvrtc/cutlass/nvrtc/environment.h"
 #include <string>
 
 static inline bool check_nvrtc_error(nvrtcResult error) {
@@ -76,13 +76,13 @@ static __host__ void run_gemm_nvrtc(
   nvrtcResult result_nvrtc;
   nvrtcProgram program;
   static char const *src =
-      "#include <cutlass/gemm/gemm.h>\n"
-      "#include <cutlass/gemm/sgemm_traits.h>\n"
-      "#include <cutlass/gemm/dgemm_traits.h>\n"
-      "#include <cutlass/gemm/igemm_traits.h>\n"
+      "#include "cutlass/gemm/gemm.h"\n"
+      "#include "cutlass/gemm/sgemm_traits.h"\n"
+      "#include "cutlass/gemm/dgemm_traits.h"\n"
+      "#include "cutlass/gemm/igemm_traits.h"\n"
 #if defined(CUTLASS_NVRTC_HAS_FP16)
-      "#include <cutlass/gemm/hgemm_traits.h>\n"
-      "#include <cutlass/gemm/wmma_gemm_traits.h>\n"
+      "#include "cutlass/gemm/hgemm_traits.h"\n"
+      "#include "cutlass/gemm/wmma_gemm_traits.h"\n"
 #endif
       ;
 
diff --git a/tools/test/unit/gemm/gemm_shared_mem_layouts.cu b/tools/test/unit/gemm/gemm_shared_mem_layouts.cu
deleted file mode 100644
index 6da198df3a..0000000000
--- a/tools/test/unit/gemm/gemm_shared_mem_layouts.cu
+++ /dev/null
@@ -1,621 +0,0 @@
-/***************************************************************************************************
- * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
- *
- * Redistribution and use in source and binary forms, with or without modification, are permitted
- * provided that the following conditions are met:
- *     * Redistributions of source code must retain the above copyright notice, this list of
- *       conditions and the following disclaimer.
- *     * Redistributions in binary form must reproduce the above copyright notice, this list of
- *       conditions and the following disclaimer in the documentation and/or other materials
- *       provided with the distribution.
- *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
- *       to endorse or promote products derived from this software without specific prior written
- *       permission.
- *
- * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
- * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
- * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
- * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
- * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
- * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
- * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
- * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- *
- **************************************************************************************************/
-#include <cutlass_unit_tests.h>
-#include <tools/util/host_tensor.h>
-#include <tools/util/tensor_view_io.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/shape.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <cutlass/gemm/dgemm_traits.h>
-#include <cutlass/gemm/hgemm_traits.h>
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-namespace test {
-
-    // M/N/K struct.
-    struct GemmDesc { 
-      int m, n, k; 
-      inline __host__ __device__ GemmDesc(int m_, int n_, int k_) : m(m_), n(n_), k(k_) {} 
-    };
-
- /// Simple test to load from global memory and store to shared memory
-
-    // Loading from global memory and storing to shared memory for A
-    template <typename Traits>
-    __global__ void gemm_load_global_store_shared_a(
-        typename Traits::GlobalLoadStreamA::Scalar *output,
-        typename Traits::GlobalLoadStreamA::Scalar const *input,
-        int M,
-        int N,
-        int K,
-        int ldm,
-        int skew) {
-
-        //Create shared memory.
-        __shared__ typename Traits::SharedStorage shared_storage;
-
-        // Create those iterators.
-        typedef typename Traits::GlobalLoadStreamA GlobalLoadStreamA;
-
-        typename GlobalLoadStreamA::Params global_load_params;
-        GemmDesc desc(M, N, K);
-        global_load_params.initialize(desc, input, ldm);
-
-        GlobalLoadStreamA stream_a(global_load_params, shared_storage.main_loop.stream_a.global, M, N, K, cutlass::make_Coord(0, 0, 0));
-        stream_a.copy();
-        stream_a.commit();
-
-        // store barrier
-        __syncthreads();
-
-        // one thread writes everything out
-        if (threadIdx.x == 0) {
-            for (int i = 0; i < (M+skew)*K; ++i) {
-                output[i] = shared_storage.main_loop.stream_a.shared.scalars[i];
-            }
-        }
-
-    }
-
-    // Loading from global memory and storing to shared memory for B
-    template <typename Traits>
-    __global__ void gemm_load_global_store_shared_b(
-        typename Traits::GlobalLoadStreamB::Scalar *output,
-        typename Traits::GlobalLoadStreamB::Scalar const *input,
-        int M,
-        int N,
-        int K,
-        int ldm,
-        int skew) {
-
-        //Create shared memory.
-        __shared__ typename Traits::SharedStorage shared_storage;
-
-        // Create those iterators.
-        typedef typename Traits::GlobalLoadStreamB GlobalLoadStreamB;
-        typename GlobalLoadStreamB::Params global_load_params;
-        GemmDesc desc(M, N, K);
-        global_load_params.initialize(desc, input, ldm);
-
-        GlobalLoadStreamB stream_b(global_load_params, shared_storage.main_loop.stream_b.global, M, N, K, cutlass::make_Coord(0, 0, 0));
-        stream_b.copy();
-        stream_b.commit();
-
-        // store barrier
-        __syncthreads();
-
-        // one thread writes everything out
-        if (threadIdx.x == 0) {
-            for (int i = 0; i < (N+skew)*K; ++i) {
-                output[i] = shared_storage.main_loop.stream_b.shared.scalars[i];
-            }
-        }
-
-    }
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-TEST(GemmSharedMemLayout, A_float_contiguous) {
-
-    static int const M = 64;
-    static int const N = 64;
-    static int const K = 8;
-
-    typedef cutlass::Shape<K, N, M> ThreadBlockTile;
-
-    typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor, cutlass::MatrixLayout::kRowMajor, ThreadBlockTile >
-            SgemmTraits;
-
-    
-    cutlass::HostTensor<float> input;
-    cutlass::HostTensor<float> output;
-    int skew = 0;
-
-    input.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-            cutlass::MatrixLayout::kColumnMajor);
-    output.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-            cutlass::MatrixLayout::kColumnMajor);
-
-
-    input.fill_linear(cutlass::make_Coord(1, 1, ThreadBlockTile::kW, 1));
-
-    output.fill(0);
-
-    test::gemm_load_global_store_shared_a< SgemmTraits ><<<
-        dim3(1,1,1),
-        dim3(SgemmTraits::kThreads, 1)
-    >>>(
-        output.device_data(),
-        input.device_data(),
-        M,
-        N,
-        K,
-        M,
-        skew
-    );
-
-    cudaError_t result = cudaDeviceSynchronize();
-    ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                                 << "\n";
-
-
-    output.sync_host();
-
-    EXPECT_TRUE(input.bit_equals(output));
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-TEST(GemmSharedMemLayout, A_float_crosswise) {
-
-    static int const M = 64;
-    static int const N = 64;
-    static int const K = 8;
-
-    typedef cutlass::Shape<K, N, M> ThreadBlockTile;
-
-    typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor, cutlass::MatrixLayout::kRowMajor, ThreadBlockTile >
-            SgemmTraits;
-
-    
-    cutlass::HostTensor<float> input;
-    cutlass::HostTensor<float> output;
-    int skew = 4;
-
-    input.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-            cutlass::MatrixLayout::kRowMajor);
-    output.resize_matrix(ThreadBlockTile::kW + skew, ThreadBlockTile::kD,
-            cutlass::MatrixLayout::kColumnMajor);
-
-
-    input.fill_linear(cutlass::make_Coord(1, ThreadBlockTile::kD, 1, 1));
-
-    output.fill(0);
-
-    test::gemm_load_global_store_shared_a< SgemmTraits ><<<
-        dim3(1,1,1),
-        dim3(SgemmTraits::kThreads, 1)
-    >>>(
-        output.device_data(),
-        input.device_data(),
-        M,
-        N,
-        K,
-        K,
-        skew
-    );
-
-    cudaError_t result = cudaDeviceSynchronize();
-    ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                                 << "\n";
-
-    output.sync_host();
-
-    EXPECT_TRUE(input.bit_equals(output));
-
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-TEST(GemmSharedMemLayout, B_float_contiguous) {
-
-    static int const M = 64;
-    static int const N = 64;
-    static int const K = 8;
-
-    typedef cutlass::Shape<K, N, M> ThreadBlockTile;
-
-    typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor, cutlass::MatrixLayout::kRowMajor, ThreadBlockTile >
-            SgemmTraits;
-
-    
-    cutlass::HostTensor<float> input;
-    cutlass::HostTensor<float> output;
-    int skew = 0;
-
-    input.resize_matrix(ThreadBlockTile::kD, ThreadBlockTile::kH,
-            cutlass::MatrixLayout::kRowMajor);
-    output.resize_matrix(ThreadBlockTile::kD, ThreadBlockTile::kH,
-            cutlass::MatrixLayout::kRowMajor);
-
-
-    input.fill_linear(cutlass::make_Coord(1, ThreadBlockTile::kH, 1, 1));
-
-    output.fill(0);
-
-    test::gemm_load_global_store_shared_b< SgemmTraits ><<<
-        dim3(1,1,1),
-        dim3(SgemmTraits::kThreads, 1)
-    >>>(
-        output.device_data(),
-        input.device_data(),
-        M,
-        N,
-        K,
-        N,
-        skew
-    );
-
-    cudaError_t result = cudaDeviceSynchronize();
-    ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                                 << "\n";
-
-
-    output.sync_host();
-
-    EXPECT_TRUE(input.bit_equals(output));
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-TEST(GemmSharedMemLayout, B_float_crosswise) {
-
-    static int const M = 64;
-    static int const N = 64;
-    static int const K = 8;
-
-    typedef cutlass::Shape<K, N, M> ThreadBlockTile;
-
-    typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-            cutlass::MatrixLayout::kColumnMajor, ThreadBlockTile >
-            SgemmTraits;
-
-    
-    cutlass::HostTensor<float> input;
-    cutlass::HostTensor<float> output;
-    int skew = 4;
-
-    input.resize_matrix(ThreadBlockTile::kD, ThreadBlockTile::kH,
-            cutlass::MatrixLayout::kColumnMajor);
-    output.resize_matrix(ThreadBlockTile::kD + skew, ThreadBlockTile::kH,
-            cutlass::MatrixLayout::kRowMajor);
-
-
-    input.fill_linear(cutlass::make_Coord(1, 1, ThreadBlockTile::kD, 1));
-
-    output.fill(0);
-
-    test::gemm_load_global_store_shared_b< SgemmTraits ><<<
-        dim3(1,1,1),
-        dim3(SgemmTraits::kThreads, 1)
-    >>>(
-        output.device_data(),
-        input.device_data(),
-        M,
-        N,
-        K,
-        K,
-        skew
-    );
-
-    cudaError_t result = cudaDeviceSynchronize();
-    ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                                 << "\n";
-
-    output.sync_host();
-
-    EXPECT_TRUE(input.bit_equals(output));
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-TEST(GemmSharedMemLayout, A_double_contiguous) {
-
-    static int const M = 64;
-    static int const N = 64;
-    static int const K = 8;
-
-    typedef cutlass::Shape<K, N, M> ThreadBlockTile;
-
-    typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kColumnMajor, cutlass::MatrixLayout::kRowMajor, ThreadBlockTile >
-            DgemmTraits;
-
-    
-    cutlass::HostTensor<double> input;
-    cutlass::HostTensor<double> output;
-    int skew = 0;
-
-    input.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-            cutlass::MatrixLayout::kColumnMajor);
-    output.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-            cutlass::MatrixLayout::kColumnMajor);
-
-
-    input.fill_linear(cutlass::make_Coord(1, 1, ThreadBlockTile::kW, 1));
-
-    output.fill(0);
-
-    test::gemm_load_global_store_shared_a< DgemmTraits ><<<
-        dim3(1,1,1),
-        dim3(DgemmTraits::kThreads, 1)
-    >>>(
-        output.device_data(),
-        input.device_data(),
-        M,
-        N,
-        K,
-        M,
-        skew
-    );
-
-    cudaError_t result = cudaDeviceSynchronize();
-    ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                                 << "\n";
-
-
-    output.sync_host();
-
-    EXPECT_TRUE(input.bit_equals(output));
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-TEST(GemmSharedMemLayout, A_double_crosswise) {
-
-    static int const M = 64;
-    static int const N = 64;
-    static int const K = 8;
-
-    typedef cutlass::Shape<K, N, M> ThreadBlockTile;
-
-    typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kRowMajor, cutlass::MatrixLayout::kRowMajor, ThreadBlockTile >
-            DgemmTraits;
-
-    
-    cutlass::HostTensor<double> input;
-    cutlass::HostTensor<double> output;
-    int skew = 2;
-
-    input.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-            cutlass::MatrixLayout::kRowMajor);
-    output.resize_matrix(ThreadBlockTile::kW + skew, ThreadBlockTile::kD,
-            cutlass::MatrixLayout::kColumnMajor);
-
-
-    input.fill_linear(cutlass::make_Coord(1, ThreadBlockTile::kD, 1, 1));
-
-    output.fill(0);
-
-    test::gemm_load_global_store_shared_a< DgemmTraits ><<<
-        dim3(1,1,1),
-        dim3(DgemmTraits::kThreads, 1)
-    >>>(
-        output.device_data(),
-        input.device_data(),
-        M,
-        N,
-        K,
-        K,
-        skew
-    );
-
-    cudaError_t result = cudaDeviceSynchronize();
-    ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                                 << "\n";
-
-    output.sync_host();
-
-    EXPECT_TRUE(input.bit_equals(output));
-
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-TEST(GemmSharedMemLayout, B_double_contiguous) {
-
-    static int const M = 64;
-    static int const N = 64;
-    static int const K = 8;
-
-    typedef cutlass::Shape<K, N, M> ThreadBlockTile;
-
-    typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kColumnMajor, cutlass::MatrixLayout::kRowMajor, ThreadBlockTile >
-            DgemmTraits;
-
-    
-    cutlass::HostTensor<double> input;
-    cutlass::HostTensor<double> output;
-    int skew = 0;
-
-    input.resize_matrix(ThreadBlockTile::kD, ThreadBlockTile::kH,
-            cutlass::MatrixLayout::kRowMajor);
-    output.resize_matrix(ThreadBlockTile::kD, ThreadBlockTile::kH,
-            cutlass::MatrixLayout::kRowMajor);
-
-
-    input.fill_linear(cutlass::make_Coord(1, ThreadBlockTile::kH, 1, 1));
-
-    output.fill(0);
-
-    test::gemm_load_global_store_shared_b< DgemmTraits ><<<
-        dim3(1,1,1),
-        dim3(DgemmTraits::kThreads, 1)
-    >>>(
-        output.device_data(),
-        input.device_data(),
-        M,
-        N,
-        K,
-        N,
-        skew
-    );
-
-    cudaError_t result = cudaDeviceSynchronize();
-    ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                                 << "\n";
-
-
-    output.sync_host();
-
-    EXPECT_TRUE(input.bit_equals(output));
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-TEST(GemmSharedMemLayout, B_double_crosswise) {
-
-    static int const M = 64;
-    static int const N = 64;
-    static int const K = 8;
-
-    typedef cutlass::Shape<K, N, M> ThreadBlockTile;
-
-    typedef cutlass::gemm::DgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-            cutlass::MatrixLayout::kColumnMajor, ThreadBlockTile >
-            DgemmTraits;
-
-    
-    cutlass::HostTensor<double> input;
-    cutlass::HostTensor<double> output;
-    int skew = 2;
-
-    input.resize_matrix(ThreadBlockTile::kD, ThreadBlockTile::kH,
-            cutlass::MatrixLayout::kColumnMajor);
-    output.resize_matrix(ThreadBlockTile::kD + skew, ThreadBlockTile::kH,
-            cutlass::MatrixLayout::kRowMajor);
-
-
-    input.fill_linear(cutlass::make_Coord(1, 1, ThreadBlockTile::kD, 1));
-
-    output.fill(0);
-
-    test::gemm_load_global_store_shared_b< DgemmTraits ><<<
-        dim3(1,1,1),
-        dim3(DgemmTraits::kThreads, 1)
-    >>>(
-        output.device_data(),
-        input.device_data(),
-        M,
-        N,
-        K,
-        K,
-        skew
-    );
-
-    cudaError_t result = cudaDeviceSynchronize();
-    ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                                 << "\n";
-
-    output.sync_host();
-
-    EXPECT_TRUE(input.bit_equals(output));
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-TEST(GemmSharedMemLayout, A_half_crosswise) {
-
-    static int const M = 128;
-    static int const N = 128;
-    static int const K = 8;
-
-    typedef cutlass::Shape<K, N, M> ThreadBlockTile;
-
-    typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kRowMajor, cutlass::MatrixLayout::kRowMajor, ThreadBlockTile >
-            HgemmTraits;
-
-    
-    cutlass::HostTensor<cutlass::half_t> input;
-    cutlass::HostTensor<cutlass::half_t> output;
-    int skew = 8;
-
-    input.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD,
-            cutlass::MatrixLayout::kRowMajor);
-    output.resize_matrix(ThreadBlockTile::kW + skew, ThreadBlockTile::kD,
-            cutlass::MatrixLayout::kColumnMajor);
-
-
-    input.fill_linear(cutlass::make_Coord(1, ThreadBlockTile::kD, 1, 1));
-
-    output.fill(0);
-
-    test::gemm_load_global_store_shared_a< HgemmTraits ><<<
-        dim3(1,1,1),
-        dim3(HgemmTraits::kThreads, 1)
-    >>>(
-        output.device_data(),
-        input.device_data(),
-        M,
-        N,
-        K,
-        K,
-        skew
-    );
-
-    cudaError_t result = cudaDeviceSynchronize();
-    ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                                 << "\n";
-
-    output.sync_host();
-    
-    EXPECT_TRUE(input.bit_equals(output));
-
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-TEST(GemmSharedMemLayout, B_half_crosswise) {
-
-    static int const M = 128;
-    static int const N = 128;
-    static int const K = 8;
-
-    typedef cutlass::Shape<K, N, M> ThreadBlockTile;
-
-    typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-            cutlass::MatrixLayout::kColumnMajor, ThreadBlockTile >
-            HgemmTraits;
-
-    
-    cutlass::HostTensor<cutlass::half_t> input;
-    cutlass::HostTensor<cutlass::half_t> output;
-    int skew = 8;
-
-    input.resize_matrix(ThreadBlockTile::kD, ThreadBlockTile::kH,
-            cutlass::MatrixLayout::kColumnMajor);
-    output.resize_matrix(ThreadBlockTile::kD + skew, ThreadBlockTile::kH,
-            cutlass::MatrixLayout::kRowMajor);
-
-
-    input.fill_linear(cutlass::make_Coord(1, 1, ThreadBlockTile::kD, 1));
-
-    output.fill(0);
-
-    test::gemm_load_global_store_shared_b< HgemmTraits ><<<
-        dim3(1,1,1),
-        dim3(HgemmTraits::kThreads, 1)
-    >>>(
-        output.device_data(),
-        input.device_data(),
-        M,
-        N,
-        K,
-        K,
-        skew
-    );
-
-    cudaError_t result = cudaDeviceSynchronize();
-    ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
-                                 << "\n";
-
-    output.sync_host();
-
-    EXPECT_TRUE(input.bit_equals(output));
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-}
-
diff --git a/tools/test/unit/gemm/gemm_testbed.h b/tools/test/unit/gemm/gemm_testbed.h
index 47e90f61c9..e937742ce4 100644
--- a/tools/test/unit/gemm/gemm_testbed.h
+++ b/tools/test/unit/gemm/gemm_testbed.h
@@ -32,30 +32,39 @@
 #include <iomanip>
 #include <sstream>
 #include <string>
+#include <algorithm>
 
 #include <cublas_v2.h>
 
-#include <cutlass/matrix_traits.h>
-#include <cutlass/util/platform.h>
+#include "cutlass/matrix_traits.h"
+#include "cutlass/util/platform.h"
+#include "cutlass/gemm/gemm_coord.h"
 
-#include <tools/util/host_tensor.h>
-#include <tools/util/tensor_view_io.h>
-#include <tools/util/type_traits.h>
+#include "tools/util/host_matrix.h"
+#include "tools/util/host_matrix_view.h"
+#include "tools/util/tensor_view_io.h"
+#include "tools/util/type_traits.h"
 
-namespace cutlass {
+#include "tools/util/reference/host/gemm.h"
+#include "tools/util/reference/host/tensor_elementwise.h"
+
+//////////////////////////////////////////////////////////////////////////////////////////
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
+namespace cutlass {
 
 template <cutlass::GemmOperand::Kind kOperand_,
           cutlass::MatrixLayout::Kind kLayout_,
           typename Scalar_,
           typename WmmaShape_>
 struct WmmaMatrix;
-}
+
+}  // namespace cutlass
+
+//////////////////////////////////////////////////////////////////////////////////////////
 
 namespace test {
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
+//////////////////////////////////////////////////////////////////////////////////////////
 
 template <typename T>
 struct GemmTestbedTraits : public cutlass::TypeTraits<T> {};
@@ -66,14 +75,39 @@ template <cutlass::GemmOperand::Kind kOperand_,
           typename WmmaShape_>
 struct GemmTestbedTraits<cutlass::WmmaMatrix<kOperand_, kLayout_, Scalar_, WmmaShape_> > {
   static cudaDataType_t const cublas_type = cutlass::TypeTraits<Scalar_>::cublas_type;
-  typedef Scalar_ host_type;
-  typedef Scalar_ device_type;
+  typedef typename cutlass::TypeTraits<Scalar_>::host_type host_type;
+  typedef typename cutlass::TypeTraits<Scalar_>::device_type device_type;
   static inline double remove_negative_zero(double x) { return x == -0.0 ? 0.0 : x; }
   static inline double to_print(double x) { return x; }
 };
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
+inline cublasOperation_t convert(cutlass::MatrixLayout::Kind layout) {
+  switch (layout) {
+    case cutlass::MatrixLayout::kRowMajor:
+      return CUBLAS_OP_T;
+    case cutlass::MatrixLayout::kColumnMajor:
+      return CUBLAS_OP_N;
+    default:
+      break;
+  }
+  return CUBLAS_OP_N;
+}
 
+inline cutlass::MatrixLayout::Kind convert(cublasOperation_t transform) {
+  switch (transform) {
+    case CUBLAS_OP_T:
+      return cutlass::MatrixLayout::kRowMajor;
+    case CUBLAS_OP_N:
+      return cutlass::MatrixLayout::kColumnMajor;
+    default:
+      break;
+  }
+  return cutlass::MatrixLayout::kColumnMajor;
+}
+
+//////////////////////////////////////////////////////////////////////////////////////////
+
+/// Testbed for evaluating real-valued GEMMs
 template <typename AType, typename BType, typename CType, typename Accumulator, typename Scalar>
 struct GemmTestbed {
   //
@@ -81,13 +115,13 @@ struct GemmTestbed {
   //
 
   /// Host tensor for operand A
-  typedef cutlass::HostTensor<AType> HostTensorA;
+  typedef cutlass::HostMatrix<AType> HostMatrixA;
 
   /// Host tensor for operand B
-  typedef cutlass::HostTensor<BType> HostTensorB;
+  typedef cutlass::HostMatrix<BType> HostMatrixB;
 
   /// Host tensor for operand C
-  typedef cutlass::HostTensor<CType> HostTensorC;
+  typedef cutlass::HostMatrix<CType> HostMatrixC;
 
   /// Functor to print errors
   struct PrintErrors {
@@ -98,18 +132,18 @@ struct GemmTestbed {
     std::ostream& out;
 
     /// Reference tensor view
-    cutlass::HostTensorView<CType> const& reference;
+    HostMatrixC const& reference;
 
     /// Computed tensor view
-    cutlass::HostTensorView<CType> const& experimental;
+    HostMatrixC const& experimental;
 
     /// Errors greater than or this amount result in printing
     integer_t ulps_threshold;
 
     ///
     PrintErrors(std::ostream& _out,
-                cutlass::HostTensorView<CType> const& _reference,
-                cutlass::HostTensorView<CType> const& _experimental,
+                HostMatrixC const& _reference,
+                HostMatrixC const& _experimental,
                 integer_t _ulps_threshold = 1)
         : out(_out),
           reference(_reference),
@@ -117,7 +151,7 @@ struct GemmTestbed {
           ulps_threshold(_ulps_threshold) {}
 
     /// Compares one element
-    void operator()(CType const& element, typename HostTensorC::Coord_t coord) {
+    void operator()(CType const& element, typename HostMatrixC::TensorCoord coord) {
       CType exp = experimental.at(coord);
       CType ref = reference.at(coord);
 
@@ -165,6 +199,20 @@ struct GemmTestbed {
     bool only_ones;
   };
 
+  template <typename T>
+  struct RandomBitGenerator {
+    RandomBitGenerator(int seed = -1) { srand(seed); }
+
+    T operator()() {
+      uint32_t val = 0;
+      for (int i = 0; i < 32; i++) {
+        val |= rand() % 2;
+        val <<= 1;
+      }
+      return T(val);
+    }
+  };
+
   //
   // Data members
   //
@@ -178,29 +226,32 @@ struct GemmTestbed {
   /// cuBLAS GEMM algorithm selector
   cublasGemmAlgo_t algorithm;
 
+  /// Problem size as a GemmCoord
+  cutlass::gemm::GemmCoord problem_size;
+
   /// A matrix operand
-  HostTensorA A;
+  HostMatrixA A;
 
   /// Layout of A matrix
   cublasOperation_t layout_A;
 
   /// B matrix operand
-  HostTensorB B;
+  HostMatrixB B;
 
   /// Layout of B matrix
   cublasOperation_t layout_B;
 
   /// C matrix operand
-  HostTensorC C_initial;
+  HostMatrixC C_initial;
 
   /// Reference result computed on the host
-  cutlass::HostTensor<CType, false> ref_host;
+  HostMatrixC ref_host;
 
   /// Reference result computed with cublas
-  HostTensorC ref_cublas;
+  HostMatrixC ref_cublas;
 
   /// Computed result
-  HostTensorC computed;
+  HostMatrixC computed;
 
   /// Linear scalaring factor
   Scalar alpha;
@@ -208,36 +259,105 @@ struct GemmTestbed {
   /// Linear scaling factor
   Scalar beta;
 
+  /// batch count
+  int batch_count;
+
+  /// distance between A[i] and A[i+1] for strided batched gemm
+  long long int batch_stride_A;
+
+  /// distance between B[i] and B[i+1] for strided batched gemm
+  long long int batch_stride_B;
+
+  /// distance between C[i] and C[i+1] for strided batched gemm
+  long long int batch_stride_C;
+
   //
   // Static helpers
   //
 
   /// Helper to resize a matrix with a given size and layout
-  template <typename T, bool DeviceBacked>
-  static void resize(cutlass::HostTensor<T, DeviceBacked>& tensor,
+  template <typename T>
+  static void resize(cutlass::HostMatrix<T>& tensor,
                      int rows,
                      int columns,
                      cublasOperation_t layout,
                      int ldm = 0) {
-    if (!ldm) {
-      ldm = (layout == CUBLAS_OP_N ? rows : columns);
-    }
-
-    typedef cutlass::Coord<cutlass::HostTensor<T>::Rank> Coord_t;
 
-    size_t matrix_stride = layout == CUBLAS_OP_N ? columns * ldm : rows * ldm;
-    // TODO: Remove that (int) cast.
-    Coord_t stride = cutlass::make_Coord(
-        (int)matrix_stride, layout == CUBLAS_OP_N ? 1 : ldm, layout == CUBLAS_OP_N ? ldm : 1, 1);
-    Coord_t size = cutlass::make_Coord(1, rows, columns, 1);
-    tensor.reset(stride, size);
+    tensor.resize(cutlass::make_Coord(rows, columns), convert(layout), ldm);
   }
 
   //
   // Methods
   //
 
-  /// Constructs a workspace for verifying GEMM.
+  /// Constructs a workspace for verifying GEMM, assumes
+  /// dense packing.
+  GemmTestbed(int M_,
+              int N_,
+              int K_,
+              cublasOperation_t layout_a,
+              cublasOperation_t layout_b,
+              Scalar alpha_ = Scalar(1),
+              Scalar beta_ = Scalar(0),
+              cublasGemmAlgo_t algorithm_ = CUBLAS_GEMM_DEFAULT,
+              cublasOperation_t layout_c = CUBLAS_OP_N)
+      : problem_size(K_, N_, M_, 1),
+        layout_A(layout_a),
+        layout_B(layout_b),
+        alpha(alpha_),
+        beta(beta_),
+        algorithm(algorithm_),
+        batch_count(1),
+        batch_stride_A(static_cast<long long int>(0)),
+        batch_stride_B(static_cast<long long int>(0)),
+        batch_stride_C(static_cast<long long int>(0)) {
+    status = cublasCreate(&handle);
+    if (status != CUBLAS_STATUS_SUCCESS) {
+      throw cutlass::cuda_exception("Failed to create CUBLAS handle");
+    }
+
+    resize(A, M_, K_, layout_a);
+    resize(B, K_, N_, layout_b);
+    resize(C_initial, M_, N_, layout_c);
+    resize(ref_host, M_, N_, layout_c);
+    resize(ref_cublas, M_, N_, layout_c);
+    resize(computed, M_, N_, layout_c);
+  }
+
+  /// Constructs a workspace for verifying GEMM, assumes
+  /// dense packing.
+  GemmTestbed(cublasHandle_t handle_,
+              int M_,
+              int N_,
+              int K_,
+              cublasOperation_t layout_a,
+              cublasOperation_t layout_b,
+              Scalar alpha_ = Scalar(1),
+              Scalar beta_ = Scalar(0),
+              cublasGemmAlgo_t algorithm_ = CUBLAS_GEMM_DEFAULT,
+              cublasOperation_t layout_c = CUBLAS_OP_N)
+      : status(CUBLAS_STATUS_SUCCESS),
+        handle(handle_),
+        problem_size(K_, N_, M_, 1),
+        layout_A(layout_a),
+        layout_B(layout_b),
+        alpha(alpha_),
+        beta(beta_),
+        algorithm(algorithm_),
+        batch_count(1),
+        batch_stride_A(static_cast<long long int>(0)),
+        batch_stride_B(static_cast<long long int>(0)),
+        batch_stride_C(static_cast<long long int>(0)) {
+
+    resize(A, M_, K_ * batch_count, layout_a);
+    resize(B, K_ * batch_count, N_, layout_b);
+    resize(C_initial, M_, N_ * batch_count, layout_c);
+    resize(ref_host, M_, N_ * batch_count, layout_c);
+    resize(ref_cublas, M_, N_ * batch_count, layout_c);
+    resize(computed, M_, N_ * batch_count, layout_c);
+  }
+
+  /// Constructs a workspace for verifying GEMM with arbitrary strides
   GemmTestbed(int M_,
               int N_,
               int K_,
@@ -250,7 +370,16 @@ struct GemmTestbed {
               Scalar beta_ = Scalar(0),
               cublasGemmAlgo_t algorithm_ = CUBLAS_GEMM_DEFAULT,
               cublasOperation_t layout_c = CUBLAS_OP_N)
-      : layout_A(layout_a), layout_B(layout_b), alpha(alpha_), beta(beta_), algorithm(algorithm_) {
+      : problem_size(K_, N_, M_, 1),
+        layout_A(layout_a),
+        layout_B(layout_b),
+        alpha(alpha_),
+        beta(beta_),
+        algorithm(algorithm_),
+        batch_count(1),
+        batch_stride_A(static_cast<long long int>(0)),
+        batch_stride_B(static_cast<long long int>(0)),
+        batch_stride_C(static_cast<long long int>(0)) {
     status = cublasCreate(&handle);
     if (status != CUBLAS_STATUS_SUCCESS) {
       throw cutlass::cuda_exception("Failed to create CUBLAS handle");
@@ -264,39 +393,119 @@ struct GemmTestbed {
     resize(computed, M_, N_, layout_c, ldc);
   }
 
-  ~GemmTestbed() { status = cublasDestroy(handle); }
+  /// Constructs a workspace for verifying GEMM with arbitrary strides
+  GemmTestbed(cublasHandle_t handle_,
+              int M_,
+              int N_,
+              int K_,
+              int ldc,
+              cublasOperation_t layout_a,
+              int lda,
+              cublasOperation_t layout_b,
+              int ldb,
+              Scalar alpha_ = Scalar(1),
+              Scalar beta_ = Scalar(0),
+              cublasGemmAlgo_t algorithm_ = CUBLAS_GEMM_DEFAULT,
+              cublasOperation_t layout_c = CUBLAS_OP_N)
+      : status(CUBLAS_STATUS_SUCCESS),
+        handle(handle_),
+        problem_size(K_, N_, M_, 1),
+        alpha(alpha_),
+        beta(beta_),
+        algorithm(algorithm_),
+        batch_count(1),
+        batch_stride_A(static_cast<long long int>(0)),
+        batch_stride_B(static_cast<long long int>(0)),
+        batch_stride_C(static_cast<long long int>(0)) {
+
+    resize(A, M_, K_ * batch_count, layout_a);
+    resize(B, K_ * batch_count, N_, layout_b);
+    resize(C_initial, M_, N_ * batch_count, layout_c);
+    resize(ref_host, M_, N_ * batch_count, layout_c);
+    resize(ref_cublas, M_, N_ * batch_count, layout_c);
+    resize(computed, M_, N_ * batch_count, layout_c);
+  }
+
+  /// Constructs a workspace for verifying strided batched GEMM, assumes
+  /// dense packing.
+  /// batches are "concated" along K for matrix A and matrix B, and along N for matrix C
+  /// a full implementation of strided batched GEMM should handle other corner cases
+  GemmTestbed(int M_,
+              int N_,
+              int K_,
+              int batch_count_,
+              cublasOperation_t layout_a,
+              cublasOperation_t layout_b,
+              Scalar alpha_ = Scalar(1),
+              Scalar beta_ = Scalar(0),
+              cublasGemmAlgo_t algorithm_ = CUBLAS_GEMM_DEFAULT,
+              cublasOperation_t layout_c = CUBLAS_OP_N)
+      : problem_size(K_, N_, M_, batch_count_),
+        layout_A(layout_a),
+        layout_B(layout_b),
+        alpha(alpha_),
+        beta(beta_),
+        algorithm(algorithm_),
+        batch_count(batch_count_) {
+
+    status = cublasCreate(&handle);
+    if (status != CUBLAS_STATUS_SUCCESS) {
+      throw cutlass::cuda_exception("Failed to create CUBLAS handle");
+    }
+
+    resize(A, M_, K_ * batch_count, layout_a);
+    resize(B, K_ * batch_count, N_, layout_b);
+    resize(C_initial, M_, N_ * batch_count, layout_c);
+    resize(ref_host, M_, N_ * batch_count, layout_c);
+    resize(ref_cublas, M_, N_ * batch_count, layout_c);
+    resize(computed, M_, N_ * batch_count, layout_c);
+
+    batch_stride_A = (layout_a == CUBLAS_OP_N) ? M_ * K_ : K_;
+    batch_stride_B = (layout_b == CUBLAS_OP_N) ? K_ : K_ * N_;
+    batch_stride_C = M_ * N_;
+  }
+
+  /// Destructs the GEMM testbed
+  ~GemmTestbed() {
+    if (status != CUBLAS_STATUS_NOT_INITIALIZED) {
+      status = cublasDestroy(handle);
+    }
+  }
 
   /// Returns true if the last CUBLAS call returned successfully
   bool good() const { return status == CUBLAS_STATUS_SUCCESS; }
 
   /// Returns a pointer to the A operand
-  typename HostTensorA::DeviceType* ptr_A() const { return A.device_data(); }
+  typename HostMatrixA::DeviceType* ptr_A() const { return A.device_data(); }
 
   /// Stride of A matrix
-  int lda() const { return std::max(A.stride(HostTensorA::Dim_H), A.stride(HostTensorA::Dim_W)); }
+  int lda() const { return A.leading_dim(); }
 
   /// Returns a pointer to the B operand
-  typename HostTensorB::DeviceType* ptr_B() const { return B.device_data(); }
+  typename HostMatrixB::DeviceType* ptr_B() const { return B.device_data(); }
 
   /// Stride of B matrix
-  int ldb() const { return std::max(B.stride(HostTensorB::Dim_H), B.stride(HostTensorB::Dim_W)); }
+  int ldb() const { return B.leading_dim(); }
 
   /// Returns a pointer to the initial state of the result tensor in device memory
-  typename HostTensorC::DeviceType* ptr_C_initial() const { return C_initial.device_data(); }
+  typename HostMatrixC::DeviceType* ptr_C_initial() const { return C_initial.device_data(); }
 
   /// Returns a pointer to the result tensor in device memory
-  typename HostTensorC::DeviceType* ptr_computed() const { return computed.device_data(); }
+  typename HostMatrixC::DeviceType* ptr_computed() const { return computed.device_data(); }
 
   /// Returns a pointer to the result tensor in device memory
-  typename HostTensorC::DeviceType* ptr_cublas() const { return ref_cublas.device_data(); }
+  typename HostMatrixC::DeviceType* ptr_cublas() const { return ref_cublas.device_data(); }
 
   /// Stride of C matrix
   int ldc() const {
-    return std::max(C_initial.stride(HostTensorC::Dim_H), C_initial.stride(HostTensorC::Dim_W));
+    //return std::max(C_initial.stride(HostTensorC::Dim_H), C_initial.stride(HostTensorC::Dim_W));
+    return C_initial.leading_dim();
   }
 
   /// Returns the number of flops implied by the computation (1 multiply-accumulate = 2 flops)
-  uint64_t flops() const { return uint64_t(M()) * uint64_t(N()) * uint64_t(K()) * 2ULL; }
+  uint64_t flops() const {
+    return uint64_t(batch_count) * uint64_t(M()) * uint64_t(N()) * uint64_t(K()) * 2ULL;
+  }
 
   /// Computes the speed of the computation in GFLOPs/s
   double GFLOPs_per_sec(double runtime_ms) const { return double(flops()) / runtime_ms / 1.0e6; }
@@ -307,53 +516,151 @@ struct GemmTestbed {
   /// Matrix layout of B
   cublasOperation_t layout_b() const { return layout_B; }
 
-  /// Number of rows of problem
-  int M() const { return C_initial.size(HostTensorC::Dim_H); }
+  /// Number of rows of problem, per batch; assumptions made here that we concat C by adding columns
+  int M() const {
+    return problem_size.m();
+  }
+
+  /// Number of columns of problem, per batch; assumptions made here that we concat C by adding
+  /// columns
+  int N() const {
+    return problem_size.n();
+  }
+
+  /// Number of columns of problem, per batch; assumptions made here that we concat A by adding
+  /// columns
+  int K() const {
+    return problem_size.k();
+  }
+
+  /// Number of batches
+  int get_batch_count() const {
+    return problem_size.batch();
+  }
+
+  ///
+  long long int get_batch_stride_A() const { return batch_stride_A; }
+
+  ///
+  long long int get_batch_stride_B() const { return batch_stride_B; }
 
-  /// Number of columns of problem
-  int N() const { return C_initial.size(HostTensorC::Dim_W); }
+  ///
+  long long int get_batch_stride_C() const { return batch_stride_C; }
 
-  /// Number of columns of problem
-  int K() const { return A.size(HostTensorA::Dim_W); }
+  ///
 
   /// Initializes data, randomly
   void initialize(int seed = -1) {
-    A.fill_random(RandomGenerator<AType>(seed));
-    B.fill_random(RandomGenerator<BType>(seed + 11));
-    C_initial.fill_random(RandomGenerator<CType>(seed + 13));
+
+    // Initialize the source matrix with a uniform distribution
+    cutlass::Distribution dist;
+    dist.set_uniform(-8, 8);
+
+    cutlass::reference::host::TensorInitialize(A.host_view(), seed, dist);
+    cutlass::reference::host::TensorInitialize(B.host_view(), seed + 11, dist);
+    cutlass::reference::host::TensorInitialize(C_initial.host_view(), seed + 13, dist);
+
+    A.sync_device();
+    B.sync_device();
+    C_initial.sync_device();
+  }
+
+  /// Initializes binary data
+  void initialize_binary(int seed = -1) {
+    //A.fill_random(RandomBitGenerator<AType>(seed));
+    //B.fill_random(RandomBitGenerator<BType>(seed + 11));
+    //C_initial.fill_random(RandomGenerator<CType>(seed + 13));
+    A.fill_sequential();
+    B.fill_sequential();
+    C_initial.fill(0);
+  }
+
+  /// Initializes integer data (sequential for now)
+  void initialize_integer(int seed =-1) {
+    A.fill_sequential();
+    B.fill_sequential();
+    C_initial.fill(0);
   }
 
   /// Computes the matrix product on the host
   void compute_host() {
     ref_host.fill(C_initial);
-    ref_host.template gemm<AType, BType, Accumulator, Scalar>(A, B, alpha, beta);
+
+    cutlass::reference::host::Gemm(problem_size, alpha, A.host_ref(), B.host_ref(), beta, ref_host.host_ref(), Accumulator(0));
   }
 
   /// Excutes an equivalent GEMM using cuBLAS
   bool execute_cublas() {
-    status = cublasGemmEx(handle,
-                          layout_a(),
-                          layout_b(),
-                          M(),
-                          N(),
-                          K(),
-                          &alpha,
-                          ptr_A(),
-                          cutlass::TypeTraits<AType>::cublas_type,
-                          lda(),
-                          ptr_B(),
-                          cutlass::TypeTraits<BType>::cublas_type,
-                          ldb(),
-                          &beta,
-                          ref_cublas.device_data(),
-                          cutlass::TypeTraits<CType>::cublas_type,
-                          ldc(),
-                          cutlass::TypeTraits<Accumulator>::cublas_type,
-                          algorithm);
-
-    return status == CUBLAS_STATUS_SUCCESS;
+    if (batch_count == 1) {
+      status = cublasGemmEx(handle,
+                            layout_a(),
+                            layout_b(),
+                            M(),
+                            N(),
+                            K(),
+                            &alpha,
+                            ptr_A(),
+                            cutlass::TypeTraits<AType>::cublas_type,
+                            lda(),
+                            ptr_B(),
+                            cutlass::TypeTraits<BType>::cublas_type,
+                            ldb(),
+                            &beta,
+                            ref_cublas.device_data(),
+                            cutlass::TypeTraits<CType>::cublas_type,
+                            ldc(),
+                            cutlass::TypeTraits<Accumulator>::cublas_type,
+                            algorithm);
+
+      return status == CUBLAS_STATUS_SUCCESS;
+    } else {
+      // call strided batched gemm
+      status = cublasGemmStridedBatchedTemplate(handle,
+                                                layout_a(),
+                                                layout_b(),
+                                                M(),
+                                                N(),
+                                                K(),
+                                                &alpha,
+                                                ptr_A(),
+                                                lda(),
+                                                batch_stride_A,
+                                                ptr_B(),
+                                                ldb(),
+                                                batch_stride_B,
+                                                &beta,
+                                                ref_cublas.device_data(),
+                                                ldc(),
+                                                batch_stride_C,
+                                                batch_count);
+
+      return status == CUBLAS_STATUS_SUCCESS;
+    }
   }
 
+  /// Helper function to use cublasGemmStridedBatched
+  cublasStatus_t cublasGemmStridedBatchedTemplate(cublasHandle_t handle,
+                                                  cublasOperation_t transa,
+                                                  cublasOperation_t transb,
+                                                  int M,
+                                                  int N,
+                                                  int K,
+                                                  const Scalar *alpha,
+                                                  const typename HostMatrixA::DeviceType *ptr_A,
+                                                  int lda,
+                                                  long long int stride_A,
+                                                  const typename HostMatrixB::DeviceType *ptr_B,
+                                                  int ldb,
+                                                  long long int stride_B,
+                                                  const Scalar *beta,
+                                                  typename HostMatrixC::DeviceType *ptr_C,
+                                                  int ldc,
+                                                  long long int stride_C,
+                                                  int batchCount) {
+    return CUBLAS_STATUS_NOT_SUPPORTED;
+  }
+
+
   /// Computes the matrix product using cuBLAS
   void compute_cublas() {
     ref_cublas.fill(C_initial);
@@ -374,8 +681,11 @@ struct GemmTestbed {
        << (layout_b() == CUBLAS_OP_N ? "n" : "t") << "_" << typeid(AType).name() << "_"
        << typeid(BType).name() << "_" << typeid(CType).name() << "_" << typeid(Accumulator).name()
        << "_" << typeid(Scalar).name() << "_" << M() << "x" << N() << "x" << K();
-
-    return ss.str();
+    //make sure there is no space in the ss
+    std::string thisString = ss.str();
+    std::replace(thisString.begin(), thisString.end(), ' ', '_');
+    std::replace(thisString.begin(), thisString.end(), ':', '_');
+    return thisString;
   }
 
   /// Writes the workspace to an ostream
@@ -389,8 +699,8 @@ struct GemmTestbed {
 
   /// Outputs each mismatching element
   std::ostream& write_errors(std::ostream& out,
-                             cutlass::HostTensorView<CType> const& experimental,
-                             cutlass::HostTensorView<CType> const& ref) const {
+                             HostMatrixC const& experimental,
+                             HostMatrixC const& ref) const {
     PrintErrors printer(out, ref, experimental);
 
     computed.visit(printer);
@@ -419,8 +729,8 @@ struct GemmTestbed {
   }
 
   /// Saves the workspace to files
-  void save_workspace(cutlass::HostTensorView<CType> const& experimental,
-                      cutlass::HostTensorView<CType> const& ref) {
+  void save_workspace(HostMatrixC const& experimental,
+                      HostMatrixC const& ref) {
     std::string name = workspace_name();
 
     std::string results_name = name + "_results.txt";
@@ -453,6 +763,7 @@ struct GemmTestbed {
     ref_cublas.sync_host();
     computed.sync_host();
 
+
     bool passed = computed.bit_equals(ref_cublas);
 
     if ((!passed && save_on_error) || always_print) {
@@ -494,22 +805,116 @@ struct GemmTestbed {
   bool has_cublas_support() const { return cutlass::platform::is_same<Accumulator, Scalar>::value; }
 };
 
-}  // namespace test
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+//specialization for cublasGemmStridedBatchedTemplate
+template<> inline cublasStatus_t GemmTestbed<float, float, float, float, float>::cublasGemmStridedBatchedTemplate(cublasHandle_t handle,
+                                                                                                    cublasOperation_t transa,
+                                                                                                    cublasOperation_t transb,
+                                                                                                    int M,
+                                                                                                    int N,
+                                                                                                    int K,
+                                                                                                    const float *alpha,
+                                                                                                    const float *ptr_A,
+                                                                                                    int lda,
+                                                                                                    long long int stride_A,
+                                                                                                    const float *ptr_B,
+                                                                                                    int ldb,
+                                                                                                    long long int stride_B,
+                                                                                                    const float *beta,
+                                                                                                    float *ptr_C,
+                                                                                                    int ldc,
+                                                                                                    long long int stride_C,
+                                                                                                    int batchCount) {
+  return cublasSgemmStridedBatched(handle,
+    transa,
+    transb,
+    M, N, K,
+    alpha,
+    ptr_A,
+    lda,
+    stride_A,
+    ptr_B,
+    ldb,
+    stride_B,
+    beta,
+    ptr_C,
+    ldc,
+    stride_C,
+    batchCount);
+}
 
-namespace cutlass {
-inline cublasOperation_t convert(cutlass::MatrixLayout::Kind layout) {
-  switch (layout) {
-    case cutlass::MatrixLayout::kRowMajor:
-      return CUBLAS_OP_T;
-    case cutlass::MatrixLayout::kColumnMajor:
-      return CUBLAS_OP_N;
-    default:
-      break;
-  }
-  return CUBLAS_OP_N;
+template<> inline cublasStatus_t GemmTestbed<double, double, double, double, double>::cublasGemmStridedBatchedTemplate(cublasHandle_t handle,
+                                                                                                                cublasOperation_t transa,
+                                                                                                                cublasOperation_t transb,
+                                                                                                                int M,
+                                                                                                                int N,
+                                                                                                                int K,
+                                                                                                                const double *alpha,
+                                                                                                                const double *ptr_A,
+                                                                                                                int lda,
+                                                                                                                long long int stride_A,
+                                                                                                                const double *ptr_B,
+                                                                                                                int ldb,
+                                                                                                                long long int stride_B,
+                                                                                                                const double *beta,
+                                                                                                                double *ptr_C,
+                                                                                                                int ldc,
+                                                                                                                long long int stride_C,
+                                                                                                                int batchCount) {
+  return cublasDgemmStridedBatched(handle,
+    transa,
+    transb,
+    M, N, K,
+    alpha,
+    ptr_A,
+    lda,
+    stride_A,
+    ptr_B,
+    ldb,
+    stride_B,
+    beta,
+    ptr_C,
+    ldc,
+    stride_C,
+    batchCount);
 }
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
+template<> inline cublasStatus_t GemmTestbed<cutlass::half_t, cutlass::half_t, cutlass::half_t, cutlass::half_t, cutlass::half_t>::cublasGemmStridedBatchedTemplate(cublasHandle_t handle,
+                                                                                                      cublasOperation_t transa,
+                                                                                                      cublasOperation_t transb,
+                                                                                                      int M,
+                                                                                                      int N,
+                                                                                                      int K,
+                                                                                                      const cutlass::half_t *alpha,
+                                                                                                      const half *ptr_A,
+                                                                                                      int lda,
+                                                                                                      long long int stride_A,
+                                                                                                      const half *ptr_B,
+                                                                                                      int ldb,
+                                                                                                      long long int stride_B,
+                                                                                                      const cutlass::half_t *beta,
+                                                                                                      half *ptr_C,
+                                                                                                      int ldc,
+                                                                                                      long long int stride_C,
+                                                                                                      int batchCount) {
+  half temp_alpha = alpha->operator half();
+  half temp_beta = beta->operator half();
+  return cublasHgemmStridedBatched(handle,
+    transa,
+    transb,
+    M, N, K,
+    &temp_alpha,
+    ptr_A,
+    lda,
+    stride_A,
+    ptr_B,
+    ldb,
+    stride_B,
+    &temp_beta,
+    ptr_C,
+    ldc,
+    stride_C,
+    batchCount);
 }
+
+}  // namespace test
diff --git a/tools/test/unit/gemm/hgemm_128x128x16.cu b/tools/test/unit/gemm/hgemm_128x128x16.cu
index 1d72971d2f..7715cf836a 100644
--- a/tools/test/unit/gemm/hgemm_128x128x16.cu
+++ b/tools/test/unit/gemm/hgemm_128x128x16.cu
@@ -22,30 +22,12 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <tools/util/half.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/hgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-TEST(Hgemm_128x128x16, hgemm_2x2x2_nt) {
-  typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
-      HgemmTraits;
-  run_gemm<HgemmTraits>(2, 2, 2);
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
-
-TEST(Hgemm_128x128x16, hgemm_128x128x8_nt) {
-  typedef cutlass::gemm::HgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
-      HgemmTraits;
-  run_gemm<HgemmTraits>(128, 128, 8);
-}
+#include "cutlass_unit_test.h"
+#include "tools/util/half.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/hgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/hgemm_128x128x8.cu b/tools/test/unit/gemm/hgemm_128x128x8.cu
index 266cce8a10..341ae2e951 100644
--- a/tools/test/unit/gemm/hgemm_128x128x8.cu
+++ b/tools/test/unit/gemm/hgemm_128x128x8.cu
@@ -22,12 +22,12 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <tools/util/half.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/hgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "tools/util/half.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/hgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/hgemm_128x32x8.cu b/tools/test/unit/gemm/hgemm_128x32x8.cu
index 557415ea6d..c9ab620eae 100644
--- a/tools/test/unit/gemm/hgemm_128x32x8.cu
+++ b/tools/test/unit/gemm/hgemm_128x32x8.cu
@@ -22,11 +22,11 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/hgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/hgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/hgemm_128x64x8.cu b/tools/test/unit/gemm/hgemm_128x64x8.cu
index ea4968b4e2..e1b1540a32 100644
--- a/tools/test/unit/gemm/hgemm_128x64x8.cu
+++ b/tools/test/unit/gemm/hgemm_128x64x8.cu
@@ -22,11 +22,11 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/hgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/hgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/igemm_128x128x32.cu b/tools/test/unit/gemm/igemm_128x128x32.cu
index aad3d49297..6c891a45c4 100644
--- a/tools/test/unit/gemm/igemm_128x128x32.cu
+++ b/tools/test/unit/gemm/igemm_128x128x32.cu
@@ -22,16 +22,17 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/igemm_traits.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/igemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Igemm_128x128x32, igemm_128x128x4_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 4);
@@ -41,7 +42,7 @@ TEST(Igemm_128x128x32, igemm_128x128x4_nt) {
 
 TEST(Igemm_128x128x32, igemm_128x128x32_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 32);
@@ -51,7 +52,7 @@ TEST(Igemm_128x128x32, igemm_128x128x32_nt) {
 
 TEST(Igemm_128x128x32, igemm_128x128x36_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 36);
@@ -61,7 +62,7 @@ TEST(Igemm_128x128x32, igemm_128x128x36_nt) {
 
 TEST(Igemm_128x128x32, igemm_128x128x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 64);
@@ -71,7 +72,7 @@ TEST(Igemm_128x128x32, igemm_128x128x64_nt) {
 
 TEST(Igemm_128x128x32, igemm_128x128x256_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 256);
@@ -81,7 +82,7 @@ TEST(Igemm_128x128x32, igemm_128x128x256_nt) {
 
 TEST(Igemm_128x128x32, igemm_256x128x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 128, 64);
@@ -91,7 +92,7 @@ TEST(Igemm_128x128x32, igemm_256x128x64_nt) {
 
 TEST(Igemm_128x128x32, igemm_128x256x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 256, 64);
@@ -101,7 +102,7 @@ TEST(Igemm_128x128x32, igemm_128x256x64_nt) {
 
 TEST(Igemm_128x128x32, igemm_256x256x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 256, 64);
@@ -189,6 +190,12 @@ TEST(Igemm_128x128x32, igemm_256x256x64_nn) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+// NB: I have removed tests in which k=1. These result in the test environment definining matrices
+//     in which ld{a,b} = 1 which cannot be launched by cuBLAS.
+//
+// This problem size remains untested. --akerr
+//
+
 TEST(Igemm_128x128x32, igemm_128x128x4_tn) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
@@ -281,7 +288,7 @@ TEST(Igemm_128x128x32, igemm_128x128x4_tt) {
 
 TEST(Igemm_128x128x32, igemm_128x128x32_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 32);
@@ -291,7 +298,7 @@ TEST(Igemm_128x128x32, igemm_128x128x32_tt) {
 
 TEST(Igemm_128x128x32, igemm_128x128x36_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 36);
@@ -301,7 +308,7 @@ TEST(Igemm_128x128x32, igemm_128x128x36_tt) {
 
 TEST(Igemm_128x128x32, igemm_128x128x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 64);
@@ -311,7 +318,7 @@ TEST(Igemm_128x128x32, igemm_128x128x64_tt) {
 
 TEST(Igemm_128x128x32, igemm_128x128x256_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 256);
@@ -321,7 +328,7 @@ TEST(Igemm_128x128x32, igemm_128x128x256_tt) {
 
 TEST(Igemm_128x128x32, igemm_256x128x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 128, 64);
@@ -331,7 +338,7 @@ TEST(Igemm_128x128x32, igemm_256x128x64_tt) {
 
 TEST(Igemm_128x128x32, igemm_128x256x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 256, 64);
@@ -341,7 +348,7 @@ TEST(Igemm_128x128x32, igemm_128x256x64_tt) {
 
 TEST(Igemm_128x128x32, igemm_256x256x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int, cutlass::gemm::LinearScaling<int> >
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 256, 64);
diff --git a/tools/test/unit/gemm/igemm_128x128x32_float.cu b/tools/test/unit/gemm/igemm_128x128x32_float.cu
index 9367e5d377..08b7dbff23 100644
--- a/tools/test/unit/gemm/igemm_128x128x32_float.cu
+++ b/tools/test/unit/gemm/igemm_128x128x32_float.cu
@@ -22,17 +22,17 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/igemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/igemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Igemm_128x128x32_float, igemm_128x128x4_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 4);
@@ -42,7 +42,7 @@ TEST(Igemm_128x128x32_float, igemm_128x128x4_nt) {
 
 TEST(Igemm_128x128x32_float, igemm_128x128x32_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 32);
@@ -52,7 +52,7 @@ TEST(Igemm_128x128x32_float, igemm_128x128x32_nt) {
 
 TEST(Igemm_128x128x32_float, igemm_128x128x36_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 36);
@@ -62,7 +62,7 @@ TEST(Igemm_128x128x32_float, igemm_128x128x36_nt) {
 
 TEST(Igemm_128x128x32_float, igemm_128x128x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 64);
@@ -72,7 +72,7 @@ TEST(Igemm_128x128x32_float, igemm_128x128x64_nt) {
 
 TEST(Igemm_128x128x32_float, igemm_128x128x256_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 256);
@@ -82,7 +82,7 @@ TEST(Igemm_128x128x32_float, igemm_128x128x256_nt) {
 
 TEST(Igemm_128x128x32_float, igemm_256x128x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 128, 64);
@@ -92,7 +92,7 @@ TEST(Igemm_128x128x32_float, igemm_256x128x64_nt) {
 
 TEST(Igemm_128x128x32_float, igemm_128x256x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 256, 64);
@@ -102,7 +102,7 @@ TEST(Igemm_128x128x32_float, igemm_128x256x64_nt) {
 
 TEST(Igemm_128x128x32_float, igemm_256x256x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 256, 64);
@@ -190,6 +190,12 @@ TEST(Igemm_128x128x32_float, igemm_256x256x64_nn) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+// NB: I have removed tests in which k=1. These result in the test environment definining matrices
+//     in which ld{a,b} = 1 which cannot be launched by cuBLAS.
+//
+// This problem size remains untested. --akerr
+//
+
 TEST(Igemm_128x128x32_float, igemm_128x128x4_tn) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
@@ -282,7 +288,7 @@ TEST(Igemm_128x128x32_float, igemm_128x128x4_tt) {
 
 TEST(Igemm_128x128x32_float, igemm_128x128x32_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 32);
@@ -292,7 +298,7 @@ TEST(Igemm_128x128x32_float, igemm_128x128x32_tt) {
 
 TEST(Igemm_128x128x32_float, igemm_128x128x36_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 36);
@@ -302,7 +308,7 @@ TEST(Igemm_128x128x32_float, igemm_128x128x36_tt) {
 
 TEST(Igemm_128x128x32_float, igemm_128x128x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 64);
@@ -312,7 +318,7 @@ TEST(Igemm_128x128x32_float, igemm_128x128x64_tt) {
 
 TEST(Igemm_128x128x32_float, igemm_128x128x256_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 256);
@@ -322,7 +328,7 @@ TEST(Igemm_128x128x32_float, igemm_128x128x256_tt) {
 
 TEST(Igemm_128x128x32_float, igemm_256x128x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 128, 64);
@@ -332,7 +338,7 @@ TEST(Igemm_128x128x32_float, igemm_256x128x64_tt) {
 
 TEST(Igemm_128x128x32_float, igemm_128x256x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 256, 64);
@@ -342,7 +348,7 @@ TEST(Igemm_128x128x32_float, igemm_128x256x64_tt) {
 
 TEST(Igemm_128x128x32_float, igemm_256x256x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, float>
       IgemmTraits;
 
diff --git a/tools/test/unit/gemm/igemm_128x128x32_int8.cu b/tools/test/unit/gemm/igemm_128x128x32_int8.cu
index bf053a6b5b..fbf5ca406d 100644
--- a/tools/test/unit/gemm/igemm_128x128x32_int8.cu
+++ b/tools/test/unit/gemm/igemm_128x128x32_int8.cu
@@ -22,17 +22,17 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/igemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/igemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Igemm_128x128x32_int8, igemm_128x128x4_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 4);
@@ -42,7 +42,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x128x4_nt) {
 
 TEST(Igemm_128x128x32_int8, igemm_128x128x32_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 32);
@@ -52,7 +52,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x128x32_nt) {
 
 TEST(Igemm_128x128x32_int8, igemm_128x128x36_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 36);
@@ -62,7 +62,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x128x36_nt) {
 
 TEST(Igemm_128x128x32_int8, igemm_128x128x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 64);
@@ -72,7 +72,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x128x64_nt) {
 
 TEST(Igemm_128x128x32_int8, igemm_128x128x256_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 256);
@@ -82,7 +82,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x128x256_nt) {
 
 TEST(Igemm_128x128x32_int8, igemm_256x128x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 128, 64);
@@ -92,7 +92,7 @@ TEST(Igemm_128x128x32_int8, igemm_256x128x64_nt) {
 
 TEST(Igemm_128x128x32_int8, igemm_128x256x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 256, 64);
@@ -102,7 +102,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x256x64_nt) {
 
 TEST(Igemm_128x128x32_int8, igemm_256x256x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 256, 64);
@@ -190,6 +190,14 @@ TEST(Igemm_128x128x32_int8, igemm_256x256x64_nn) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+// NB: I have removed tests in which k=1. These result in the test environment definining matrices
+//     in which ld{a,b} = 1 which cannot be launched by cuBLAS.
+//
+// This problem size remains untested. --akerr
+//
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 TEST(Igemm_128x128x32_int8, igemm_128x128x4_tn) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
@@ -282,7 +290,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x128x4_tt) {
 
 TEST(Igemm_128x128x32_int8, igemm_128x128x32_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 32);
@@ -292,7 +300,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x128x32_tt) {
 
 TEST(Igemm_128x128x32_int8, igemm_128x128x36_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 36);
@@ -302,7 +310,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x128x36_tt) {
 
 TEST(Igemm_128x128x32_int8, igemm_128x128x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 64);
@@ -312,7 +320,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x128x64_tt) {
 
 TEST(Igemm_128x128x32_int8, igemm_128x128x256_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 256);
@@ -322,7 +330,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x128x256_tt) {
 
 TEST(Igemm_128x128x32_int8, igemm_256x128x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 128, 64);
@@ -332,7 +340,7 @@ TEST(Igemm_128x128x32_int8, igemm_256x128x64_tt) {
 
 TEST(Igemm_128x128x32_int8, igemm_128x256x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 256, 64);
@@ -342,7 +350,7 @@ TEST(Igemm_128x128x32_int8, igemm_128x256x64_tt) {
 
 TEST(Igemm_128x128x32_int8, igemm_256x256x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 128, 128>, int8_t>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 256, 64);
diff --git a/tools/test/unit/gemm/igemm_128x32x32.cu b/tools/test/unit/gemm/igemm_128x32x32.cu
index 448d8f03c9..dabeb07dfc 100644
--- a/tools/test/unit/gemm/igemm_128x32x32.cu
+++ b/tools/test/unit/gemm/igemm_128x32x32.cu
@@ -22,17 +22,17 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/igemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/igemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Igemm_128x32x32, igemm_128x32x32x4_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 32, 4);
@@ -42,7 +42,7 @@ TEST(Igemm_128x32x32, igemm_128x32x32x4_nt) {
 
 TEST(Igemm_128x32x32, igemm_128x32x32_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 32, 20);
@@ -52,7 +52,7 @@ TEST(Igemm_128x32x32, igemm_128x32x32_nt) {
 
 TEST(Igemm_128x32x32, igemm_128x32x36_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 32, 36);
@@ -62,7 +62,7 @@ TEST(Igemm_128x32x32, igemm_128x32x36_nt) {
 
 TEST(Igemm_128x32x32, igemm_128x32x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 32, 64);
@@ -72,7 +72,7 @@ TEST(Igemm_128x32x32, igemm_128x32x64_nt) {
 
 TEST(Igemm_128x32x32, igemm_128x32x256_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 32, 256);
@@ -82,7 +82,7 @@ TEST(Igemm_128x32x32, igemm_128x32x256_nt) {
 
 TEST(Igemm_128x32x32, igemm_256x32x64_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 32, 64);
@@ -92,7 +92,7 @@ TEST(Igemm_128x32x32, igemm_256x32x64_nt) {
 
 TEST(Igemm_128x32x32, igemm_128x128x32_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 32);
@@ -102,7 +102,7 @@ TEST(Igemm_128x32x32, igemm_128x128x32_nt) {
 
 TEST(Igemm_128x32x32, igemm_256x128x32_nt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 128, 32);
@@ -190,6 +190,15 @@ TEST(Igemm_128x32x32, igemm_256x128x32_nn) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+// FIXME: This test fails in cuBLAS. I don't know why!!!
+// TEST(Igemm_128x32x32, igemm_128x32x1_tn) {
+//     typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
+//     cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<32, 32, 128> > IgemmTraits;
+//     run_gemm<IgemmTraits>(128, 32, 1);
+// }
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 TEST(Igemm_128x32x32, igemm_128x32x4_tn) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
@@ -282,7 +291,7 @@ TEST(Igemm_128x32x32, igemm_128x32x4_tt) {
 
 TEST(Igemm_128x32x32, igemm_128x32x32_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 32, 32);
@@ -292,7 +301,7 @@ TEST(Igemm_128x32x32, igemm_128x32x32_tt) {
 
 TEST(Igemm_128x32x32, igemm_128x32x36_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 32, 36);
@@ -302,7 +311,7 @@ TEST(Igemm_128x32x32, igemm_128x32x36_tt) {
 
 TEST(Igemm_128x32x32, igemm_128x32x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 32, 64);
@@ -312,7 +321,7 @@ TEST(Igemm_128x32x32, igemm_128x32x64_tt) {
 
 TEST(Igemm_128x32x32, igemm_128x32x256_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 32, 256);
@@ -322,7 +331,7 @@ TEST(Igemm_128x32x32, igemm_128x32x256_tt) {
 
 TEST(Igemm_128x32x32, igemm_256x32x64_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 32, 64);
@@ -332,7 +341,7 @@ TEST(Igemm_128x32x32, igemm_256x32x64_tt) {
 
 TEST(Igemm_128x32x32, igemm_128x128x32_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(128, 128, 32);
@@ -342,7 +351,7 @@ TEST(Igemm_128x32x32, igemm_128x128x32_tt) {
 
 TEST(Igemm_128x32x32, igemm_256x128x32_tt) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                     cutlass::MatrixLayout::kRowMajor, 
+                                     cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<32, 32, 128>, int>
       IgemmTraits;
   run_gemm<IgemmTraits>(256, 128, 32);
diff --git a/tools/test/unit/gemm/igemm_128x64x32.cu b/tools/test/unit/gemm/igemm_128x64x32.cu
index 9e080ac40d..279daafec4 100644
--- a/tools/test/unit/gemm/igemm_128x64x32.cu
+++ b/tools/test/unit/gemm/igemm_128x64x32.cu
@@ -22,11 +22,11 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/igemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/igemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
@@ -190,6 +190,15 @@ TEST(Igemm_128x64x32, igemm_256x128x64_nn) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+// FIXME: This test fails in cuBLAS. I don't know why!!!
+// TEST(Igemm_128x64x32, igemm_128x64x1_tn) {
+//     typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
+//     cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<32, 64, 128> > IgemmTraits;
+//     run_gemm<IgemmTraits>(128, 64, 1);
+// }
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
 TEST(Igemm_128x64x32, igemm_128x64x4_tn) {
   typedef cutlass::gemm::IgemmTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
diff --git a/tools/test/unit/gemm/igemm_32x32x128.cu b/tools/test/unit/gemm/igemm_32x32x128.cu
index 8af1f4e331..02434572f8 100644
--- a/tools/test/unit/gemm/igemm_32x32x128.cu
+++ b/tools/test/unit/gemm/igemm_32x32x128.cu
@@ -22,10 +22,10 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/igemm_traits.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/igemm_traits.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/gemm.h b/tools/test/unit/gemm/integer_gemm.h
similarity index 53%
rename from tools/test/unit/gemm/gemm.h
rename to tools/test/unit/gemm/integer_gemm.h
index 78cdbd11b7..18925336b6 100644
--- a/tools/test/unit/gemm/gemm.h
+++ b/tools/test/unit/gemm/integer_gemm.h
@@ -23,57 +23,54 @@
 *
 **************************************************************************************************/
 
-#include <cutlass/cutlass.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
+#include "cutlass/cutlass.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
+/// Helper Function to get the number of elements in the scalar.
+template <typename T>
+unsigned getElementsPerScalar() { return 1; }
+
+template<>
+unsigned getElementsPerScalar<cutlass::Vector<cutlass::int4_t, 8> >() { return 8; }
+
+template<>
+unsigned getElementsPerScalar<cutlass::Vector<cutlass::uint4_t, 8> >() { return 8; }
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Function to run GEMM for integer operands
 template <typename GemmTraits_>
-static void run_gemm(
-    int m,
-    int n,
-    int k,
-    int lda,
-    int ldb,
-    int ldc,
-    typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type alpha =
-        typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type(1),
-    typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type beta =
-        typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type(0)) {
+static void run_integer_gemm(int m, int n, int k, int alpha = 1, int beta = 1) {
   typedef cutlass::gemm::Gemm<GemmTraits_> Gemm;
   typename Gemm::Params params;
 
-  test::GemmTestbed<
-      typename test::GemmTestbedTraits<
-          typename GemmTraits_::GemmConfig::ScalarA>::host_type,  // AType
-      typename test::GemmTestbedTraits<
-          typename GemmTraits_::GemmConfig::ScalarB>::host_type,  // BType
-      typename test::GemmTestbedTraits<
-          typename GemmTraits_::Epilogue::ScalarC>::host_type,  // CType
-      typename test::GemmTestbedTraits<
-          typename GemmTraits_::Epilogue::Accumulators::Element>::host_type,  // Accumulator
-      typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type  // Scalar
-      >
+  unsigned const elementsPerScalar =
+      getElementsPerScalar<typename GemmTraits_::GemmConfig::ScalarA>();
+
+  test::GemmTestbed<typename GemmTraits_::GemmConfig::ScalarA, // AType
+                    typename GemmTraits_::GemmConfig::ScalarB, // BType
+                    int, // CType
+                    int, // Accumulator
+                    int // Scalar
+                    >
       testbed(m,
               n,
-              k,
-              lda,
-              ldb,
-              ldc,
-              cutlass::convert(GemmTraits_::kLayoutA),
-              cutlass::convert(GemmTraits_::kLayoutB),
+              k / elementsPerScalar,
+              test::convert(GemmTraits_::kLayoutA),
+              test::convert(GemmTraits_::kLayoutB),
               alpha,
               beta);
 
-  testbed.initialize();
+  // Initializes the input vectors for computation FIXME
+  testbed.initialize_integer();
 
-  if (testbed.has_cublas_support()) {
-    EXPECT_TRUE(testbed.verify_host_with_cublas());
-  }
+  // Compute the reference result on the host (CPU)
+  testbed.compute_host();
 
   params.initialize(testbed.M(),
                     testbed.N(),
-                    testbed.K(),
+                    testbed.K() * elementsPerScalar,
                     testbed.alpha,
                     testbed.ptr_A(),
                     testbed.lda(),
@@ -91,28 +88,8 @@ static void run_gemm(
   ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
                                  << "\n";
 
-  if (testbed.has_cublas_support()) {
-    ASSERT_TRUE(testbed.verify_with_cublas());
-  } else {
-    ASSERT_TRUE(testbed.verify_with_host());
-  }
-}
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
+  testbed.computed.sync_host();
 
-template <typename GemmTraits_>
-static void run_gemm(
-    int m,
-    int n,
-    int k,
-    typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type alpha =
-        typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type(1),
-    typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type beta =
-        typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type(0)) {
-  int lda = GemmTraits_::kLayoutA == cutlass::MatrixLayout::kColumnMajor ? m : k;
-  int ldb = GemmTraits_::kLayoutB == cutlass::MatrixLayout::kColumnMajor ? k : n;
-
-  run_gemm<GemmTraits_>(m, n, k, lda, ldb, m, alpha, beta);
+  // Check the results
+  ASSERT_TRUE(testbed.computed.bit_equals(testbed.ref_host));
 }
-
-////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/test/unit/gemm/run_gemm.h b/tools/test/unit/gemm/run_gemm.h
new file mode 100644
index 0000000000..debdca5ef4
--- /dev/null
+++ b/tools/test/unit/gemm/run_gemm.h
@@ -0,0 +1,244 @@
+/***************************************************************************************************
+* Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
+*
+* Redistribution and use in source and binary forms, with or without modification, are permitted
+* provided that the following conditions are met:
+*     * Redistributions of source code must retain the above copyright notice, this list of
+*       conditions and the following disclaimer.
+*     * Redistributions in binary form must reproduce the above copyright notice, this list of
+*       conditions and the following disclaimer in the documentation and/or other materials
+*       provided with the distribution.
+*     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+*       to endorse or promote products derived from this software without specific prior written
+*       permission.
+*
+* THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+* IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+* FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+* FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+* BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+* OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+* STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+* OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*
+**************************************************************************************************/
+
+#pragma once
+
+#include "cutlass/cutlass.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+template <typename GemmTraits_>
+static void run_gemm(
+    int m,
+    int n,
+    int k,
+    int lda,
+    int ldb,
+    int ldc,
+    typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type alpha =
+        typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type(1),
+    typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type beta =
+        typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type(0)) {
+
+  typedef typename GemmTraits_::KernelClass Gemm;
+  typename Gemm::Params params;
+
+  test::GemmTestbed<
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::GemmConfig::ScalarA>::host_type,  // AType
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::GemmConfig::ScalarB>::host_type,  // BType
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::Epilogue::ScalarC>::host_type,  // CType
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::Epilogue::Accumulators::Element>::host_type,  // Accumulator
+      typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type  // Scalar
+      >
+      testbed(m,
+              n,
+              k,
+              lda,
+              ldb,
+              ldc,
+              test::convert(GemmTraits_::kLayoutA),
+              test::convert(GemmTraits_::kLayoutB),
+              alpha,
+              beta);
+
+  testbed.initialize();
+
+  if (testbed.has_cublas_support()) {
+    EXPECT_TRUE(testbed.verify_host_with_cublas());
+  }
+
+  params.initialize(testbed.M(),
+                    testbed.N(),
+                    testbed.K(),
+                    testbed.alpha,
+                    testbed.ptr_A(),
+                    testbed.lda(),
+                    testbed.ptr_B(),
+                    testbed.ldb(),
+                    testbed.beta,
+                    testbed.ptr_C_initial(),
+                    testbed.ldc(),
+                    testbed.ptr_computed(),
+                    testbed.ldc());
+
+  Gemm::launch(params);
+
+  cudaError_t result = cudaDeviceSynchronize();
+  ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
+                                 << "\n";
+
+  if (testbed.has_cublas_support()) {
+    ASSERT_TRUE(testbed.verify_with_cublas());
+  } else {
+    ASSERT_TRUE(testbed.verify_with_host());
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename GemmTraits_>
+static void run_gemm(
+    int m,
+    int n,
+    int k,
+    typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type alpha =
+        typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type(1.0f),
+    typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type beta =
+        typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type(0.0f)) {
+  //typedef cutlass::gemm::Gemm<GemmTraits_> Gemm;
+  typedef typename GemmTraits_::KernelClass Gemm;
+  typename Gemm::Params params;
+
+  typedef test::GemmTestbed<
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::GemmConfig::ScalarA>::host_type,  // AType
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::GemmConfig::ScalarB>::host_type,  // BType
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::Epilogue::ScalarC>::host_type,  // CType
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::Epilogue::Accumulators::Element>::host_type,  // Accumulator
+      typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type  // Scalar
+      > GemmTestbed;
+
+  GemmTestbed testbed(m,
+              n,
+              k,
+              test::convert(GemmTraits_::kLayoutA),
+              test::convert(GemmTraits_::kLayoutB),
+              alpha,
+              beta);
+
+  testbed.initialize();
+
+  if (testbed.has_cublas_support()) {
+    EXPECT_TRUE(testbed.verify_host_with_cublas());
+  }
+
+  params.initialize(testbed.M(),
+                    testbed.N(),
+                    testbed.K(),
+                    testbed.alpha,
+                    testbed.ptr_A(),
+                    testbed.lda(),
+                    testbed.ptr_B(),
+                    testbed.ldb(),
+                    testbed.beta,
+                    testbed.ptr_C_initial(),
+                    testbed.ldc(),
+                    testbed.ptr_computed(),
+                    testbed.ldc());
+
+  Gemm::launch(params);
+
+  cudaError_t result = cudaDeviceSynchronize();
+  ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
+                                 << "\n";
+
+  if (testbed.has_cublas_support()) {
+    ASSERT_TRUE(testbed.verify_with_cublas());
+  } else {
+    ASSERT_TRUE(testbed.verify_with_host());
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename GemmTraits_>
+static void run_batched_strided_gemm(
+    int m,
+    int n,
+    int k,
+    int batch_count,
+    typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type alpha =
+        typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type(1),
+    typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type beta =
+        typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type(0)) {
+  //typedef cutlass::gemm::Gemm<GemmTraits_> Gemm;
+  typedef typename GemmTraits_::KernelClass Gemm;
+  typename Gemm::Params params;
+  test::GemmTestbed<
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::GemmConfig::ScalarA>::host_type,  // AType
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::GemmConfig::ScalarB>::host_type,  // BType
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::Epilogue::ScalarC>::host_type,  // CType
+      typename test::GemmTestbedTraits<
+          typename GemmTraits_::Epilogue::Accumulators::Element>::host_type,  // Accumulator
+      typename test::GemmTestbedTraits<typename GemmTraits_::Epilogue::Scalar>::host_type  // Scalar
+      >
+      testbed(m,
+              n,
+              k,
+              batch_count,
+              test::convert(GemmTraits_::kLayoutA),
+              test::convert(GemmTraits_::kLayoutB),
+              alpha,
+              beta);
+
+  testbed.initialize();
+
+  // host support is not implemented for strided batched gemm
+  // if (testbed.has_cublas_support()) {
+  //  EXPECT_TRUE(testbed.verify_host_with_cublas());
+  //}
+
+  params.initialize(testbed.M(),
+                    testbed.N(),
+                    testbed.K(),
+                    testbed.alpha,
+                    testbed.ptr_A(),
+                    testbed.lda(),
+                    testbed.get_batch_stride_A(),
+                    testbed.ptr_B(),
+                    testbed.ldb(),
+                    testbed.get_batch_stride_B(),
+                    testbed.beta,
+                    testbed.ptr_C_initial(),
+                    testbed.ldc(),
+                    testbed.get_batch_stride_C(),
+                    testbed.ptr_computed(),
+                    testbed.ldc(),
+                    testbed.get_batch_stride_C(),
+                    testbed.get_batch_count());
+
+  Gemm::launch(params);
+
+  cudaError_t result = cudaDeviceSynchronize();
+  ASSERT_EQ(result, cudaSuccess) << "\nCUDA kernel launch error: " << cudaGetErrorString(result)
+                                 << "\n";
+
+  if (testbed.has_cublas_support()) {
+    ASSERT_TRUE(testbed.verify_with_cublas());
+  } else {
+    // ASSERT_TRUE(testbed.verify_with_host());
+    ASSERT_TRUE(false) << "host support is not implemented for strided batched gemm" << std::endl;
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/test/unit/gemm/sgemm_128x128x16.cu b/tools/test/unit/gemm/sgemm_128x128x16.cu
index 234a2d9764..40e49980d3 100644
--- a/tools/test/unit/gemm/sgemm_128x128x16.cu
+++ b/tools/test/unit/gemm/sgemm_128x128x16.cu
@@ -22,16 +22,16 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x128x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 128, 16);
@@ -40,7 +40,7 @@ TEST(Sgemm_128x128x16, sgemm_128x128x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x81x1_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 81, 1);
@@ -49,7 +49,7 @@ TEST(Sgemm_128x128x16, sgemm_128x81x1_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x112x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 112, 16);
@@ -58,7 +58,7 @@ TEST(Sgemm_128x128x16, sgemm_128x112x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x112x17_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 112, 17);
@@ -67,7 +67,7 @@ TEST(Sgemm_128x128x16, sgemm_128x112x17_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x73x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 73, 16);
@@ -76,7 +76,7 @@ TEST(Sgemm_128x128x16, sgemm_128x73x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_97x112x64_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(97, 112, 64);
@@ -85,7 +85,7 @@ TEST(Sgemm_128x128x16, sgemm_97x112x64_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_256x112x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 112, 16);
@@ -94,7 +94,7 @@ TEST(Sgemm_128x128x16, sgemm_256x112x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x240x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 240, 16);
@@ -103,7 +103,7 @@ TEST(Sgemm_128x128x16, sgemm_128x240x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_256x240x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 240, 16);
@@ -112,7 +112,7 @@ TEST(Sgemm_128x128x16, sgemm_256x240x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x128x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 128, 16);
@@ -121,7 +121,7 @@ TEST(Sgemm_128x128x16, sgemm_128x128x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x112x1_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -131,7 +131,7 @@ TEST(Sgemm_128x128x16, sgemm_128x112x1_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_79x112x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -141,7 +141,7 @@ TEST(Sgemm_128x128x16, sgemm_79x112x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x81x17_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -151,7 +151,7 @@ TEST(Sgemm_128x128x16, sgemm_128x81x17_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x112x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -161,7 +161,7 @@ TEST(Sgemm_128x128x16, sgemm_128x112x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x73x64_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -171,7 +171,7 @@ TEST(Sgemm_128x128x16, sgemm_128x73x64_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_256x112x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -181,7 +181,7 @@ TEST(Sgemm_128x128x16, sgemm_256x112x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x256x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -191,7 +191,7 @@ TEST(Sgemm_128x128x16, sgemm_128x256x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_256x256x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -201,7 +201,7 @@ TEST(Sgemm_128x128x16, sgemm_256x256x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x128x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 128, 16);
@@ -210,7 +210,7 @@ TEST(Sgemm_128x128x16, sgemm_128x128x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x128x1_tn) {
-    typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
     cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<16, 128, 128> > SgemmTraits;
     run_gemm<SgemmTraits>(128, 128, 1);
 }
@@ -218,7 +218,7 @@ TEST(Sgemm_128x128x16, sgemm_128x128x1_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_127x112x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -228,7 +228,7 @@ TEST(Sgemm_128x128x16, sgemm_127x112x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_21x112x17_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -238,7 +238,7 @@ TEST(Sgemm_128x128x16, sgemm_21x112x17_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x73x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -248,7 +248,7 @@ TEST(Sgemm_128x128x16, sgemm_128x73x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x81x64_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -258,7 +258,7 @@ TEST(Sgemm_128x128x16, sgemm_128x81x64_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_256x112x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -268,7 +268,7 @@ TEST(Sgemm_128x128x16, sgemm_256x112x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_47x256x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -278,7 +278,7 @@ TEST(Sgemm_128x128x16, sgemm_47x256x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_211x256x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 128, 128> >
       SgemmTraits;
@@ -288,7 +288,7 @@ TEST(Sgemm_128x128x16, sgemm_211x256x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x128x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 128, 16);
@@ -297,7 +297,7 @@ TEST(Sgemm_128x128x16, sgemm_128x128x16_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x128x1_tt) {
-    typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
     cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> > SgemmTraits;
     run_gemm<SgemmTraits>(128, 128, 1);
 }
@@ -305,7 +305,7 @@ TEST(Sgemm_128x128x16, sgemm_128x128x1_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_109x112x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(109, 112, 16);
@@ -314,7 +314,7 @@ TEST(Sgemm_128x128x16, sgemm_109x112x16_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x112x17_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 112, 17);
@@ -323,7 +323,7 @@ TEST(Sgemm_128x128x16, sgemm_128x112x17_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x112x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 112, 16);
@@ -332,7 +332,7 @@ TEST(Sgemm_128x128x16, sgemm_128x112x16_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_123x112x64_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(123, 112, 64);
@@ -341,7 +341,7 @@ TEST(Sgemm_128x128x16, sgemm_123x112x64_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_256x112x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 112, 16);
@@ -350,7 +350,7 @@ TEST(Sgemm_128x128x16, sgemm_256x112x16_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x256x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 256, 16);
@@ -359,7 +359,7 @@ TEST(Sgemm_128x128x16, sgemm_128x256x16_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_256x256x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 256, 16);
@@ -369,13 +369,12 @@ TEST(Sgemm_128x128x16, sgemm_256x256x16_tt) {
 
 TEST(Sgemm_128x128x16, sgemm_120x112x64_ldg4_nt) {
   // Load 4 floats per LDG for A/B.
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<16, 128, 128>,
                                      cutlass::gemm::LinearScaling<float>,
                                      cutlass::Shape<8, 8, 8>,
-                                     4, 
-                                     4>
+                                     4, 4>
       SgemmTraits;
   run_gemm<SgemmTraits>(120, 112, 64);
 }
@@ -383,7 +382,7 @@ TEST(Sgemm_128x128x16, sgemm_120x112x64_ldg4_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x128x16_alpha2_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 128, 16, 2.f, 0.f);
@@ -392,7 +391,7 @@ TEST(Sgemm_128x128x16, sgemm_128x128x16_alpha2_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x112x16_beta1_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 112, 16, 1.f, 1.f);
@@ -401,7 +400,7 @@ TEST(Sgemm_128x128x16, sgemm_128x112x16_beta1_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x128x16, sgemm_128x112x16_alpha2_beta1_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 112, 16, 2.f, 1.f);
diff --git a/tools/test/unit/gemm/sgemm_128x128x8.cu b/tools/test/unit/gemm/sgemm_128x128x8.cu
index 51f91217b5..a9931f3404 100644
--- a/tools/test/unit/gemm/sgemm_128x128x8.cu
+++ b/tools/test/unit/gemm/sgemm_128x128x8.cu
@@ -22,11 +22,20 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+ ////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_128x128x8, sgemm_1024x512x8_nt) {
+  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor, cutlass::Shape<8, 128, 128> >
+    SgemmTraits;
+  run_gemm<SgemmTraits>(1024, 512, 8);
+}
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/sgemm_128x32x16.cu b/tools/test/unit/gemm/sgemm_128x32x16.cu
index 6b5d802101..2886eef5c1 100644
--- a/tools/test/unit/gemm/sgemm_128x32x16.cu
+++ b/tools/test/unit/gemm/sgemm_128x32x16.cu
@@ -22,16 +22,16 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x1_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 32, 1);
@@ -40,7 +40,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x1_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 32, 16);
@@ -49,7 +49,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x17_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 32, 17);
@@ -58,7 +58,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x17_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x32_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 32, 32);
@@ -67,7 +67,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x32_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_256x32x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 32, 16);
@@ -76,7 +76,7 @@ TEST(Sgemm_128x32x16, sgemm_256x32x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x64x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 64, 16);
@@ -85,7 +85,7 @@ TEST(Sgemm_128x32x16, sgemm_128x64x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_256x64x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 64, 16);
@@ -94,7 +94,7 @@ TEST(Sgemm_128x32x16, sgemm_256x64x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x1_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -104,7 +104,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x1_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -114,7 +114,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x17_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -124,7 +124,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x17_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x32_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -134,7 +134,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x32_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_256x32x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -144,7 +144,7 @@ TEST(Sgemm_128x32x16, sgemm_256x32x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x64x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -154,7 +154,7 @@ TEST(Sgemm_128x32x16, sgemm_128x64x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_256x64x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -164,7 +164,7 @@ TEST(Sgemm_128x32x16, sgemm_256x64x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x1_tn) {
-    typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
     cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<16, 128, 128> > SgemmTraits;
     run_gemm<SgemmTraits>(128, 128, 1);
 }
@@ -172,7 +172,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x1_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -182,7 +182,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x17_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -192,7 +192,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x17_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x32_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -202,7 +202,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x32_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_256x32x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -212,7 +212,7 @@ TEST(Sgemm_128x32x16, sgemm_256x32x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x64x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -222,7 +222,7 @@ TEST(Sgemm_128x32x16, sgemm_128x64x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_256x64x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 32, 128> >
       SgemmTraits;
@@ -232,7 +232,7 @@ TEST(Sgemm_128x32x16, sgemm_256x64x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x1_tt) {
-    typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
     cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> > SgemmTraits;
     run_gemm<SgemmTraits>(128, 128, 1);
 }
@@ -240,7 +240,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x1_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 32, 16);
@@ -249,7 +249,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x16_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x17_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 32, 17);
@@ -258,7 +258,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x17_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x32x32_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 32, 32);
@@ -267,7 +267,7 @@ TEST(Sgemm_128x32x16, sgemm_128x32x32_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_256x32x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 32, 16);
@@ -276,7 +276,7 @@ TEST(Sgemm_128x32x16, sgemm_256x32x16_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_128x64x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 64, 16);
@@ -285,7 +285,7 @@ TEST(Sgemm_128x32x16, sgemm_128x64x16_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x32x16, sgemm_256x64x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 32, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 64, 16);
diff --git a/tools/test/unit/gemm/sgemm_128x32x8.cu b/tools/test/unit/gemm/sgemm_128x32x8.cu
index 9f4c07154d..5e7a9f75b5 100644
--- a/tools/test/unit/gemm/sgemm_128x32x8.cu
+++ b/tools/test/unit/gemm/sgemm_128x32x8.cu
@@ -22,11 +22,11 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/sgemm_128x64x16.cu b/tools/test/unit/gemm/sgemm_128x64x16.cu
index d49f7b19ab..5852a6b178 100644
--- a/tools/test/unit/gemm/sgemm_128x64x16.cu
+++ b/tools/test/unit/gemm/sgemm_128x64x16.cu
@@ -22,16 +22,16 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x1_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 64, 1);
@@ -40,7 +40,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x1_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 64, 16);
@@ -49,7 +49,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x17_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 64, 17);
@@ -58,7 +58,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x17_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x64_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 64, 64);
@@ -67,7 +67,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x64_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_256x64x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 64, 16);
@@ -76,7 +76,7 @@ TEST(Sgemm_128x64x16, sgemm_256x64x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x128x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 128, 16);
@@ -85,7 +85,7 @@ TEST(Sgemm_128x64x16, sgemm_128x128x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_256x128x16_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 128, 16);
@@ -94,7 +94,7 @@ TEST(Sgemm_128x64x16, sgemm_256x128x16_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x1_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -104,7 +104,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x1_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x8_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -114,7 +114,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x8_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x17_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -124,7 +124,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x17_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x64_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -134,7 +134,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x64_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_256x64x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -144,7 +144,7 @@ TEST(Sgemm_128x64x16, sgemm_256x64x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x128x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -154,7 +154,7 @@ TEST(Sgemm_128x64x16, sgemm_128x128x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_256x128x16_nn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -164,7 +164,7 @@ TEST(Sgemm_128x64x16, sgemm_256x128x16_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x1_tn) {
-    typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
     cutlass::MatrixLayout::kColumnMajor, cutlass::Shape<16, 128, 128> > SgemmTraits;
     run_gemm<SgemmTraits>(128, 128, 1);
 }
@@ -172,7 +172,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x1_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -182,7 +182,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x17_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -192,7 +192,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x17_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x64_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -202,7 +202,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x64_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_256x64x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -212,7 +212,7 @@ TEST(Sgemm_128x64x16, sgemm_256x64x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x128x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -222,7 +222,7 @@ TEST(Sgemm_128x64x16, sgemm_128x128x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_256x128x16_tn) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::Shape<16, 64, 128> >
       SgemmTraits;
@@ -232,7 +232,7 @@ TEST(Sgemm_128x64x16, sgemm_256x128x16_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x1_tt) {
-    typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+    typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
     cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 128, 128> > SgemmTraits;
     run_gemm<SgemmTraits>(128, 128, 1);
 }
@@ -240,7 +240,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x1_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 64, 16);
@@ -249,7 +249,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x16_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x17_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 64, 17);
@@ -258,7 +258,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x17_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x64x64_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 64, 64);
@@ -267,7 +267,7 @@ TEST(Sgemm_128x64x16, sgemm_128x64x64_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_128x128x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 128, 16);
@@ -276,7 +276,7 @@ TEST(Sgemm_128x64x16, sgemm_128x128x16_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_128x64x16, sgemm_256x128x16_tt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kRowMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kRowMajor,
                                      cutlass::MatrixLayout::kRowMajor, cutlass::Shape<16, 64, 128> >
       SgemmTraits;
   run_gemm<SgemmTraits>(256, 128, 16);
diff --git a/tools/test/unit/gemm/sgemm_128x64x8.cu b/tools/test/unit/gemm/sgemm_128x64x8.cu
index fc8185dbb0..e07c38db34 100644
--- a/tools/test/unit/gemm/sgemm_128x64x8.cu
+++ b/tools/test/unit/gemm/sgemm_128x64x8.cu
@@ -22,11 +22,11 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
@@ -348,7 +348,7 @@ TEST(Sgemm_128x64x8, sgemm_128x64x64_4x8_accumulators_nt) {
                                      cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<8, 64, 128>,
                                      cutlass::gemm::LinearScaling<float>,
-                                     cutlass::Shape<8, 8, 4> >
+                                     cutlass::Shape<8, 8, 8> >
       SgemmTraits;
   run_gemm<SgemmTraits>(128, 64, 64);
 }
diff --git a/tools/test/unit/gemm/sgemm_64x128x16.cu b/tools/test/unit/gemm/sgemm_64x128x16.cu
index 5fdeb1f6f7..c4afa3414c 100644
--- a/tools/test/unit/gemm/sgemm_64x128x16.cu
+++ b/tools/test/unit/gemm/sgemm_64x128x16.cu
@@ -22,16 +22,16 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(Sgemm_64x128x16, sgemm_64x128x64_4x8_accumulators_nt) {
-  typedef cutlass::gemm::SgemmTraits<cutlass::MatrixLayout::kColumnMajor,
+  typedef cutlass::gemm::SgemmLBTraits<cutlass::MatrixLayout::kColumnMajor,
                                      cutlass::MatrixLayout::kRowMajor,
                                      cutlass::Shape<16, 128, 64>,
                                      cutlass::gemm::LinearScaling<float>,
diff --git a/tools/test/unit/gemm/sgemm_64x128x8.cu b/tools/test/unit/gemm/sgemm_64x128x8.cu
index 6d3448e0d0..e87abd2fba 100644
--- a/tools/test/unit/gemm/sgemm_64x128x8.cu
+++ b/tools/test/unit/gemm/sgemm_64x128x8.cu
@@ -22,11 +22,11 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/sgemm_64x32x16.cu b/tools/test/unit/gemm/sgemm_64x32x16.cu
index e0f7841a2f..0cb0f2b760 100644
--- a/tools/test/unit/gemm/sgemm_64x32x16.cu
+++ b/tools/test/unit/gemm/sgemm_64x32x16.cu
@@ -22,11 +22,11 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/sgemm_64x32x8.cu b/tools/test/unit/gemm/sgemm_64x32x8.cu
index e1ec1aebfb..3e8c60aaf8 100644
--- a/tools/test/unit/gemm/sgemm_64x32x8.cu
+++ b/tools/test/unit/gemm/sgemm_64x32x8.cu
@@ -22,11 +22,11 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/sgemm_64x64x16.cu b/tools/test/unit/gemm/sgemm_64x64x16.cu
index 3dd79e607a..45619cef81 100644
--- a/tools/test/unit/gemm/sgemm_64x64x16.cu
+++ b/tools/test/unit/gemm/sgemm_64x64x16.cu
@@ -22,11 +22,11 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/sgemm_64x64x8.cu b/tools/test/unit/gemm/sgemm_64x64x8.cu
index 5c373974ff..7b02c46db5 100644
--- a/tools/test/unit/gemm/sgemm_64x64x8.cu
+++ b/tools/test/unit/gemm/sgemm_64x64x8.cu
@@ -22,11 +22,11 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/sgemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
diff --git a/tools/test/unit/gemm/sgemm_threadblock_swizzle_nn.cu b/tools/test/unit/gemm/sgemm_threadblock_swizzle_nn.cu
new file mode 100644
index 0000000000..fab5906608
--- /dev/null
+++ b/tools/test/unit/gemm/sgemm_threadblock_swizzle_nn.cu
@@ -0,0 +1,1481 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+#pragma warning( disable : 4503)
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Row Major Swizzle
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_nn_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+      cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+      1/*kScalarsPerLdgA*/,
+      1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+      SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_nn_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_nn_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Row Major Swizzle Boustrophedon
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_nn_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_nn_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_nn_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_RowMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Column Major Swizzle
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_nn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x128x16_nn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_nn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_nn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Column Major Swizzle
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_nn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x128x16_nn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_nn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_nn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nn_ColumnMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+
diff --git a/tools/test/unit/gemm/sgemm_threadblock_swizzle_nt.cu b/tools/test/unit/gemm/sgemm_threadblock_swizzle_nt.cu
new file mode 100644
index 0000000000..c436cdf539
--- /dev/null
+++ b/tools/test/unit/gemm/sgemm_threadblock_swizzle_nt.cu
@@ -0,0 +1,1481 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+#pragma warning( disable : 4503)
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Row Major Swizzle
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_nt_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+      cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+      1/*kScalarsPerLdgA*/,
+      1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+      SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_nt_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_nt_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Row Major Swizzle Boustrophedon
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_nt_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_nt_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_nt_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_RowMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Column Major Swizzle
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_nt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x128x16_nt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_nt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_nt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Column Major Swizzle
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_nt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x128x16_nt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_nt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_nt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_nt_ColumnMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+
diff --git a/tools/test/unit/gemm/sgemm_threadblock_swizzle_tn.cu b/tools/test/unit/gemm/sgemm_threadblock_swizzle_tn.cu
new file mode 100644
index 0000000000..b8b9f7fdc8
--- /dev/null
+++ b/tools/test/unit/gemm/sgemm_threadblock_swizzle_tn.cu
@@ -0,0 +1,1481 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+#pragma warning( disable : 4503)
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Row Major Swizzle
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_tn_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+      cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+      1/*kScalarsPerLdgA*/,
+      1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+      SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_tn_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_tn_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Row Major Swizzle Boustrophedon
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_tn_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_tn_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_tn_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_RowMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Column Major Swizzle
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_tn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x128x16_tn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_tn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_tn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Column Major Swizzle
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_tn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x128x16_tn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_tn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_tn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tn_ColumnMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kColumnMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+
diff --git a/tools/test/unit/gemm/sgemm_threadblock_swizzle_tt.cu b/tools/test/unit/gemm/sgemm_threadblock_swizzle_tt.cu
new file mode 100644
index 0000000000..e1ceae68f7
--- /dev/null
+++ b/tools/test/unit/gemm/sgemm_threadblock_swizzle_tt.cu
@@ -0,0 +1,1481 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/sgemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
+
+#pragma warning( disable : 4503)
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Row Major Swizzle
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_tt_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+      cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+      1/*kScalarsPerLdgA*/,
+      1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+      SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_tt_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_tt_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Row Major Swizzle Boustrophedon
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_tt_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_tt_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_tt_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_RowMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::RowMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Column Major Swizzle
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_tt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x128x16_tt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_tt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_tt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle_groupCol2) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle_groupCol3) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::OneDirection>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//Column Major Swizzle
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x128x16_tt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x128x16_tt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 128, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_512x256x16_swizzle, sgemm_128x64x16_tt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(512, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_516x260x16_swizzle, sgemm_128x64x16_tt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 64, 128>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(516, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<1, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle_groupCol2_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<2, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1030, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1024x256x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 256, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Sgemm_1030x260x16_swizzle, sgemm_64x32x16_tt_ColumnMajorSwizzle_groupCol3_Boustrophedon) {
+  typedef int index;
+  typedef cutlass::gemm::SgemmConfig<cutlass::Shape<16, 32, 64>/*OutputTile*/,
+    cutlass::Shape<8, 8, 8>/*ThreadGemmShape*/,
+    1/*kScalarsPerLdgA*/,
+    1/*kScalarsPerLdgB*/>
+    thisGemmConfig;
+  typedef cutlass::gemm::GemmTileTraitsHelperA<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperA;
+  typedef cutlass::gemm::GemmTileTraitsHelperB<cutlass::MatrixLayout::kRowMajor, thisGemmConfig>
+    GemmTileTraitsHelperB;
+  typedef cutlass::gemm::SimplifiedGemmTraitsHelper<GemmTileTraitsHelperA, GemmTileTraitsHelperB, index>
+    Helper;
+  typedef cutlass::gemm::LinearScaling<float>
+    EpilogueFunctor;
+  typedef cutlass::gemm::SimplifiedGemmEpilogueTraits<thisGemmConfig, EpilogueFunctor, index>
+    GemmEpilogueTraits;
+  typedef cutlass::gemm::ClearAccumulators<typename thisGemmConfig::Accumulators::Element>
+    ClearAccumulators;
+
+  typedef cutlass::gemm::GemmTraits<
+    thisGemmConfig,
+    typename Helper::GlobalLoadStreamA,
+    typename Helper::GlobalLoadStreamB,
+    typename Helper::SharedLoadStreamA,
+    typename Helper::SharedLoadStreamB,
+    typename cutlass::gemm::GemmEpilogue<GemmEpilogueTraits>,
+    typename cutlass::gemm::ColumnMajorBlockSwizzle<3, cutlass::gemm::swizzleDirection::Boustrophedon>,
+    index,
+    ClearAccumulators
+  >
+    SgemmTraits;
+  //
+  run_gemm<SgemmTraits>(1024, 260, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+
diff --git a/tools/test/unit/gemm/warp_multiply_add_nvcuda.cu b/tools/test/unit/gemm/warp_multiply_add_nvcuda.cu
new file mode 100644
index 0000000000..7214e372e5
--- /dev/null
+++ b/tools/test/unit/gemm/warp_multiply_add_nvcuda.cu
@@ -0,0 +1,276 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+// Guard conditions around the entire file.
+#if !defined(__CUDA_ARCH__) || __CUDA_ARCH__ >= 700
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#include "cutlass_unit_tests.h"
+#include "tools/util/half.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "cutlass/gemm/warp_multiply_add_nvcuda.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// Tests for Warp-level Multiply Add operation using NvCuda API
+//
+
+namespace test {
+
+///
+template <typename WarpMultiplyAdd>
+__global__ void warp_multiply_add(
+    typename WarpMultiplyAdd::ScalarA const *A,
+    int lda,
+    typename WarpMultiplyAdd::ScalarB const *B,
+    int ldb,
+    typename WarpMultiplyAdd::ScalarC *C, int ldc) {
+
+    typename WarpMultiplyAdd::LoadIteratorA iteratorA(A, lda);
+    typename WarpMultiplyAdd::LoadIteratorB iteratorB(B, ldb);
+    typename WarpMultiplyAdd::StoreIteratorC iteratorC(C, ldc);
+
+    typename WarpMultiplyAdd::FragmentA fragmentA;
+    typename WarpMultiplyAdd::FragmentB fragmentB;
+    typename WarpMultiplyAdd::FragmentC fragmentC;
+
+    iteratorA.load(fragmentA);
+    iteratorB.load(fragmentB);
+
+    fragmentC.clear();
+
+    WarpMultiplyAdd::multiply_add(fragmentC, fragmentA, fragmentB, fragmentC);
+
+    iteratorC.store(fragmentC);
+}
+
+/// Test environment for Warp Multiply Add operation
+template <
+    cutlass::MatrixLayout::Kind LayoutA,
+    cutlass::MatrixLayout::Kind LayoutB,
+    cutlass::MatrixLayout::Kind LayoutC,
+    typename ScalarC,
+    typename WarpTile,
+    typename WmmaTile
+>
+struct TestWarpMultiplyAdd {
+
+    typedef cutlass::gemm::WarpMultiplyAddNvcuda<
+        LayoutA,
+        LayoutB,
+        LayoutC,
+        half,
+        half,
+        ScalarC,
+        WarpTile,
+        cutlass::Shape<1, 1, 1, 1>,
+        WmmaTile
+    > WarpMultiplyAdd;
+
+    /// Testbed type
+    typedef test::GemmTestbed<
+        cutlass::half_t,
+        cutlass::half_t,
+        ScalarC,
+        ScalarC,
+        ScalarC
+    > GemmTestbed;
+
+    //
+    // Data members
+    //
+
+    GemmTestbed testbed;
+
+    //
+    // Methods
+    //
+
+    TestWarpMultiplyAdd(): testbed(
+        WarpTile::kW,   // M
+        WarpTile::kH,   // N
+        WarpTile::kD,   // K
+        cutlass::convert(LayoutA),
+        cutlass::convert(LayoutB),
+        1,
+        0,
+        CUBLAS_GEMM_DEFAULT_TENSOR_OP,
+        cutlass::convert(LayoutC))
+    {
+
+    }
+
+    /// Run
+    void run() {
+        testbed.initialize();
+
+        // launch
+        warp_multiply_add<WarpMultiplyAdd><<<
+            dim3(1,1,1), dim3(32, 1, 1)
+        >>>(
+            testbed.ptr_A(),
+            testbed.lda(),
+            testbed.ptr_B(),
+            testbed.ldb(),
+            testbed.ptr_computed(),
+            testbed.ldc()
+        );
+
+        // verify
+        ASSERT_TRUE(testbed.verify_with_host());
+    }
+};
+
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <
+    typename ScalarC,
+    typename WarpTile,
+    typename WmmaTile
+>
+struct TestWarpMultiplyAddForAllLayouts {
+
+    void run() {
+
+        test::TestWarpMultiplyAdd<
+            cutlass::MatrixLayout::kColumnMajor,
+            cutlass::MatrixLayout::kRowMajor,
+            cutlass::MatrixLayout::kColumnMajor,
+            ScalarC,
+            WarpTile,
+            WmmaTile
+        >().run();
+
+        test::TestWarpMultiplyAdd<
+            cutlass::MatrixLayout::kRowMajor,
+            cutlass::MatrixLayout::kRowMajor,
+            cutlass::MatrixLayout::kColumnMajor,
+            ScalarC,
+            WarpTile,
+            WmmaTile
+        >().run();
+
+        test::TestWarpMultiplyAdd<
+            cutlass::MatrixLayout::kRowMajor,
+            cutlass::MatrixLayout::kColumnMajor,
+            cutlass::MatrixLayout::kColumnMajor,
+            ScalarC,
+            WarpTile,
+            WmmaTile
+        >().run();
+
+        test::TestWarpMultiplyAdd<
+            cutlass::MatrixLayout::kColumnMajor,
+            cutlass::MatrixLayout::kColumnMajor,
+            cutlass::MatrixLayout::kColumnMajor,
+            ScalarC,
+            WarpTile,
+            WmmaTile
+        >().run();
+
+
+        test::TestWarpMultiplyAdd<
+            cutlass::MatrixLayout::kColumnMajor,
+            cutlass::MatrixLayout::kRowMajor,
+            cutlass::MatrixLayout::kRowMajor,
+            ScalarC,
+            WarpTile,
+            WmmaTile
+        >().run();
+
+        test::TestWarpMultiplyAdd<
+            cutlass::MatrixLayout::kRowMajor,
+            cutlass::MatrixLayout::kRowMajor,
+            cutlass::MatrixLayout::kRowMajor,
+            ScalarC,
+            WarpTile,
+            WmmaTile
+        >().run();
+
+        test::TestWarpMultiplyAdd<
+            cutlass::MatrixLayout::kRowMajor,
+            cutlass::MatrixLayout::kColumnMajor,
+            cutlass::MatrixLayout::kRowMajor,
+            ScalarC,
+            WarpTile,
+            WmmaTile
+        >().run();
+
+        test::TestWarpMultiplyAdd<
+            cutlass::MatrixLayout::kColumnMajor,
+            cutlass::MatrixLayout::kColumnMajor,
+            cutlass::MatrixLayout::kRowMajor,
+            ScalarC,
+            WarpTile,
+            WmmaTile
+        >().run();
+    }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// 16x16x16 WMMA Tile Shape with F32 accumulation
+//
+
+TEST(WmmaGemm, WarpMultiplyAdd_f32_16x16x16_16x16x16) {
+    TestWarpMultiplyAddForAllLayouts<
+        float,
+        cutlass::Shape<16, 16, 16>,
+        cutlass::Shape<16, 16, 16>
+    >().run();
+}
+
+TEST(WmmaGemm, WarpMultiplyAdd_f32_16x16x32_16x16x16) {
+    TestWarpMultiplyAddForAllLayouts<
+        float,
+        cutlass::Shape<16, 16, 32>,
+        cutlass::Shape<16, 16, 16>
+    >().run();
+}
+
+TEST(WmmaGemm, WarpMultiplyAdd_f32_16x32x32_16x16x16) {
+    TestWarpMultiplyAddForAllLayouts<
+        float,
+        cutlass::Shape<16, 32, 32>,
+        cutlass::Shape<16, 16, 16>
+    >().run();
+}
+
+TEST(WmmaGemm, WarpMultiplyAdd_f32_16x32x64_16x16x16) {
+    TestWarpMultiplyAddForAllLayouts<
+        float,
+        cutlass::Shape<16, 32, 64>,
+        cutlass::Shape<16, 16, 16>
+    >().run();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#endif
diff --git a/tools/test/unit/gemm/wmma_binary_gemm.cu b/tools/test/unit/gemm/wmma_binary_gemm.cu
new file mode 100644
index 0000000000..b545179d59
--- /dev/null
+++ b/tools/test/unit/gemm/wmma_binary_gemm.cu
@@ -0,0 +1,236 @@
+/***************************************************************************************************
+ * Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass/wmma_matrix.h"
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/wmma_gemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/binary_gemm.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaBinaryGemm_32x32x256, wmma_binary_gemm_32x32x256) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<256, 32, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<256, 32, 32>,
+                                        cutlass::Shape<128, 8, 8>,
+                                        32,
+                                        32>
+      WmmaGemmTraits;
+  run_binary_gemm<WmmaGemmTraits>(32, 32, 256);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaBinaryGemm_32x32x512, wmma_binary_gemm_32x32x512) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<512, 32, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<512, 32, 32>,
+                                        cutlass::Shape<128, 8, 8>,
+                                        32,
+                                        32>
+      WmmaGemmTraits;
+  run_binary_gemm<WmmaGemmTraits>(32, 32, 512);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaBinaryGemm_64x64x256, wmma_binary_gemm_64x64x256) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<256, 64, 64>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<256, 32, 32>,
+                                        cutlass::Shape<128, 8, 8>,
+                                        32,
+                                        32>
+      WmmaGemmTraits;
+  run_binary_gemm<WmmaGemmTraits>(64, 64, 256);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaBinaryGemm_64x32x256, wmma_binary_gemm_64x32x256) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<256, 32, 64>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<256, 32, 32>,
+                                        cutlass::Shape<128, 8, 8>,
+                                        32,
+                                        32>
+      WmmaGemmTraits;
+  run_binary_gemm<WmmaGemmTraits>(64, 32, 256);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaBinaryGemm_32x64x256, wmma_binary_gemm_32x64x256) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<256, 64, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<256, 32, 32>,
+                                        cutlass::Shape<128, 8, 8>,
+                                        32,
+                                        32>
+      WmmaGemmTraits;
+  run_binary_gemm<WmmaGemmTraits>(32, 64, 256);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaBinaryGemm_128x128x256, wmma_binary_gemm_128x128x256) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<256, 128, 128>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<256, 64, 64>,
+                                        cutlass::Shape<128, 8, 8>,
+                                        128,
+                                        128>
+      WmmaGemmTraits;
+  run_binary_gemm<WmmaGemmTraits>(128, 128, 256);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaBinaryGemm_128x128x256, wmma_binary_gemm_512x512x256) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<256, 128, 128>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<256, 64, 64>,
+                                        cutlass::Shape<128, 8, 8>,
+                                        32,
+                                        32>
+      WmmaGemmTraits;
+  run_binary_gemm<WmmaGemmTraits>(512, 512, 256);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaBinaryGemm_32x32x256, wmma_binary_gemm_32x32x512) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<256, 32, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<256, 32, 32>,
+                                        cutlass::Shape<128, 8, 8>,
+                                        32,
+                                        32>
+      WmmaGemmTraits;
+  run_binary_gemm<WmmaGemmTraits>(32, 32, 512);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaBinaryGemm_32x32x1024, wmma_binary_gemm_128x128x1024) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<1024, 128, 128>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<1024, 32, 32>,
+                                        cutlass::Shape<128, 8, 8>,
+                                        128,
+                                        128>
+      WmmaGemmTraits;
+  run_binary_gemm<WmmaGemmTraits>(128, 128, 1024);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaBinaryGemm_64x32x1024, wmma_binary_gemm_128x128x1024) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<1024, 128, 128>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        cutlass::Vector<cutlass::bin1_t, 32>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<1024, 32, 64>,
+                                        cutlass::Shape<128, 8, 8>,
+                                        128,
+                                        128>
+      WmmaGemmTraits;
+  run_binary_gemm<WmmaGemmTraits>(128, 128, 1024);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#endif // ifdef CUTLASS_USE_SUBBYTE_WMMA
diff --git a/tools/test/unit/gemm/wmma_gemm.cu b/tools/test/unit/gemm/wmma_gemm.cu
index 6db07afcea..07cb9bde2f 100644
--- a/tools/test/unit/gemm/wmma_gemm.cu
+++ b/tools/test/unit/gemm/wmma_gemm.cu
@@ -22,20 +22,81 @@
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
-#include <cutlass/wmma_matrix.h>
+#include "cutlass/wmma_matrix.h"
 #if defined(CUTLASS_USE_WMMA_API)
 
-#include <cutlass_unit_test.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/wmma_gemm_traits.h>
-#include <tools/test/unit/gemm/gemm_testbed.h>
-#include <tools/test/unit/gemm/gemm.h>
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/wmma_gemm_traits.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/run_gemm.h"
 
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// FP16 accumulation
+//
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm_16x16x32_f16, wmma_gemm_16x16x16_nn) {
+  typedef cutlass::gemm::WmmaGemmTraits<
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<32, 16, 16>,
+    half,
+    half,
+    half,
+    cutlass::gemm::LinearScaling<half>,
+    half
+  >
+  WmmaGemmTraits;
+
+  run_gemm<WmmaGemmTraits>(16, 16, 16);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm_16x16x32_f16, wmma_gemm_16x16x32_nn) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<32, 16, 16>,
+    half,
+    half,
+    half,
+    cutlass::gemm::LinearScaling<half>,
+    half
+  >
+      WmmaGemmTraits;
+  run_gemm<WmmaGemmTraits>(16, 16, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm_128x128x32_f16, wmma_16x16x16_gemm_256x256x128_nn) {
+  typedef cutlass::gemm::WmmaGemmTraits<
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::Shape<32, 128, 128>,
+    half,
+    half,
+    half,
+    cutlass::gemm::LinearScaling<half>,
+    half
+  >
+    WmmaGemmTraits;
+  run_gemm<WmmaGemmTraits>(256, 256, 128);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// FP32 accumulation
+//
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x16_nt) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                        cutlass::MatrixLayout::kRowMajor, 
+                                        cutlass::MatrixLayout::kRowMajor,
                                         cutlass::Shape<32, 16, 16> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(16, 16, 16);
@@ -45,7 +106,7 @@ TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x16_nt) {
 
 TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x32_nt) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                        cutlass::MatrixLayout::kRowMajor, 
+                                        cutlass::MatrixLayout::kRowMajor,
                                         cutlass::Shape<32, 16, 16> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(16, 16, 32);
@@ -53,9 +114,9 @@ TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x32_nt) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_nt) { 
+TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_nt) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                        cutlass::MatrixLayout::kRowMajor, 
+                                        cutlass::MatrixLayout::kRowMajor,
                                         cutlass::Shape<32, 128, 128> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(256, 256, 128);
@@ -64,10 +125,12 @@ TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 #if defined(CUDA_VERSION) && CUDA_VERSION >= 9100
-TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_nt) { 
+TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_nt) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                        cutlass::MatrixLayout::kRowMajor, 
+                                        cutlass::MatrixLayout::kRowMajor,
                                         cutlass::Shape<32, 128, 128>,
+                                        half,
+                                        half,
                                         float,
                                         cutlass::gemm::LinearScaling<float>,
                                         float,
@@ -82,10 +145,12 @@ TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_nt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 #if defined(CUDA_VERSION) && CUDA_VERSION >= 9100
-TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_nt) { 
+TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_nt) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                        cutlass::MatrixLayout::kRowMajor, 
+                                        cutlass::MatrixLayout::kRowMajor,
                                         cutlass::Shape<32, 128, 128>,
+                                        half,
+                                        half,
                                         float,
                                         cutlass::gemm::LinearScaling<float>,
                                         float,
@@ -100,7 +165,7 @@ TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_nt) {
 
 TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x16_nn) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                        cutlass::MatrixLayout::kColumnMajor, 
+                                        cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::Shape<32, 16, 16> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(16, 16, 16);
@@ -110,7 +175,7 @@ TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x16_nn) {
 
 TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x32_nn) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                        cutlass::MatrixLayout::kColumnMajor, 
+                                        cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::Shape<32, 16, 16> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(16, 16, 32);
@@ -118,9 +183,9 @@ TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x32_nn) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_nn) { 
+TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_nn) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                        cutlass::MatrixLayout::kColumnMajor, 
+                                        cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::Shape<32, 128, 128> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(256, 256, 128);
@@ -129,10 +194,12 @@ TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 #if defined(CUDA_VERSION) && CUDA_VERSION >= 9100
-TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_nn) { 
+TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_nn) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                        cutlass::MatrixLayout::kColumnMajor, 
+                                        cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::Shape<32, 128, 128>,
+                                        half,
+                                        half,
                                         float,
                                         cutlass::gemm::LinearScaling<float>,
                                         float,
@@ -147,10 +214,12 @@ TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_nn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 #if defined(CUDA_VERSION) && CUDA_VERSION >= 9100
-TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_nn) { 
+TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_nn) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
-                                        cutlass::MatrixLayout::kColumnMajor, 
+                                        cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::Shape<32, 128, 128>,
+                                        half,
+                                        half,
                                         float,
                                         cutlass::gemm::LinearScaling<float>,
                                         float,
@@ -165,7 +234,7 @@ TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_nn) {
 
 TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x16_tt) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                        cutlass::MatrixLayout::kRowMajor, 
+                                        cutlass::MatrixLayout::kRowMajor,
                                         cutlass::Shape<32, 16, 16> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(16, 16, 16);
@@ -175,7 +244,7 @@ TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x16_tt) {
 
 TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x32_tt) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                        cutlass::MatrixLayout::kRowMajor, 
+                                        cutlass::MatrixLayout::kRowMajor,
                                         cutlass::Shape<32, 16, 16> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(16, 16, 32);
@@ -183,9 +252,9 @@ TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x32_tt) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_tt) { 
+TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_tt) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                        cutlass::MatrixLayout::kRowMajor, 
+                                        cutlass::MatrixLayout::kRowMajor,
                                         cutlass::Shape<32, 128, 128> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(256, 256, 128);
@@ -194,10 +263,12 @@ TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 #if defined(CUDA_VERSION) && CUDA_VERSION >= 9100
-TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_tt) { 
+TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_tt) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                        cutlass::MatrixLayout::kRowMajor, 
+                                        cutlass::MatrixLayout::kRowMajor,
                                         cutlass::Shape<32, 128, 128>,
+                                        half,
+                                        half,
                                         float,
                                         cutlass::gemm::LinearScaling<float>,
                                         float,
@@ -212,10 +283,12 @@ TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_tt) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 #if defined(CUDA_VERSION) && CUDA_VERSION >= 9100
-TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_tt) { 
+TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_tt) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                        cutlass::MatrixLayout::kRowMajor, 
+                                        cutlass::MatrixLayout::kRowMajor,
                                         cutlass::Shape<32, 128, 128>,
+                                        half,
+                                        half,
                                         float,
                                         cutlass::gemm::LinearScaling<float>,
                                         float,
@@ -230,7 +303,7 @@ TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_tt) {
 
 TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x16_tn) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                        cutlass::MatrixLayout::kColumnMajor, 
+                                        cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::Shape<32, 16, 16> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(16, 16, 16);
@@ -240,7 +313,7 @@ TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x16_tn) {
 
 TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x32_tn) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                        cutlass::MatrixLayout::kColumnMajor, 
+                                        cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::Shape<32, 16, 16> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(16, 16, 32);
@@ -248,9 +321,9 @@ TEST(WmmaGemm_16x16x32, wmma_gemm_16x16x32_tn) {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_tn) { 
+TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_tn) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                        cutlass::MatrixLayout::kColumnMajor, 
+                                        cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::Shape<32, 128, 128> >
       WmmaGemmTraits;
   run_gemm<WmmaGemmTraits>(256, 256, 128);
@@ -259,10 +332,12 @@ TEST(WmmaGemm_128x128x32, wmma_16x16x16_gemm_256x256x128_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 #if defined(CUDA_VERSION) && CUDA_VERSION >= 9100
-TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_tn) { 
+TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_tn) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                        cutlass::MatrixLayout::kColumnMajor, 
+                                        cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::Shape<32, 128, 128>,
+                                        half,
+                                        half,
                                         float,
                                         cutlass::gemm::LinearScaling<float>,
                                         float,
@@ -277,10 +352,12 @@ TEST(WmmaGemm_128x128x32, wmma_8x32x16_gemm_256x256x128_tn) {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 #if defined(CUDA_VERSION) && CUDA_VERSION >= 9100
-TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_tn) { 
+TEST(WmmaGemm_128x128x32, wmma_32x8x16_gemm_256x256x128_tn) {
   typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
-                                        cutlass::MatrixLayout::kColumnMajor, 
+                                        cutlass::MatrixLayout::kColumnMajor,
                                         cutlass::Shape<32, 128, 128>,
+                                        half,
+                                        half,
                                         float,
                                         cutlass::gemm::LinearScaling<float>,
                                         float,
diff --git a/tools/test/unit/gemm/wmma_gemm_epilogue.cu b/tools/test/unit/gemm/wmma_gemm_epilogue.cu
new file mode 100644
index 0000000000..b7fab2ae9a
--- /dev/null
+++ b/tools/test/unit/gemm/wmma_gemm_epilogue.cu
@@ -0,0 +1,446 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+// Guard conditions around the entire file.
+#if !defined(__CUDA_ARCH__) || __CUDA_ARCH__ >= 700
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#include "cutlass_unit_tests.h"
+#include "tools/util/half.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "cutlass/gemm/wmma_gemm_traits.h"
+#include "cutlass/gemm/wmma_gemm_epilogue.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename GemmTraits, typename EpilogueTraits, typename LoadAccumulatorIterator>
+__global__ void test_epilogue_kernel(
+  typename EpilogueTraits::Params params,
+  cutlass::Coord<3> problem,
+  typename EpilogueTraits::AccumulatorScalar *accum_ptr,
+  int ldm) {
+
+  // Shared memory allocation
+  __shared__ typename EpilogueTraits::SharedStorage shared_storage;
+
+  //
+  // Load accumulators from memory - normally, a GEMM would compute these
+  //
+
+  // Traits class defines tiling
+  GemmTraits traits;
+
+  int warp_id = (threadIdx.x / 32);
+  cutlass::Coord<3> warp_offset = traits(warp_id);
+
+  // Accumulator fragment
+  typename EpilogueTraits::AccumulatorFragment accumulator;
+
+  // Construct an out-of-band LoadIterator for accumulators to initialize them
+
+  LoadAccumulatorIterator load_accum_iterator(accum_ptr, ldm, warp_offset);
+  load_accum_iterator.load(accumulator);
+
+  __syncthreads();
+
+  //
+  // Test the epilogue itself
+  //
+
+  typedef cutlass::gemm::WmmaGemmEpilogue<EpilogueTraits> Epilogue;
+
+  Epilogue epilogue(params, problem, warp_offset);
+
+  // Perform the epilogue operation
+  epilogue.update(shared_storage, accumulator);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <
+  typename ThreadBlockTile,
+  typename WarpTile,
+  typename WmmaTile,
+  typename EpilogueTile,
+  typename StreamTile,
+  typename AccumulatorType,
+  typename ScalarC
+>
+struct TestWmmaGemmEpilogue {
+
+  typedef cutlass::gemm::WmmaGemmTraits<
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    ThreadBlockTile,
+    WarpTile,
+    WmmaTile,
+    AccumulatorType,
+    AccumulatorType,
+    1,
+    AccumulatorType,
+    EpilogueTile,
+    StreamTile
+  > Traits;
+
+  // Construct an actual epilogue
+  typedef cutlass::gemm::EpilogueLinearScaling<ScalarC, ScalarC, ScalarC, ScalarC> EpilogueLinearScaling;
+
+  /// Define some traits
+  typedef cutlass::gemm::WmmaGemmEpilogueTraitsBasic<
+    ScalarC,
+    typename Traits::WarpMultiplyAdd::StoreIteratorC,
+    ScalarC,
+    ThreadBlockTile,
+    32 * Traits::Warps::kCount,
+    WarpTile,
+    WmmaTile,
+    EpilogueTile,
+    StreamTile,
+    EpilogueLinearScaling
+  > WmmaGemmEpilogueTraits;
+
+  /// Type alias for EpilogueTraits type
+  typedef typename WmmaGemmEpilogueTraits::Traits EpilogueTraits;
+
+  TestWmmaGemmEpilogue() {
+
+  }
+
+  void run(cutlass::Coord<3> problem) {
+    //
+    // Prepare accumulator tile
+    //
+    cutlass::HostTensor<ScalarC> accumulator_matrix;
+    cutlass::HostTensor<ScalarC> source_matrix;
+    cutlass::HostTensor<ScalarC> destination_matrix;
+
+    accumulator_matrix.resize_matrix(
+      ThreadBlockTile::kW,
+      ThreadBlockTile::kH,
+      cutlass::MatrixLayout::kColumnMajor);
+
+    source_matrix.resize_matrix(
+      problem[2],
+      problem[1],
+      cutlass::MatrixLayout::kColumnMajor);
+
+    destination_matrix.resize_matrix(
+      problem[2],
+      problem[1],
+      cutlass::MatrixLayout::kColumnMajor);
+
+    accumulator_matrix.fill_sequential();
+
+    source_matrix.fill_sequential();
+
+    int value = 0;
+    for (int row = 0; row < ThreadBlockTile::kW; ++row) {
+      for (int col = 0; col < ThreadBlockTile::kH; ++col, ++value) {
+        if (row < problem[2] && col < problem[1]) {
+          source_matrix.at(cutlass::make_Coord(0, row, col, 0)) = ScalarC(value);
+        }
+      }
+    }
+
+    destination_matrix.fill(0);
+
+    //
+    // Launch test kernel
+    //
+    dim3 grid(1,1);
+    dim3 block(32 * Traits::Warps::kCount, 1, 1);
+
+    EpilogueLinearScaling functor;
+    functor.initialize(1, 0);
+
+    typename EpilogueTraits::Params params;
+
+    params.initialize(
+      functor,
+      source_matrix.device_data(),
+      source_matrix.leading_dim(),
+      destination_matrix.device_data(),
+      destination_matrix.leading_dim()
+    );
+
+    test_epilogue_kernel<
+      Traits,
+      EpilogueTraits,
+      typename Traits::WarpMultiplyAdd::LoadIteratorC
+    ><<< grid, block >>>(
+      params,
+      problem,
+      accumulator_matrix.device_data(),
+      accumulator_matrix.leading_dim()
+    );
+
+    destination_matrix.sync_host();
+
+    EXPECT_TRUE(accumulator_matrix.bit_equals(destination_matrix))
+      << "Accumulators:\n" << accumulator_matrix << "\nDestination:\n" << destination_matrix;
+  }
+
+  void run() {
+    run(cutlass::make_Coord(ThreadBlockTile::kD, ThreadBlockTile::kH, ThreadBlockTile::kW));
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Small epilogue
+TEST(WmmaGemm_16x16x16, wmma_epilogue_basic) {
+
+  // GEMM threadblock structure
+  typedef cutlass::Shape<16, 16, 16> ThreadBlockTile;
+  typedef cutlass::Shape<16, 16, 16> WarpTile;
+  typedef cutlass::Shape<16, 16, 16> WmmaTile;
+
+  // Epilogue shapes
+  typedef cutlass::Shape<1, 16, 16> EpilogueTile;
+  typedef cutlass::Shape<1, 16, 16> StreamTile;
+
+  typedef float AccumulatorType;
+  typedef float ScalarC;
+
+  TestWmmaGemmEpilogue<
+    ThreadBlockTile,
+    WarpTile,
+    WmmaTile,
+    EpilogueTile,
+    StreamTile,
+    AccumulatorType,
+    ScalarC
+  >().run();
+}
+
+TEST(WmmaGemm_16x16x16, wmma_epilogue_ragged) {
+
+  // GEMM threadblock structure
+  typedef cutlass::Shape<16, 16, 16> ThreadBlockTile;
+  typedef cutlass::Shape<16, 16, 16> WarpTile;
+  typedef cutlass::Shape<16, 16, 16> WmmaTile;
+
+  // Epilogue shapes
+  typedef cutlass::Shape<1, 16, 16> EpilogueTile;
+  typedef cutlass::Shape<1, 16, 16> StreamTile;
+
+  typedef float AccumulatorType;
+  typedef float ScalarC;
+
+  TestWmmaGemmEpilogue<
+    ThreadBlockTile,
+    WarpTile,
+    WmmaTile,
+    EpilogueTile,
+    StreamTile,
+    AccumulatorType,
+    ScalarC
+  >().run(cutlass::make_Coord(0, 15, 15));
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Small epilogue
+TEST(WmmaGemm_32x32x16, wmma_epilogue_basic_32x32_32x32) {
+
+  // GEMM threadblock structure
+  typedef cutlass::Shape<16, 32, 32> ThreadBlockTile;
+  typedef cutlass::Shape<16, 32, 32> WarpTile;
+  typedef cutlass::Shape<16, 16, 16> WmmaTile;
+
+  // Epilogue shapes
+  typedef cutlass::Shape<1, 32, 32> EpilogueTile;
+  typedef cutlass::Shape<1, 4, 32> StreamTile;
+
+  typedef float AccumulatorType;
+  typedef float ScalarC;
+
+  TestWmmaGemmEpilogue<
+    ThreadBlockTile,
+    WarpTile,
+    WmmaTile,
+    EpilogueTile,
+    StreamTile,
+    AccumulatorType,
+    ScalarC
+  >().run();
+}
+
+/// Small epilogue
+TEST(WmmaGemm_32x32x16, wmma_epilogue_basic_32x32_32x32_ragged) {
+
+  // GEMM threadblock structure
+  typedef cutlass::Shape<16, 32, 32> ThreadBlockTile;
+  typedef cutlass::Shape<16, 32, 32> WarpTile;
+  typedef cutlass::Shape<16, 16, 16> WmmaTile;
+
+  // Epilogue shapes
+  typedef cutlass::Shape<1, 32, 32> EpilogueTile;
+  typedef cutlass::Shape<1, 4, 32> StreamTile;
+
+  typedef float AccumulatorType;
+  typedef float ScalarC;
+
+  TestWmmaGemmEpilogue<
+    ThreadBlockTile,
+    WarpTile,
+    WmmaTile,
+    EpilogueTile,
+    StreamTile,
+    AccumulatorType,
+    ScalarC
+  >().run(cutlass::make_Coord(0, 14, 17));
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Small epilogue
+TEST(WmmaGemm_32x32x16, wmma_epilogue_basic_32x32_16x16) {
+
+  // GEMM threadblock structure
+  typedef cutlass::Shape<16, 32, 32> ThreadBlockTile;
+  typedef cutlass::Shape<16, 16, 16> WarpTile;
+  typedef cutlass::Shape<16, 16, 16> WmmaTile;
+
+  // Epilogue shapes
+  typedef cutlass::Shape<1, 32, 32> EpilogueTile;
+  typedef cutlass::Shape<1, 4, 32> StreamTile;
+
+  typedef float AccumulatorType;
+  typedef float ScalarC;
+
+  TestWmmaGemmEpilogue<
+    ThreadBlockTile,
+    WarpTile,
+    WmmaTile,
+    EpilogueTile,
+    StreamTile,
+    AccumulatorType,
+    ScalarC
+  >().run();
+}
+
+/// Small epilogue
+TEST(WmmaGemm_32x32x16, wmma_epilogue_basic_32x32_16x16_ragged) {
+
+  // GEMM threadblock structure
+  typedef cutlass::Shape<16, 32, 32> ThreadBlockTile;
+  typedef cutlass::Shape<16, 16, 16> WarpTile;
+  typedef cutlass::Shape<16, 16, 16> WmmaTile;
+
+  // Epilogue shapes
+  typedef cutlass::Shape<1, 32, 32> EpilogueTile;
+  typedef cutlass::Shape<1, 4, 32> StreamTile;
+
+  typedef float AccumulatorType;
+  typedef float ScalarC;
+
+  TestWmmaGemmEpilogue<
+    ThreadBlockTile,
+    WarpTile,
+    WmmaTile,
+    EpilogueTile,
+    StreamTile,
+    AccumulatorType,
+    ScalarC
+  >().run(cutlass::make_Coord(0, 23, 19));
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Large epilogue
+TEST(WmmaGemm_128x128x16, wmma_epilogue_basic_32x32_16x16) {
+
+  // GEMM threadblock structure
+  typedef cutlass::Shape<16, 128, 128> ThreadBlockTile;
+  typedef cutlass::Shape<16, 32, 64> WarpTile;
+  typedef cutlass::Shape<16, 16, 16> WmmaTile;
+
+  // Epilogue shapes
+  typedef cutlass::Shape<1, 64, 64> EpilogueTile;
+  typedef cutlass::Shape<1, 4, 64> StreamTile;
+
+  typedef float AccumulatorType;
+  typedef float ScalarC;
+
+  typedef cutlass::gemm::WmmaGemmEpilogueStructure<
+    ThreadBlockTile,
+    EpilogueTile,
+    StreamTile,
+    WarpTile,
+    WmmaTile
+  > Structure;
+
+  TestWmmaGemmEpilogue<
+    ThreadBlockTile,
+    WarpTile,
+    WmmaTile,
+    EpilogueTile,
+    StreamTile,
+    AccumulatorType,
+    ScalarC
+  >().run();
+}
+
+/// Large epilogue
+TEST(WmmaGemm_128x128x16, wmma_epilogue_basic_32x32_16x16_ragged) {
+
+  // GEMM threadblock structure
+  typedef cutlass::Shape<16, 128, 128> ThreadBlockTile;
+  typedef cutlass::Shape<16, 32, 64> WarpTile;
+  typedef cutlass::Shape<16, 16, 16> WmmaTile;
+
+  // Epilogue shapes
+  typedef cutlass::Shape<1, 64, 64> EpilogueTile;
+  typedef cutlass::Shape<1, 4, 64> StreamTile;
+
+  typedef float AccumulatorType;
+  typedef float ScalarC;
+
+  typedef cutlass::gemm::WmmaGemmEpilogueStructure<
+    ThreadBlockTile,
+    EpilogueTile,
+    StreamTile,
+    WarpTile,
+    WmmaTile
+  > Structure;
+
+  TestWmmaGemmEpilogue<
+    ThreadBlockTile,
+    WarpTile,
+    WmmaTile,
+    EpilogueTile,
+    StreamTile,
+    AccumulatorType,
+    ScalarC
+  >().run(cutlass::make_Coord(0, 119, 101));
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#endif // end guard conditional on SM70
diff --git a/tools/test/unit/gemm/wmma_gemm_fragment_stream.cu b/tools/test/unit/gemm/wmma_gemm_fragment_stream.cu
new file mode 100644
index 0000000000..446dedcae4
--- /dev/null
+++ b/tools/test/unit/gemm/wmma_gemm_fragment_stream.cu
@@ -0,0 +1,504 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+// Guard conditions around the entire file.
+#if !defined(__CUDA_ARCH__) || __CUDA_ARCH__ >= 700
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#include "cutlass_unit_tests.h"
+
+#include "tools/util/half.h"
+#include "tools/util/tensor_view_io.h"
+#include "tools/util/host_tensor.h"
+
+#include "tools/test/unit/gemm/gemm_testbed.h"
+
+#include "cutlass/gemm/gemm_fragment_stream.h"
+#include "cutlass/gemm/warp_multiply_add_nvcuda.h"
+
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace test {
+
+template <typename FragmentStream>
+__global__ void fragment_stream(typename FragmentStream::Params params, half *output) {
+
+  __shared__ typename FragmentStream::Storage storage;
+
+  params.store_params.initialize(storage);
+  FragmentStream stream(
+    params,
+    cutlass::make_Coord(16, 256, 256)
+  );
+
+  // load
+  stream.load();
+
+  // store
+  stream.commit();
+
+  __syncthreads();
+
+  // one thread writes it all out
+  if (threadIdx.x == 0) {
+
+    half const *ptr = reinterpret_cast<half const *>(storage.data());
+
+    CUTLASS_PRAGMA_NO_UNROLL
+    for (int i = 0; i < FragmentStream::Storage::Shape::kCount; ++i) {
+      output[i] = ptr[i];
+    }
+  }
+}
+
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+struct TestGemmDesc {
+  int m, n, k;
+  inline __host__ __device__ TestGemmDesc() : m(0), n(0), k(0) {}
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <
+  typename ThreadBlockTile,
+  cutlass::MatrixLayout::Kind LayoutA,
+  cutlass::MatrixLayout::Kind LayoutB,
+  int Threads,
+  int ScalarsPerAccess
+>
+struct TestGemmFragmentStream {
+
+  /// TileStream for Operand A
+  typedef cutlass::gemm::GemmFragmentStreamTraits<
+    cutlass::gemm::GemmOperand::kA,
+    uint16_t,
+    LayoutA,
+    ThreadBlockTile,
+    Threads,
+    ScalarsPerAccess
+  > FragmentStreamTraitsA;
+
+  /// Defines fragment stream for A operand
+  typedef typename cutlass::gemm::GemmFragmentStream<FragmentStreamTraitsA> FragmentStreamA;
+
+  /// TileStream for Operand B
+  typedef typename cutlass::gemm::GemmFragmentStreamTraits<
+    cutlass::gemm::GemmOperand::kB,
+    uint16_t,
+    LayoutB,
+    ThreadBlockTile,
+    Threads,
+    ScalarsPerAccess
+  > FragmentStreamTraitsB;
+
+  /// Defines fragment stream for A operand
+  typedef typename cutlass::gemm::GemmFragmentStream<FragmentStreamTraitsB> FragmentStreamB;
+
+  //
+  // Data members
+  //
+
+  cutlass::HostTensor<cutlass::half_t> tensor_A_in;
+  cutlass::HostTensor<cutlass::half_t> tensor_A_out;
+
+  cutlass::HostTensor<cutlass::half_t> tensor_B_in;
+  cutlass::HostTensor<cutlass::half_t> tensor_B_out;
+
+  //
+  // Methods
+  //
+
+  /// Constructor
+  TestGemmFragmentStream() {
+    tensor_A_in.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD, LayoutA);
+    tensor_A_out.resize_matrix(ThreadBlockTile::kW, ThreadBlockTile::kD, LayoutA);
+
+    tensor_B_in.resize_matrix(ThreadBlockTile::kD, ThreadBlockTile::kH, LayoutB);
+    tensor_B_out.resize_matrix(ThreadBlockTile::kD, ThreadBlockTile::kH, LayoutB);
+  }
+
+  /// Writes details about TileStream
+  template <typename TileStream>
+  std::ostream & write(std::ostream &out, typename TileStream::Params const &params) {
+
+    out << "TileStream::LoadIterator\n"
+      << "  Tile(" << TileStream::LoadIterator::Tile::kH << ", "
+      << TileStream::LoadIterator::Tile::kW << ")\n"
+      << "  Delta(" << TileStream::LoadIterator::Steps::kH << ", "
+      << TileStream::LoadIterator::Steps::kW << ")\n"
+      << "  Iterations(" << TileStream::LoadIterator::Iterations::kH << ", "
+      << TileStream::LoadIterator::Iterations::kW << ")\n";
+
+    out
+      << "  stride_h: " << params.load_params.stride_h << "\n"
+      << "  stride_w: " << params.load_params.stride_w << "\n"
+      << "  inc_d: " << params.load_params.inc_d << "\n"
+      << "  inc_h: " << params.load_params.inc_h << "\n"
+      << "  inc_w: " << params.load_params.inc_w << std::endl;
+
+    out << "output elements: " << TileStream::Storage::Shape::kCount << std::endl;
+
+    return out;
+  }
+
+  /// Runs test
+  void run() {
+
+    tensor_A_in.fill_linear(
+        LayoutA == cutlass::MatrixLayout::kColumnMajor ?
+        cutlass::make_Coord(1, 1, ThreadBlockTile::kW, 1) :
+        cutlass::make_Coord(1, ThreadBlockTile::kD, 1, 1));
+
+    tensor_A_out.fill(0);
+
+    tensor_A_in.sync_device();
+    tensor_A_out.sync_device();
+
+    tensor_B_in.fill_linear(
+        LayoutB == cutlass::MatrixLayout::kColumnMajor ?
+        cutlass::make_Coord(1, 1, ThreadBlockTile::kD, 1) :
+        cutlass::make_Coord(1, ThreadBlockTile::kH, 1, 1));
+
+    tensor_B_out.fill(0);
+
+    tensor_B_in.sync_device();
+    tensor_B_out.sync_device();
+
+
+    typename FragmentStreamA::Params params_A;
+    typename FragmentStreamB::Params params_B;
+
+    TestGemmDesc desc;
+    params_A.initialize(
+      desc,
+      reinterpret_cast<uint16_t const *>(tensor_A_in.device_ref().data()),
+      tensor_A_in.leading_dim()
+    );
+
+    params_B.initialize(
+      desc,
+      reinterpret_cast<uint16_t const *>(tensor_A_in.device_ref().data()),
+      tensor_B_in.leading_dim()
+    );
+
+    test::fragment_stream<FragmentStreamA><<< dim3(1,1,1), dim3(Threads,1,1) >>>(
+      params_A,
+      tensor_A_out.device_data()
+    );
+
+    test::fragment_stream<FragmentStreamB><<< dim3(1,1,1), dim3(Threads,1,1) >>>(
+      params_B,
+      tensor_B_out.device_data()
+    );
+
+    tensor_A_out.sync_host();
+    tensor_B_out.sync_host();
+
+    bool passed_A = tensor_A_in.bit_equals(tensor_A_out);
+    bool passed_B = tensor_B_in.bit_equals(tensor_B_out);
+
+    EXPECT_TRUE(passed_A) << tensor_A_out;
+    if (!passed_A) {
+      this->template write<FragmentStreamA>(std::cout, params_A);
+    }
+
+    EXPECT_TRUE(passed_B) << "In: " << tensor_B_in << "\n, Out:\n" << tensor_B_out;
+    if (!passed_B) {
+      this->template write<FragmentStreamB>(std::cout, params_B);
+    }
+  }
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemmFragmentStream, half_32x32x16_col_row) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 32, 32>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    32,
+    2
+  >().run();
+}
+
+TEST(WmmaGemmFragmentStream, half_128x64x16_col_row) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 64, 128>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    32,
+    2
+  >().run();
+}
+
+TEST(WmmaGemmFragmentStream, half_256x128x16_col_row) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    32,
+    1
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    64,
+    2
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    128,
+    4
+  >().run();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemmFragmentStream, half_32x32x16_col_col) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 32, 32>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    32,
+    2
+  >().run();
+}
+
+TEST(WmmaGemmFragmentStream, half_128x64x16_col_col) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 64, 128>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    32,
+    2
+  >().run();
+}
+
+TEST(WmmaGemmFragmentStream, half_256x128x16_col_col) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    32,
+    1
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    64,
+    2
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    128,
+    4
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kColumnMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    128,
+    8
+  >().run();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemmFragmentStream, half_32x32x16_row_col) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 32, 32>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    32,
+    2
+  >().run();
+}
+
+TEST(WmmaGemmFragmentStream, half_128x64x16_row_col) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 64, 128>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    32,
+    2
+  >().run();
+}
+
+TEST(WmmaGemmFragmentStream, half_256x128x16_row_col) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    32,
+    2
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    64,
+    4
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kColumnMajor,
+    128,
+    8
+  >().run();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemmFragmentStream, half_32x32x16_row_row) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 32, 32>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    32,
+    2
+  >().run();
+}
+
+TEST(WmmaGemmFragmentStream, half_128x64x16_row_row) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 64, 128>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    32,
+    2
+  >().run();
+}
+
+TEST(WmmaGemmFragmentStream, half_256x128x16_row_row) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    32,
+    2
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    64,
+    4
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    128,
+    8
+  >().run();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemmFragmentStream, half4_32x32x16_row_row) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 32, 32>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    32,
+    4
+  >().run();
+}
+
+TEST(WmmaGemmFragmentStream, half4_128x64x16_row_row) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 64, 128>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    32,
+    4
+  >().run();
+}
+
+TEST(WmmaGemmFragmentStream, half4_256x128x16_row_row) {
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    32,
+    4
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    64,
+    4
+  >().run();
+
+  TestGemmFragmentStream<
+    cutlass::Shape<16, 128, 256>,
+    cutlass::MatrixLayout::kRowMajor,
+    cutlass::MatrixLayout::kRowMajor,
+    128,
+    8
+  >().run();
+}
+
+#endif
diff --git a/tools/test/unit/gemm/wmma_gemm_multiply_add.cu b/tools/test/unit/gemm/wmma_gemm_multiply_add.cu
new file mode 100644
index 0000000000..9ca4df9fa2
--- /dev/null
+++ b/tools/test/unit/gemm/wmma_gemm_multiply_add.cu
@@ -0,0 +1,629 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+#include "cutlass/wmma_matrix.h"
+
+#ifdef CUTLASS_USE_WMMA_API
+
+#include "cutlass_unit_tests.h"
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/util/half.h"
+
+#include "cutlass/gemm/gemm_global_stream.h"
+#include "cutlass/gemm/gemm_shared_stream.h"
+#include "cutlass/gemm/wmma_gemm_multiply_add.h"
+#include "cutlass/gemm/wmma_gemm_global_tile.h"
+#include "cutlass/gemm/wmma_gemm_shared_tile.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+struct ProblemDesc {
+  int m, n, k;
+  inline __device__ ProblemDesc(int m_, int n_, int k_) : m(m_), n(n_), k(k_) {}
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename StoreIterator_, typename LoadIterator_>
+union SharedStorage {
+  // Storage to store the data.
+  typename StoreIterator_::SharedStorage store;
+  // Storage to load the data.
+  typename LoadIterator_::SharedStorage load;
+};
+
+template <class> struct Debug {};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename Threads_, int kW_, bool = (Threads_::kW > kW_)>
+struct ReshapeThreadsA {
+  typedef cutlass::Shape<Threads_::kD, Threads_::kH, Threads_::kW> Threads;
+};
+
+template <typename Threads_, int kW_>
+struct ReshapeThreadsA<Threads_, kW_, true> {
+  typedef cutlass::Shape<Threads_::kD, Threads_::kH * Threads_::kW / kW_, kW_> Threads;
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename Threads_, int kH_, bool = (Threads_::kW > kH_)>
+struct ReshapeThreadsB {
+  typedef cutlass::Shape<Threads_::kD, Threads_::kH, Threads_::kW> Threads;
+};
+
+template <typename Threads_, int kH_>
+struct ReshapeThreadsB<Threads_, kH_, true> {
+  typedef cutlass::Shape<Threads_::kD, Threads_::kH * Threads_::kW / kH_, kH_> Threads;
+};
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#if 1
+template <typename Traits_>
+static __global__ void kernel_nt(half const *d_a, int lda, half const *d_b, int ldb, float *d_c,
+                                 int ldc) {
+#if 0
+  // The default configuration of threads.
+  typedef cutlass::Shape<1, Warps_::kCount, 32> Threads_;
+  // The threads.
+  typedef typename ReshapeThreadsA<Threads_, OutputTile_::kW>::Threads ThreadsA;
+  // The threads.
+  typedef typename ReshapeThreadsB<Threads_, OutputTile_::kH>::Threads ThreadsB;
+  // The number of elements loaded per LDG.
+  int const kScalarsPerLdg = 1;
+  // The tile for A.
+  typedef cutlass::Shape<1, OutputTile_::kD, OutputTile_::kW> TileA;
+  // The tile for B.
+  typedef cutlass::Shape<1, OutputTile_::kD, OutputTile_::kH> TileB;
+  // The tile for C.
+  typedef cutlass::Shape<1, Warps_::kH*WmmaShape_::kH, OutputTile_::kW> TileC;
+#endif
+
+  // The problem descriptor.
+  ProblemDesc desc(Traits_::OutputTile::kW, Traits_::OutputTile::kH, Traits::OutputTile::kD);
+
+  // The elements computed by a single warp.
+  typedef typename cutlass::ShapeDiv<OutputTile_, Warps_>::Shape AccumulatorsPerWarp;
+
+  // Global memory load for A.
+  typedef cutlass::gemm::GemmGlobalIteratorAb<
+    cutlass::gemm::GemmGlobalIteratorTraits<
+      cutlass::GemmOperand::kA, cutlass::MatrixLayout::kColumnMajor, half const, TileA, ThreadsA, kScalarsPerLdg> 
+    >
+    GlobalLoadIteratorA;
+
+  // Shared store iterator for A.
+  typedef cutlass::gemm::GemmSharedStoreIteratorAb<
+    cutlass::gemm::GemmSharedStoreIteratorAbTraits<
+      half, TileA, ThreadsA, kScalarsPerLdg> 
+    >
+    SharedStoreIteratorA;
+
+  // The global stream for A.
+  typedef cutlass::gemm::GlobalLoadStream<
+    GlobalLoadIteratorA,
+    cutlass::Copy<typename GlobalLoadIteratorA::Fragment>,
+    SharedStoreIteratorA>
+  GlobalLoadStreamA;
+
+  // Shared load iterator for A.
+  typedef cutlass::gemm::WmmaGemmSharedLoadIteratorA<
+    cutlass::gemm::WmmaGemmSharedLoadIteratorAbTraits<
+      cutlass::GemmOperand::kA, 
+      cutlass::MatrixLayout::kColumnMajor, half, OutputTile_, Warps_, WmmaShape_> >
+        SharedLoadIteratorA;
+
+  // Global memory load for B.
+  typedef cutlass::gemm::GemmGlobalIteratorAb<
+    cutlass::gemm::GemmGlobalIteratorTraits<
+      cutlass::GemmOperand::kB, cutlass::MatrixLayout::kRowMajor, half const, TileB, ThreadsB, kScalarsPerLdg> >
+      GlobalLoadIteratorB;
+
+  // Shared store iterator for B.
+  typedef cutlass::gemm::GemmSharedStoreIteratorAb<
+    cutlass::gemm::GemmSharedStoreIteratorAbTraits<
+      half, TileB, ThreadsB, kScalarsPerLdg> >
+      SharedStoreIteratorB;
+
+  // The global stream for B.
+  typedef cutlass::gemm::GlobalLoadStream<GlobalLoadIteratorB,
+                                          cutlass::Copy<typename GlobalLoadIteratorB::Fragment>,
+                                          SharedStoreIteratorB>
+      GlobalLoadStreamB;
+
+  // Shared load iterator for B.
+  typedef cutlass::gemm::WmmaGemmSharedLoadIteratorB<
+    cutlass::gemm::WmmaGemmSharedLoadIteratorAbTraits<
+      cutlass::GemmOperand::kB, 
+      cutlass::MatrixLayout::kRowMajor, half, OutputTile_, Warps_, WmmaShape_> >
+      SharedLoadIteratorB;
+
+  // Share memory to exchange data for A.
+  __shared__ SharedStorage<GlobalLoadStreamA, SharedLoadIteratorA> shared_storage_a;
+
+  // Share memory to exchange data for B.
+  __shared__ SharedStorage<GlobalLoadStreamB, SharedLoadIteratorB> shared_storage_b;
+
+  // Iterator to load A.
+  typename GlobalLoadStreamA::Params global_params_a;
+  global_params_a.initialize(desc, d_a, lda);
+  GlobalLoadStreamA global_load_a(global_params_a, shared_storage_a.store, desc.m, desc.n, desc.k,
+                                  cutlass::make_Coord(0, 0, 0));
+
+  // Iterator to load B.
+  typename GlobalLoadStreamB::Params global_params_b;
+  global_params_b.initialize(desc, d_b, ldb);
+  GlobalLoadStreamB global_load_b(global_params_b, shared_storage_b.store, desc.m, desc.n, desc.k,
+                                  cutlass::make_Coord(0, 0, 0));
+
+  // Load A/B.
+  global_load_a.copy();
+  global_load_b.copy();
+
+  // Copy to shared memory.
+  global_load_a.commit();
+  global_load_b.commit();
+
+  // Make sure the data is in shared memory.
+  __syncthreads();
+
+  // Load iterator A.
+  typename SharedLoadIteratorA::Params shared_params_a;
+  shared_params_a.initialize(desc);
+  SharedLoadIteratorA shared_load_a(shared_params_a, shared_storage_a.load);
+
+  // Load iterator B.
+  typename SharedLoadIteratorB::Params shared_params_b;
+  shared_params_b.initialize(desc);
+  SharedLoadIteratorB shared_load_b(shared_params_b, shared_storage_b.load);
+
+  // Copy A from shared memory.
+  typename SharedLoadIteratorA::Fragment fragment_a;
+  cutlass::gemm::load_shared(shared_load_a, fragment_a);
+
+  // Copy B from shared memory.
+  typename SharedLoadIteratorB::Fragment fragment_b;
+  cutlass::gemm::load_shared(shared_load_b, fragment_b);
+
+  // The functor to do WMMA.
+  typedef cutlass::gemm::WmmaGemmMultiplyAdd<
+    cutlass::MatrixLayout::kColumnMajor, 
+    cutlass::MatrixLayout::kRowMajor, 
+    cutlass::MatrixLayout::kColumnMajor, 
+    float, 
+    AccumulatorsPerWarp, 
+    WmmaShape_> WmmaGemmMultiplyAdd;
+
+  // The output fragment.
+  typename WmmaGemmMultiplyAdd::Accumulators fragment_c;
+  fragment_c.clear();
+
+  // Do the WMMA.
+  WmmaGemmMultiplyAdd multiply_add;
+  multiply_add.multiply_add(fragment_a, fragment_b, fragment_c, fragment_c);
+
+  // Global memory stream to store D.
+  typedef cutlass::gemm::WmmaGemmGlobalIteratorCd<
+    cutlass::gemm::WmmaGemmGlobalIteratorCdTraits<
+      float, TileC, ThreadsA, 1> 
+    >
+    GlobalStoreIteratorD;
+  typedef cutlass::gemm::GlobalStoreStream<GlobalStoreIteratorD> GlobalStoreStreamD;
+
+  // The shared memory to store D.
+  __shared__ typename GlobalStoreStreamD::SharedStorage shared_storage_stream_d;
+
+  // Iterator to store C.
+  typename GlobalStoreStreamD::Params global_params_d;
+  global_params_d.initialize(desc, d_c, ldc);
+  GlobalStoreStreamD global_store_d(global_params_d, shared_storage_stream_d, desc.m, desc.n, desc.k,
+                                  cutlass::make_Coord(0, 0, 0));
+
+  // Shared store iterator/stream for C.
+  typedef cutlass::gemm::WmmaGemmSharedStoreIteratorD<
+    cutlass::gemm::WmmaGemmSharedStoreIteratorDTraits<
+      cutlass::MatrixLayout::kColumnMajor, float, OutputTile_, Warps_, WmmaShape_> >
+    SharedStoreIteratorD;
+  typedef cutlass::gemm::SharedStoreStream<SharedStoreIteratorD> SharedStoreStreamD;
+
+  // Shared load iterator/stream for D.
+  typedef cutlass::gemm::WmmaGemmSharedLoadIteratorD<
+    cutlass::gemm::WmmaGemmSharedLoadIteratorDTraits<
+      float, typename SharedStoreIteratorD::Tile, ThreadsA, 1> >
+    SharedLoadIteratorD;
+  typedef cutlass::gemm::SharedLoadStream<SharedLoadIteratorD> SharedLoadStreamD;
+
+  // The shared memory structure to swizzle D.
+  union SharedStorageD {
+    typename SharedStoreStreamD::SharedStorage store;
+    typename SharedLoadStreamD::SharedStorage load;
+  };
+
+  // The shared memory for D.
+  __shared__ SharedStorageD shared_storage_d;
+
+  // Store iterator D.
+  typename SharedStoreStreamD::Params shared_store_params_d;
+  shared_store_params_d.initialize();
+
+  // Store iterator D.
+  typename SharedLoadStreamD::Params shared_load_params_d;
+  shared_load_params_d.initialize();
+
+  // The number of WMMA in the tile H/W dimension (N/M in GEMM).
+  int const kWmmaPerH = OutputTile_::kH / Warps_::kH / WmmaShape_::kH;
+  int const kWmmaPerW = OutputTile_::kW / Warps_::kW / WmmaShape_::kW;
+
+  // Iterate over the data.
+  for (int i = 0; i < kWmmaPerH; ++i) {
+      // Make sure the shared memory can be written to.
+      __syncthreads();
+
+      // Create the iterator to store to SMEM.
+      SharedStoreStreamD shared_store_d(shared_store_params_d, 
+                                        shared_storage_d.store, 
+                                        fragment_c, 
+                                        i*kWmmaPerW);
+      shared_store_d.copy();
+      shared_store_d.commit();
+
+      // Make sure the shared memory was written.
+      __syncthreads();
+
+      // Create the iterator to load from SMEM.
+      SharedLoadStreamD shared_load_d(shared_load_params_d, shared_storage_d.load);
+      shared_load_d.copy();
+      shared_load_d.commit();
+
+      // Copy the data.
+      cutlass::Copy<typename SharedLoadStreamD::Fragment> copy;
+      copy.transform(shared_load_d.fragment(), global_store_d.fragment());
+
+      // Copy the data to global memory.
+      global_store_d.copy();
+      global_store_d.commit();
+  }
+}
+#else
+template <typename OutputTile_, typename Warps_, typename WmmaShape_>
+static __global__ void kernel_nt(half const *d_a, int lda, half const *d_b, int ldb, float *d_c,
+                                 int ldc) {
+  // The default configuration of threads.
+  typedef cutlass::Shape<1, Warps_::kCount, 32> Threads_;
+  // The threads.
+  typedef typename ReshapeThreadsA<Threads_, OutputTile_::kW>::Threads ThreadsA;
+  // The threads.
+  typedef typename ReshapeThreadsB<Threads_, OutputTile_::kH>::Threads ThreadsB;
+  // The number of elements loaded per LDG.
+  int const kScalarsPerLdg = 1;
+  // The tile for A.
+  typedef cutlass::Shape<1, OutputTile_::kD, OutputTile_::kW> TileA;
+  // The tile for B.
+  typedef cutlass::Shape<1, OutputTile_::kD, OutputTile_::kH> TileB;
+  // The tile for C.
+  typedef cutlass::Shape<1, Warps_::kH*WmmaShape_::kH, OutputTile_::kW> TileC;
+
+  // The problem descriptor.
+  ProblemDesc desc(OutputTile_::kW, OutputTile_::kH, OutputTile_::kD);
+
+  // The elements computed by a single warp.
+  typedef typename cutlass::ShapeDiv<OutputTile_, Warps_>::Shape AccumulatorsPerWarp;
+
+  // Global memory load for A.
+  typedef cutlass::gemm::GemmGlobalIteratorAb<
+    cutlass::gemm::GemmGlobalIteratorTraits<
+      cutlass::GemmOperand::kA, cutlass::MatrixLayout::kColumnMajor, half const, TileA, ThreadsA, kScalarsPerLdg> 
+    >
+    GlobalLoadIteratorA;
+
+  // Shared store iterator for A.
+  typedef cutlass::gemm::GemmSharedStoreIteratorAb<
+    cutlass::gemm::GemmSharedStoreIteratorAbTraits<
+      half, TileA, ThreadsA, kScalarsPerLdg> 
+    >
+    SharedStoreIteratorA;
+
+  // The global stream for A.
+  typedef cutlass::gemm::GlobalLoadStream<
+    GlobalLoadIteratorA,
+    cutlass::Copy<typename GlobalLoadIteratorA::Fragment>,
+    SharedStoreIteratorA>
+  GlobalLoadStreamA;
+
+  // Shared load iterator for A.
+  typedef cutlass::gemm::WmmaGemmSharedLoadIteratorA<
+    cutlass::gemm::WmmaGemmSharedLoadIteratorAbTraits<
+      cutlass::GemmOperand::kA, 
+      cutlass::MatrixLayout::kColumnMajor, half, OutputTile_, Warps_, WmmaShape_> >
+        SharedLoadIteratorA;
+
+  // Global memory load for B.
+  typedef cutlass::gemm::GemmGlobalIteratorAb<
+    cutlass::gemm::GemmGlobalIteratorTraits<
+      cutlass::GemmOperand::kB, cutlass::MatrixLayout::kRowMajor, half const, TileB, ThreadsB, kScalarsPerLdg> >
+      GlobalLoadIteratorB;
+
+  // Shared store iterator for B.
+  typedef cutlass::gemm::GemmSharedStoreIteratorAb<
+    cutlass::gemm::GemmSharedStoreIteratorAbTraits<
+      half, TileB, ThreadsB, kScalarsPerLdg> >
+      SharedStoreIteratorB;
+
+  // The global stream for B.
+  typedef cutlass::gemm::GlobalLoadStream<GlobalLoadIteratorB,
+                                          cutlass::Copy<typename GlobalLoadIteratorB::Fragment>,
+                                          SharedStoreIteratorB>
+      GlobalLoadStreamB;
+
+  // Shared load iterator for B.
+  typedef cutlass::gemm::WmmaGemmSharedLoadIteratorB<
+    cutlass::gemm::WmmaGemmSharedLoadIteratorAbTraits<
+      cutlass::GemmOperand::kB, 
+      cutlass::MatrixLayout::kRowMajor, half, OutputTile_, Warps_, WmmaShape_> >
+      SharedLoadIteratorB;
+
+  // Share memory to exchange data for A.
+  __shared__ SharedStorage<GlobalLoadStreamA, SharedLoadIteratorA> shared_storage_a;
+
+  // Share memory to exchange data for B.
+  __shared__ SharedStorage<GlobalLoadStreamB, SharedLoadIteratorB> shared_storage_b;
+
+  // Iterator to load A.
+  typename GlobalLoadStreamA::Params global_params_a;
+  global_params_a.initialize(desc, d_a, lda);
+  GlobalLoadStreamA global_load_a(global_params_a, shared_storage_a.store, desc.m, desc.n, desc.k,
+                                  cutlass::make_Coord(0, 0, 0));
+
+  // Iterator to load B.
+  typename GlobalLoadStreamB::Params global_params_b;
+  global_params_b.initialize(desc, d_b, ldb);
+  GlobalLoadStreamB global_load_b(global_params_b, shared_storage_b.store, desc.m, desc.n, desc.k,
+                                  cutlass::make_Coord(0, 0, 0));
+
+  // Load A/B.
+  global_load_a.copy();
+  global_load_b.copy();
+
+  // Copy to shared memory.
+  global_load_a.commit();
+  global_load_b.commit();
+
+  // Make sure the data is in shared memory.
+  __syncthreads();
+
+  // Load iterator A.
+  typename SharedLoadIteratorA::Params shared_params_a;
+  shared_params_a.initialize(desc);
+  SharedLoadIteratorA shared_load_a(shared_params_a, shared_storage_a.load);
+
+  // Load iterator B.
+  typename SharedLoadIteratorB::Params shared_params_b;
+  shared_params_b.initialize(desc);
+  SharedLoadIteratorB shared_load_b(shared_params_b, shared_storage_b.load);
+
+  // Copy A from shared memory.
+  typename SharedLoadIteratorA::Fragment fragment_a;
+  cutlass::gemm::load_shared(shared_load_a, fragment_a);
+
+  // Copy B from shared memory.
+  typename SharedLoadIteratorB::Fragment fragment_b;
+  cutlass::gemm::load_shared(shared_load_b, fragment_b);
+
+  // The functor to do WMMA.
+  typedef cutlass::gemm::WmmaGemmMultiplyAdd<
+    cutlass::MatrixLayout::kColumnMajor, 
+    cutlass::MatrixLayout::kRowMajor, 
+    cutlass::MatrixLayout::kColumnMajor, 
+    float, 
+    AccumulatorsPerWarp, 
+    WmmaShape_> WmmaGemmMultiplyAdd;
+
+  // The output fragment.
+  typename WmmaGemmMultiplyAdd::Accumulators fragment_c;
+  fragment_c.clear();
+
+  // Do the WMMA.
+  WmmaGemmMultiplyAdd multiply_add;
+  multiply_add.multiply_add(fragment_a, fragment_b, fragment_c, fragment_c);
+
+  // Global memory stream to store D.
+  typedef cutlass::gemm::WmmaGemmGlobalIteratorCd<
+    cutlass::gemm::WmmaGemmGlobalIteratorCdTraits<
+      float, TileC, ThreadsA, 1> 
+    >
+    GlobalStoreIteratorD;
+  typedef cutlass::gemm::GlobalStoreStream<GlobalStoreIteratorD> GlobalStoreStreamD;
+
+  // The shared memory to store D.
+  __shared__ typename GlobalStoreStreamD::SharedStorage shared_storage_stream_d;
+
+  // Iterator to store C.
+  typename GlobalStoreStreamD::Params global_params_d;
+  global_params_d.initialize(desc, d_c, ldc);
+  GlobalStoreStreamD global_store_d(global_params_d, shared_storage_stream_d, desc.m, desc.n, desc.k,
+                                  cutlass::make_Coord(0, 0, 0));
+
+  // Shared store iterator/stream for C.
+  typedef cutlass::gemm::WmmaGemmSharedStoreIteratorD<
+    cutlass::gemm::WmmaGemmSharedStoreIteratorDTraits<
+      cutlass::MatrixLayout::kColumnMajor, float, OutputTile_, Warps_, WmmaShape_> >
+    SharedStoreIteratorD;
+  typedef cutlass::gemm::SharedStoreStream<SharedStoreIteratorD> SharedStoreStreamD;
+
+  // Shared load iterator/stream for D.
+  typedef cutlass::gemm::WmmaGemmSharedLoadIteratorD<
+    cutlass::gemm::WmmaGemmSharedLoadIteratorDTraits<
+      float, typename SharedStoreIteratorD::Tile, ThreadsA, 1> >
+    SharedLoadIteratorD;
+  typedef cutlass::gemm::SharedLoadStream<SharedLoadIteratorD> SharedLoadStreamD;
+
+  // The shared memory structure to swizzle D.
+  union SharedStorageD {
+    typename SharedStoreStreamD::SharedStorage store;
+    typename SharedLoadStreamD::SharedStorage load;
+  };
+
+  // The shared memory for D.
+  __shared__ SharedStorageD shared_storage_d;
+
+  // Store iterator D.
+  typename SharedStoreStreamD::Params shared_store_params_d;
+  shared_store_params_d.initialize();
+
+  // Store iterator D.
+  typename SharedLoadStreamD::Params shared_load_params_d;
+  shared_load_params_d.initialize();
+
+  // The number of WMMA in the tile H/W dimension (N/M in GEMM).
+  int const kWmmaPerH = OutputTile_::kH / Warps_::kH / WmmaShape_::kH;
+  int const kWmmaPerW = OutputTile_::kW / Warps_::kW / WmmaShape_::kW;
+
+  // Iterate over the data.
+  for (int i = 0; i < kWmmaPerH; ++i) {
+      // Make sure the shared memory can be written to.
+      __syncthreads();
+
+      // Create the iterator to store to SMEM.
+      SharedStoreStreamD shared_store_d(shared_store_params_d, 
+                                        shared_storage_d.store, 
+                                        fragment_c, 
+                                        i*kWmmaPerW);
+      shared_store_d.copy();
+      shared_store_d.commit();
+
+      // Make sure the shared memory was written.
+      __syncthreads();
+
+      // Create the iterator to load from SMEM.
+      SharedLoadStreamD shared_load_d(shared_load_params_d, shared_storage_d.load);
+      shared_load_d.copy();
+      shared_load_d.commit();
+
+      // Copy the data.
+      cutlass::Copy<typename SharedLoadStreamD::Fragment> copy;
+      copy.transform(shared_load_d.fragment(), global_store_d.fragment());
+
+      // Copy the data to global memory.
+      global_store_d.copy();
+      global_store_d.commit();
+  }
+}
+#endif
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename OutputTile_, typename Warps_, typename WmmaShape_>
+void run() {
+  /// Testbed type.
+  typedef test::GemmTestbed<cutlass::half_t, cutlass::half_t, float, float, float> GemmTestbed;
+
+  // Create the testbed.
+  GemmTestbed testbed(OutputTile_::kW,  // M
+                      OutputTile_::kH,  // N
+                      OutputTile_::kD,  // K
+                      cutlass::convert(cutlass::MatrixLayout::kColumnMajor),
+                      cutlass::convert(cutlass::MatrixLayout::kRowMajor), 1, 0,
+                      CUBLAS_GEMM_DEFAULT_TENSOR_OP,
+                      cutlass::convert(cutlass::MatrixLayout::kColumnMajor));
+
+  // Initialize.
+  testbed.initialize();
+
+  // Launch the kernel.
+  kernel_nt<OutputTile_, Warps_, WmmaShape_><<<1, 32*Warps_::kCount>>>(
+      testbed.ptr_A(), testbed.lda(), 
+      testbed.ptr_B(), testbed.ldb(), 
+      testbed.ptr_computed(), testbed.ldc());
+  ASSERT_EQ(cudaSuccess, cudaGetLastError());
+
+  // Make sure it worked as expected.
+  ASSERT_TRUE(testbed.verify_with_host());
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm, multiply_add_f32_16x16x16_16x16x16) {
+  run<cutlass::Shape<16, 16, 16>, cutlass::Shape<1, 1, 1>, cutlass::Shape<16, 16, 16> >();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm, multiply_add_f32_16x32x16_16x16x16) {
+  run<cutlass::Shape<16, 32, 16>, cutlass::Shape<1, 1, 1>, cutlass::Shape<16, 16, 16> >();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm, multiply_add_f32_32x16x16_16x16x16) {
+  run<cutlass::Shape<16, 16, 32>, cutlass::Shape<1, 1, 1>, cutlass::Shape<16, 16, 16> >();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm, multiply_add_f32_64x16x16_16x16x16) {
+  run<cutlass::Shape<16, 16, 64>, cutlass::Shape<1, 1, 1>, cutlass::Shape<16, 16, 16> >();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm, multiply_add_f32_64x64x16_16x16x16) {
+  run<cutlass::Shape<16, 64, 64>, cutlass::Shape<1, 1, 1>, cutlass::Shape<16, 16, 16> >();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm, multiply_add_f32_128x128x16_16x16x16) {
+  run<cutlass::Shape<16, 128, 128>, cutlass::Shape<1, 2, 2>, cutlass::Shape<16, 16, 16> >();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm, multiply_add_f32_32x8x16_32x8x16) {
+  run<cutlass::Shape<16, 8, 32>, cutlass::Shape<1, 1, 1>, cutlass::Shape<16, 8, 32> >();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm, multiply_add_f32_128x128x16_32x8x16) {
+  run<cutlass::Shape<16, 128, 128>, cutlass::Shape<1, 2, 2>, cutlass::Shape<16, 8, 32> >();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm, multiply_add_f32_8x32x16_8x32x16) {
+  run<cutlass::Shape<16, 32, 8>, cutlass::Shape<1, 1, 1>, cutlass::Shape<16, 32, 8> >();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaGemm, multiply_add_f32_128x128x16_8x32x16) {
+  run<cutlass::Shape<16, 128, 128>, cutlass::Shape<1, 2, 2>, cutlass::Shape<16, 32, 8> >();
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#endif  // defined CUTLASS_USE_WMMA_API
diff --git a/tools/test/unit/gemm/wmma_integer_gemm.cu b/tools/test/unit/gemm/wmma_integer_gemm.cu
new file mode 100644
index 0000000000..857408c866
--- /dev/null
+++ b/tools/test/unit/gemm/wmma_integer_gemm.cu
@@ -0,0 +1,630 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include "cutlass/wmma_matrix.h"
+#ifdef CUTLASS_USE_SUBBYTE_WMMA
+
+#include "cutlass_unit_test.h"
+#include "cutlass/gemm/gemm.h"
+#include "cutlass/gemm/wmma_gemm_traits.h"
+
+#include "tools/test/unit/gemm/gemm_testbed.h"
+#include "tools/test/unit/gemm/integer_gemm.h"
+
+/*
+    TEST(TestGroup, TestName)
+
+      - TestGroup should follow this template:
+          WmmaIntegerGemm_<CTAShape>_<InstructionShape>_<datatype>_<layout>
+
+      - TestName should follow this template
+          wmma_integer_gemm_<ProblemShape>_{optional additional specifier(s)}
+
+      - Shapes should be specified as MxNxK (opposite to the Shape<> definition which is KxNxM)
+*/
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+//    S4 Integer GEMM Unit Tests
+//
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt4Gemm_32x32x64_8x8x32_s4, wmma_integer_gemm_32x32x64) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<64, 32, 32>,
+                                        cutlass::Vector<cutlass::int4_t, 8>,
+                                        cutlass::Vector<cutlass::int4_t, 8>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<64, 32, 32>,
+                                        cutlass::Shape<32, 8, 8>,
+                                        8,
+                                        8>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 64);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt4Gemm_32x32x256_8x8x32_s4, wmma_integer_gemm_128x128x256) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<256, 128, 128>,
+                                        cutlass::Vector<cutlass::int4_t, 8>,
+                                        cutlass::Vector<cutlass::int4_t, 8>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<256, 32, 32>,
+                                        cutlass::Shape<32, 8, 8>,
+                                        32,
+                                        32>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(128, 128, 256);
+}
+
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+//    U4 Integer GEMM Unit Tests
+//
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt4Gemm_32x32x64_8x8x32_u4, wmma_integer_gemm_32x32x64) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<64, 32, 32>,
+                                        cutlass::Vector<cutlass::uint4_t, 8>,
+                                        cutlass::Vector<cutlass::uint4_t, 8>,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<64, 32, 32>,
+                                        cutlass::Shape<32, 8, 8>,
+                                        8,
+                                        8>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 64);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+//    S8 Integer GEMM Unit Tests
+//
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+//
+//  16x16x16
+//
+
+TEST(WmmaInt8Gemm_32x32x32_16x16x16_s8_tn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 16, 16>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_16x16x16_s8_tt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 16, 16>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_16x16x16_s8_nt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 16, 16>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_16x16x16_s8_nn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 16, 16>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+//
+// 32x8x16
+//
+
+TEST(WmmaInt8Gemm_32x32x32_32x8x16_s8_tn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 8, 32>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_32x8x16_s8_tt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 8, 32>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_32x8x16_s8_nt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 8, 32>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_32x8x16_s8_nn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 8, 32>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+//
+// 8x32x16
+//
+
+TEST(WmmaInt8Gemm_32x32x32_8x32x16_s8_tn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 32, 8>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_8x32x16_s8_tt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 32, 8>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_8x32x16_s8_nt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 32, 8>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_8x32x16_s8_nn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        signed char,
+                                        signed char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 32, 8>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+//    U8 Integer GEMM Unit Tests
+//
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+//
+//  16x16x16
+//
+
+TEST(WmmaInt8Gemm_32x32x32_16x16x16_u8_tn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 16, 16>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_16x16x16_u8_tt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 16, 16>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_16x16x16_u8_nt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 16, 16>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_16x16x16_u8_nn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 16, 16>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+//
+// 32x8x16
+//
+
+TEST(WmmaInt8Gemm_32x32x32_32x8x16_u8_tn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 8, 32>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_32x8x16_u8_tt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 8, 32>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_32x8x16_u8_nt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 8, 32>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_32x8x16_u8_nn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 8, 32>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+//
+// 8x32x16
+//
+
+TEST(WmmaInt8Gemm_32x32x32_8x32x16_u8_tn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 32, 8>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_8x32x16_u8_tt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 32, 8>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_8x32x16_u8_nt, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kRowMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 32, 8>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(WmmaInt8Gemm_32x32x32_8x32x16_u8_nn, wmma_integer_gemm_32x32x32) {
+
+  typedef cutlass::gemm::WmmaGemmTraits<cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::MatrixLayout::kColumnMajor,
+                                        cutlass::Shape<32, 32, 32>,
+                                        unsigned char,
+                                        unsigned char,
+                                        int,
+                                        cutlass::gemm::LinearScaling<int>,
+                                        int,
+                                        cutlass::Shape<32, 32, 32>,
+                                        cutlass::Shape<16, 32, 8>,
+                                        4,
+                                        4>
+      WmmaGemmTraits;
+  run_integer_gemm<WmmaGemmTraits>(32, 32, 32);
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+#endif // ifdef CUTLASS_USE_SUBBYTE_WMMA
diff --git a/tools/test/unit/util/complex.cu b/tools/test/unit/util/complex.cu
new file mode 100644
index 0000000000..12d840fdbe
--- /dev/null
+++ b/tools/test/unit/util/complex.cu
@@ -0,0 +1,102 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#include <complex>
+
+#include "cutlass_unit_test.h"
+#include "cutlass/util/complex.h"
+#include "tools/util/half.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace test {
+
+  /// Thorough testing for basic complex math operators. Uses std::complex as a reference.
+  template <typename T, int N, int M>
+  struct ComplexOperators {
+    ComplexOperators() {
+      for (int ar = -N; ar <= N; ++ar) {
+        for (int ai = -N; ai <= N; ++ai) {
+          for (int br = -N; br <= N; ++br) {
+            for (int bi = -N; bi <= N; ++bi) {
+
+              cutlass::platform::complex<T> Ae(T(ar) / T(M), T(ai) / T(M));
+              cutlass::platform::complex<T> Be(T(br) / T(M), T(bi) / T(M));
+
+              std::complex<T> Ar(T(ar) / T(M), T(ai) / T(M));
+              std::complex<T> Br(T(br) / T(M), T(bi) / T(M));
+
+              cutlass::platform::complex<T> add_e = Ae + Be;
+              cutlass::platform::complex<T> sub_e = Ae - Be;
+              cutlass::platform::complex<T> mul_e = Ae * Be;
+
+              std::complex<T> add_r = (Ar + Br);
+              std::complex<T> sub_r = (Ar - Br);
+              std::complex<T> mul_r = (Ar * Br);
+
+              EXPECT_EQ(real(add_e), real(add_r));
+              EXPECT_EQ(imag(add_e), imag(add_r));
+
+              EXPECT_EQ(real(sub_e), real(sub_r));
+              EXPECT_EQ(imag(sub_e), imag(sub_r));
+
+              EXPECT_EQ(real(mul_e), real(mul_r));
+              EXPECT_EQ(imag(mul_e), imag(mul_r));
+
+              if (!(br == 0 && bi == 0)) {
+
+                cutlass::platform::complex<T> div_e = Ae * Be;
+                std::complex<T> div_r = Ar * Br;
+
+                EXPECT_EQ(real(div_e), real(div_r));
+                EXPECT_EQ(imag(div_e), imag(div_r));
+              }
+            }
+          }
+        }
+      }
+    }
+  };
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Complex, host_float) {
+  test::ComplexOperators<float, 32, 8> test;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Complex, host_double) {
+  test::ComplexOperators<double, 32, 8> test;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////
+
+TEST(Complex, host_half) {
+  // Fewer test cases since half_t is emulated
+  test::ComplexOperators<cutlass::half_t, 14, 4> test;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/test/unit/util/host_tensor.cu b/tools/test/unit/util/host_tensor.cu
index aff6648aa7..ce3b22489d 100644
--- a/tools/test/unit/util/host_tensor.cu
+++ b/tools/test/unit/util/host_tensor.cu
@@ -1,66 +1,342 @@
-/******************************************************************************
-* Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
-*
-* Redistribution and use in source and binary forms, with or without
-* modification, are not permitted.
-*
-* THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
-* ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
-* WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-* DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE FOR ANY
-* DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
-* (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
-* LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
-* ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-* (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
-* SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*
-******************************************************************************/
-
-/*! \file
-    \brief Tests for Host_tensor, Host_tensor_view, and Tensor_view
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/* \file
+
+  \brief Defines unit tests for HostTensor and HostMatrix.
+
+  HostTensor is a utility class for allocating memory on the host and on the selected CUDA device
+  and presenting a TensorView of this memory.
+
+  HostMatrix is new in CUTLASS 1.1 that offers a matrix-like interface to a HostTensor with rank 2.
+  Several examples are shown in this source file.
 */
 
-//#include <gtest/gtest.h>
-#include <cutlass_unit_test.h>
-#include <tools/util/host_tensor.h>
-#include <tools/util/tensor_view_io.h>
+#include "cutlass_unit_test.h"
+
+#include "cutlass/matrix_traits.h"
+
+#include "tools/util/tensor_view_io.h"
+#include "tools/util/host_tensor.h"
+#include "tools/util/host_matrix.h"
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace test {
+
+/// Kernel to compute a thread's unique coordinate within a CUDA kernel grid and write a value
+/// using a CUTLASS TensorView.
+template <typename TensorView>
+__global__ void fill_sequential(TensorView view) {
+
+  // Compute the thread's coordinate in the 2D CUDA kernel grid
+  cutlass::Coord<2> coord = cutlass::make_Coord(
+    blockIdx.x * blockDim.x + threadIdx.x,
+    blockIdx.y * blockDim.y + threadIdx.y
+  );
+
+  // Write a value into the view
+  if (view.contains(coord)) {
+    view.at(coord) = coord[0] + view.size(0) * coord[1];
+  }
+}
+
+} // namespace test
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+// This test constructs a CUTLASS HostTensor  with column-major layout.
+TEST(HostTensor, fill_sequential_column_major) {
+
+  int const M = 16;
+  int const N = 32;
+
+  cutlass::Coord<2> bounds = cutlass::make_Coord(M, N);
+
+  // Construct a rank=2 host tensor of size M-by-N with leading dimension M
+  cutlass::HostTensor<
+    int,
+    2,
+    cutlass::MatrixLayout::ColumnMajor> host_tensor(cutlass::make_Coord(M, 1), bounds);
+
+  // Fill it with zeros and synchronize device
+  host_tensor.fill(0);
+  host_tensor.sync_device();
+
+  // Launch a CUDA kernel by obtaining a TensorView of the device memory
+  dim3 block(16, 16);
+  dim3 grid((M + block.x - 1) / block.x, (N + block.y - 1) / block.y);
+
+  test::fill_sequential<<< grid, block >>>(host_tensor.device_view());
+
+  ASSERT_EQ(cudaDeviceSynchronize(), cudaSuccess);
+
+  // Synchronize the host data
+  host_tensor.sync_host();
+
+  // Verify host_tensor contains sequential elements
+  int errors = 0;
+  for (int n = 0; n < N; ++n) {
+    for (int m = 0; m < M; ++m) {
+      int expected = m + n * M;
+      int got = host_tensor.at(cutlass::make_Coord(m, n));
+      if (expected != got) {
+        ++errors;
+      }
+    }
+  }
+
+  EXPECT_EQ(errors, 0) << std::setw(4) << host_tensor << std::endl;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+// This test constructs a CUTLASS HostTensor with column-major interleaved layout
+TEST(HostTensor, fill_sequential_column_major_interleaved) {
+
+  int const M = 16;
+  int const N = 16;
+  int const kInterleave = 4;
+
+  cutlass::Coord<2> bounds = cutlass::make_Coord(M, N);
+
+  // Define a mapping function for column-major interleaved layout
+  typedef cutlass::MatrixLayout::ColumnMajorInterleaved<kInterleave> TensorRefMapFunc;
+
+  // Construct a rank=2 host tensor of size M-by-N
+  cutlass::HostTensor<
+    int,
+    2,
+    TensorRefMapFunc > host_tensor(TensorRefMapFunc::stride(M), bounds);
+
+  // Fill it with zeros and synchronize device
+  host_tensor.fill(0);
+  host_tensor.sync_device();
+
+  // Launch a CUDA kernel by obtaining a TensorView of the device memory
+  dim3 block(16, 16);
+  dim3 grid((M + block.x - 1) / block.x, (N + block.y - 1) / block.y);
 
-/// Random number generator
-struct RandomGenerator {
-    RandomGenerator(int seed = 17) {
-        srand(seed);
+  test::fill_sequential<<< grid, block >>>(host_tensor.device_view());
+
+  ASSERT_EQ(cudaDeviceSynchronize(), cudaSuccess);
+
+  // Synchronize the host data
+  host_tensor.sync_host();
+
+  // Verify host_tensor contains sequential elements
+  int errors = 0;
+  for (int n = 0; n < N; ++n) {
+    for (int m = 0; m < M; ++m) {
+      int expected = m + n * M;
+      int got = host_tensor.at(cutlass::make_Coord(m, n));
+      if (got != expected) {
+        ++errors;
+      }
+    }
+  }
+
+  EXPECT_EQ(errors, 0) << std::setw(4) << host_tensor << std::endl;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// cutlass::HostMatrix extends cutlass::HostTensor of rank=2 to facilitate allocate and operating
+// on matrices in device memory.
+//
+// cutlass::HostMatrix<T> accommodates both row-major and column-major matrices with a single
+// leading dimension.
+//
+// The first test demonstrates use of HostMatrix<> in the same circumstances as HostTensor but with
+// simplifcations to the calling interface.
+//
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+// This test constructs a CUTLASS cutlass::HostMatrix  with column-major layout.
+TEST(HostMatrix, fill_sequential_column_major) {
+
+  int const M = 16;
+  int const N = 32;
+  int const ldm = M + 2; // define leading dimension with padding
+
+  cutlass::Coord<2> bounds = cutlass::make_Coord(M, N);
+
+  // Construct a HostMatrix of size M-by-N with leading dimension ldm
+  cutlass::HostMatrix<int> host_matrix(bounds, cutlass::MatrixLayout::kColumnMajor, ldm);
+
+  // Fill it with zeros and synchronize device
+  host_matrix.fill(0);
+  host_matrix.sync_device();
+
+  // Launch a CUDA kernel by obtaining a TensorView of the device memory
+  dim3 block(16, 16);
+  dim3 grid((M + block.x - 1) / block.x, (N + block.y - 1) / block.y);
+
+  test::fill_sequential<<< grid, block >>>(host_matrix.device_view());
+
+  ASSERT_EQ(cudaDeviceSynchronize(), cudaSuccess);
+
+  // Synchronize the host data
+  host_matrix.sync_host();
+
+  // Verify host_matrix contains sequential elements
+  int errors = 0;
+  for (int n = 0; n < N; ++n) {
+    for (int m = 0; m < M; ++m) {
+      int expected = m + n * M;
+      int got = host_matrix.at(cutlass::make_Coord(m, n));
+      if (expected != got) {
+        ++errors;
+      }
     }
+  }
 
-    float operator()() {
-        return float(rand() % 64) / 8.0f;
+  EXPECT_EQ(errors, 0) << std::setw(4) << host_matrix << std::endl;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// Previously, cutlass::HostTensorView<> offered a gemm() method defined for the H and W dimensions.
+// The other dimensions were ignored.
+//
+// To improve the interface, we We have moved this into the HostMatrixView<> and HostMatrix<>
+// classes which require rank=2. To accommodate matrix operands of differing layout, we have extracted
+// the host-side GEMM implementation into cutlass::reference::host::Gemm() which can compute the
+// general matrix product of matrices with arbitrary layout.
+//
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+// This test constructs a CUTLASS cutlass::HostMatrix  with column-major layout.
+TEST(HostMatrix, gemm) {
+
+  // Problem size intentionally small, as reference check has complexity O(MNK).
+  int const M = 32;
+  int const N = 16;
+  int const K = 4;
+
+  int const lda = M;
+  int const ldb = N;
+  int const ldc = M;
+
+  // Construct matrix operands
+  cutlass::HostMatrix<int> A(cutlass::make_Coord(M, K), cutlass::MatrixLayout::kColumnMajor, lda);
+  cutlass::HostMatrix<int> B(cutlass::make_Coord(K, N), cutlass::MatrixLayout::kRowMajor, ldb);
+  cutlass::HostMatrix<int> C(cutlass::make_Coord(M, N), cutlass::MatrixLayout::kColumnMajor, ldc);
+
+  A.fill_sequential();
+  B.fill_sequential();
+  C.fill(0);
+
+  int alpha = 1;
+
+  // Compute host-side GEMM reference
+  cutlass::reference::host::Gemm(
+    cutlass::gemm::GemmCoord(K, N, M),
+    alpha,
+    A.host_ref(),
+    B.host_ref(),
+    int(0), // beta
+    C.host_ref());
+
+  // Verify result
+  int errors = 0;
+
+  // Primitive reference implementation for matrix product
+  for (int i = 0; i < M; ++i) {
+    for (int j = 0; j < N; ++j) {
+      int result = 0;
+      for (int k = 0; k < K; ++k) {
+        result += A.at(cutlass::make_Coord(i, k)) * B.at(cutlass::make_Coord(k, j));
+      }
+      if (C.at(cutlass::make_Coord(i, j)) != alpha * result) {
+        ++errors;
+      }
     }
-};
+  }
+
+  EXPECT_EQ(errors, 0) << "GEMM error\n"
+    << "A =\n" << A << "\nB = \n" << B << "\nC =\n" << C << "\n";
+}
 
-TEST(HostTensor, gemm) {
+////////////////////////////////////////////////////////////////////////////////////////////////////
 
-    int const M = 16;
-    int const N = 16;
-    int const K = 16;
+// When layout is known at compile time, we may be use the corresponding helper classes to smplify
+// matrix instantiation. The matrix layout becomes part of the type which reduces the StorageRank
+// of the internal stride vector.
+//
+// Apart from specifying the matrix layout at compile time, this test is functionally identical to
+// HostMatrix.gemm.
+//
+TEST(HostMatrix, gemm_compile_time_layout) {
 
-    typedef cutlass::HostTensor<float, false> HostTensor;
+  // Problem size intentionally small, as reference check has complexity O(MNK).
+  int const M = 32;
+  int const N = 16;
+  int const K = 4;
 
-    // allocate a host tensor
-    HostTensor A(
-        cutlass::make_Coord(1, K, M, 1)
-    );
+  int const lda = M;
+  int const ldb = N;
+  int const ldc = M;
 
-    HostTensor B(
-        cutlass::make_Coord(1, N, K, 1)
-    );
+  // Construct matrix operands
+  cutlass::HostMatrixColumnMajor<int> A(cutlass::make_Coord(M, K), lda);
+  cutlass::HostMatrixRowMajor<int>    B(cutlass::make_Coord(K, N), ldb);
+  cutlass::HostMatrixColumnMajor<int> C(cutlass::make_Coord(M, N), ldc);
 
-    HostTensor C(
-        cutlass::make_Coord(1, N, M, 1)
-    );
+  A.fill_sequential();
+  B.fill_sequential();
+  C.fill(0);
 
-    A.fill_random(RandomGenerator());
-    B.fill_random(RandomGenerator());
+  int alpha = 1;
+
+  // Compute host-side GEMM reference
+  cutlass::reference::host::Gemm(
+    cutlass::gemm::GemmCoord(K, N, M),
+    alpha,
+    A.host_ref(),
+    B.host_ref(),
+    int(0), // beta
+    C.host_ref());
+
+  // Verify result
+  int errors = 0;
+
+  // Primitive reference implementation for matrix product
+  for (int i = 0; i < M; ++i) {
+    for (int j = 0; j < N; ++j) {
+      int result = 0;
+      for (int k = 0; k < K; ++k) {
+        result += A.at(cutlass::make_Coord(i, k)) * B.at(cutlass::make_Coord(k, j));
+      }
+      if (C.at(cutlass::make_Coord(i, j)) != alpha * result) {
+        ++errors;
+      }
+    }
+  }
 
-    C.gemm<float, float, float, float>(A, B, 1.0f, 0.0f);
+  EXPECT_EQ(errors, 0) << "GEMM error\n"
+    << "A =\n" << A << "\nB = \n" << B << "\nC =\n" << C << "\n";
 }
 
+////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/test/unit/util/tensor_elementwise.cu b/tools/test/unit/util/tensor_elementwise.cu
new file mode 100644
index 0000000000..a983a4f4c1
--- /dev/null
+++ b/tools/test/unit/util/tensor_elementwise.cu
@@ -0,0 +1,324 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/* \file
+
+  \brief
+
+    These tests initialize host- and device-side tensors according to several random distributions.
+*/
+
+#include "cutlass_unit_test.h"
+
+#include "cutlass/matrix_traits.h"
+
+#include "tools/util/tensor_view_io.h"
+#include "tools/util/host_tensor.h"
+#include "tools/util/host_matrix.h"
+
+#include "tools/util/reference/device/tensor_foreach.h"
+#include "tools/util/reference/device/tensor_elementwise.h"
+
+#include "tools/util/reference/host/tensor_foreach.h"
+#include "tools/util/reference/host/tensor_elementwise.h"
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+#define ENABLE_OUTPUT 0 // Supress output by default.
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TensorInitialize, uniform_device) {
+
+  // Define the problem size
+  int const M = 517;
+  int const N = 117;
+
+  // Define HostMatrix type
+  typedef cutlass::HostMatrix<float> HostMatrix;
+
+  // Construct the host matrix
+  HostMatrix source(cutlass::MatrixCoord(M, N), cutlass::MatrixLayout::kRowMajor);
+  source.fill(0);
+
+  // Initialize the source matrix with a uniform distribution
+  cutlass::Distribution dist;
+  dist.set_uniform(0, 128, -1);
+
+  // RNG seed is hard-coded for determinism in the test.
+  unsigned seed = 2080;
+
+  cutlass::reference::device::TensorInitialize(source.device_view(), seed, dist);
+
+  source.sync_host();
+
+  if (ENABLE_OUTPUT) {
+    std::ofstream result("TensorInitialize_uniform_device.csv");
+
+    for (int i = 0; i < M; ++i) {
+      for (int j = 0; j < N; ++j) {
+        result << source.at(cutlass::make_Coord(i, j)) << "\n";
+      }
+    }
+  }
+}
+
+TEST(TensorInitialize, uniform_host) {
+
+  // Define the problem size
+  int const M = 517;
+  int const N = 117;
+
+  bool const kDeviceBacked = false;
+
+  // Define HostMatrix type
+  typedef cutlass::HostMatrix<float> HostMatrix;
+
+  // Construct the host matrix
+  HostMatrix source(cutlass::MatrixCoord(M, N), cutlass::MatrixLayout::kRowMajor, kDeviceBacked);
+  source.fill(0);
+
+  // Initialize the source matrix with a uniform distribution
+  cutlass::Distribution dist;
+  dist.set_uniform(0, 128, -1);
+
+  // RNG seed is hard-coded for determinism in the test.
+  unsigned seed = 2080;
+
+  cutlass::reference::host::TensorInitialize(source.host_view(), seed, dist);
+
+  if (ENABLE_OUTPUT) {
+    std::ofstream result("TensorInitialize_uniform_host.csv");
+
+    for (int i = 0; i < M; ++i) {
+      for (int j = 0; j < N; ++j) {
+        result << source.at(cutlass::make_Coord(i, j)) << "\n";
+      }
+    }
+  }
+}
+
+TEST(TensorInitialize, gaussian_device) {
+
+  // Define the problem size
+  int const M = 517;
+  int const N = 117;
+
+
+  // Define HostMatrix type
+  typedef cutlass::HostMatrix<float> HostMatrix;
+
+  // Construct the host matrix
+  HostMatrix source(cutlass::MatrixCoord(M, N), cutlass::MatrixLayout::kRowMajor);
+  source.fill(0);
+
+  // Initialize the source matrix with a uniform distribution
+  cutlass::Distribution dist;
+  dist.set_gaussian(1, 2, -1);
+
+  // RNG seed is hard-coded for determinism in the test.
+  unsigned seed = 2080;
+
+  cutlass::reference::device::TensorInitialize(source.device_view(), seed, dist);
+
+  source.sync_host();
+
+  if (ENABLE_OUTPUT) {
+    std::ofstream result("TensorInitialize_gaussian_device.csv");
+
+    for (int i = 0; i < M; ++i) {
+      for (int j = 0; j < N; ++j) {
+        result << source.at(cutlass::make_Coord(i, j)) << "\n";
+      }
+    }
+  }
+}
+
+TEST(TensorInitialize, gaussian_host) {
+  // Define the problem size
+  int const M = 517;
+  int const N = 117;
+
+  bool const kDeviceBacked = false;
+
+  // Define HostMatrix type
+  typedef cutlass::HostMatrix<float> HostMatrix;
+
+  // Construct the host matrix
+  HostMatrix source(cutlass::MatrixCoord(M, N), cutlass::MatrixLayout::kRowMajor, kDeviceBacked);
+  source.fill(0);
+
+  // Initialize the source matrix with a uniform distribution
+  cutlass::Distribution dist;
+  dist.set_gaussian(1, 2, -1);
+
+  // RNG seed is hard-coded for determinism in the test.
+  unsigned seed = 2080;
+
+  cutlass::reference::host::TensorInitialize(source.host_view(), seed, dist);
+
+  if (ENABLE_OUTPUT) {
+    std::ofstream result("TensorInitialize_gaussian_host.csv");
+
+    for (int i = 0; i < M; ++i) {
+      for (int j = 0; j < N; ++j) {
+        result << source.at(cutlass::make_Coord(i, j)) << "\n";
+      }
+    }
+  }
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// Interleaved matrix layouts
+//
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TensorInitialize, interleaved_gaussian_device) {
+
+  // Define the problem size
+  int const M = 512;
+  int const N = 128;
+
+  // Define a mapping function for column-major interleaved layout
+  int const kInterleave = 4;
+  typedef cutlass::MatrixLayout::ColumnMajorInterleaved<kInterleave> TensorRefMapFunc;
+
+  // Construct a rank=2 host tensor of size M-by-N
+  cutlass::HostTensor<
+    float,
+    2,
+    TensorRefMapFunc > source(TensorRefMapFunc::stride(M), cutlass::make_Coord(M, N));
+
+  source.fill(0);
+
+  // Initialize the source matrix with a uniform distribution
+  cutlass::Distribution dist;
+  dist.set_gaussian(1, 2, -1);
+
+  // RNG seed is hard-coded for determinism in the test.
+  unsigned seed = 2080;
+
+  cutlass::reference::device::TensorInitialize(source.device_view(), seed, dist);
+
+  source.sync_host();
+
+  if (ENABLE_OUTPUT) {
+    std::ofstream result("TensorInitialize_interleaved_gaussian_device.csv");
+
+    for (int i = 0; i < M; ++i) {
+      for (int j = 0; j < N; ++j) {
+        result << source.at(cutlass::make_Coord(i, j)) << "\n";
+      }
+    }
+  }
+}
+
+TEST(TensorInitialize, interleaved_gaussian_host) {
+  // Define the problem size
+  int const M = 512;
+  int const N = 128;
+
+  bool const kDeviceBacked = false;
+
+  // Define a mapping function for column-major interleaved layout
+  int const kInterleave = 4;
+  typedef cutlass::MatrixLayout::ColumnMajorInterleaved<kInterleave> TensorRefMapFunc;
+
+  // Construct a rank=2 host tensor of size M-by-N
+  cutlass::HostTensor<
+    float,
+    2,
+    TensorRefMapFunc > source(TensorRefMapFunc::stride(M), cutlass::make_Coord(M, N), kDeviceBacked);
+
+  // Construct the host matrix
+  source.fill(0);
+
+  // Initialize the source matrix with a uniform distribution
+  cutlass::Distribution dist;
+  dist.set_gaussian(1, 2, -1);
+
+  // RNG seed is hard-coded for determinism in the test.
+  unsigned seed = 2080;
+
+  cutlass::reference::host::TensorInitialize(source.host_view(), seed, dist);
+
+  if (ENABLE_OUTPUT) {
+    std::ofstream result("TensorInitialize_interleaved_gaussian_host.csv");
+
+    for (int i = 0; i < M; ++i) {
+      for (int j = 0; j < N; ++j) {
+        result << source.at(cutlass::make_Coord(i, j)) << "\n";
+      }
+    }
+  }
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// Comparison operator
+//
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+TEST(TensorEquals, interleaved_device) {
+
+  // Define the problem size
+  int const M = 512;
+  int const N = 128;
+
+  // Define a mapping function for column-major interleaved layout
+  int const kInterleave = 4;
+  typedef cutlass::MatrixLayout::ColumnMajorInterleaved<kInterleave> TensorRefMapFunc;
+
+  // Construct two rank=2 host tensor of size M-by-N
+  cutlass::HostTensor<
+    float,
+    2,
+    TensorRefMapFunc > left(TensorRefMapFunc::stride(M), cutlass::make_Coord(M, N));
+
+  cutlass::HostTensor<
+    float,
+    2,
+    TensorRefMapFunc > right(TensorRefMapFunc::stride(M), cutlass::make_Coord(M, N));
+
+  // Initialize
+  left.fill_sequential();
+  right.fill_sequential();
+
+  // Assert equality
+  EXPECT_TRUE(cutlass::reference::device::TensorEquals(left.device_view(), right.device_view()));
+
+  // Overwrite one with an unexpected element
+  left.at(cutlass::make_Coord(24, 17)) = -1;
+  left.sync_device();
+
+  // Assert inequality
+  EXPECT_FALSE(cutlass::reference::device::TensorEquals(left.device_view(), right.device_view()));
+}
+
+TEST(TensorEquals, interleaved_host) {
+
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/test/unit/util/tensor_foreach.cu b/tools/test/unit/util/tensor_foreach.cu
new file mode 100644
index 0000000000..dcb9659872
--- /dev/null
+++ b/tools/test/unit/util/tensor_foreach.cu
@@ -0,0 +1,217 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/* \file
+
+  \brief
+
+    These tests are intended to demonstrate the CUTLASS reference implementation for basic for-each
+    operators on the index space of TensorView objects. They instantiate a HostMatrix, initialize
+    its elements with random data according to specified random distributions, and clamp the
+    elements using a TensorForEach() operation.
+
+    Both device-side and host-side reference implementations are called.
+*/
+
+#include "cutlass_unit_test.h"
+
+#include "cutlass/matrix_traits.h"
+
+#include "tools/util/tensor_view_io.h"
+#include "tools/util/host_tensor.h"
+#include "tools/util/host_matrix.h"
+
+#include "tools/util/reference/device/tensor_foreach.h"
+#include "tools/util/reference/device/tensor_elementwise.h"
+
+#include "tools/util/reference/host/tensor_foreach.h"
+#include "tools/util/reference/host/tensor_elementwise.h"
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace test {
+
+/// Define a functor that computes the ReLu operation on a tensor.
+template <typename View>
+struct ReLuFunc {
+
+  /// Coordinate of index space
+  typedef typename View::TensorCoord TensorCoord;
+
+  /// Scalar type
+  typedef typename View::Storage T;
+
+  //
+  // Data members
+  //
+
+  /// Tensor view
+  View view;
+
+  /// ReLu threshold
+  T threshold;
+
+  //
+  // Methods
+  //
+
+  /// Constructor
+  CUTLASS_HOST_DEVICE
+  ReLuFunc(View const &view, T threshold): view(view), threshold(threshold) { }
+
+  /// ReLu function
+  CUTLASS_HOST_DEVICE
+  void operator()(TensorCoord const &coord) {
+    T value = view.at(coord);
+
+    if (value < threshold) {
+      value = threshold;
+    }
+
+    view.at(coord) = value;
+  }
+};
+
+} // namespace test
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// This tests models the computation of ReLu using reference utility code.
+TEST(TensorForEach, ReLu_device) {
+
+  // Define HostMatrix type
+  typedef cutlass::HostMatrix<float> HostMatrix;
+  typedef typename HostMatrix::DeviceTensorView View;
+
+  // Define the problem size
+  int const M = 517;
+  int const N = 117;
+
+  float threshold = 0;
+
+  // Construct the host matrix
+  HostMatrix source(cutlass::MatrixCoord(M, N), cutlass::MatrixLayout::kRowMajor);
+  source.fill(0);
+
+  // Initialize the source matrix with a uniform distribution
+  cutlass::Distribution dist;
+  dist.set_uniform(-16, 16);
+
+  // RNG seed is hard-coded for determinism in the test.
+  int64_t seed = 2080;
+
+  cutlass::reference::device::TensorInitialize(source.device_view(), seed, dist);
+
+  // Define a functor called by TensorForEach<>
+  typedef test::ReLuFunc<View> ReLuFunc;
+
+  // Instantiate on host with TensorView and threshold value
+  ReLuFunc relu_func(source.device_view(), threshold);
+
+  // Launch kernel that applies the element-wise operator over the tensor's index space.
+  cutlass::reference::device::TensorForEach<
+    ReLuFunc,
+    View::kRank,
+    ReLuFunc>(source.size(), relu_func);
+
+  // Verify no element is less than the ReLu threshold.
+  source.sync_host();
+
+  int errors = 0;
+  for (cutlass::MatrixCoord coord(0, 0); coord.row() < M; ++coord.row()) {
+    for (coord.column() = 0; coord.column() < N; ++coord.column()) {
+      if (source.at(coord) < threshold) {
+        ++errors;
+        if (errors < 10) {
+          std::cout << "Error - source(" << coord << ") = "
+            << source.at(coord) << " is less than threshold " << threshold << std::endl;
+        }
+      }
+    }
+  }
+
+  EXPECT_EQ(errors, 0)
+    << "Result: " << source;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Test to apply the ReLu operation using host-side utilities
+TEST(TensorForEach, ReLu_host) {
+
+  // Define HostMatrix type
+  typedef cutlass::HostMatrix<float> HostMatrix;
+  typedef typename HostMatrix::HostTensorView View;
+
+  // Define the problem size
+  int const M = 517;
+  int const N = 117;
+
+  float threshold = 0;
+
+  bool const kDeviceBacked = false;
+
+  // Construct the host matrix
+  HostMatrix source(cutlass::MatrixCoord(M, N), cutlass::MatrixLayout::kRowMajor, kDeviceBacked);
+  source.fill(0);
+
+  // Initialize the source matrix with a uniform distribution
+  cutlass::Distribution dist;
+  dist.set_gaussian(-1, 4);
+
+  // RNG seed is hard-coded for determinism in the test.
+  unsigned seed = 2080;
+
+  cutlass::reference::host::TensorInitialize(source.host_view(), seed, dist);
+
+  // Define a functor called by TensorForEach<>
+  typedef test::ReLuFunc<View> ReLuFunc;
+
+  // Instantiate on host with TensorView and threshold value
+  ReLuFunc relu_func(source.host_view(), threshold);
+
+  // Invoke host-side for-each computation on the tensor
+  cutlass::reference::host::TensorForEach<
+    ReLuFunc,
+    View::kRank,
+    ReLuFunc>(source.size(), relu_func);
+
+  int errors = 0;
+  for (cutlass::MatrixCoord coord(0, 0); coord.row() < M; ++coord.row()) {
+    for (coord.column() = 0; coord.column() < N; ++coord.column()) {
+      if (source.at(coord) < threshold) {
+        ++errors;
+        if (errors < 10) {
+          std::cout << "Error - source(" << coord << ") = "
+            << source.at(coord) << " is less than threshold " << threshold << std::endl;
+        }
+      }
+    }
+  }
+
+  EXPECT_EQ(errors, 0)
+    << "Result: " << source;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/test/unit/util/unique_ptr.cu b/tools/test/unit/util/unique_ptr.cu
new file mode 100644
index 0000000000..7676efb5e3
--- /dev/null
+++ b/tools/test/unit/util/unique_ptr.cu
@@ -0,0 +1,25 @@
+/******************************************************************************
+* Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
+*
+* Redistribution and use in source and binary forms, with or without
+* modification, are not permitted.
+*
+* THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
+* ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
+* WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
+* DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE FOR ANY
+* DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
+* (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+* LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
+* ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
+* (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
+* SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+*
+******************************************************************************/
+
+#include "cutlass_unit_test.h"
+#include "cutlass/util/platform.h"
+
+TEST(unique_ptr, basic) {
+    cutlass::platform::unique_ptr<int> ptr(new int);
+}
diff --git a/tools/util/command_line.h b/tools/util/command_line.h
index 8f2b17aa9a..d4bb96fea6 100644
--- a/tools/util/command_line.h
+++ b/tools/util/command_line.h
@@ -108,7 +108,7 @@ struct CommandLine {
   }
 
   /**
-   * Returns the commandline parameter for a given index (not including flags)
+   * Returns the boolean value specified for a given commandline parameter --<flag>=<bool>
    */
   void get_cmd_line_argument(const char* arg_name, bool& val, bool _default = true) const {
     val = _default;
@@ -156,27 +156,7 @@ struct CommandLine {
       for (int i = 0; i < keys.size(); ++i) {
         if (keys[i] == string(arg_name)) {
           string val_string(values[i]);
-          istringstream str_stream(val_string);
-          string::size_type old_pos = 0;
-          string::size_type new_pos = 0;
-
-          // Iterate <sep>-delimited values
-          value_t val;
-          while ((new_pos = val_string.find(sep, old_pos)) != string::npos) {
-            if (new_pos != old_pos) {
-              str_stream.width(new_pos - old_pos);
-              str_stream >> val;
-              vals.push_back(val);
-            }
-
-            // skip over delimiter
-            str_stream.ignore(1);
-            old_pos = new_pos + 1;
-          }
-
-          // Read last value
-          str_stream >> val;
-          vals.push_back(val);
+          seperate_string(val_string, vals, sep);
         }
       }
     }
@@ -184,7 +164,7 @@ struct CommandLine {
 
   /**
    * Returns the values specified for a given commandline parameter
-   * --<flag>=<key:value>,<key:value>*
+   * --<flag>=<value>,<value_start:value_end>*
    */
   void get_cmd_line_argument_pairs(const char* arg_name,
                                    std::vector<std::pair<std::string, std::string> >& tokens,
@@ -198,6 +178,26 @@ struct CommandLine {
     }
   }
 
+  /**
+   * Returns a list of ranges specified for a given commandline parameter
+   * --<flag>=<key:value>,<key:value>*
+   */
+  void get_cmd_line_argument_ranges(const char* arg_name,
+                                    std::vector<std::vector<std::string> >& vals,
+                                    char delim = ',',
+                                    char sep = ':') const {
+    std::vector<std::string> ranges;
+    get_cmd_line_arguments(arg_name, ranges, delim);
+
+    for (std::vector<std::string>::const_iterator range = ranges.begin();
+      range != ranges.end(); ++range) {
+
+      std::vector<std::string> range_vals;
+      seperate_string(*range, range_vals, sep);
+      vals.push_back(range_vals);
+    }
+  }
+
   /**
    * The number of pairs parsed
    */
@@ -249,6 +249,33 @@ struct CommandLine {
       tokens.push_back(tok->first);
     }
   }
+
+  template <typename value_t>
+  static void seperate_string(std::string const& str,
+                              std::vector<value_t>& vals,
+                              char sep = ',') {
+    std::istringstream str_stream(str);
+    std::string::size_type old_pos = 0;
+    std::string::size_type new_pos = 0;
+
+    // Iterate <sep>-delimited values
+    value_t val;
+    while ((new_pos = str.find(sep, old_pos)) != std::string::npos) {
+      if (new_pos != old_pos) {
+        str_stream.width(new_pos - old_pos);
+        str_stream >> val;
+        vals.push_back(val);
+      }
+
+      // skip over delimiter
+      str_stream.ignore(1);
+      old_pos = new_pos + 1;
+    }
+
+    // Read last value
+    str_stream >> val;
+    vals.push_back(val);
+  }
 };
 
 }  // namespace cutlass
diff --git a/tools/util/device_memory.h b/tools/util/device_memory.h
index c627c54cc9..0aa0532cba 100644
--- a/tools/util/device_memory.h
+++ b/tools/util/device_memory.h
@@ -26,9 +26,9 @@
 
 #include <memory>
 
-#include <cutlass/util/debug.h>
-#include <cutlass/util/platform.h>
-#include <tools/util/exceptions.h>
+#include "cutlass/util/debug.h"
+#include "cutlass/util/platform.h"
+#include "tools/util/exceptions.h"
 
 namespace cutlass {
 namespace device_memory {
@@ -124,6 +124,10 @@ struct allocation {
     }
   };
 
+  //
+  // Data members
+  //
+
   /// Number of elements of T allocated on the current CUDA device
   size_t capacity;
 
@@ -131,7 +135,7 @@ struct allocation {
   platform::unique_ptr<T, deleter> smart_ptr;
 
   //
-  //
+  // Methods
   //
 
   /// Constructor: allocates no memory
@@ -140,6 +144,11 @@ struct allocation {
   /// Constructor: allocates \p capacity elements on the current CUDA device
   allocation(size_t _capacity) : smart_ptr(allocate<T>(_capacity)), capacity(_capacity) {}
 
+  /// Copy constructor
+  allocation(allocation const &p): smart_ptr(allocate<T>(p.capacity)), capacity(p.capacity) {
+    copy_device_to_device(smart_ptr.get(), p.get(), capacity);
+  }
+
   /// Destructor
   ~allocation() { reset(); }
 
@@ -172,6 +181,16 @@ struct allocation {
 
   /// Returns the deleter object which would be used for destruction of the managed object (const)
   const deleter& get_deleter() const { return smart_ptr.get_deleter(); }
+
+  /// Copies a device-side memory allocation
+  allocation & operator=(allocation const &p) {
+    if (capacity != p.capacity) {
+      smart_ptr.reset(allocate<T>(p.capacity));
+      capacity = p.capacity;
+    }
+    copy_device_to_device(smart_ptr.get(), p.get(), capacity);
+    return *this;
+  }
 };
 
 }  // namespace device_memory
diff --git a/tools/util/distribution.h b/tools/util/distribution.h
new file mode 100644
index 0000000000..1c2701fc3b
--- /dev/null
+++ b/tools/util/distribution.h
@@ -0,0 +1,138 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#pragma once
+
+/*! \file
+    \brief This header contains a class to parametrize a statistical distribution function.
+*/
+
+#include <fstream>
+
+namespace cutlass {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Distribution type
+struct Distribution {
+  /// Variant types
+  enum Kind { Invalid, Uniform, Gaussian, Linear, Identity };
+
+  /// Distribution state
+  union {
+    /// Uniform distribution
+    struct {
+      double min;
+      double max;
+    } uniform;
+
+    /// Gaussian distribution
+    struct {
+      double mean;
+      double stddev;
+    } gaussian;
+
+    /// Elements are linear combination of row and column index
+    struct {
+      double offset;
+      double delta_row;
+      double delta_column;
+    } linear;
+  };
+
+  /// Active variant kind
+  Kind kind;
+
+  /// Random values are cast to integer after scaling by this power of two
+  int int_scale;
+
+  //
+  // Methods
+  //
+
+  Distribution() : kind(Invalid), int_scale(0) {}
+
+  /// Configures distribution as uniform random
+  Distribution &set_uniform(double _min, double _max, int _int_scale = 0) {
+    kind = Uniform;
+    uniform.min = _min;
+    uniform.max = _max;
+    int_scale = _int_scale;
+    return *this;
+  }
+
+  /// Configures distribution as Gaussian distribution
+  Distribution &set_gaussian(double _mean, double _stddev, int _int_scale = 0) {
+    kind = Gaussian;
+    gaussian.mean = _mean;
+    gaussian.stddev = _stddev;
+    int_scale = _int_scale;
+    return *this;
+  }
+
+  /// Sets identity
+  Distribution &set_identity() {
+    kind = Identity;
+    return *this;
+  }
+
+  /// Configures distribution as linear combination of row and column index
+  Distribution &set_linear(double _offset, double _delta_row, double _delta_column) {
+    kind = Linear;
+    linear.offset = _offset;
+    linear.delta_row = _delta_row;
+    linear.delta_column = _delta_column;
+    return *this;
+  }
+};
+
+}  // namespace cutlass
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Prints a Distribution to ostream
+inline std::ostream &operator<<(std::ostream &out, cutlass::Distribution const &dist) {
+  switch (dist.kind) {
+    case cutlass::Distribution::Uniform:
+      out << "uniform, min: " << dist.uniform.min << ", max: " << dist.uniform.max;
+      break;
+    case cutlass::Distribution::Gaussian:
+      out << "gaussian, mean: " << dist.gaussian.mean << ", stddev: " << dist.gaussian.stddev;
+      break;
+    case cutlass::Distribution::Linear:
+      out << "linear, mean: " << dist.linear.offset << ", delta_row: " << dist.linear.delta_row
+          << ", delta_column: " << dist.linear.delta_column;
+      break;
+    case cutlass::Distribution::Identity:
+      break;
+    default:
+      out << "unknown";
+  }
+
+  out << ", int_scale: " << dist.int_scale;
+
+  return out;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
diff --git a/tools/util/exceptions.h b/tools/util/exceptions.h
index 72d99fec07..3683fbf4fd 100644
--- a/tools/util/exceptions.h
+++ b/tools/util/exceptions.h
@@ -28,7 +28,7 @@
 #include <iosfwd>
 #include <stdexcept>
 
-#include <cutlass/util/platform.h>
+#include "cutlass/util/platform.h"
 
 namespace cutlass {
 
diff --git a/tools/util/half.h b/tools/util/half.h
index ee536e5b33..91e8b11301 100644
--- a/tools/util/half.h
+++ b/tools/util/half.h
@@ -107,6 +107,33 @@ class half_t {
   uint16_t& raw() { return x; }
   uint16_t raw() const { return x; }
 
+  //
+  // Stream interactions
+  //
+
+  /// put to stream - half_t-precision types bitcast as unsigned shorts if base is hexadecimal
+  friend std::ostream& operator<<(std::ostream& out, cutlass::half_t const& h) {
+    if (out.flags() & std::ios::hex) {
+      return out << h.x;
+    } else {
+      return out << float(h);
+    }
+  }
+
+  /// read from stream - half_t-precision types parsed as unsigned shorts if base is hexadecimal
+  friend std::istream& operator>>(std::istream& in, cutlass::half_t& h) {
+    if (in.flags() & std::ios::hex) {
+      unsigned short u = 0;
+      in >> u;
+      h = cutlass::half_t::bitcast(u);
+    } else {
+      float f = 0;
+      in >> f;
+      h = cutlass::half_t(f);
+    }
+    return in;
+  }
+
  public:
   /// data
   unsigned short x;
@@ -167,9 +194,6 @@ cutlass::half_t operator-(float, cutlass::half_t const&);
 cutlass::half_t operator*(float, cutlass::half_t const&);
 cutlass::half_t operator/(float, cutlass::half_t const&);
 
-std::ostream& operator<<(std::ostream&, cutlass::half_t const&);  /// writes a half_t
-std::istream& operator>>(std::istream&, cutlass::half_t&);        /// reads a half_t
-
 #ifdef BOOST_LEXICAL_CAST_INCLUDED
 namespace boost {
 
@@ -714,30 +738,3 @@ inline cutlass::half_t sqrt(cutlass::half_t const& h) {
   return cutlass::half_t(std::sqrt(float(h)));
 }
 }  // namespace std
-
-//
-// Stream interactions
-//
-
-/// put to stream - half_t-precision types bitcast as unsigned shorts if base is hexadecimal
-inline std::ostream& operator<<(std::ostream& out, cutlass::half_t const& h) {
-  if (out.flags() & std::ios::hex) {
-    return out << h.x;
-  } else {
-    return out << float(h);
-  }
-}
-
-/// read from stream - half_t-precision types parsed as unsigned shorts if base is hexadecimal
-inline std::istream& operator>>(std::istream& in, cutlass::half_t& h) {
-  if (in.flags() & std::ios::hex) {
-    unsigned short u = 0;
-    in >> u;
-    h = cutlass::half_t::bitcast(u);
-  } else {
-    float f = 0;
-    in >> f;
-    h = cutlass::half_t(f);
-  }
-  return in;
-}
diff --git a/tools/util/host_matrix.h b/tools/util/host_matrix.h
new file mode 100644
index 0000000000..9812f757dc
--- /dev/null
+++ b/tools/util/host_matrix.h
@@ -0,0 +1,264 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#pragma once
+
+/*! \file
+  \brief HostMatrix is a helper to define a HostTensor of rank=2 with a contiguous layout.
+
+  See tools/util/host_tensor.h for more details.
+*/
+
+#include "cutlass/matrix_traits.h"
+#include "tools/util/host_tensor.h"
+
+#include "tools/util/reference/host/gemm.h"
+
+namespace cutlass {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to define a rank=2 host matrix with contiguous layout
+template <
+  typename T
+>
+class HostMatrix :
+  public HostTensor<T, 2, MatrixLayout::ContiguousLayout, 3, int, long long> {
+public:
+
+  /// Base class is a HostTensor of rank=2 with contiguous layout
+  typedef HostTensor<T, 2, MatrixLayout::ContiguousLayout, 3, int, long long> Base;
+
+  /// Index type
+  typedef typename Base::Index Index;
+
+private:
+
+  /// Layout of contiguous matrix
+  MatrixLayout::Kind layout_;
+
+public:
+
+  /// Default ctor
+  HostMatrix(): layout_(MatrixLayout::kColumnMajor) { }
+
+  /// Constructs a HostTensor from size. Assumes column-major and infers leading dimension
+  HostMatrix(MatrixCoord const& size, bool _device_backed = true): layout_(MatrixLayout::kColumnMajor) {
+    Index ldm = size[0];
+    this->reset(MatrixLayout::ContiguousLayout::stride(layout_, ldm), size, _device_backed);
+  }
+
+  /// Constructs a HostTensor from size and layout - infers leading dimension
+  HostMatrix(MatrixCoord const& size, MatrixLayout::Kind layout, bool _device_backed = true): layout_(layout) {
+    Index ldm = (layout_ == MatrixLayout::kColumnMajor ? size[0] : size[1]);
+    this->reset(MatrixLayout::ContiguousLayout::stride(layout_, ldm), size, _device_backed);
+  }
+
+  /// Constructs a HostTensor given size, layout, and leading dimension
+  HostMatrix(MatrixCoord const& size, Index ldm, MatrixLayout::Kind layout, bool _device_backed = true): layout_(layout) {
+    this->reset(MatrixLayout::ContiguousLayout::stride(layout_, ldm), size, _device_backed);
+  }
+
+  /// Returns contiguous matrix layout kind
+  MatrixLayout::Kind get_layout() const {
+    return layout_;
+  }
+
+  /// Resizes a matrix
+  void resize(MatrixCoord const &_size, MatrixLayout::Kind layout, Index ldm = 0, bool _device_backed = true) {
+    if (!ldm) {
+      ldm = (layout == MatrixLayout::kColumnMajor ? _size[0] : _size[1]);
+    }
+    layout_ = layout;
+    this->reset(MatrixLayout::ContiguousLayout::stride(layout_, ldm), _size, _device_backed);
+  }
+
+  /// Helper to resize matrix
+  void resize(Index rows, Index columns, MatrixLayout::Kind layout, Index ldm = 0, bool _device_backed = true) {
+    this->resize(MatrixCoord(rows, columns), layout, ldm,_device_backed);
+  }
+
+  /// Helper to resize matrix
+  void resize_matrix(Index rows, Index columns, MatrixLayout::Kind layout, Index ldm = 0, bool _device_backed = true) {
+    this->resize(MatrixCoord(rows, columns), layout, ldm,_device_backed);
+  }
+
+  /// Gets the leading dimension of the matrix
+  Index leading_dim() const {
+    if (layout_ == MatrixLayout::kColumnMajor) {
+      return this->stride(MatrixLayout::ContiguousLayout::kColumn);
+    }
+    else {
+      return this->stride(MatrixLayout::ContiguousLayout::kRow);
+    }
+  }
+
+  /// Returns size as a MatrixCoord
+  MatrixCoord size() const {
+    return MatrixCoord(Base::size());
+  }
+
+  /// Returns size in the given dimension
+  Index size(int idx) const {
+    return Base::size(idx);
+  }
+
+  /// Helper to call GEMM operation on HostMatrix objects that differ only in their scalar type.
+  template <typename A, typename B, typename Ctype, typename Stype>
+  void gemm(
+    HostMatrix<A> const& tensor_a,
+    HostMatrix<B> const& tensor_b,
+    Stype alpha = Stype(1),
+    Stype beta = Stype(0)) {
+
+    gemm::GemmCoord problem_size(
+      tensor_a.size().column(),
+      this->size().column(),
+      this->size().row(),
+      1);
+
+    cutlass::reference::host::Gemm(
+      problem_size,
+      alpha,
+      tensor_a,
+      tensor_b,
+      beta,
+      *this,
+      Ctype(0));
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to define a rank=2 host matrix with column-major layout
+template <
+  typename T
+>
+class HostMatrixColumnMajor :
+  public HostTensor<T, 2, MatrixLayout::ColumnMajor, 2, int, long long> {
+public:
+
+  /// Base class is a HostTensor of rank=2 with contiguous layout
+  typedef HostTensor<T, 2, MatrixLayout::ColumnMajor, 2, int, long long> Base;
+
+  /// Tensor coordinate
+  typedef typename Base::TensorCoord TensorCoord;
+
+  /// Index type
+  typedef typename Base::Index Index;
+
+public:
+
+  /// Default ctor
+  HostMatrixColumnMajor() { }
+
+  /// Constructs a HostMatrixColumnMajor from size. Assumes column-major and infers leading dimension
+  HostMatrixColumnMajor(TensorCoord const& size, bool _device_backed = true): Base(size, size[0], _device_backed) {
+
+  }
+
+  /// Constructs a HostMatrixColumnMajor given size, layout, and leading dimension
+  HostMatrixColumnMajor(TensorCoord const& size, Index ldm, bool _device_backed = true) {
+    this->reset(make_Coord(ldm, 1), size, _device_backed);
+  }
+
+  /// Resizes a matrix
+  void resize(MatrixCoord const &size, int ldm = 0, bool _device_backed = true) {
+    this->reset(ldm, size, _device_backed);
+  }
+
+  /// Returns contiguous matrix layout kind
+  MatrixLayout::Kind get_layout() const {
+    return MatrixLayout::kColumnMajor;
+  }
+
+  /// Gets the leading dimension of the matrix
+  Index leading_dim() const {
+    return this->stride(0);
+  }
+
+  /// Returns size as a MatrixCoord
+  MatrixCoord size() const {
+    return MatrixCoord(Base::size());
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to define a rank=2 host matrix with row-major layout
+template <
+  typename T
+>
+class HostMatrixRowMajor :
+  public HostTensor<T, 2, MatrixLayout::RowMajor, 2, int, long long> {
+public:
+
+  /// Base class is a HostTensor of rank=2 with contiguous layout
+  typedef HostTensor<T, 2, MatrixLayout::RowMajor, 2, int, long long> Base;
+
+  /// Tensor coordinate
+  typedef typename Base::TensorCoord TensorCoord;
+
+  /// Index type
+  typedef typename Base::Index Index;
+
+public:
+
+  /// Default ctor
+  HostMatrixRowMajor() { }
+
+  /// Constructs a HostTensor from size. Assumes column-major and infers leading dimension
+  HostMatrixRowMajor(TensorCoord const& size, bool _device_backed = true) {
+    this->reset(make_Coord(size[1], 1), size, _device_backed);
+  }
+
+  /// Constructs a HostTensor given size, layout, and leading dimension
+  HostMatrixRowMajor(TensorCoord const& size, Index ldm, bool _device_backed = true) {
+    this->reset(make_Coord(ldm, 1), size, _device_backed);
+  }
+
+  /// Resizes a matrix
+  void resize(MatrixCoord const &size, int ldm = 0, bool _device_backed = true) {
+    this->reset(ldm, size, _device_backed);
+  }
+
+  /// Returns contiguous matrix layout kind
+  MatrixLayout::Kind get_layout() const {
+    return MatrixLayout::kRowMajor;
+  }
+
+  /// Gets the leading dimension of the matrix
+  Index leading_dim() const {
+    return this->stride(0);
+  }
+
+  /// Returns size as a MatrixCoord
+  MatrixCoord size() const {
+    return MatrixCoord(Base::size());
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
diff --git a/tools/util/host_matrix_view.h b/tools/util/host_matrix_view.h
new file mode 100644
index 0000000000..84767878cb
--- /dev/null
+++ b/tools/util/host_matrix_view.h
@@ -0,0 +1,205 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#pragma once
+
+/*! \file
+  \brief HostMatrix is a helper to define a HostTensor of rank=2 with a contiguous layout.
+
+  See tools/util/host_tensor.h for more details.
+*/
+
+#include "cutlass/matrix_traits.h"
+#include "tools/util/host_tensor.h"
+
+#include "tools/util/reference/host/gemm.h"
+
+namespace cutlass {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to define a rank=2 host matrix with contiguous layout
+template <
+  typename T
+>
+class HostMatrixView :
+  public HostTensorView<T, 2, MatrixLayout::ContiguousLayout, 3, int> {
+public:
+
+  /// Base class is a HostTensor of rank=2 with contiguous layout
+  typedef HostTensorView<T, 2, MatrixLayout::ContiguousLayout, 3, int> Base;
+
+  /// Tensor coordinate
+  typedef typename Base::TensorCoord TensorCoord;
+
+  /// Index type
+  typedef typename Base::Index Index;
+
+private:
+
+  /// Layout of contiguous matrix
+  MatrixLayout::Kind layout_;
+
+public:
+
+  /// Default ctor
+  HostMatrixView(): layout_(MatrixLayout::kColumnMajor) { }
+
+  /// Constructs a HostTensor from size. Assumes column-major and infers leading dimension
+  HostMatrixView(TensorCoord const& size): layout_(MatrixLayout::kColumnMajor) {
+    Index ldm = size[0];
+    this->reset(MatrixLayout::ContiguousLayout::stride(layout_, ldm), size);
+  }
+
+  /// Constructs a HostTensor from size and layout - infers leading dimension
+  HostMatrixView(TensorCoord const& size, MatrixLayout::Kind layout): layout_(layout) {
+    Index ldm = (layout_ == MatrixLayout::kColumnMajor ? size[0] : size[1]);
+    this->reset(MatrixLayout::ContiguousLayout::stride(layout_, ldm), size);
+  }
+
+  /// Constructs a HostTensor given size, layout, and leading dimension
+  HostMatrixView(TensorCoord const& size, Index ldm, MatrixLayout::Kind layout): layout_(layout) {
+    this->reset(MatrixLayout::ContiguousLayout::stride(layout_, ldm), size);
+  }
+
+  /// Gets the leading dimension of the matrix
+  Index leading_dim() const {
+    if (layout_ == MatrixLayout::kColumnMajor) {
+      return this->stride(MatrixLayout::ContiguousLayout::kColumn);
+    }
+    else {
+      return this->stride(MatrixLayout::ContiguousLayout::kRow);
+    }
+  }
+
+  /// Returns contiguous matrix layout kind
+  MatrixLayout::Kind get_layout() const {
+    return layout_;
+  }
+
+  /// Returns size as a MatrixCoord
+  MatrixCoord size() const {
+    return MatrixCoord(Base::size());
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to define a rank=2 host matrix with column-major layout
+template <typename T>
+class HostMatrixViewColumnMajor :
+  public HostTensorView<T, 2, MatrixLayout::ColumnMajor, 2, int, long long> {
+public:
+
+  /// Base class is a HostTensorView of rank=2 with contiguous layout
+  typedef HostTensorView<T, 2, MatrixLayout::ColumnMajor, 2, int, long long> Base;
+
+  /// Tensor coordinate
+  typedef typename Base::TensorCoord TensorCoord;
+
+  /// Index type
+  typedef typename Base::Index Index;
+
+public:
+
+  /// Default ctor
+  HostMatrixViewColumnMajor() { }
+
+  /// Constructs a HostMatrixViewColumnMajor from size. Assumes column-major and infers leading dimension
+  HostMatrixViewColumnMajor(TensorCoord const& size): Base(size, size[0]) {
+
+  }
+
+  /// Constructs a HostMatrixViewColumnMajor given size, layout, and leading dimension
+  HostMatrixViewColumnMajor(TensorCoord const& size, Index ldm) {
+    this->reset(make_Coord(ldm, 1), size);
+  }
+
+  /// Returns contiguous matrix layout kind
+  MatrixLayout::Kind get_layout() const {
+    return MatrixLayout::kColumnMajor;
+  }
+
+  /// Gets the leading dimension of the matrix
+  Index leading_dim() const {
+    return this->stride(0);
+  }
+
+  /// Returns size as a MatrixCoord
+  MatrixCoord size() const {
+    return MatrixCoord(Base::size());
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to define a rank=2 host matrix with row-major layout
+template <typename T>
+class HostMatrixViewRowMajor :
+  public HostTensorView<T, 2, MatrixLayout::RowMajor, 2, int, long long> {
+public:
+
+  /// Base class is a HostTensor of rank=2 with contiguous layout
+  typedef HostTensorView<T, 2, MatrixLayout::RowMajor, 2, int, long long> Base;
+
+  /// Tensor coordinate
+  typedef typename Base::TensorCoord TensorCoord;
+
+  /// Index type
+  typedef typename Base::Index Index;
+
+public:
+
+  /// Default ctor
+  HostMatrixViewRowMajor() { }
+
+  /// Constructs a HostMatrixViewRowMajor from size. Assumes column-major and infers leading dimension
+  HostMatrixViewRowMajor(TensorCoord const& size): Base(size, size[1]) {
+
+  }
+
+  /// Constructs a HostMatrixViewRowMajor given size, layout, and leading dimension
+  HostMatrixViewRowMajor(TensorCoord const& size, Index ldm) {
+    this->reset(make_Coord(ldm, 1), size);
+  }
+
+  /// Returns contiguous matrix layout kind
+  MatrixLayout::Kind get_layout() const {
+    return MatrixLayout::kRowMajor;
+  }
+
+  /// Gets the leading dimension of the matrix
+  Index leading_dim() const {
+    return this->stride(0);
+  }
+
+  /// Returns size as a MatrixCoord
+  MatrixCoord size() const {
+    return MatrixCoord(Base::size());
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
diff --git a/tools/util/host_tensor.h b/tools/util/host_tensor.h
index cc9963c227..fc042b0b7e 100644
--- a/tools/util/host_tensor.h
+++ b/tools/util/host_tensor.h
@@ -25,51 +25,126 @@
 #pragma once
 
 /*! \file
-    \brief Template class to perform computations on tensors and manage memory.
+  \brief HostTensor contributes management for both host and device memory.
+
+  HostTensor allocates host and device memory upon construction. Basic element-wise operations on
+  host memory synchronize device memory automatically. Explicit copy operations provide abstractions
+  for CUDA memcpy operations.
+
+  Call device_{data, ref, view} for accessing device memory allocations.
+
+  See cutlass/tensor_ref.h, cutlass/tensor_view.h, and tools/util/host_tensor_view.h for more details.
 */
 
-#include <cutlass/cutlass.h>
-#include <cutlass/matrix_traits.h>
-#include <tools/util/device_memory.h>
-#include <tools/util/host_tensor_view.h>
-#include <tools/util/type_traits.h>
+#include "cutlass/cutlass.h"
+#include "cutlass/matrix_traits.h"
+#include "cutlass/tensor_ref.h"
+#include "tools/util/device_memory.h"
+#include "tools/util/host_tensor_view.h"
+#include "tools/util/type_traits.h"
 #include <vector>
 
 namespace cutlass {
 
-template <typename T, bool DeviceBacked_ = true>
-class HostTensor : public HostTensorView<T> {
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Host tensor
+template <
+  /// Scalar data type (may be mapped to compatible types for use on host and device)
+  typename T,
+  /// Rank of logical tensor
+  int Rank_ = 4,
+  /// Maps a Coord<Rank_> in the logical tensor index space to the internal n-D array
+  typename MapFunc_ = IdentityTensorMapFunc<Rank_>,
+  /// Rank of internal n-D array
+  int StorageRank_ = MapFunc_::kStorageRank,
+  /// Index type used for coordinates
+  typename Index_ = int,
+  /// Index type used for offsets and pointer differences
+  typename LongIndex_ = long long
+>
+class HostTensor : public HostTensorView<
+  typename TypeTraits<T>::host_type,
+  Rank_,
+  MapFunc_,
+  StorageRank_,
+  Index_,
+  LongIndex_> {
  public:
+  /// Type used for host-side allocations
+  typedef typename TypeTraits<T>::host_type HostType;
+
   /// Type used for device-side allocations
   typedef typename TypeTraits<T>::device_type DeviceType;
 
   /// Base class
-  typedef HostTensorView<T> Base;
+  typedef HostTensorView<
+    typename TypeTraits<T>::host_type,
+    Rank_,
+    MapFunc_,
+    StorageRank_,
+    Index_,
+    LongIndex_> Base;
+
+  /// Type used to compute the offset of an element to the base of a tensor
+  typedef LongIndex_ LongIndex;
 
-  /// If true, allocates device side memory
-  static bool const DeviceBacked = DeviceBacked_;
+  /// Tensor reference to device memory
+  typedef typename cutlass::TensorRef<
+    DeviceType,
+    Rank_,
+    MapFunc_,
+    StorageRank_,
+    Index_,
+    LongIndex_> DeviceTensorRef;
 
-  /// Rank of tensor
-  static int const Rank = Base::Rank;
+  /// Tensor reference to constant device memory
+  typedef typename DeviceTensorRef::ConstTensorRef ConstDeviceTensorRef;
 
-  /// Type used to compute the offset of an element to the base of a tensor
-  typedef typename Base::Offset_t Offset_t;
+  /// TensorView to device memory
+  typedef TensorView<
+    DeviceType,
+    Rank_,
+    MapFunc_,
+    StorageRank_,
+    Index_,
+    LongIndex_> DeviceTensorView;
+
+  /// Tensor reference to constant device memory
+  typedef typename DeviceTensorView::ConstTensorView ConstDeviceTensorView;
 
   /// Tensor reference to host memory
-  typedef typename Base::TensorRef_t TensorRef_t;
+  typedef typename Base::TensorRef TensorRef;
 
-  /// Tensor reference to device memory
-  typedef TensorRef<DeviceType, TensorRef_t::Rank> DeviceTensorRef;
+  /// Tensor view to host memory
+  typedef TensorView<
+    typename TypeTraits<T>::host_type,
+    Rank_,
+    MapFunc_,
+    StorageRank_,
+    Index_,
+    LongIndex_> HostTensorView;
 
-  /// Tensor reference to constant device memory
-  typedef TensorRef<DeviceType const, TensorRef_t::Rank> ConstDeviceTensorRef;
+  /// Tensor view to host memory
+  typedef typename HostTensorView::ConstTensorView ConstHostTensorView;
+
+  /// Coordinate in logical tensor space
+  typedef typename TensorRef::TensorCoord TensorCoord;
+
+  /// Coordinate in storage n-D array
+  typedef typename TensorRef::StorageCoord StorageCoord;
 
-  /// Coordinate into tensor
-  typedef typename Base::Coord_t Coord_t;
+  /// Stride vector in storage coordinate space
+  /// Least significant stride is = 1 and not stored
+  typedef typename TensorRef::StrideVector StrideVector;
+
+  /// Rank of internal storage.
+  static int const kStorageRank = Base::kStorageRank;
 
  private:
+
   /// Host-side memory allocation
-  std::vector<T> host_;
+  std::vector<HostType> host_;
 
   /// Device-side memory
   cutlass::device_memory::allocation<DeviceType> device_;
@@ -82,232 +157,173 @@ class HostTensor : public HostTensorView<T> {
   /// Default constructor
   HostTensor() {}
 
-  /// Constructs a Tensor_view from stride and size
-  HostTensor(Coord_t const& _stride, Coord_t const& _size) { reset(_stride, _size); }
+  /// Constructor for resizing the least significant rank
+  HostTensor(Index_ size_1D, bool device_backed = true) {
+    this->resize(size_1D, device_backed);
+  }
+
+  /// Helper to construct from pointer, stride, and size
+  HostTensor(
+    StorageCoord const &_stride,
+    TensorCoord const& _size,
+    bool _device_backed = true
+  ) {
+
+    this->reset(_stride, _size);
+  }
 
-  /// Constructs a HostTensor from size - infers strides
-  HostTensor(Coord_t const& _size) {
-    Coord_t _stride = make_Coord(
-        _size.at(2) * _size.at(1) * _size.at(0), _size.at(1) * _size.at(0), _size.at(0), 1);
-    reset(_stride, _size);
+  /// Clears the HostTensor allocation to size/capacity = 0
+  void reset() {
+    host_.clear();
+    device_.reset();
+    Base::reset();
   }
 
-  /// Returns the number of elements needed to back vector
-  size_t capacity() { return Base::capacity(); }
+  /// Helper to resize the least significant rank
+  void resize(
+    Index_ size_1D,
+    bool _device_backed = true) {
 
-  /// Returns true if the Tensor_view is bound to some memory
-  bool good() const { return Base::good(); }
+    TensorCoord _size;
+    _size[Base::kRank - 1] = size_1D;
+    for (int i = 0; i < Base::kRank - 1; ++i) {
+      _size[i] = 1;
+    }
+    StorageCoord _stride;
+    _stride[Base::kStorageRank - 1] = 1;
+    for (int i = 0; i < Base::kStorageRank - 1; ++i) {
+      _stride[i] = size_1D;
+    }
+    this->reset(_stride, _size, _device_backed);
+  }
 
   /// Updates the reference and size of a Tensor_view object
-  void reset(Coord_t const& _stride, Coord_t const& _size) {
-    size_t _capacity = _size.at(0) * _stride.at(0);
+  void reset(
+    StorageCoord const& stride,
+    TensorCoord const& size,
+    bool _device_backed = true) {
 
+    // Construct a temporary TensorView so we can calculate the new capacity
+    size_t _capacity = Base(nullptr, stride, size).capacity();
+
+    // Allocate memory
     DeviceType* _device_memory = nullptr;
-    if (DeviceBacked) {
+    if (_device_backed) {
       _device_memory = cutlass::device_memory::allocate<DeviceType>(_capacity);
     }
 
     host_.clear();
     host_.resize(_capacity);
-    for (size_t i = 0; i < _capacity; ++i) {
-      host_[i] = T((int)0xdeadbeef);
-    }
     device_.reset(_device_memory, _capacity);
 
-    Base::reset(TensorRef_t(host_.data(), _stride), _size);
+    Base::reset(TensorRef(host_.data(), stride), size);
   }
 
-  /// Initializes the host tensor as a matrix
-  void resize_matrix(int rows, int columns, MatrixLayout::Kind layout) {
-    bool col_major = (layout == MatrixLayout::kColumnMajor);
-    int ldm = (col_major ? rows : columns);
+  /// Accesses the tensor reference pointing to data
+  TensorRef host_ref() { return Base::ref(); }
+
+  /// Accesses the tensor reference pointing to data
+  TensorRef host_ref() const { return Base::ref(); }
 
-    Coord_t stride = make_Coord(rows * columns, col_major ? 1 : ldm, col_major ? ldm : 1, 1);
+  /// Accesses the tensor reference pointing to data
+  DeviceTensorRef device_ref() const {
+    return DeviceTensorRef(device_data(), this->stride());
+  }
 
-    Coord_t size = make_Coord(1, rows, columns, 1);
+  /// Accesses the tensor reference pointing to data
+  HostTensorView host_view() {
+    return HostTensorView(host_data(), this->stride(), this->size());
+  }
 
-    reset(stride, size);
+  /// Accesses the tensor reference pointing to data
+  ConstHostTensorView host_view() const {
+    return HostTensorView(host_data(), this->stride(), this->size());
   }
 
-  /// Simplifies resizing the host tensor
-  void resize(int elements) { resize_matrix(1, elements, MatrixLayout::kColumnMajor); }
+  /// Accesses the tensor reference pointing to data
+  DeviceTensorView device_view() const {
+    return DeviceTensorView(device_data(), this->stride(), this->size());
+  }
 
   /// Gets pointer to host data
-  T const* host_data() const { return &host_[0]; }
+  HostType * host_data() { return host_.data(); }
+
+  /// Gets pointer to device data
+  DeviceType* device_data() { return device_.get(); }
 
   /// Gets pointer to host data
-  T* host_data() { return &host_[0]; }
+  HostType const * host_data() const { return host_.data(); }
 
   /// Gets pointer to device data
-  DeviceType* device_data() const { return device_.get(); }
+  DeviceType * device_data() const { return device_.get(); }
+
+  /// Returns true if device memory is allocated
+  bool device_backed() const {
+    return device_.get();
+  }
 
   /// Copies data from device to host
   void sync_host() {
-    if (DeviceBacked) {
+    if (device_.get()) {
       device_memory::copy_to_host(
-          host_.data(), reinterpret_cast<T const*>(device_.get()), host_.size());
+          host_.data(), reinterpret_cast<HostType const*>(device_.get()), host_.size());
     }
   }
 
   /// Copies data from host to device
   void sync_device() {
-    if (DeviceBacked) {
+    if (device_.get()) {
       device_memory::copy_to_device(
-          device_.get(), reinterpret_cast<DeviceType const*>(host_.data()), host_.size());
+        device_.get(),
+        reinterpret_cast<DeviceType const*>(host_.data()),
+        host_.size());
     }
   }
 
-  /// Copy data from a caller-supplied device pointer
-  void copy_to_host(DeviceType const *ptr_device) {
+  /// Copy data from a caller-supplied device pointer into host memory
+  void copy_to_host(DeviceType const* ptr_device) {
     device_memory::copy_to_host(
-      host_.data(), reinterpret_cast<T const *>(ptr_device), host_.size());
+      host_.data(), reinterpret_cast<HostType const*>(ptr_device), host_.size());
   }
 
-  /// Copies data to a caller-supplied device pointer
-  void copy_to_device(DeviceType *ptr_device) {
+  /// Copies device-to-device
+  void copy_to_device(DeviceType* ptr_device) {
     device_memory::copy_to_device(
-      ptr_device, reinterpret_cast<DeviceType const *>(host_.data()), host_.size());
-  }
-
-  /// Accesses the tensor reference pointing to data
-  TensorRef_t& host_ref() { return Base::ref(); }
-
-  /// Accesses the tensor reference pointing to data
-  TensorRef_t const& host_ref() const { return Base::ref(); }
-
-  /// Accesses the tensor reference pointing to data
-  DeviceTensorRef device_ref() const { return DeviceTensorRef(device_data(), stride()); }
-
-  /// Returns a tensor ref to constant memory on the device
-  ConstDeviceTensorRef const_device_ref() const {
-    return ConstDeviceTensorRef(device_data(), stride());
-  }
-
-  /// Accesses the size
-  Coord_t const& size() const { return Base::size(); }
-
-  /// Accesses the size
-  int size(int dim) const { return Base::size(dim); }
-
-  /// Accesses the size
-  Coord_t const& stride() const { return Base::stride(); }
-
-  /// Accesses the size
-  int stride(int dim) const { return Base::stride(dim); }
-
-  /// Returns the index of an element
-  Offset_t offset(Coord_t const& coord) const { return Base::offset(coord); }
-
-  /// Determines whether a location is within a tensor
-  bool contains(Coord_t const& coord) const { return Base::contains(coord); }
-
-  /// Element-wise accessor
-  T& at(Coord_t const& coord) const { return Base::at(coord); }
-
-  /// Element-wise accessor
-  T& operator[](Coord_t const& coord) { return at(coord); }
-
-  /// Element-wise accessor with basic offset
-  T& at(int idx) const { return Base::at(idx); }
-
-  /// Returns a Tensor_view given location and size quantities
-  TensorView<T> subview(Coord_t const& _location, Coord_t _size) const {
-    return Base::subview(_location, _size);
-  }
-
-  /// Recurses through all dimensions and applies a unary operation
-  template <typename F>
-  void elementwise_in_place(F& op, int dim = 0, Offset_t dst_offset_base = 0) {
-    Base::elementwise_in_place(op, dim, dst_offset_base);
-  }
-
-  /// Recurses through all dimensions and applies a unary operator, supplying the logical
-  /// coordinate within the tensor as an argument
-  template <typename F>
-  void elementwise_stream(F& op, int dim = 0, Offset_t dst_offset_base = 0) {
-    Base::elementwise_stream(op, dim, dst_offset_base);
-  }
-
-  /// Recurses through all dimensions and applies a unary operator, supplying the logical
-  /// coordinate within the tensor as an argument
-  template <typename F>
-  void elementwise_generate(F& op,
-                            int dim = 0,
-                            Offset_t dst_offset_base = 0,
-                            Coord_t coord = Coord_t(0)) {
-    Base::elementwise_generate(op, dim, dst_offset_base, coord);
-  }
-
-  /// Recurses through all dimensions and applies a binary operation
-  template <typename Src, typename F>
-  bool elementwise_in_place(F& op,
-                            int dim,
-                            TensorView<Src> const& tensor,
-                            Offset_t dst_offset_base = 0,
-                            Offset_t src_offset_base = 0) {
-    return Base::elementwise_in_place(op, dim, tensor, dst_offset_base, src_offset_base);
+      ptr_device, reinterpret_cast<DeviceType const*>(host_.data()), host_.size());
   }
 
   /// Accumulate in place
-  template <typename Src>
-  TensorView<T>& operator+=(TensorView<Src> const& tensor) {
+  template <typename SrcTensorView>
+  HostTensor& operator+=(SrcTensorView const& tensor) {
     Base::operator+=(tensor);
     sync_device();
     return *this;
   }
 
   /// Subtract in place
-  template <typename Src>
-  TensorView<T>& operator-=(TensorView<Src> const& tensor) {
+  template <typename SrcTensorView>
+  HostTensor& operator-=(SrcTensorView const& tensor) {
     Base::operator-=(tensor);
     sync_device();
     return *this;
   }
 
   /// Multiply in place
-  template <typename Src>
-  TensorView<T>& operator*=(TensorView<Src> const& tensor) {
+  template <typename SrcTensorView>
+  HostTensor& operator*=(SrcTensorView const& tensor) {
     Base::operator*=(tensor);
     sync_device();
     return *this;
   }
 
   /// Divide in place
-  template <typename Src>
-  TensorView<T>& operator/=(TensorView<Src> const& tensor) {
+  template <typename SrcTensorView>
+  HostTensor& operator/=(SrcTensorView const& tensor) {
     Base::operator/=(tensor);
     sync_device();
     return *this;
   }
 
-  /// equality with epsilon tolerance
-  bool equals(TensorView<T> const& tensor, T epsilon) const {
-    return Base::equals(tensor, epsilon);
-  }
-
-  /// equality with ulps tolerance
-  bool bit_equals(TensorView<T> const& tensor, long long ulps_threshold = 0) {
-    return Base::bit_equals(tensor, ulps_threshold);
-  }
-
-  /// Computes general matrix product among select dimensions of a tensor
-  /// Assumes:
-  ///   D: number of independent GEMMs to compute
-  ///   H: height of matrix
-  ///   W: width of matrix
-  template <
-      /// Data type of A matrix elements
-      typename A,
-      /// Data type of B matrix elements
-      typename B,
-      /// Data type of "compute" type (i.e. accumulator)
-      typename Ctype,
-      /// Data type of scale factors
-      typename Stype>
-  void gemm(TensorView<A> const& tensor_a, TensorView<B> const& tensor_b, Stype alpha, Stype beta) {
-    Base::template gemm<A, B, Ctype, Stype>(tensor_a, tensor_b, alpha, beta);
-  }
-
   /// Fills with random data
   template <typename Gen>
   void fill_random(Gen generator) {
@@ -335,31 +351,38 @@ class HostTensor : public HostTensorView<T> {
   }
 
   /// computes elements as a linear combination of their coordinates
-  void fill_linear(Coord_t v, T offset = T(0)) {
+  void fill_linear(TensorCoord v, HostType offset = HostType(0)) {
     Base::fill_linear(v, offset);
     sync_device();
   }
 
   /// computes elements as a linear combination of their coordinates
-  void fill_sequential(T v = T(1), T offset = T(0)) {
+  void fill_sequential(HostType v = HostType(1), HostType offset = HostType(0)) {
     Base::fill_sequential(v, offset);
     sync_device();
   }
 
   /// fills with a value
-  void fill(T val = T(0)) {
+  void fill(HostType val = HostType(0)) {
     Base::fill(val);
     sync_device();
   }
 
-  /// Copies from external data source and performs type conversion
-  template <typename Src>
-  void fill(TensorView<Src> const& tensor) {
+  /// copies from external data source and performs type conversion
+  template <
+    typename SrcType,
+    typename SrcMapFunc_,
+    int SrcStorageRank_,
+    typename SrcIndex_,
+    typename SrcLongIndex_
+  >
+  void fill(
+    TensorView<SrcType, Base::kRank, SrcMapFunc_, SrcStorageRank_, SrcIndex_, SrcLongIndex_> const& tensor) {
     Base::fill(tensor);
     sync_device();
   }
-
-  /// Computes the norm of the matrix in double-precision
-  double norm() const { return Base::norm(); }
 };
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
 }  // namespace cutlass
diff --git a/tools/util/host_tensor_view.h b/tools/util/host_tensor_view.h
index de3227f242..4b7f90c744 100644
--- a/tools/util/host_tensor_view.h
+++ b/tools/util/host_tensor_view.h
@@ -23,45 +23,77 @@
  *
  **************************************************************************************************/
 /*! \file
-    \brief Host-side implementation of useful operations
+    \brief Host-side implementation of basic tensor operations.
+
+    See cutlass/tensor_ref.h and cutlass/tensor_view.h for more details.
 */
 
 #pragma once
 
-#include <cutlass/cutlass.h>
-#include <cutlass/tensor_view.h>
-#include <tools/util/type_traits.h>
+#include "cutlass/cutlass.h"
+#include "cutlass/tensor_view.h"
+#include "tools/util/type_traits.h"
 
 namespace cutlass {
 
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
-template <typename SrcType, typename DstType>
-struct Cast {
-  static inline DstType apply(SrcType src) { return static_cast<DstType>(src); };
-};
+template <
+  /// Data type of element stored within tensor
+  typename Storage_,
+  /// Rank of logical tensor
+  int Rank_ = 4,
+  /// Maps a Coord<Rank_> in the logical tensor index space to the internal n-D array
+  typename MapFunc_ = IdentityTensorMapFunc<Rank_>,
+  /// Rank of internal n-D array
+  int StorageRank_ = Rank_,
+  /// Index type used for coordinates
+  typename Index_ = int,
+  /// Index type used for offsets and pointer differences
+  typename LongIndex_ = long long
+>
+class HostTensorView :
+  public TensorView<Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_> {
+ public:
+  /// Base class
+  typedef TensorView<Storage_, Rank_, MapFunc_, StorageRank_, Index_, LongIndex_> Base;
 
-template <>
-struct Cast<float, int8_t> {
-  static inline int8_t apply(float src) {
-    return static_cast<int8_t>(fmaxf(-128.f, fminf(127.f, src)));
-  };
-};
+  /// Storage type
+  typedef typename Base::Storage Storage;
 
-template <>
-struct Cast<float, uint8_t> {
-  static inline uint8_t apply(float src) {
-    return static_cast<uint8_t>(fmaxf(0.f, fminf(255.f, src)));
-  };
-};
+  /// Alias for underlying TensorRef
+  typedef typename Base::TensorRef TensorRef;
 
-////////////////////////////////////////////////////////////////////////////////////////////////////
+  /// Index type
+  typedef typename Base::Index Index;
+
+  /// Coordinate in logical tensor space
+  typedef typename TensorRef::TensorCoord TensorCoord;
+
+  /// Coordinate in storage n-D array
+  typedef typename TensorRef::StorageCoord StorageCoord;
+
+  /// Stride vector in storage coordinate space
+  /// Least significant stride is = 1 and not stored
+  typedef typename TensorRef::StrideVector StrideVector;
+
+  /// Long index type for pointer offsets
+  typedef typename Base::LongIndex LongIndex;
+
+  /// Rank of tensor index space
+  static int const kRank = Base::kRank;
+
+  //
+  // Definitions included for backwards compatibility - These will be remmoved
+  // in the next major release.
+  //
 
-template <typename T>
-class HostTensorView : public TensorView<T> {
- public:
   /// Base class
-  typedef TensorView<T> TensorView_t;
+  typedef Base TensorView_t;
+
+  //
+  // These definitions are meaningful for rank=4 tensors.
+  //
 
   /// Convention: depth is the first dimension
   static int const Dim_D = 0;
@@ -75,19 +107,8 @@ class HostTensorView : public TensorView<T> {
   /// Convention: channel is the second dimension
   static int const Dim_C = 3;
 
-  /// Rank of tensor
-  static int const Rank = TensorView_t::Rank;
-
-  /// Type used to compute the offset of an element to the base of a tensor
-  typedef typename TensorView_t::Offset_t Offset_t;
-
-  /// Reference and stride
-  typedef typename TensorView_t::TensorRef_t TensorRef_t;
-
-  /// Coordinate into tensor
-  typedef typename TensorView_t::Coord_t Coord_t;
-
  public:
+
   //
   // Device and Host Methods
   //
@@ -95,91 +116,87 @@ class HostTensorView : public TensorView<T> {
   /// Default constructor
   HostTensorView() {}
 
-  /// Constructs a Tensor_view from a TensorRef and size
-  HostTensorView(TensorRef_t const& _ref, Coord_t const& _size) : TensorView_t(_ref, _size) {}
-
-  /// Accesses the size
-  Coord_t const& size() const { return TensorView_t::size(); }
-
-  /// Accesses the size of a specified dimension
-  int size(int dim) const { return size().at(dim); }
-
-  /// Accesses the stride
-  Coord_t const& stride() const { return TensorView_t::stride(); }
-
-  /// Accesses the stride along a specified dimension
-  int stride(int dim) const { return stride().at(dim); }
-
-  /// Returns the number of scalar elements needed to store tensor
-  size_t capacity() const { return size(3) * stride(3) * stride(2) * stride(1) * stride(0); }
-
-  /// Returns true if the Tensor_view is bound to some memory
-  bool good() const { return TensorView_t::good(); }
-
-  /// Updates the reference and size of a TensorView object
-  void reset(TensorRef_t const& _ref = TensorRef_t(0), Coord_t const& _size = Coord_t()) {
-    return TensorView_t::reset(_ref, _size);
-  }
-
-  /// Accesses the tensor reference pointing to data
-  TensorRef_t& ref() { return TensorView_t::ref(); }
-
-  /// Accesses the tensor reference pointing to data
-  TensorRef_t const& ref() const { return TensorView_t::ref(); }
+  /// Helper to construct from pointer, stride, and size
+  HostTensorView(
+    Storage_ *_ptr,
+    StrideVector const &_stride,
+    TensorCoord const& _size
+  ) : Base(TensorRef(_ptr, _stride), _size) {}
+
+  /// Helper to construct from pointer, stride, and size
+  HostTensorView(
+    Storage_ *_ptr,
+    StorageCoord const &_stride,
+    TensorCoord const& _size
+  ) : Base(TensorRef(_ptr, _stride), _size) {}
+
+  /// Constructs a Tensor_view from a TensorRef and size assuming dense packing
+  HostTensorView(
+    TensorRef const& _ref,
+    TensorCoord const& _size) : Base(_ref, _size) {}
 
   /// Assigns a tensor view
-  HostTensorView& operator=(TensorView_t const& _tensor) {
-    reset(_tensor.ref(), _tensor.size());
+  HostTensorView& operator=(Base const& _tensor) {
+    this->reset(_tensor.ref(), _tensor.size());
     return *this;
   }
 
-  /// Returns the index of an element
-  Offset_t offset(Coord_t const& coord) const { return TensorView_t::offset(coord); }
-
-  /// Determines whether a location is within a tensor
-  bool contains(Coord_t const& coord) const { return TensorView_t::contains(coord); }
-
-  /// Element-wise accessor
-  T& at(Coord_t const& coord) const { return TensorView_t::at(coord); }
-
-  /// Element-wise accessor
-  T& operator[](Coord_t const& coord) const { return at(coord); }
+  /// Returns a TensorView offset by a given amount
+  CUTLASS_HOST_DEVICE
+  HostTensorView operator+(TensorCoord const& b) const {
+    HostTensorView result(*this);
+    result.add_pointer_offset(this->offset(b));
+    return result;
+  }
 
-  /// Accesses an element with a raw offset
-  T& at(int idx) const { return TensorView_t::at(idx); }
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  HostTensorView& operator+=(TensorCoord const& b) {
+    this->add_pointer_offset(this->offset(b));
+    return *this;
+  }
 
-  /// Accesses an element with a raw offset
-  T& operator[](int idx) const { return at(idx); }
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  HostTensorView operator-(TensorCoord const& b) const {
+    TensorRef result(*this);
+    result.add_pointer_offset(-this->offset(b));
+    return result;
+  }
 
-  /// Returns a Tensor_view given location and size quantities
-  TensorView_t subview(Coord_t const& location, Coord_t size) const {
-    return TensorView_t::subview(location, size);
+  /// Returns a TensorRef offset by a given amount
+  CUTLASS_HOST_DEVICE
+  HostTensorView& operator-=(TensorCoord const& b) {
+    this->add_pointer_offset(-this->offset(b));
+    return *this;
   }
 
   /// Recurses through all dimensions and applies a unary operation in place
   template <typename F>
-  void elementwise_in_place(F& op, int dim = 0, Offset_t dst_offset_base = 0) {
-    Offset_t dst_offset = dst_offset_base;
+  void elementwise_in_place(F& op, int dim = 0, TensorCoord const &start_coord = TensorCoord()) {
 
-    for (int idx = 0; idx < size(dim); ++idx, dst_offset += stride(dim)) {
-      if (dim < Rank - 1) {
-        elementwise_in_place(op, dim + 1, dst_offset);
+    TensorCoord coord(start_coord);
+    for (int idx = 0; idx < this->size(dim); ++idx) {
+      coord[dim] = idx;
+      if (dim < kRank - 1) {
+        elementwise_in_place(op, dim + 1, coord);
       } else {
-        op(ref().data()[dst_offset]);
+        op(this->at(coord));
       }
     }
   }
 
   /// Recurses through all dimensions and applies a unary operator with no arguments
   template <typename F>
-  void elementwise_stream(F& op, int dim = 0, Offset_t dst_offset_base = 0) {
-    Offset_t dst_offset = dst_offset_base;
+  void elementwise_stream(F& op, int dim = 0, TensorCoord const &start_coord = TensorCoord()) {
 
-    for (int idx = 0; idx < size(dim); ++idx, dst_offset += stride(dim)) {
-      if (dim < Rank - 1) {
-        elementwise_stream(op, dim + 1, dst_offset);
+    TensorCoord coord(start_coord);
+    for (int idx = 0; idx < this->size(dim); ++idx) {
+      coord[dim] = idx;
+      if (dim < kRank - 1) {
+        elementwise_stream(op, dim + 1, coord);
       } else {
-        ref().data()[dst_offset] = op();
+        this->at(coord) = op();
       }
     }
   }
@@ -189,61 +206,56 @@ class HostTensorView : public TensorView<T> {
   template <typename F>
   void elementwise_generate(F& op,
                             int dim = 0,
-                            Offset_t dst_offset_base = 0,
-                            Coord_t coord = Coord_t(0)) {
-    Offset_t dst_offset = dst_offset_base;
-
-    for (int idx = 0; idx < size(dim); ++idx, dst_offset += stride(dim)) {
-      coord.at(dim) = idx;
+                            TensorCoord const & start_coord = TensorCoord()) {
 
-      if (dim < Rank - 1) {
-        elementwise_generate(op, dim + 1, dst_offset, coord);
+    TensorCoord coord(start_coord);
+    for (int idx = 0; idx < this->size(dim); ++idx) {
+      coord[dim] = idx;
+      if (dim < kRank - 1) {
+        elementwise_generate(op, dim + 1, coord);
       } else {
-        ref().data()[dst_offset] = op(coord);
+        this->at(coord) = op(coord);
       }
     }
   }
 
   /// Recurses through all dimensions and applies a unary operator, supplying the logical
-  /// coordinate within the tensor as an argument
+  /// coordinate within the tensor as an argument. Mutable.
   template <typename F>
   void elementwise_visit(F& op,
                          int dim = 0,
-                         Offset_t dst_offset_base = 0,
-                         Coord_t coord = Coord_t(0)) const {
-    Offset_t dst_offset = dst_offset_base;
+                         TensorCoord const & start_coord = TensorCoord()) const {
 
-    for (int idx = 0; idx < size(dim); ++idx, dst_offset += stride(dim)) {
-      coord.at(dim) = idx;
+    TensorCoord coord(start_coord);
+    for (int idx = 0; idx < this->size(dim); ++idx) {
+      coord[dim] = idx;
 
-      if (dim < Rank - 1) {
-        elementwise_visit(op, dim + 1, dst_offset, coord);
+      if (dim < kRank - 1) {
+        elementwise_visit(op, dim + 1, coord);
       } else {
-        op(ref().data()[dst_offset], coord);
+        op(this->at(coord), coord);
       }
     }
   }
 
   /// Recurses through all dimensions and applies a binary operation
-  template <typename Src, typename F>
+  template <typename F, typename SrcTensorView>
   bool elementwise_in_place(F& op,
-                            TensorView<Src> const& tensor,
+                            SrcTensorView const& tensor,
                             int dim = 0,
-                            Offset_t dst_offset_base = 0,
-                            Offset_t src_offset_base = 0) {
-    Offset_t dst_offset = dst_offset_base;
-    Offset_t src_offset = src_offset_base;
+                            TensorCoord const &start_coord = TensorCoord()) {
 
-    if (size().at(dim) != tensor.size().at(dim)) {
+    if (this->size(dim) != tensor.size(dim)) {
       return false;
     }
 
-    for (int idx = 0; idx < size(dim);
-         ++idx, dst_offset += stride(dim), src_offset += tensor.stride(dim)) {
-      if (dim < Rank - 1) {
-        elementwise_in_place(op, tensor, dim + 1, dst_offset, src_offset);
+    TensorCoord coord(start_coord);
+    for (int idx = 0; idx < this->size(dim); ++idx) {
+      coord[dim] = idx;
+      if (dim < kRank - 1) {
+        elementwise_in_place(op, tensor, dim + 1, coord);
       } else {
-        op(data()[dst_offset], tensor.data()[src_offset]);
+        op(this->at(coord), tensor.at(coord));
       }
     }
 
@@ -252,55 +264,55 @@ class HostTensorView : public TensorView<T> {
 
   template <typename Src>
   struct LambdaBinaryAddition {
-    void operator()(T& a, Src b) const { a += T(b); }
+    void operator()(Storage_& a, Src b) const { a += Storage_(b); }
   };
 
   template <typename Src>
   struct LambdaBinarySubtraction {
-    void operator()(T& a, Src b) const { a -= T(b); }
+    void operator()(Storage_& a, Src b) const { a -= Storage_(b); }
   };
 
   template <typename Src>
   struct LambdaBinaryMultiplication {
-    void operator()(T& a, Src b) const { a *= T(b); }
+    void operator()(Storage_& a, Src b) const { a *= Storage_(b); }
   };
 
   template <typename Src>
   struct LambdaBinaryDivision {
-    void operator()(T& a, Src b) const { a /= T(b); }
+    void operator()(Storage_& a, Src b) const { a /= Storage_(b); }
   };
 
   /// Accumulate in place
-  template <typename Src>
-  TensorView<T>& operator+=(TensorView<Src> const& tensor) {
-    LambdaBinaryAddition<Src> op;
+  template <typename SrcTensorView>
+  HostTensorView& operator+=(SrcTensorView const& tensor) {
+    LambdaBinaryAddition<typename SrcTensorView::Storage> op;
     elementwise_in_place(op, tensor);
 
     return *this;
   }
 
   /// Subtract in place
-  template <typename Src>
-  TensorView<T>& operator-=(TensorView<Src> const& tensor) {
-    LambdaBinarySubtraction<Src> op;
+  template <typename SrcTensorView>
+  HostTensorView& operator-=(SrcTensorView const& tensor) {
+    LambdaBinarySubtraction<typename SrcTensorView::Storage> op;
     elementwise_in_place(op, tensor);
 
     return *this;
   }
 
   /// Multiply in place
-  template <typename Src>
-  TensorView<T>& operator*=(TensorView<Src> const& tensor) {
-    LambdaBinaryMultiplication<Src> op;
+  template <typename SrcTensorView>
+  HostTensorView& operator*=(SrcTensorView const& tensor) {
+    LambdaBinaryMultiplication<typename SrcTensorView::Storage> op;
     elementwise_in_place(op, tensor);
 
     return *this;
   }
 
   /// Divide in place
-  template <typename Src>
-  TensorView<T>& operator/=(TensorView<Src> const& tensor) {
-    LambdaBinaryDivision<Src> op;
+  template <typename SrcTensorView>
+  HostTensorView& operator/=(SrcTensorView const& tensor) {
+    LambdaBinaryDivision<typename SrcTensorView::Storage> op;
     elementwise_in_place(op, tensor);
 
     return *this;
@@ -309,19 +321,19 @@ class HostTensorView : public TensorView<T> {
   /// Comparison operator
   struct EqualsOperator {
     bool equal;
-    T eps;
+    Storage_ eps;
 
-    EqualsOperator(T _epsilon) : equal(true), eps(_epsilon) {}
+    EqualsOperator(Storage_ _epsilon) : equal(true), eps(_epsilon) {}
 
-    void operator()(T a, T b) {
-      if (std::abs(T(a - b)) > eps * std::max(std::abs(a), std::abs(b))) {
+    void operator()(Storage_ a, Storage_ b) {
+      if (std::abs(Storage_(a - b)) > eps * std::max(std::abs(a), std::abs(b))) {
         equal = false;
       }
     }
   };
 
   /// equality with epsilon tolerance
-  bool equals(TensorView<T> const& tensor, T epsilon) const {
+  bool equals(Base const& tensor, Storage epsilon) const {
     EqualsOperator comparison_op(epsilon);
     bool equal_size = elementwise_in_place(comparison_op, tensor);
 
@@ -336,13 +348,13 @@ class HostTensorView : public TensorView<T> {
 
     BitEqualsOperator(long long _ulps_threshold) : equal(true), eps(_ulps_threshold), index(0) {}
 
-    void operator()(T a, T b) {
+    void operator()(Storage_ a, Storage_ b) {
       // convert bits to integers
       long long bits_a = 0;
       long long bits_b = 0;
 
-      *reinterpret_cast<T*>(&bits_a) = TypeTraits<T>::remove_negative_zero(a);
-      *reinterpret_cast<T*>(&bits_b) = TypeTraits<T>::remove_negative_zero(b);
+      *reinterpret_cast<Storage_*>(&bits_a) = TypeTraits<Storage_>::remove_negative_zero(a);
+      *reinterpret_cast<Storage_*>(&bits_b) = TypeTraits<Storage_>::remove_negative_zero(b);
 
       // compute diff
       long long ulps = bits_a - bits_b;
@@ -354,85 +366,13 @@ class HostTensorView : public TensorView<T> {
   };
 
   /// equality with ulps tolerance
-  bool bit_equals(TensorView<T> const& tensor, long long ulps_threshold = 0) {
+  bool bit_equals(Base const& tensor, long long ulps_threshold = 0) {
     BitEqualsOperator comparison_op(ulps_threshold);
     bool equal_size = elementwise_in_place(comparison_op, tensor);
 
     return equal_size && comparison_op.equal;
   }
 
-  /// Gets naked pointer to data
-  T* data() const { return TensorView_t::data(); }
-
-  /// Computes general matrix product among select dimensions of a tensor
-  /// Assumes:
-  ///   D: number of independent GEMMs to compute
-  ///   H: height of matrix
-  ///   W: width of matrix
-  ///   C: "channels" of each element
-  template <typename A, typename B, typename Ctype, typename Stype>
-  void gemm(TensorView<A> const& tensor_a, TensorView<B> const& tensor_b, Stype alpha, Stype beta) {
-    int const Batch = size(Dim_D);
-    int const M = size(Dim_H);
-    int const N = size(Dim_W);
-    int const K = tensor_a.size(Dim_W);
-    int const C = tensor_a.size(Dim_C);
-
-    // Sizes must match
-    if (tensor_a.size(Dim_H) != M || tensor_b.size(Dim_W) != N || tensor_b.size(Dim_C) != C ||
-        tensor_b.size(Dim_H) != K) {
-      return;
-    }
-
-    int const Mblock = 32;
-    int const Nblock = 32;
-
-    for (int batch = 0; batch < Batch; ++batch) {
-      for (int row_block = 0; row_block < M; row_block += Mblock) {
-        for (int col_block = 0; col_block < N; col_block += Nblock) {
-          Ctype accum[Mblock][Nblock];
-
-          for (int j = 0; j < Nblock; j++) {
-            for (int i = 0; i < Mblock; i++) {
-              accum[i][j] = Ctype(0);
-            }
-          }
-
-          for (int k_block = 0; k_block < K; ++k_block) {
-            for (int j = 0; j < Nblock; j++) {
-              for (int i = 0; i < Mblock; i++) {
-                int row = row_block + i;
-                int col = col_block + j;
-
-                if (row < M && col < N) {
-                  for (int channel = 0; channel < C; ++channel) {
-                    Ctype a(tensor_a.at(make_Coord(batch, row, k_block, channel)));
-                    Ctype b(tensor_b.at(make_Coord(batch, k_block, col, channel)));
-
-                    accum[i][j] += a * b;
-                  }
-                }
-              }
-            }
-          }
-
-          for (int j = 0; j < Nblock; j++) {
-            for (int i = 0; i < Mblock; i++) {
-              int row = row_block + i;
-              int col = col_block + j;
-
-              Coord_t coord = make_Coord(batch, row, col, 0);
-              if (row < M && col < N) {
-                at(coord) =
-                    Cast<Stype, T>::apply(alpha * Stype(accum[i][j]) + beta * Stype(at(coord)));
-              }
-            }
-          }
-        }
-      }
-    }
-  }
-
   /// Fills with random data
   template <typename Gen>
   void fill_random(Gen generator) {
@@ -453,7 +393,9 @@ class HostTensorView : public TensorView<T> {
 
   /// Generator to fill a tensor with the identity matrix
   struct LambdaFillIdentity {
-    T operator()(Coord_t const& coord) { return (coord.at(1) == coord.at(2) ? T(1) : T(0)); }
+    Storage_ operator()(TensorCoord const& coord) {
+      return (coord.at(1) == coord.at(2) ? Storage_(1) : Storage_(0));
+    }
   };
 
   /// initializes with identity
@@ -464,39 +406,41 @@ class HostTensorView : public TensorView<T> {
 
   /// Lambda for fill_linear()
   struct LambdaFillLinear {
-    Coord_t v_;
-    T offset_;
+    TensorCoord v_;
+    Storage_ offset_;
 
-    LambdaFillLinear(Coord_t const& _v, T _offset) : v_(_v), offset_(_offset) {}
+    LambdaFillLinear(TensorCoord const& _v, Storage_ _offset) : v_(_v), offset_(_offset) {}
 
-    T operator()(Coord_t const& coord) { return T(v_.template dot<int>(coord)) + offset_; }
+    Storage_ operator()(TensorCoord const& coord) {
+      return Storage_(v_.template dot<int>(coord)) + offset_;
+    }
   };
 
   /// computes elements as a linear combination of their coordinates
-  void fill_linear(Coord_t v, T offset = T(0)) {
+  void fill_linear(TensorCoord v, Storage_ offset = Storage_(0)) {
     LambdaFillLinear lambda(v, offset);
     elementwise_generate(lambda);
   }
 
   /// computes elements as a linear combination of their coordinates
-  void fill_sequential(T v = T(1), T offset = T(0)) {
-    int const count = size().count();
+  void fill_sequential(Storage_ v = Storage_(1), Storage_ offset = Storage_(0)) {
+    int const count = this->size().count();
     for (int i = 0; i < count; ++i) {
-      data()[i] = T(i);
+      this->data()[i] = Storage_(i);
     }
   }
 
   /// Returns a constant value
   struct LambdaFillValue {
-    T value;
+    Storage_ value;
 
-    LambdaFillValue(T _value) : value(_value) {}
+    LambdaFillValue(Storage_ _value) : value(_value) {}
 
-    T operator()() { return value; }
+    Storage_ operator()() { return value; }
   };
 
   /// fills with a value
-  void fill(T val = T(0)) {
+  void fill(Storage_ val = Storage_(0)) {
     LambdaFillValue op(val);
     elementwise_stream(op);
   }
@@ -504,13 +448,21 @@ class HostTensorView : public TensorView<T> {
   /// Conversion from Src to T
   template <typename Src>
   struct LambdaAssign {
-    void operator()(T& a, Src b) const { a = T(b); }
+    void operator()(Storage_& a, Src b) const { a = Storage_(b); }
   };
 
   /// copies from external data source and performs type conversion
-  template <typename Src>
-  void fill(TensorView<Src> const& tensor) {
-    LambdaAssign<Src> op;
+  template <
+    typename SrcType,
+    typename SrcMapFunc_,
+    int SrcStorageRank_,
+    typename SrcIndex_,
+    typename SrcLongIndex_
+  >
+  void fill(
+    TensorView<SrcType, kRank, SrcMapFunc_, SrcStorageRank_, SrcIndex_, SrcLongIndex_> const& tensor) {
+
+    LambdaAssign<SrcType> op;
     elementwise_in_place(op, tensor);
   }
 
@@ -520,7 +472,7 @@ class HostTensorView : public TensorView<T> {
 
     LambdaNorm() : sum(0) {}
 
-    void operator()(T const& element) {
+    void operator()(Storage const& element) {
       double value(element);
       double conj(element);  // TODO - conjugates for complex
 
@@ -540,3 +492,4 @@ class HostTensorView : public TensorView<T> {
 ////////////////////////////////////////////////////////////////////////////////////////////////////
 
 }  // namespace cutlass
+
diff --git a/tools/util/reference/device/kernel/tensor_elementwise.h b/tools/util/reference/device/kernel/tensor_elementwise.h
new file mode 100644
index 0000000000..31f7a2d8d1
--- /dev/null
+++ b/tools/util/reference/device/kernel/tensor_elementwise.h
@@ -0,0 +1,162 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+#pragma once
+
+#include <curand_kernel.h>
+
+#include "cutlass/cutlass.h"
+
+namespace cutlass {
+namespace reference {
+namespace device {
+namespace kernel {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Kernel to initialize tensor to uniform random distribution
+template <typename T>
+__global__ void TensorInitializeUniform(
+    Distribution dist, int64_t seed, int dim_contiguous, int dim_strided, T *tensor, int ldm) {
+  __shared__ curandState_t rng_state[1024];
+
+  uint64_t gtid = threadIdx.x + blockIdx.x * blockDim.x + blockIdx.y * gridDim.x * blockDim.x;
+
+  curand_init(seed, gtid, 0, &rng_state[threadIdx.x]);
+
+  int c_idx = blockIdx.x * blockDim.x + threadIdx.x;
+  int s_idx = blockIdx.y * blockDim.x;
+
+  tensor += s_idx * ldm + c_idx;
+
+  for (int s_offset = 0; s_offset < blockDim.x; ++s_offset, ++s_idx) {
+    if (s_idx < dim_strided && c_idx < dim_contiguous) {
+      double range = dist.uniform.max - dist.uniform.min;
+
+      double rnd = curand_uniform(&rng_state[threadIdx.x]);
+
+      rnd = dist.uniform.min + range * rnd;
+
+      // Random values are cast to integer after scaling by a power of two to facilitate error
+      // testing
+      if (dist.int_scale >= 0) {
+        rnd = double(int(rnd * double(1 << dist.int_scale)));
+        *tensor = T(rnd / double(1 << dist.int_scale));
+      } else {
+        *tensor = T(rnd);
+      }
+
+      tensor += ldm;
+    }
+  }
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Kernel to initialize tensor to uniform distribution
+template <typename T>
+__global__ void TensorInitializeGaussian(
+    Distribution dist, int64_t seed, int dim_contiguous, int dim_strided, T *tensor, int ldm) {
+  __shared__ curandState_t rng_state[1024];
+
+  uint64_t gtid = threadIdx.x + blockIdx.x * blockDim.x + blockIdx.y * gridDim.x * blockDim.x;
+
+  curand_init(seed, gtid, 0, &rng_state[threadIdx.x]);
+
+  int c_idx = blockIdx.x * blockDim.x + threadIdx.x;
+  int s_idx = blockIdx.y * blockDim.x;
+
+  tensor += s_idx * ldm + c_idx;
+
+  for (int s_offset = 0; s_offset < blockDim.x; ++s_offset, ++s_idx) {
+    if (s_idx < dim_strided && c_idx < dim_contiguous) {
+      // Random values are cast to integer after scaling by a power of two to facilitate error
+      // testing
+
+      double rnd = curand_normal(&rng_state[threadIdx.x]);
+
+      rnd = dist.gaussian.mean + dist.gaussian.stddev * rnd;
+
+      if (dist.int_scale >= 0) {
+        rnd = double(int(rnd * double(1 << dist.int_scale)));
+        *tensor = T(rnd / double(1 << dist.int_scale));
+      } else {
+        *tensor = T(rnd);
+      }
+    }
+  }
+}
+
+/// Kernel to initialize tensor to an identity matrix
+template <typename T>
+__global__ void TensorInitializeLinear(
+    Distribution dist, int64_t seed, int dim_contiguous, int dim_strided, T *tensor, int ldm) {
+  __shared__ curandState_t rng_state[1024];
+
+  uint64_t gtid = threadIdx.x + blockIdx.x * blockDim.x + blockIdx.y * gridDim.x * blockDim.x;
+
+  curand_init(seed, gtid, 0, &rng_state[threadIdx.x]);
+
+  int c_idx = blockIdx.x * blockDim.x + threadIdx.x;
+  int s_idx = blockIdx.y * blockDim.x;
+
+  tensor += s_idx * ldm + c_idx;
+
+  for (int s_offset = 0; s_offset < blockDim.x; ++s_offset, ++s_idx) {
+    if (s_idx < dim_strided && c_idx < dim_contiguous) {
+      *tensor =
+          dist.linear.offset + dist.linear.delta_row * c_idx + dist.linear.delta_column * s_idx;
+    }
+  }
+}
+
+/// Kernel to initialize tensor to an identity matrix
+template <typename T>
+__global__ void TensorInitializeIdentity(
+    Distribution dist, int64_t seed, int dim_contiguous, int dim_strided, T *tensor, int ldm) {
+  __shared__ curandState_t rng_state[1024];
+
+  uint64_t gtid = threadIdx.x + blockIdx.x * blockDim.x + blockIdx.y * gridDim.x * blockDim.x;
+
+  curand_init(seed, gtid, 0, &rng_state[threadIdx.x]);
+
+  int c_idx = blockIdx.x * blockDim.x + threadIdx.x;
+  int s_idx = blockIdx.y * blockDim.x;
+
+  tensor += s_idx * ldm + c_idx;
+
+  for (int s_offset = 0; s_offset < blockDim.x; ++s_offset, ++s_idx) {
+    if (s_idx < dim_strided && c_idx < dim_contiguous) {
+      *tensor = (c_idx == s_idx ? T(1) : T(0));
+    }
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace kernel
+} // namespace device
+} // namespace reference
+} // namespace cutlass
diff --git a/tools/util/reference/device/kernel/tensor_foreach.h b/tools/util/reference/device/kernel/tensor_foreach.h
new file mode 100644
index 0000000000..5396d56188
--- /dev/null
+++ b/tools/util/reference/device/kernel/tensor_foreach.h
@@ -0,0 +1,112 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+
+#pragma once
+
+#include "cutlass/cutlass.h"
+#include "cutlass/coord.h"
+
+namespace cutlass {
+namespace reference {
+namespace device {
+namespace kernel {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Defines several helpers
+namespace detail {
+
+/// Helper to perform for-each operation
+template <typename Func, int Rank, int RankRemaining>
+struct TensorForEachHelper {
+
+  /// Constructor for general rank
+  __inline__ __device__
+  TensorForEachHelper(Func &func, Coord<Rank> const &size, Coord<Rank> &coord, int64_t index) {
+
+    int64_t product = 1;
+
+    CUTLASS_PRAGMA_UNROLL
+    for (int i = Rank - RankRemaining; i < Rank; ++i) {
+      product *= size[i];
+    }
+
+    coord[Rank - 1 - RankRemaining] = index / product;
+    int64_t remaining = index % product;
+    
+    TensorForEachHelper<Func, Rank, RankRemaining-1>(func, size, coord, remaining);
+  }
+};
+
+/// Helper to perform for-each operation
+template <typename Func, int Rank>
+struct TensorForEachHelper<Func, Rank, 0> {
+
+  /// Constructor for fastest chaning rank
+  __inline__ __device__
+  TensorForEachHelper(Func &func, Coord<Rank> const &size, Coord<Rank> &coord, int64_t index) {
+
+    coord[Rank - 1] = index;
+
+    if (coord < size) {
+      func(coord);
+    }
+  }
+};
+
+} // namespace detail
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to perform for-each operation
+template <typename Func, int Rank, typename Params>
+__global__ void TensorForEach(Coord<Rank> size, Params params = Params()) {
+
+  Func func(params);
+
+  int64_t index = threadIdx.x + blockIdx.x * blockDim.x;
+  int64_t max_index = 1;
+
+  CUTLASS_PRAGMA_UNROLL
+  for (int i = 0; i < Rank; ++i) {
+    max_index *= size[i];
+  }
+
+  CUTLASS_PRAGMA_NO_UNROLL
+  while  (index < max_index) {
+    Coord<Rank> coord;
+
+    detail::TensorForEachHelper<Func, Rank, Rank - 1>(func, size, coord, index); 
+    index += blockDim.x * gridDim.x;
+  }
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace kernel
+} // namespace device
+} // namespace reference
+} // namespace cutlass
+
diff --git a/tools/util/reference/device/tensor_elementwise.h b/tools/util/reference/device/tensor_elementwise.h
new file mode 100644
index 0000000000..2b1eb2487a
--- /dev/null
+++ b/tools/util/reference/device/tensor_elementwise.h
@@ -0,0 +1,772 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/* \file
+  \brief Defines device-side elementwise operations on TensorView. Note, the operations defined
+    in this header are not specialized for any particular data layout and are therefore not
+    intended to offer the best possible performance. Rather, they are intended to be generic
+    reference implementations to support the CUTLASS unit tests.
+*/
+
+#pragma once
+
+// Standard Library includes
+#include <fstream>
+#include <ostream>
+#include <stdexcept>
+#include <string>
+#include <utility>
+
+// CUDA includes
+#include <cublas_v2.h>
+#include <curand_kernel.h>
+
+// Cutlass includes
+#include "cutlass/cutlass.h"
+#include "tools/util/device_memory.h"
+#include "tools/util/distribution.h"
+#include "tools/util/type_traits.h"
+#include "tools/util/host_tensor.h"
+#include "tools/util/reference/device/tensor_foreach.h"
+
+namespace cutlass {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace reference {
+namespace device {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace detail {
+
+/// Computes a random uniform distribution
+template <typename View_>
+struct RandomUniformFunc {
+
+  /// View type
+  typedef View_ View;
+
+  /// Scalar type
+  typedef typename View::Storage T;
+
+  /// Coordinate in tensor's index space
+  typedef typename View::TensorCoord TensorCoord;
+
+  /// Parameters structure
+  struct Params {
+
+    /// View object
+    View view;
+
+    /// RNG seed
+    int64_t seed;
+
+    /// Distriubtion
+    Distribution dist;
+
+    /// Default ctor
+    CUTLASS_HOST_DEVICE
+    Params() { }
+
+    /// Constructor
+    CUTLASS_HOST_DEVICE
+    Params(
+      View const &view,
+      int64_t seed,
+      Distribution dist
+    ): view(view), seed(seed), dist(dist) { }
+  };
+
+  //
+  // Data members
+  //
+
+  /// Parameters object
+  Params params;
+
+  /// RNG state object
+  curandState_t rng_state;
+
+  //
+  // Methods
+  //
+
+  /// Device-side initialization of RNG
+  CUTLASS_DEVICE
+  RandomUniformFunc(Params const &params): params(params) {
+
+    uint64_t gtid = threadIdx.x + blockIdx.x * blockDim.x;
+
+    curand_init(params.seed, gtid, 0, &rng_state);
+  }
+
+  /// Compute random value and update RNG state
+  CUTLASS_DEVICE
+  void operator()(TensorCoord const &coord) {
+
+    double range = params.dist.uniform.max - params.dist.uniform.min;
+    double rnd = curand_uniform(&rng_state);
+    rnd = params.dist.uniform.min + range * rnd;
+
+    // Random values are cast to integer after scaling by a power of two to facilitate error
+    // testing
+    T result;
+    if (params.dist.int_scale >= 0) {
+      rnd = double(int(rnd * double(1 << params.dist.int_scale)));
+      result = T(rnd / double(1 << params.dist.int_scale));
+    }
+    else {
+      result = T(rnd);
+    }
+
+    params.view.at(coord) = result;
+  }
+};
+
+/// Computes a random Gaussian distribution
+template <typename View_>
+struct RandomGaussianFunc {
+
+  /// View type
+  typedef View_ View;
+
+  /// Scalar type
+  typedef typename View::Storage T;
+
+  /// Coordinate in tensor's index space
+  typedef typename View::TensorCoord TensorCoord;
+
+  /// Parameters structure
+  struct Params {
+
+    /// View object
+    View view;
+
+    /// RNG seed
+    int64_t seed;
+
+    /// RNG distribution
+    Distribution dist;
+
+    /// Default ctor
+    CUTLASS_HOST_DEVICE
+    Params() { }
+
+    /// Constructor
+    CUTLASS_HOST_DEVICE
+    Params(
+      View const &view,
+      int64_t seed,
+      Distribution dist
+    ): view(view), seed(seed), dist(dist) { }
+  };
+
+  //
+  // Data members
+  //
+
+  /// Parameters object
+  Params params;
+
+  /// RNG state object
+  curandState_t rng_state;
+
+  //
+  // Methods
+  //
+
+  /// Device-side initialization of RNG
+  CUTLASS_DEVICE
+  RandomGaussianFunc(Params const &params): params(params) {
+
+    uint64_t gtid = threadIdx.x + blockIdx.x * blockDim.x;
+
+    curand_init(params.seed, gtid, 0, &rng_state);
+  }
+
+  /// Compute random value and update RNG state
+  CUTLASS_DEVICE
+  void operator()(TensorCoord const &coord) {
+
+    double rnd = curand_normal(&rng_state);
+    rnd = params.dist.gaussian.mean + params.dist.gaussian.stddev * rnd;
+
+    T result;
+    if (params.dist.int_scale >= 0) {
+      rnd = double(int(rnd * double(1 << params.dist.int_scale)));
+      result = T(rnd / double(1 << params.dist.int_scale));
+    }
+    else {
+      result = T(rnd);
+    }
+
+    params.view.at(coord) = result;
+  }
+};
+
+/// Computes a linear combination of each element
+template <typename View_>
+struct LinearCombinationFunc {
+
+  /// View type
+  typedef View_ View;
+
+  /// Scalar type
+  typedef typename View::Storage T;
+
+  /// Coordinate in tensor's index space
+  typedef typename View::TensorCoord TensorCoord;
+
+  //
+  // Data members
+  //
+
+  /// TensorView object
+  View view;
+
+  /// Delta
+  Coord<View::kRank, double> delta;
+
+  /// Offset
+  double offset;
+
+  //
+  // Methods
+  //
+
+  /// Constructor
+  CUTLASS_HOST_DEVICE
+  LinearCombinationFunc(
+    View const &view,
+    Distribution dist
+  ): view(view) {
+
+    offset = dist.linear.offset;
+    if (View::kRank >= 1) {
+      delta[View::kRank - 1] = dist.linear.delta_column;
+    }
+    if (View::kRank >= 2) {
+      delta[View::kRank - 2] = dist.linear.delta_row;
+    }
+    // Additional ranks have delta of zero
+    for (int i = View::kRank - 2; i > 0; --i) {
+      delta[i - 1] = 0;
+    }
+  }
+
+  /// Compute linear combination
+  CUTLASS_HOST_DEVICE
+  void operator()(TensorCoord const &coord) {
+    double result = offset;
+    CUTLASS_PRAGMA_UNROLL
+    for (int i = 0; i < View::kRank; ++i) {
+      result += delta[i] * double(coord[i]);
+    }
+    view.at(coord) = T(result);
+  }
+};
+
+/// Returns 1 or 0 if the coordinate is along the tensor's diagonal
+template <typename View_>
+struct IdentityFunc {
+
+  /// TensorView
+  typedef View_ View;
+
+  /// Scalar type
+  typedef typename View::Storage T;
+
+  /// Coordinate in tensor's index space
+  typedef typename View::TensorCoord TensorCoord;
+
+  //
+  // Data members
+  //
+
+  /// View object
+  View view;
+
+  /// Default ctor
+  CUTLASS_HOST_DEVICE
+  IdentityFunc(View const &view): view(view) { }
+
+  CUTLASS_HOST_DEVICE
+  void operator()(TensorCoord const &coord) {
+    bool equal = true;
+    CUTLASS_PRAGMA_UNROLL
+    for (int i = 0; i < View::kRank; ++i) {
+      if (coord[i] != coord[0]) {
+        equal = false;
+      }
+    }
+    view.at(coord) = equal ? T(1) : T(0);
+  }
+};
+
+} // namespace detail
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Initializes a tensor randomly or procedurally.
+template <typename View>
+void TensorInitialize(View const &view,
+                      int64_t seed,
+                      Distribution const &dist) {
+
+  typedef typename View::Storage Scalar;
+
+  switch (dist.kind) {
+    case Distribution::Uniform:
+    {
+      typedef detail::RandomUniformFunc<View> Func;
+      typedef typename Func::Params Params;
+
+      TensorForEach<Func, View::kRank, Params>(
+        view.size(),
+        Params(view, seed, dist)
+      );
+    }
+      break;
+    case Distribution::Gaussian:
+    {
+      typedef detail::RandomGaussianFunc<View> Func;
+      typedef typename Func::Params Params;
+
+      TensorForEach<Func, View::kRank, Params>(
+        view.size(),
+        Params(view, seed, dist)
+      );
+    }
+      break;
+    case Distribution::Linear:
+    {
+      typedef detail::LinearCombinationFunc<View> Func;
+      TensorForEach<Func, View::kRank, Func>(
+        view.size(),
+        Func(view, dist));
+    }
+      break;
+    case Distribution::Identity:
+    {
+      typedef detail::IdentityFunc<View> Func;
+
+      Func func(view);
+
+      TensorForEach<Func, View::kRank, Func>(view.size(), func);
+    }
+      break;
+    default:
+      break;
+  }
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace device
+} // namespace reference
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Dispatcher to appropriate initialization kernel - preserved for backwards compatibility
+template <typename T>
+inline void tensor_initialize(Distribution const &dist,
+                              int64_t seed,
+                              int dim_contiguous,
+                              int dim_strided,
+                              T *tensor,
+                              int ldm) {
+
+  TensorView<T, 2> view(tensor, make_Coord(ldm, 1), make_Coord(dim_strided, dim_contiguous));
+  reference::device::TensorInitialize(view, seed, dist);
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace reference {
+namespace device {
+namespace detail {
+
+/// Compares two tensor views of equal rank and dimension.
+template <typename ViewL, typename ViewR>
+struct TensorEqualsFunc {
+
+  /// Storage type
+  typedef typename ViewL::Storage T;
+
+  /// Unsigned integer type of same size as View type
+  typedef typename cutlass::TypeTraits<T>::unsigned_type UnsignedType;
+
+  /// Coordinate in tensor's index space
+  typedef typename ViewL::TensorCoord TensorCoord;
+
+  /// Assertions
+  static_assert(ViewL::kRank == ViewR::kRank,
+    "Cannot compare tensors of different rank");
+
+  //
+  // Data members
+  //
+
+  /// View of left-hand-side tensor
+  ViewL lhs;
+
+  /// View of right-hand-side tensor
+  ViewR rhs;
+
+  /// Pointer to result scalar - only written with 0 if values are incorrect
+  int *result;
+
+  //
+  // Methods
+  //
+
+  /// Constructor
+  CUTLASS_HOST_DEVICE
+  TensorEqualsFunc(ViewL const &lhs, ViewR const &rhs, int *result): lhs(lhs), rhs(rhs), result(result) { }
+
+  /// Equality check
+  CUTLASS_HOST_DEVICE
+  void operator()(TensorCoord const &coord) {
+    UnsignedType _lhs = reinterpret_cast<UnsignedType const &>(lhs.at(coord));
+    UnsignedType _rhs = reinterpret_cast<UnsignedType const &>(rhs.at(coord));
+    if (_lhs != _rhs) {
+      *result = 0;
+    }
+  }
+};
+
+} // namespace detail
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Returns true if two tensor views are equal.
+template <typename ViewL, typename ViewR>
+bool TensorEquals(ViewL const &lhs, ViewR const &rhs) {
+
+  // Sizes must be identical
+  if (lhs.size() != rhs.size()) {
+    return false;
+  }
+
+  // Allocate device memory to contain result of kernel reduction
+  HostTensor<int, 1> result(1);
+  result.fill(1);
+  result.sync_device();
+
+  typedef detail::TensorEqualsFunc<ViewL, ViewR> Func;
+  Func func(lhs, rhs, result.device_data());
+
+  TensorForEach<Func, ViewL::kRank, Func>(lhs.size(), func);
+  result.sync_host();
+
+  return result.at(0) != 0;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to apply a binary operator in place
+template <typename ViewL, typename ViewR, typename BinaryFunc>
+struct TensorFuncBinaryOp {
+
+  /// Coordinate in tensor's index space
+  typedef typename ViewL::TensorCoord TensorCoord;
+
+  //
+  // Data members
+  //
+
+  /// View of left-hand-side tensor
+  ViewL lhs;
+
+  /// View of right-hand-side tensor
+  ViewR rhs;
+
+  /// Binary function applied to each element
+  BinaryFunc func;
+
+  //
+  // Methods
+  //
+
+  /// Constructor
+  CUTLASS_HOST_DEVICE
+  TensorFuncBinaryOp(
+    ViewL const &lhs,
+    ViewR const &rhs,
+    BinaryFunc func = BinaryFunc()): lhs(lhs), rhs(rhs), func(func) { }
+
+  /// Equality check
+  CUTLASS_HOST_DEVICE
+  void operator()(TensorCoord const &coord) {
+    lhs.at(coord) = func(lhs.at(coord), rhs.at(coord));
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace detail {
+
+/// Helper to apply a binary operator in place
+template <typename ViewL, typename ViewR>
+struct TensorFillFunc {
+
+  /// Coordinate in tensor's index space
+  typedef typename ViewL::TensorCoord TensorCoord;
+
+  /// Destination element type
+  typedef typename ViewL::Storage DestType;
+
+  /// Source element type
+  typedef typename ViewR::Storage SrcType;
+
+  /// Parameters object
+  struct Params {
+
+    //
+    // Data members
+    //
+
+    /// View of left-hand-side tensor
+    ViewL lhs;
+
+    /// View of right-hand-side tensor
+    ViewR rhs;
+
+    /// Source offset coordinate
+    TensorCoord source_offset;
+
+    /// Size of the subtensor copied from the source
+    TensorCoord source_size;
+
+    /// Offset in destination
+    TensorCoord dest_offset;
+
+    //
+    // Methods
+    //
+
+    /// Constructs a parameters object for filling a tensor
+    Params(
+      ViewL const &lhs,
+      ViewR const &rhs,
+      TensorCoord const &source_offset = TensorCoord()
+    ):
+      lhs(lhs), rhs(rhs), source_offset(source_offset), source_size(rhs.size() - source_offset) { }
+
+    /// Constructs a parameters object for filling a tensor
+    Params(
+      ViewL const &lhs,
+      ViewR const &rhs,
+      TensorCoord const &source_offset,
+      TensorCoord const &source_size,
+      TensorCoord const &dest_offset = TensorCoord()
+    ):
+      lhs(lhs), rhs(rhs), source_offset(source_offset), source_size(source_size), dest_offset(dest_offset) { }
+  };
+
+  //
+  // Data members
+  //
+
+  Params params;
+
+  //
+  // Methods
+  //
+
+  /// Constructor
+  CUTLASS_HOST_DEVICE
+  TensorFillFunc(
+    Params const &params): params(params) { }
+
+  /// Equality check
+  CUTLASS_HOST_DEVICE
+  void operator()(TensorCoord const &coord) {
+
+    TensorCoord dst_coord = params.dest_offset + coord;
+    TensorCoord src_coord = params.source_offset + coord;
+
+    if (dst_coord < params.lhs.size() && src_coord < params.rhs.size()) {
+      params.lhs.at(dst_coord) = DestType(params.rhs.at(src_coord));
+    }
+  }
+};
+
+} // namespace detail
+
+/// Fills a TensorView with the elements from another TensorView
+template <typename ViewL, typename ViewR>
+void TensorFill(
+  ViewL lhs,
+  ViewR rhs,
+  typename ViewL::TensorCoord const &source_offset,
+  typename ViewL::TensorCoord const &source_size,
+  typename ViewL::TensorCoord const &dest_offset) {
+
+  typedef typename ViewL::TensorCoord TensorCoord;
+
+  TensorCoord dst_size = lhs.size() - dest_offset;
+  TensorCoord src_size = rhs.size() - source_offset;
+
+  TensorCoord fill_size = dst_size.clamp(src_size);
+
+  // Fill function
+  typedef detail::TensorFillFunc<ViewL, ViewR> Func;
+  typedef typename Func::Params Params;
+
+  Params params(lhs, rhs, source_offset, source_size, dest_offset);
+
+  TensorForEach<Func, ViewL::kRank, Params>(fill_size, params);
+}
+
+/// Fills a TensorView with the elements from another TensorView
+template <typename ViewL, typename ViewR>
+void TensorFill(
+  ViewL lhs,
+  ViewR rhs,
+  typename ViewL::TensorCoord const &source_offset = typename ViewL::TensorCoord()) {
+
+  typedef typename ViewL::TensorCoord TensorCoord;
+
+  TensorFill(lhs, rhs, source_offset, rhs.size(), TensorCoord());
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace detail {
+
+/// Helper to apply a binary operator in place
+template <typename ViewL>
+struct TensorFillElementFunc {
+
+  /// Coordinate in tensor's index space
+  typedef typename ViewL::TensorCoord TensorCoord;
+
+  /// Destination element type
+  typedef typename ViewL::Storage DestType;
+
+  /// Parameters object
+  struct Params {
+
+    //
+    // Data members
+    //
+
+    /// View of left-hand-side tensor
+    ViewL lhs;
+
+    /// Source offset coordinate
+    TensorCoord offset;
+
+    /// Element to overwrite with
+    DestType value;
+
+    //
+    // Methods
+    //
+
+    /// Constructs a parameters object for filling a tensor
+    CUTLASS_HOST_DEVICE
+    Params(
+      ViewL const &lhs,
+      DestType const &value,
+      TensorCoord const &offset = TensorCoord()
+    ):
+      lhs(lhs), value(value), offset(offset) { }
+  };
+
+  //
+  // Data members
+  //
+
+  Params params;
+
+  //
+  // Methods
+  //
+
+  /// Constructor
+  CUTLASS_HOST_DEVICE
+  TensorFillElementFunc(
+    Params const &params): params(params) { }
+
+  /// Equality check
+  CUTLASS_HOST_DEVICE
+  void operator()(TensorCoord const &coord) {
+
+    TensorCoord dst_coord = params.offset + coord;
+
+    if (dst_coord < params.size) {
+      params.lhs.at(dst_coord) = params.value;
+    }
+  }
+};
+
+} // namespace detail
+
+/// Method to perform the actual fill
+template <typename ViewL>
+void TensorFillElement(
+  ViewL const &lhs,
+  typename ViewL::Storage const &value,
+  typename ViewL::TensorCoord const &offset,
+  typename ViewL::TensorCoord const &size) {
+
+  // Fill function
+  typedef detail::TensorFillElementFunc<ViewL> Func;
+  typedef typename Func::Params Params;
+
+  Params params(lhs, value, offset);
+
+  TensorForEach<Func, ViewL::kRank, Params>(size, params);
+}
+
+/// Fills a tensor
+template <typename ViewL>
+void TensorFillElement(
+  ViewL lhs,
+  typename ViewL::Storage value,
+  typename ViewL::TensorCoord const &offset =typename ViewL::Storage()) {
+
+  TensorFillElement(lhs, value, offset, lhs.size() - offset);
+}
+
+/// Constructs a parameters object for filling a tensor
+template <typename ViewL>
+void TensorFillElement(
+  ViewL lhs,
+  typename ViewL::Storage value,
+  typename ViewL::Storage const &offset,
+  typename ViewL::Storage const &size) {
+
+  TensorFillElement(lhs, value, offset, size);
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace device
+} // namespace reference
+} // namespace cutlass
+
diff --git a/tools/util/reference/device/tensor_foreach.h b/tools/util/reference/device/tensor_foreach.h
new file mode 100644
index 0000000000..1c3a72a6cb
--- /dev/null
+++ b/tools/util/reference/device/tensor_foreach.h
@@ -0,0 +1,72 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#pragma once
+
+#include <stdexcept>
+#include "cutlass/cutlass.h"
+#include "tools/util/reference/device/kernel/tensor_foreach.h"
+
+namespace cutlass  {
+namespace reference {
+namespace device {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Launches a kernel for each element in a tensor's index space.
+template <typename Func, int Rank, typename Params>
+struct TensorForEach {
+
+  /// Constructor performs the operation.
+  TensorForEach(Coord<Rank> size, Params params = Params(), int grid_size = 0, int block_size = 0) {
+
+    if (!grid_size || !block_size) {
+
+      // if grid_size or block_size are zero, query occupancy using the CUDA Occupancy API
+      cudaError_t result = cudaOccupancyMaxPotentialBlockSize(
+        &grid_size,
+        &block_size,
+        reinterpret_cast<void const *>(kernel::TensorForEach<Func, Rank, Params>));
+
+      if (result != cudaSuccess) {
+        throw std::runtime_error("Failed to query occupancy.");
+      }
+
+      // Limit block size. This has the effect of increasing the number of items processed by a
+      // single thread and reduces the impact of initialization overhead.
+      block_size = (block_size < 128 ? block_size : 128);
+    }
+
+    dim3 grid(grid_size, 1, 1);
+    dim3 block(block_size, 1, 1);
+
+    kernel::TensorForEach<Func, Rank, Params><<< grid, block >>>(size, params);
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace device
+} // namespace reference
+} // namesace cutlass
diff --git a/tools/util/reference/host/gemm.h b/tools/util/reference/host/gemm.h
new file mode 100644
index 0000000000..dd20532cc4
--- /dev/null
+++ b/tools/util/reference/host/gemm.h
@@ -0,0 +1,270 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/*! \file
+    \brief Reference implementation for GEMM in host-side code.
+*/
+
+#pragma once
+
+#include "cutlass/coord.h"
+#include "cutlass/matrix_traits.h"
+#include "cutlass/tensor_view.h"
+#include "cutlass/gemm/gemm_coord.h"
+
+namespace cutlass {
+namespace reference {
+namespace host {
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace detail {
+
+/// Template function to compute an inner product.
+template <typename Atype, typename Btype, typename Ctype>
+Ctype inner_product(Atype a, Btype b, Ctype c) {
+  return Ctype(a) * Ctype(b) + c;
+}
+
+/// Specialization for matrix multiplication with binary operands
+template <>
+inline int inner_product<Vector<bin1_t, 32>, Vector<bin1_t, 32>, int>(
+    Vector<bin1_t, 32> a,
+    Vector<bin1_t, 32> b,
+    int c) {
+
+  int accum = 0;
+  for (int bit = 0; bit < 32; bit++) {
+    accum += a[bit] ^ b[bit];
+  }
+  return accum + c;
+}
+
+/// Specialization for matrix multiplication with signed 4-bit integer operands
+template <> inline
+int inner_product<Vector<int4_t, 8>, Vector<int4_t, 8>, int>(
+    Vector<int4_t, 8> a,
+    Vector<int4_t, 8> b,
+    int c) {
+
+  int accum = 0;
+  for (int k = 0; k < 8; k++) {
+    accum += a[k] * b[k];
+  }
+  return accum + c;
+}
+
+/// Specialization for matrix multiplication with unsigned 4-bit integer operands
+template <> inline
+int inner_product<Vector<uint4_t, 8>, Vector<uint4_t, 8>, int>(
+    Vector<uint4_t, 8> a,
+    Vector<uint4_t, 8> b,
+    int c) {
+
+  int accum = 0;
+  for (int k = 0; k < 8; k++) {
+    accum += a[k] * b[k];
+  }
+  return accum + c;
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <typename SrcType, typename DstType>
+struct Cast {
+  // Default behavior: convert to the destination type
+  static inline DstType apply(SrcType src) { return static_cast<DstType>(src); };
+};
+
+template <>
+struct Cast<float, int8_t> {
+  static inline int8_t apply(float src) {
+    // Clamp to the range of signed 8-bit integers.
+    return static_cast<int8_t>(fmaxf(-128.f, fminf(127.f, src)));
+  };
+};
+
+template <>
+struct Cast<float, uint8_t> {
+  static inline uint8_t apply(float src) {
+    // Clamp to the range of signed 8-bit integers.
+    return static_cast<uint8_t>(fmaxf(0.f, fminf(255.f, src)));
+  };
+};
+
+} // namespace detail
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Computes a general matrix product among matrices (tensors of rank=2) pointed to by TensorRef
+/// objects.
+///
+/// Explicitly naming types needed by this template can be cumbersome, particularly for the
+/// accumulator type, so a function argument 'initial_accum' is exposed. Passing
+/// AccumulatorType(0) as the last function argument can be easier than naming all template
+/// arguments explicitly.
+template <
+  typename TensorRefA,
+  typename TensorRefB,
+  typename TensorRefC,
+  typename ScalarType,
+  typename AccumulatorType
+>
+void Gemm(
+  gemm::GemmCoord problem_size,
+  ScalarType alpha,
+  TensorRefA tensor_a,
+  TensorRefB tensor_b,
+  ScalarType beta,
+  TensorRefC tensor_c,
+  AccumulatorType initial_accum) {
+
+  typedef typename TensorRefA::Storage AType;
+  typedef typename TensorRefB::Storage BType;
+  typedef typename TensorRefC::Storage CType;
+
+  static_assert(
+    TensorRefA::kRank == 2 &&
+    TensorRefB::kRank == 2 &&
+    TensorRefC::kRank == 2, "Tensors must be of rank 2");
+
+  // Note: batch is ignored.
+  int const M = problem_size.m();
+  int const N = problem_size.n();
+  int const K = problem_size.k();
+
+  // Blocking necessary to speedup reference implementation
+  int const Mblock = 32;
+  int const Nblock = 32;
+
+  for (int row_block = 0; row_block < M; row_block += Mblock) {
+    for (int col_block = 0; col_block < N; col_block += Nblock) {
+      AccumulatorType accum[Mblock][Nblock];
+
+      for (int j = 0; j < Nblock; j++) {
+        for (int i = 0; i < Mblock; i++) {
+          accum[i][j] = initial_accum;
+        }
+      }
+
+      for (int k_block = 0; k_block < K; ++k_block) {
+        for (int j = 0; j < Nblock; j++) {
+          for (int i = 0; i < Mblock; i++) {
+            int row = row_block + i;
+            int col = col_block + j;
+
+            if (row < M && col < N) {
+              AType a = tensor_a.at(MatrixCoord(row, k_block));
+              BType b = tensor_b.at(MatrixCoord(k_block, col));
+
+              accum[i][j] = detail::inner_product(a, b, accum[i][j]);
+            }
+          }
+        }
+      }
+
+      for (int j = 0; j < Nblock; j++) {
+        for (int i = 0; i < Mblock; i++) {
+          int row = row_block + i;
+          int col = col_block + j;
+
+          MatrixCoord coord = MatrixCoord(row, col);
+          if (row < M && col < N) {
+
+            tensor_c.at(coord) = detail::Cast<ScalarType, CType>::apply(
+              alpha * ScalarType(accum[i][j]) +
+              beta * ScalarType(tensor_c.at(coord)));
+          }
+        }
+      }
+    }
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Computes a general matrix product among matrices (tensors of rank=2) pointed to by TensorRef
+/// objects.
+///
+/// This assumes the accumulator type is the same type as the scalars.
+template <
+  typename TensorRefA,
+  typename TensorRefB,
+  typename TensorRefC,
+  typename ScalarType
+>
+void Gemm(
+  gemm::GemmCoord problem_size,
+  ScalarType alpha,
+  TensorRefA tensor_a,
+  TensorRefB tensor_b,
+  ScalarType beta,
+  TensorRefC tensor_c) {
+
+  Gemm(problem_size, alpha, tensor_a, tensor_b, beta, tensor_c, ScalarType(0));
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Computes a batch of GEMMs over a set of matrices of common dimension.
+template <
+  typename TensorRefCollectionA,
+  typename TensorRefCollectionB,
+  typename TensorRefCollectionC,
+  typename ScalarType,
+  typename AccumulatorType
+>
+void BatchGemm(
+  gemm::GemmCoord problem_size,
+  ScalarType alpha,
+  TensorRefCollectionA const& tensor_a,
+  TensorRefCollectionB const& tensor_b,
+  ScalarType beta,
+  TensorRefCollectionC &tensor_c,
+  AccumulatorType initial_accum = AccumulatorType(0)) {
+
+  typename TensorRefCollectionA::ConstIterator tensor_a_it = tensor_a.begin();
+  typename TensorRefCollectionB::ConstIterator tensor_b_it = tensor_b.begin();
+  typename TensorRefCollectionC::ConstIterator tensor_c_it = tensor_c.begin();
+
+  for (int batch = 0;
+    batch < problem_size.batch();
+    ++batch, ++tensor_a_it, ++tensor_b_it, ++tensor_c_it) {
+
+    Gemm(
+      problem_size,
+      alpha,
+      *tensor_a_it,
+      *tensor_b_it,
+      beta,
+      *tensor_c_it,
+      initial_accum);
+  }
+}
+
+////////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace host
+} // namespace reference
+} // namespace cutlass
diff --git a/tools/util/reference/host/tensor_elementwise.h b/tools/util/reference/host/tensor_elementwise.h
new file mode 100644
index 0000000000..88f46bcdf8
--- /dev/null
+++ b/tools/util/reference/host/tensor_elementwise.h
@@ -0,0 +1,478 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+/* \file
+  \brief Defines host-side elementwise operations on TensorView.
+*/
+
+#pragma once
+
+// Standard Library includes
+#include <fstream>
+#include <ostream>
+#include <stdexcept>
+#include <string>
+#include <utility>
+#include <cstdlib>
+#include <cmath>
+
+// Cutlass includes
+#include "cutlass/cutlass.h"
+#include "tools/util/distribution.h"
+#include "tools/util/type_traits.h"
+#include "tools/util/reference/host/tensor_foreach.h"
+
+namespace cutlass {
+namespace reference {
+namespace host {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace detail {
+
+/// Computes a random uniform distribution
+template <typename View_>
+struct RandomUniformFunc {
+
+  /// View type
+  typedef View_ View;
+
+  /// Scalar type
+  typedef typename View::Storage T;
+
+  /// Coordinate in tensor's index space
+  typedef typename View::TensorCoord TensorCoord;
+
+  /// Parameters structure
+  struct Params {
+
+    /// View object
+    View view;
+
+    /// RNG seed
+    unsigned seed;
+
+    /// Distriubtion
+    Distribution dist;
+
+    /// Default ctor
+    Params() { }
+
+    /// Constructor
+    Params(
+      View const &view,
+      unsigned seed,
+      Distribution dist
+    ): view(view), seed(seed), dist(dist) { }
+  };
+
+  //
+  // Data members
+  //
+
+  /// Parameters object
+  Params params;
+
+  //
+  // Methods
+  //
+
+  /// Device-side initialization of RNG
+  RandomUniformFunc(Params const &params): params(params) {
+    std::srand(params.seed);
+  }
+
+  /// Compute random value and update RNG state
+  void operator()(TensorCoord const &coord) {
+
+    double range = params.dist.uniform.max - params.dist.uniform.min;
+
+    double rnd = double(std::rand()) / double(RAND_MAX);
+
+    rnd = params.dist.uniform.min + range * rnd;
+
+    // Random values are cast to integer after scaling by a power of two to facilitate error
+    // testing
+    T result;
+    if (params.dist.int_scale >= 0) {
+      rnd = double(int(rnd * double(1 << params.dist.int_scale)));
+      result = T(rnd / double(1 << params.dist.int_scale));
+    }
+    else {
+      result = T(rnd);
+    }
+
+    params.view.at(coord) = result;
+  }
+};
+
+/// Computes a random Gaussian distribution
+template <typename View_>
+struct RandomGaussianFunc {
+
+  /// View type
+  typedef View_ View;
+
+  /// Scalar type
+  typedef typename View::Storage T;
+
+  /// Coordinate in tensor's index space
+  typedef typename View::TensorCoord TensorCoord;
+
+  /// Parameters structure
+  struct Params {
+
+    /// View object
+    View view;
+
+    /// RNG seed
+    unsigned seed;
+
+    /// RNG distribution
+    Distribution dist;
+
+    /// Default ctor
+    Params() { }
+
+    /// Constructor
+    Params(
+      View const &view,
+      unsigned seed,
+      Distribution dist
+    ): view(view), seed(seed), dist(dist) { }
+  };
+
+  //
+  // Data members
+  //
+
+  /// Parameters object
+  Params params;
+
+  /// Constant PI
+  double pi;
+
+  //
+  // Methods
+  //
+
+  /// Device-side initialization of RNG
+  RandomGaussianFunc(Params const &params): params(params) {
+    pi = std::acos(-1);
+  }
+
+  /// Compute random value and update RNG state
+  void operator()(TensorCoord const &coord) {
+
+    // Box-Muller transform to generate random numbers with Normal distribution
+    double u1 = double(std::rand()) / double(RAND_MAX);
+    double u2 = double(std::rand()) / double(RAND_MAX);
+
+    double rnd = std::sqrt(-2 * std::log(u1)) * std::cos(2 * pi * u2);
+
+    // Scale according to Gaussian distribution parameters
+    rnd = params.dist.gaussian.mean + params.dist.gaussian.stddev * rnd;
+
+    T result;
+    if (params.dist.int_scale >= 0) {
+      rnd = double(int(rnd * double(1 << params.dist.int_scale)));
+      result = T(rnd / double(1 << params.dist.int_scale));
+    }
+    else {
+      result = T(rnd);
+    }
+
+    params.view.at(coord) = result;
+  }
+};
+
+/// Computes a linear combination of each element
+template <typename View_>
+struct LinearCombinationFunc {
+
+  /// View type
+  typedef View_ View;
+
+  /// Scalar type
+  typedef typename View::Storage T;
+
+  /// Coordinate in tensor's index space
+  typedef typename View::TensorCoord TensorCoord;
+
+  //
+  // Data members
+  //
+
+  /// TensorView object
+  View view;
+
+  /// Delta
+  Coord<View::kRank, double> delta;
+
+  /// Offset
+  double offset;
+
+  //
+  // Methods
+  //
+
+  /// Constructor
+  LinearCombinationFunc(
+    View const &view,
+    Distribution dist
+  ): view(view) {
+
+    offset = dist.linear.offset;
+    if (View::kRank >= 1) {
+      delta[View::kRank - 1] = dist.linear.delta_column;
+    }
+    if (View::kRank >= 2) {
+      delta[View::kRank - 2] = dist.linear.delta_row;
+    }
+    // Additional ranks have delta of zero
+    for (int i = View::kRank - 2; i > 0; --i) {
+      delta[i - 1] = 0;
+    }
+  }
+
+  /// Compute linear combination
+  void operator()(TensorCoord const &coord) {
+    double result = offset;
+
+    for (int i = 0; i < View::kRank; ++i) {
+      result += delta[i] * double(coord[i]);
+    }
+    view.at(coord) = T(result);
+  }
+};
+
+/// Returns 1 or 0 if the coordinate is along the tensor's diagonal
+template <typename View_>
+struct IdentityFunc {
+
+  /// TensorView
+  typedef View_ View;
+
+  /// Scalar type
+  typedef typename View::Storage T;
+
+  /// Coordinate in tensor's index space
+  typedef typename View::TensorCoord TensorCoord;
+
+  //
+  // Data members
+  //
+
+  /// View object
+  View view;
+
+  /// Default ctor
+  IdentityFunc(View const &view): view(view) { }
+
+  /// Computes an identity
+  void operator()(TensorCoord const &coord) {
+    bool equal = true;
+    for (int i = 0; i < View::kRank; ++i) {
+      if (coord[i] != coord[0]) {
+        equal = false;
+      }
+    }
+    view.at(coord) = equal ? T(1) : T(0);
+  }
+};
+
+} // namespace detail
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Initializes a tensor randomly or procedurally.
+template <typename View>
+void TensorInitialize(View const &view,
+                      unsigned seed,
+                      Distribution const &dist) {
+
+  typedef typename View::Storage Scalar;
+
+  switch (dist.kind) {
+    case Distribution::Uniform:
+    {
+      typedef detail::RandomUniformFunc<View> Func;
+      typedef typename Func::Params Params;
+
+      TensorForEach<Func, View::kRank, Params>(
+        view.size(),
+        Params(view, seed, dist)
+      );
+    }
+      break;
+    case Distribution::Gaussian:
+    {
+      typedef detail::RandomGaussianFunc<View> Func;
+      typedef typename Func::Params Params;
+
+      TensorForEach<Func, View::kRank, Params>(
+        view.size(),
+        Params(view, seed, dist)
+      );
+    }
+      break;
+    case Distribution::Linear:
+    {
+      typedef detail::LinearCombinationFunc<View> Func;
+      TensorForEach<Func, View::kRank, Func>(
+        view.size(),
+        Func(view, dist));
+    }
+      break;
+    case Distribution::Identity:
+    {
+      typedef detail::IdentityFunc<View> Func;
+
+      Func func(view);
+
+      TensorForEach<Func, View::kRank, Func>(view.size(), func);
+    }
+      break;
+    default:
+      break;
+  }
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace detail {
+
+/// Compares two tensor views of equal rank and dimension.
+template <typename ViewL, typename ViewR>
+struct TensorEqualsFunc {
+
+  /// Storage type
+  typedef typename ViewL::Storage T;
+
+  /// Unsigned integer type of same size as View type
+  typedef typename cutlass::TypeTraits<T>::unsigned_type UnsignedType;
+
+  /// Coordinate in tensor's index space
+  typedef typename ViewL::TensorCoord TensorCoord;
+
+  /// Assertions
+  static_assert(ViewL::kRank == ViewR::kRank,
+    "Cannot compare tensors of different rank");
+
+  //
+  // Data members
+  //
+
+  /// View of left-hand-side tensor
+  ViewL lhs;
+
+  /// View of right-hand-side tensor
+  ViewR rhs;
+
+  /// Pointer to result scalar - only written with 0 if values are incorrect
+  int *result;
+
+  //
+  // Methods
+  //
+
+  /// Constructor
+  TensorEqualsFunc(ViewL const &lhs, ViewR const &rhs, int *result): lhs(lhs), rhs(rhs), result(result) { }
+
+  /// Equality check
+  void operator()(TensorCoord const &coord) {
+    UnsignedType _lhs = reinterpret_cast<UnsignedType const &>(lhs.at(coord));
+    UnsignedType _rhs = reinterpret_cast<UnsignedType const &>(rhs.at(coord));
+    if (_lhs != _rhs) {
+      *result = 0;
+    }
+  }
+};
+
+} // namespace detail
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Returns true if two tensor views are equal.
+template <typename ViewL, typename ViewR>
+bool TensorEquals(ViewL const &lhs, ViewR const &rhs) {
+
+  // Sizes must be identical
+  if (lhs.size() != rhs.size()) {
+    return false;
+  }
+
+  int result = 1;
+
+  typedef detail::TensorEqualsFunc<ViewL, ViewR> Func;
+  Func func(lhs, rhs, &result);
+
+  TensorForEach<Func, ViewL::kRank, Func>(lhs.size(), func);
+
+  return result != 0;
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Helper to apply a binary operator in place
+template <typename ViewL, typename ViewR, typename BinaryFunc>
+struct TensorFuncBinaryOp {
+
+  /// Coordinate in tensor's index space
+  typedef typename ViewL::TensorCoord TensorCoord;
+
+  //
+  // Data members
+  //
+
+  /// View of left-hand-side tensor
+  ViewL lhs;
+
+  /// View of right-hand-side tensor
+  ViewR rhs;
+
+  /// Binary function applied to each element
+  BinaryFunc func;
+
+  //
+  // Methods
+  //
+
+  /// Constructor
+  TensorFuncBinaryOp(
+    ViewL const &lhs,
+    ViewR const &rhs,
+    BinaryFunc func = BinaryFunc()): lhs(lhs), rhs(rhs), func(func) { }
+
+  /// Equality check
+  void operator()(TensorCoord const &coord) {
+    lhs.at(coord) = func(lhs.at(coord), rhs.at(coord));
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace host
+} // namespace reference
+} // namespace cutlass
diff --git a/tools/util/reference/host/tensor_foreach.h b/tools/util/reference/host/tensor_foreach.h
new file mode 100644
index 0000000000..bd4455693a
--- /dev/null
+++ b/tools/util/reference/host/tensor_foreach.h
@@ -0,0 +1,102 @@
+/***************************************************************************************************
+ * Copyright (c) 2017-2018, NVIDIA CORPORATION.  All rights reserved.
+ *
+ * Redistribution and use in source and binary forms, with or without modification, are permitted
+ * provided that the following conditions are met:
+ *     * Redistributions of source code must retain the above copyright notice, this list of
+ *       conditions and the following disclaimer.
+ *     * Redistributions in binary form must reproduce the above copyright notice, this list of
+ *       conditions and the following disclaimer in the documentation and/or other materials
+ *       provided with the distribution.
+ *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
+ *       to endorse or promote products derived from this software without specific prior written
+ *       permission.
+ *
+ * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
+ * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
+ * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
+ * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
+ * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
+ * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+ *
+ **************************************************************************************************/
+#pragma once
+
+#include <stdexcept>
+#include "cutlass/cutlass.h"
+#include "tools/util/reference/device/kernel/tensor_foreach.h"
+
+namespace cutlass  {
+namespace reference {
+namespace host {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Defines several helpers
+namespace detail {
+
+/// Helper to perform for-each operation
+template <typename Func, int Rank, int RankRemaining>
+struct TensorForEachHelper {
+
+  /// Index of the active rank
+  static int const kActiveRank = Rank - RankRemaining - 1;
+
+  /// Constructor for general rank
+  TensorForEachHelper(
+    Func &func,
+    Coord<Rank> const &size,
+    Coord<Rank> &coord) {
+
+    for (int i = 0; i < size.at(kActiveRank); ++i) {
+      coord[kActiveRank] = i;
+      TensorForEachHelper<Func, Rank, RankRemaining - 1>(func, size, coord);
+    }
+  }
+};
+
+/// Helper to perform for-each operation
+template <typename Func, int Rank>
+struct TensorForEachHelper<Func, Rank, 0> {
+
+  /// Index of the active rank
+  static int const kActiveRank = Rank - 1;
+
+  /// Constructor for fastest chaning rank
+  TensorForEachHelper(
+    Func &func,
+    Coord<Rank> const &size,
+    Coord<Rank> &coord) {
+
+    for (int i = 0; i < size.at(kActiveRank); ++i) {
+      coord[kActiveRank] = i;
+      func(coord);
+    }
+  }
+};
+
+} // namespace detail
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Iterates over the index space of a tensor
+template <typename Func, int Rank, typename Params>
+struct TensorForEach {
+
+  /// Constructor performs the operation.
+  TensorForEach(Coord<Rank> size, Params params = Params()) {
+
+    Func func(params);
+    Coord<Rank> coord;
+
+    detail::TensorForEachHelper<Func, Rank, Rank - 1>(func, size, coord);
+  }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace host
+} // namespace reference
+} // namespace cutlass
diff --git a/tools/util/tensor_view_io.h b/tools/util/tensor_view_io.h
index 6e9cd6bcf5..c1b954eae9 100644
--- a/tools/util/tensor_view_io.h
+++ b/tools/util/tensor_view_io.h
@@ -24,38 +24,135 @@
 **************************************************************************************************/
 #pragma once
 
-#include <cutlass/core_io.h>
-#include <cutlass/tensor_view.h>
+#include "cutlass/core_io.h"
+#include "cutlass/tensor_view.h"
 
-template <typename T>
-inline std::ostream& tensor_view_output(std::ostream& out, T t) {
-  out << t;
-  return out;
-}
+namespace cutlass {
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+namespace detail {
+
+/// Helper to write the least significant rank of a TensorView
+template <
+  typename Storage_,
+  int Rank_,
+  typename MapFunc_,
+  int StorageRank_,
+  typename Index_,
+  typename LongIndex_
+>
+inline std::ostream & TensorView_WriteLeastSignificantRank(
+  std::ostream& out, 
+  cutlass::TensorView<
+    Storage_, 
+    Rank_, 
+    MapFunc_, 
+    StorageRank_, 
+    Index_, 
+    LongIndex_> const& tensor,
+  cutlass::Coord<Rank_> const &start_coord,
+  int rank,
+  std::streamsize width) {
+
+  for (int idx = 0; idx < tensor.size(rank); ++idx) {
+
+    Coord<Rank_> coord(start_coord);
+    coord[rank] = idx;
+
+    if (idx) {
+      out.width(0);
+      out << ", ";
+    }
+    if (idx || coord) {
+      out.width(width);
+    }
+    out << ScalarIO<Storage_>(tensor.at(coord));
+  }
 
-template <>
-inline std::ostream& tensor_view_output<int8_t>(std::ostream& out, int8_t t) {
-  out << int(t);
   return out;
 }
 
-template <typename T>
-inline std::ostream& operator<<(std::ostream& out, cutlass::TensorView<T> const& tensor) {
-  for (int batch = 0; batch < tensor.size(0); ++batch) {
-    out << "[\n  ";
-    for (int h = 0; h < tensor.size(1); ++h) {
-      for (int w = 0; w < tensor.size(2); ++w) {
-        for (int c = 0; c < tensor.size(3); ++c) {
-          out << ((c | w) ? ", " : "");
-          tensor_view_output(out, tensor.at(cutlass::make_Coord(batch, h, w, c)));
-        }
-      }
-      if (h + 1 < tensor.size(1)) {
-        out << " ;\n  ";
-      }
+/// Helper to write a rank of a TensorView
+template <
+  typename Storage_,
+  int Rank_,
+  typename MapFunc_,
+  int StorageRank_,
+  typename Index_,
+  typename LongIndex_
+>
+inline std::ostream & TensorView_WriteRank(
+  std::ostream& out, 
+  cutlass::TensorView<
+    Storage_, 
+    Rank_, 
+    MapFunc_, 
+    StorageRank_, 
+    Index_, 
+    LongIndex_> const& tensor,
+  cutlass::Coord<Rank_> const &start_coord,
+  int rank,
+  std::streamsize width) {
+
+  // If called on the least significant rank, write the result as a row
+  if (rank + 1 == Rank_) {
+    return TensorView_WriteLeastSignificantRank(out, tensor, start_coord, rank, width);
+  }
+
+  // Otherwise, write a sequence of rows and newlines
+  for (int idx = 0; idx < tensor.size(rank); ++idx) {
+
+    Coord<Rank_> coord(start_coord);
+    coord[rank] = idx;
+
+    if (rank + 2 == Rank_) {
+      // Write least significant ranks asa matrix with rows delimited by ";\n"
+      out << (idx ? ";\n" : "");
+      TensorView_WriteLeastSignificantRank(out, tensor, coord, rank + 1, width);
+    }
+    else {
+      // Higher ranks are separated by newlines
+      out << (idx ? "\n" : "");
+      TensorView_WriteRank(out, tensor, coord, rank + 1, width);
     }
-    out << " ]";
   }
 
   return out;
 }
+
+} // namespace detail
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+/// Prints human-readable representation of a TensorView to an ostream
+template <
+  typename Storage_,
+  int Rank_,
+  typename MapFunc_,
+  int StorageRank_,
+  typename Index_,
+  typename LongIndex_
+>
+inline std::ostream& operator<<(
+  std::ostream& out, 
+  TensorView<
+    Storage_, 
+    Rank_, 
+    MapFunc_, 
+    StorageRank_, 
+    Index_, 
+    LongIndex_> const& tensor) {
+
+  // Prints a TensorView according to the following conventions:
+  //   - least significant rank is printed as rows separated by ";\n"
+  //   - all greater ranks are delimited with newlines
+  //
+  // The result is effectively a whitespace-delimited series of 2D matrices.
+
+  return detail::TensorView_WriteRank(out, tensor, Coord<Rank_>(), 0, out.width());
+}
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+} // namespace cutlass
diff --git a/tools/util/type_traits.h b/tools/util/type_traits.h
index 995cf96fc2..50d478cc26 100644
--- a/tools/util/type_traits.h
+++ b/tools/util/type_traits.h
@@ -33,12 +33,52 @@
 #include <stdint.h>
 
 #include "half.h"
+#include "cutlass/vector.h"
+#include "cutlass/util/complex.h"
 
 namespace cutlass {
 struct half_t;
 
 template <typename T>
-struct TypeTraits;
+struct TypeTraits {
+  typedef T host_type;
+  typedef T device_type;
+  static inline T remove_negative_zero(T x) { return x; }
+  static inline T to_print(T x) { return x; }
+};
+
+template <>
+struct TypeTraits<Vector<bin1_t, 32> > {
+  static cudaDataType_t const cublas_type = CUDA_R_32I;
+  typedef Vector<bin1_t, 32> host_type;
+  typedef Vector<bin1_t, 32> device_type;
+  typedef uint32_t integer_type;
+  typedef uint32_t unsigned_type;
+  static inline uint32_t remove_negative_zero(uint32_t x) { return x; }
+  static inline uint32_t to_print(uint32_t x) { return x; }
+};
+
+template <>
+struct TypeTraits< Vector<int4_t, 8> > {
+  static cudaDataType_t const cublas_type = CUDA_R_32I;
+  typedef Vector<int4_t, 8> host_type;
+  typedef Vector<int4_t, 8> device_type;
+  typedef uint32_t integer_type;
+  typedef uint32_t unsigned_type;
+  static inline uint32_t remove_negative_zero(uint32_t x) { return x; }
+  static inline uint32_t to_print(uint32_t x) { return x; }
+};
+
+template <>
+struct TypeTraits< Vector<uint4_t, 8> > {
+  static cudaDataType_t const cublas_type = CUDA_R_32I;
+  typedef Vector<uint4_t, 8> host_type;
+  typedef Vector<uint4_t, 8> device_type;
+  typedef uint32_t integer_type;
+  typedef uint32_t unsigned_type;
+  static inline uint32_t remove_negative_zero(uint32_t x) { return x; }
+  static inline uint32_t to_print(uint32_t x) { return x; }
+};
 
 template <>
 struct TypeTraits<int8_t> {
@@ -158,4 +198,73 @@ struct TypeTraits<double> {
   static inline double remove_negative_zero(double x) { return x == -0.0 ? 0.0 : x; }
   static inline double to_print(double x) { return x; }
 };
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+//
+// Complex types
+//
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
+template <>
+struct TypeTraits<platform::complex<half> > {
+  static cudaDataType_t const cublas_type = CUDA_C_16F;
+  typedef platform::complex<half_t> host_type;
+  typedef platform::complex<half> device_type;
+  typedef int16_t integer_type;
+  typedef uint16_t unsigned_type;
+};
+
+template <>
+struct TypeTraits<platform::complex<half_t> > {
+  static cudaDataType_t const cublas_type = CUDA_C_16F;
+  typedef platform::complex<half_t> host_type;
+  typedef platform::complex<half> device_type;
+  typedef int16_t integer_type;
+  typedef uint16_t unsigned_type;
+  static inline platform::complex<half_t> remove_negative_zero(platform::complex<half_t> x) {
+    return platform::complex<half_t>(
+      real(x) == -0.f ? half_t(0) : real(x),
+      imag(x) == -0.f ? half_t(0) : imag(x)
+    );
+  }
+  static inline platform::complex<half_t> to_print(platform::complex<half_t> x) { return x; }
+};
+
+template <>
+struct TypeTraits<platform::complex<float> > {
+
+  static cudaDataType_t const cublas_type = CUDA_C_32F;
+  typedef platform::complex<float> host_type;
+  typedef platform::complex<float> device_type;
+  typedef int64_t integer_type;
+  typedef uint64_t unsigned_type;
+
+  static inline platform::complex<float> remove_negative_zero(platform::complex<float> x) {
+    return platform::complex<float>(
+      real(x) == -0.f ? 0.f : real(x),
+      imag(x) == -0.f ? 0.f : imag(x)
+    );
+  }
+
+  static inline platform::complex<float> to_print(platform::complex<float> x) { return x; }
+};
+
+template <>
+struct TypeTraits<platform::complex<double> > {
+  static cudaDataType_t const cublas_type = CUDA_C_64F;
+  typedef platform::complex<double> host_type;
+  typedef platform::complex<double> device_type;
+  struct integer_type { int64_t real, imag; };
+  struct unsigned_type { uint64_t real, imag; };
+  static inline platform::complex<double> remove_negative_zero(platform::complex<double> x) {
+    return platform::complex<double>(
+      real(x) == -0.0 ? 0.0 : real(x),
+      imag(x) == -0.0 ? 0.0 : imag(x)
+    );
+  }
+  static inline platform::complex<double> to_print(platform::complex<double> x) { return x; }
+};
+
+///////////////////////////////////////////////////////////////////////////////////////////////////
+
 }  // namespace cutlass